📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

MiMo-Audio

MiMo-Audio:面向音频的大规模音频语言模型,展示出少样本学习与多样化音频理解/生成能力,包含基线模型、技术报告与在线演示。

MiMo-Audio 是 XiaomiMiMo 团队发布的音频语言模型系列,展示了音频领域的少样本学习能力与多任务泛化能力。项目提供 MiMo-Audio-7B 等模型、技术报告、评估工具与在线 Demo,覆盖音频理解、语音生成、风格迁移与语音编辑等研究与工程场景。

主要特性

  • 支持少样本任务的音频语言模型(few-shot learning)
  • 提供基线模型(MiMo-Audio-7B-Base / Instruct)与 tokenizer、示例脚本
  • 包含技术报告与评估工具包(MiMo-Audio-Eval)供复现与基准测试
  • 提供 Hugging Face Demo 与在线演示页面

使用场景

  • 语音理解与多任务评估(ASR、说话人识别、语音理解)
  • 语音生成、连续语音创作与音频风格迁移
  • 研究复现、模型评估与基准构建

技术特点

  • 实现与模型:基于大规模预训练的音频 tokenizer 与 LLM 架构
  • 部署与试验:提供 Gradio Demo、推理示例脚本与模型下载方式(Hugging Face)
  • 许可:Apache-2.0(详见仓库 LICENSE)

评论区

MiMo-Audio
资源信息
作者 小米
添加时间 2025-09-20
标签
开源项目 项目 大语言模型 TTS