MiMo-Audio 是 XiaomiMiMo 团队发布的音频语言模型系列,展示了音频领域的少样本学习能力与多任务泛化能力。项目提供 MiMo-Audio-7B 等模型、技术报告、评估工具与在线 Demo,覆盖音频理解、语音生成、风格迁移与语音编辑等研究与工程场景。
主要特性
- 支持少样本任务的音频语言模型(few-shot learning)
- 提供基线模型(MiMo-Audio-7B-Base / Instruct)与 tokenizer、示例脚本
- 包含技术报告与评估工具包(MiMo-Audio-Eval)供复现与基准测试
- 提供 Hugging Face Demo 与在线演示页面
使用场景
- 语音理解与多任务评估(ASR、说话人识别、语音理解)
- 语音生成、连续语音创作与音频风格迁移
- 研究复现、模型评估与基准构建
技术特点
- 实现与模型:基于大规模预训练的音频 tokenizer 与 LLM 架构
- 部署与试验:提供 Gradio Demo、推理示例脚本与模型下载方式(Hugging Face)
- 许可:Apache-2.0(详见仓库 LICENSE)