以统一连续音频表示为核心,Ming-UniAudio 在语音理解、生成与编辑之间实现闭环。
详细介绍
Ming-UniAudio 是由蚂蚁集团开源的一套以统一连续语音分词器为核心的语音大模型框架。它通过 MingTok-Audio 将语音的语义与声学特征在连续表示中融合,构建了一个既能理解又能生成语音的端到端模型。基于该基础模型,项目实现了基于自然语言指令的自由形式语音编辑能力,无需手动标注时间戳即可完成复杂的语义与声学修改。
主要特性
- 统一连续语音分词器:将语义与声学信息联合编码,可同时支持理解与生成任务。
- 统一的语音大模型(大语言模型(LLM, Large Language Model))用于生成与理解,配备扩散头以提升合成质量。
- 指令驱动的自由形式语音编辑:通过自然语言指令完成插入、替换、删除等编辑操作,无需显式编辑区间。
- 开放的模型与基准:在 Hugging Face 与 ModelScope 提供模型与基准数据集,并开放 SFT(监督微调)训练配方以便复现。
使用场景
Ming-UniAudio 适用于语音转写、文本到语音合成(TTS, Text-to-Speech)、对话理解、音频后期编辑与增强等场景。研究团队与工程团队可以用它构建带有编辑能力的语音助手、自动化音频后处理流水线,或集成到多模态交互系统中以提升语音内容的可编辑性与表达力。
技术特点
项目采用基于 VAE 的连续分词器与因果 Transformer 架构,使得语音表示具备层次化特征以便与大模型联动。训练与评估覆盖理解、生成与编辑任务,并发布了首个自由形式语音编辑基准。项目同时提供了 SFT 训练配方和示例代码,便于在异构硬件上复现训练与推理流程。