详细介绍
Dia2 是 Nari Labs 开源的文本转语音(TTS, Text-to-Speech)模型与推理实现,专注于流式对话式音频生成。模型可在收到首批输入字词后即开始生成音频,并支持以音频前缀为条件进行生成,从而在多轮对话或实时交互中保持声音连贯性与上下文一致性。项目提供了 1B 与 2B 的模型权重、示例脚本与快速上手说明,便于研究者与工程师在本地或云端进行复现与部署。
主要特性
- 流式生成:无需等待完整文本即可开始合成,显著降低响应延迟。
- 条件生成:支持使用音频片段作为前缀进行生成,实现说话者一致性与连续对话。
- 多规格模型:提供不同规模模型权重以适配算力与质量需求(1B、2B)。
- 开源许可:采用 Apache-2.0 许可,便于研究与非专有使用。
使用场景
- 实时语音助手与虚拟角色的语音输出,提升对话自然度与响应速度。
- 语音对话系统中作为回复生成模块,支持多轮交互与上下文保持。
- 语音研究与课程教学,例如 TTS 条件生成、模型对比与音色控制实验。
技术特点
- 推理实现基于 Python 与
uv运行时,兼容 Hugging Face checkpoint,支持 CUDA 加速(建议 CUDA 12.8+)。 - 生成长度受限于上下文步数(约 2 分钟以内),输出包含音频 token、波形与时间戳。
- 提供命令行示例与 Gradio 演示,方便快速验证与集成。