ArkSphere 社区正式成立,用于构建 AI 原生时代的基础设施与运行时体系。 社区入口

Dia2

一个支持流式对话生成的开源文本转语音(TTS, Text-to-Speech)模型与推理代码库。

详细介绍

Dia2 是 Nari Labs 开源的文本转语音(TTS, Text-to-Speech)模型与推理实现,专注于流式对话式音频生成。模型可在收到首批输入字词后即开始生成音频,并支持以音频前缀为条件进行生成,从而在多轮对话或实时交互中保持声音连贯性与上下文一致性。项目提供了 1B 与 2B 的模型权重、示例脚本与快速上手说明,便于研究者与工程师在本地或云端进行复现与部署。

主要特性

  • 流式生成:无需等待完整文本即可开始合成,显著降低响应延迟。
  • 条件生成:支持使用音频片段作为前缀进行生成,实现说话者一致性与连续对话。
  • 多规格模型:提供不同规模模型权重以适配算力与质量需求(1B、2B)。
  • 开源许可:采用 Apache-2.0 许可,便于研究与非专有使用。

使用场景

  • 实时语音助手与虚拟角色的语音输出,提升对话自然度与响应速度。
  • 语音对话系统中作为回复生成模块,支持多轮交互与上下文保持。
  • 语音研究与课程教学,例如 TTS 条件生成、模型对比与音色控制实验。

技术特点

  • 推理实现基于 Python 与 uv 运行时,兼容 Hugging Face checkpoint,支持 CUDA 加速(建议 CUDA 12.8+)。
  • 生成长度受限于上下文步数(约 2 分钟以内),输出包含音频 token、波形与时间戳。
  • 提供命令行示例与 Gradio 演示,方便快速验证与集成。
Dia2
资源信息
🌱 开源 🗣️ 文本转语音 🔊 音频 🔮 推理