Dia2

一个支持流式对话生成的开源文本转语音（TTS, Text-to-Speech）模型与推理代码库。

Nari Labs · Since 2025-11-17

正在加载评分...

详细介绍

Dia2 是 Nari Labs 开源的文本转语音（TTS, Text-to-Speech）模型与推理实现，专注于流式对话式音频生成。模型可在收到首批输入字词后即开始生成音频，并支持以音频前缀为条件进行生成，从而在多轮对话或实时交互中保持声音连贯性与上下文一致性。项目提供了 1B 与 2B 的模型权重、示例脚本与快速上手说明，便于研究者与工程师在本地或云端进行复现与部署。

主要特性

流式生成：无需等待完整文本即可开始合成，显著降低响应延迟。
条件生成：支持使用音频片段作为前缀进行生成，实现说话者一致性与连续对话。
多规格模型：提供不同规模模型权重以适配算力与质量需求（1B、2B）。
开源许可：采用 Apache-2.0 许可，便于研究与非专有使用。

使用场景

实时语音助手与虚拟角色的语音输出，提升对话自然度与响应速度。
语音对话系统中作为回复生成模块，支持多轮交互与上下文保持。
语音研究与课程教学，例如 TTS 条件生成、模型对比与音色控制实验。

技术特点

推理实现基于 Python 与 uv 运行时，兼容 Hugging Face checkpoint，支持 CUDA 加速（建议 CUDA 12.8+）。
生成长度受限于上下文步数（约 2 分钟以内），输出包含音频 token、波形与时间戳。
提供命令行示例与 Gradio 演示，方便快速验证与集成。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

Dia2

详细介绍

主要特性

使用场景

技术特点

评分详情

相关资源

AutoSubs

Axolotl

Cactus