简介
FireRedTTS-2 是一个面向长对话与多说话人场景的流式 TTS 系统,强调稳定性、说话人切换和上下文感知韵律。项目已发布预训练权重并提供演示页面,支持多语种与零样本声线克隆,适用于播客生成、对话机器人与大规模语音数据合成。
主要特性
- 长对话生成:支持多分钟的对话生成并可靠处理多说话人切换。
- 多语种与零样本克隆:支持中/英/日/韩/法/德/俄等语言与跨语种声线克隆。
- 低延迟流式输出:采用 12.5Hz 的流式语音 tokenizer 与双 Transformer 架构以降低首包延迟。
- 开源与可复现:代码与预训练模型提供在 GitHub 与 Hugging Face,上手可下载模型并本地运行 demo。
使用场景
- 播客与长对话内容生成与编辑。
- 面向对话和多角色场景的语音合成(客服、角色扮演、虚拟主持人)。
- 生成训练语音数据以增强 ASR 或对话系统。
技术特点
- 基于 PyTorch 的实现,提供训练与推理代码、示例脚本与 Gradio demo。
- 双 Transformer 架构与文本—语音交错序列,优化上下文感知与时序一致性。
- 支持使用
git lfs
下载预训练权重并通过示例脚本快速生成音频。