📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

FireRedTTS-2

用于长对话、多说话人生成的流式 TTS 系统,支持多语种、零样本声线克隆与低延迟输出,适用于播客与对话场景。

简介

FireRedTTS-2 是一个面向长对话与多说话人场景的流式 TTS 系统,强调稳定性、说话人切换和上下文感知韵律。项目已发布预训练权重并提供演示页面,支持多语种与零样本声线克隆,适用于播客生成、对话机器人与大规模语音数据合成。

主要特性

  • 长对话生成:支持多分钟的对话生成并可靠处理多说话人切换。
  • 多语种与零样本克隆:支持中/英/日/韩/法/德/俄等语言与跨语种声线克隆。
  • 低延迟流式输出:采用 12.5Hz 的流式语音 tokenizer 与双 Transformer 架构以降低首包延迟。
  • 开源与可复现:代码与预训练模型提供在 GitHub 与 Hugging Face,上手可下载模型并本地运行 demo。

使用场景

  • 播客与长对话内容生成与编辑。
  • 面向对话和多角色场景的语音合成(客服、角色扮演、虚拟主持人)。
  • 生成训练语音数据以增强 ASR 或对话系统。

技术特点

  • 基于 PyTorch 的实现,提供训练与推理代码、示例脚本与 Gradio demo。
  • 双 Transformer 架构与文本—语音交错序列,优化上下文感知与时序一致性。
  • 支持使用 git lfs 下载预训练权重并通过示例脚本快速生成音频。

评论区

FireRedTTS-2
资源信息
作者 小红书
添加时间 2025-09-22
标签
产品 开源项目 TTS