📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

CosyVoice

多语种、高质量的流式 TTS / 语音生成工具包,支持零样本克隆与低延迟生成。

简介

CosyVoice 是一个面向多语种的流式文本到语音(TTS)生成库,支持零样本语音克隆、低延迟流式合成与跨语言合成,适合在线与离线部署。

主要特性

  • 支持中文、英文、日语、韩语及多种方言的语音合成
  • 零样本语音克隆与跨语言合成能力
  • 提供训练、推理与 Docker 化部署示例

使用场景

  • 语音助手、播客配音、虚拟角色与内容创作
  • 需要低延迟高质量 TTS 的在线服务
  • 研究与模型微调场景

技术特点

  • 提供 streaming inference 与 TRITON/TensorRT 等优化路径
  • 丰富的模型与 demo 页面,Apache-2.0 许可
  • 支持 vLLM 集成与 GPU 加速部署

评论区

CosyVoice
资源信息
作者 FunAudioLLM
添加时间 2025-09-13
标签
开源项目 实用工具 项目 TTS