简介
CosyVoice 是一个面向多语种的流式文本到语音(TTS)生成库,支持零样本语音克隆、低延迟流式合成与跨语言合成,适合在线与离线部署。
主要特性
- 支持中文、英文、日语、韩语及多种方言的语音合成
- 零样本语音克隆与跨语言合成能力
- 提供训练、推理与 Docker 化部署示例
使用场景
- 语音助手、播客配音、虚拟角色与内容创作
- 需要低延迟高质量 TTS 的在线服务
- 研究与模型微调场景
技术特点
- 提供 streaming inference 与 TRITON/TensorRT 等优化路径
- 丰富的模型与 demo 页面,Apache-2.0 许可
- 支持 vLLM 集成与 GPU 加速部署