详细介绍
VoxCPM 是由 OpenBMB 团队开源的无分词文本到语音(TTS)系统,旨在通过连续声学表示实现更自然的语音生成。项目提出基于 MiniCPM-4 的连续表征与自回归扩散架构,可在理解文本上下文的同时生成具有丰富韵律与表现力的语音,并支持低成本实时合成与零样本语音克隆。项目提供模型权重、训练与推理流水线,并在 Hugging Face 上提供在线演示便于快速试用(见下方链接)。
主要特性
- 上下文感知的表达力:通过建模连续声学空间,VoxCPM 能根据文本语义推断合适的韵律与语气,生成更契合语境的语音。
- 真实感语音克隆:支持短音频参考的零样本克隆,能复现说话人音色、语速及情感特征。
- 高效推理:工程优化支持流式合成,在消费级 GPU 上实现较低的实时因子(RTF)。
- 开源与可复现:代码、模型与样例在 GitHub 与 Hugging Face 上公开,采用 Apache-2.0 许可。
使用场景
VoxCPM 适用于需要高保真、多语种或上下文敏感合成的场景,如语音助手、配音与媒体制作、语言学研究和低资源语言的语音服务快速原型。研究团队可用于实验新型语音合成算法,工程团队可用在线演示与预训练权重进行快速集成与评估。
技术特点
VoxCPM 采用无分词(tokenizer-free)的连续声学建模,结合分层语言建模与 FSQ 约束,解决了离散化带来的语义—声学耦合问题。模型基于 MiniCPM-4 主干,使用扩散自回归流程生成连续表示,并配套提供训练流水线、示例脚本与推理接口,方便在 Hugging Face 平台下载与部署。更多信息和在线演示请参见项目主页与技术报告: Demo 、 ArXiv 报告 。