详细介绍
GLM‑TTS 是由 Zai 发布的文本转语音(TTS)项目,旨在实现对情感与说话风格的可控生成。项目通过多奖励强化学习(multi-reward reinforcement learning)在零样本(zero-shot)条件下提升语音的情感表达能力和自然度,使模型能在未见示例的情况下生成带有指定情绪或风格的语音输出。
主要特性
- 支持零样本情感表达:在没有特定训练样例时仍能生成目标情绪的语音。
- 可控性强:提供多维度控制(如情感强度、说话速度、音色等)。
- 多奖励训练:使用多重奖励信号优化生成质量与情感一致性。
- 开源许可:采用 Apache-2.0 许可证发布,便于社区复用与扩展。
使用场景
- 语音助手与对话系统:为对话机器人和虚拟助手提供更自然、有情感的语音回复。
- 有声书与内容配音:根据内容情绪自动调整朗读风格,提升听感体验。
- 多语言/多风格原型验证:快速在新风格或语言上进行零样本试验。
- 辅助创作工具:为创作者提供可控的语音样式合成能力。
技术特点
- 模型架构基于可扩展的 TTS 模型与情感条件化模块。
- 训练策略结合多奖励设计,综合感知质量、情感一致性与自然度。
- 支持 PyTorch 生态,便于在本地或云端进行微调与扩展。
- 项目在 GitHub 上开源,更多示例与说明请参考项目主页 https://audio.z.ai 。