GLM-TTS

一个基于多奖励强化学习的可控、情感表达的零样本文本转语音系统。

Zai · Since 2025-12-06

正在加载评分...

详细介绍

GLM‑TTS 是由 Zai 发布的文本转语音（TTS）项目，旨在实现对情感与说话风格的可控生成。项目通过多奖励强化学习（multi-reward reinforcement learning）在零样本（zero-shot）条件下提升语音的情感表达能力和自然度，使模型能在未见示例的情况下生成带有指定情绪或风格的语音输出。

主要特性

支持零样本情感表达：在没有特定训练样例时仍能生成目标情绪的语音。
可控性强：提供多维度控制（如情感强度、说话速度、音色等）。
多奖励训练：使用多重奖励信号优化生成质量与情感一致性。
开源许可：采用 Apache-2.0 许可证发布，便于社区复用与扩展。

使用场景

语音助手与对话系统：为对话机器人和虚拟助手提供更自然、有情感的语音回复。
有声书与内容配音：根据内容情绪自动调整朗读风格，提升听感体验。
多语言/多风格原型验证：快速在新风格或语言上进行零样本试验。
辅助创作工具：为创作者提供可控的语音样式合成能力。

技术特点

模型架构基于可扩展的 TTS 模型与情感条件化模块。
训练策略结合多奖励设计，综合感知质量、情感一致性与自然度。
支持 PyTorch 生态，便于在本地或云端进行微调与扩展。
项目在 GitHub 上开源，更多示例与说明请参考项目主页 https://audio.z.ai。

核心内容

核心内容

技术专栏

技术专栏

更多内容

更多内容

AI

AI

云原生

云原生

更多

更多

精选资源

精选资源

交流与反馈

交流与反馈

更多

更多

快速链接

快速链接

微信公众号

微信公众号

微信联系

微信联系

GLM-TTS

详细介绍

主要特性

使用场景

技术特点

评分详情

相关资源

AutoSubs

Axolotl

Cactus