简介
IndexTTS 是一个工业级可控高效的零样本语音合成系统,支持精准控制语音时长,情感与音色解耦,满足高要求音视频同步场景。
主要特性
- 支持两种生成模式:精确时长控制与自由生成
- 情感表达与音色独立可控,支持多情感风格
- 三阶段训练范式,提升语音稳定性与清晰度
- 支持软指令机制,文本描述即可引导情感生成
使用场景
- 视频配音与音视频同步
- 智能语音助手与个性化播报
- 多情感语音生成与风格迁移
技术特点
采用创新的时长控制方法,结合 GPT 潜表示与软指令机制,显著提升语音合成的灵活性与表现力。模型开源,支持多数据集,性能优于主流零样本 TTS 系统。