详细介绍
VibeVoiceFusion 是一款面向多说话人语音合成的全栈 Web 应用,基于 Microsoft 的 VibeVoice 架构(自回归 + 扩散)。系统以 Qwen 为骨干,用声学与语义编码器对参考音样进行编码,先经自回归模块生成语音令牌,再由扩散头(DPM-Solver)生成高质量波形。项目提供 Web UI 与 CLI,支持中英双语界面与项目化管理,便于本地部署与演示。
主要特性
- 完整 Web 应用:项目/说话人管理、对话编辑器、历史记录与在线预览。
- 多说话人合成:支持 2–4+ 说话人对话与声音克隆。
- VRAM 优化:支持分层卸载与 Float8 量化以显著降低显存需求。
- 部署友好:提供 Docker 镜像、模型自动下载与本地一键构建流程。
使用场景
适用于播客、配音、对话内容制作与研究原型验证。内容创作者可在本地或私有服务器上生成多说话人音频,团队可通过项目功能管理会话并导出 WAV;研究人员可以使用 CLI 在不同精度与离线配置下比较性能与音质。
技术特点
- 模型架构:Qwen 主干 + VAE 声学编码器 + 扩散生成头的混合方案。
- 内存策略:动态层卸载(Balanced/Aggressive/Extreme)与 Float8(E4M3FN)量化减少约 50% 显存占用。
- 兼容性:后端基于 Python(Flask)与 PyTorch,前端基于 Next.js 与 TailwindCSS,支持 GPU/CPU/mps 设备选择。
- 伦理声明:项目强调研究用途,建议在克隆语音前取得明确授权以避免滥用。