第十届中国开源年会,12月6-7日,北京, 查看详情

VibeVoiceFusion

VibeVoiceFusion 是基于 VibeVoice 的全栈多说话人语音合成 Web 应用,具备克隆语音与 VRAM 优化能力。

详细介绍

VibeVoiceFusion 是一款面向多说话人语音合成的全栈 Web 应用,基于 Microsoft 的 VibeVoice 架构(自回归 + 扩散)。系统以 Qwen 为骨干,用声学与语义编码器对参考音样进行编码,先经自回归模块生成语音令牌,再由扩散头(DPM-Solver)生成高质量波形。项目提供 Web UI 与 CLI,支持中英双语界面与项目化管理,便于本地部署与演示。

主要特性

  • 完整 Web 应用:项目/说话人管理、对话编辑器、历史记录与在线预览。
  • 多说话人合成:支持 2–4+ 说话人对话与声音克隆。
  • VRAM 优化:支持分层卸载与 Float8 量化以显著降低显存需求。
  • 部署友好:提供 Docker 镜像、模型自动下载与本地一键构建流程。

使用场景

适用于播客、配音、对话内容制作与研究原型验证。内容创作者可在本地或私有服务器上生成多说话人音频,团队可通过项目功能管理会话并导出 WAV;研究人员可以使用 CLI 在不同精度与离线配置下比较性能与音质。

技术特点

  • 模型架构:Qwen 主干 + VAE 声学编码器 + 扩散生成头的混合方案。
  • 内存策略:动态层卸载(Balanced/Aggressive/Extreme)与 Float8(E4M3FN)量化减少约 50% 显存占用。
  • 兼容性:后端基于 Python(Flask)与 PyTorch,前端基于 Next.js 与 TailwindCSS,支持 GPU/CPU/mps 设备选择。
  • 伦理声明:项目强调研究用途,建议在克隆语音前取得明确授权以避免滥用。
VibeVoiceFusion
资源信息
📱 应用 🔊 音频 🌱 开源