InfiniteTalk 是一个用于稀帧视频配音的开源框架,能够根据输入音频生成与之同步的长时序视频,兼顾唇动、头部与表情等多模态细节,支持图像→视频与视频→视频两类输入。该项目在 2025 年公开了技术报告、权重与演示页面,采用 Apache-2.0 许可,请在合规前提下使用。
主要特性
- 稀帧配音:不仅同步唇动,还对头部、身体与表情进行协调,提升同步自然度。
- 无限长度生成:支持接近无限的视频长度输出,适配长篇对话或连续内容生成。
- 多模式输入:支持 image-to-video 与 video-to-video,并提供 Gradio 示例与 ComfyUI 集成分支。
使用场景
- 影视与媒体研究:对长时段配音、角色一致性与镜头运动建模的研究与原型。
- 内容创作原型:生成长格式配音视频(研究或非商业示例,需注意版权与伦理)。
- 学术评估:作为对比基准评估唇同步与长时序生成质量。
技术特点
- 结合音频编码与大模型理解(音频条件权重)以驱动视觉生成,注重身份一致性与稳定性。
- 支持多种加速与量化策略(TeaCache、int8/fp8 量化、LoRA 等)以降低推理资源消耗。
- 提供丰富的运行模式(streaming、clip、低显存模式、多卡推理与 Gradio 服务)。