简介
Wan2.2 是阿里巴巴开源的一套面向研究与工程的开源大规模视频生成模型,覆盖文本到视频(T2V)、图像到视频(I2V)、文本图像到视频(TI2V)和语音到视频(S2V)等任务,采用 Mixture-of-Experts (MoE) 架构并提供高压缩 VAE 以支持高效 720P 视频生成。该项目同时开源推理代码与部分模型权重,便于在 ModelScope、Hugging Face 或自建环境中复现与部署。
主要特性
- 支持多模态视频生成:T2V、I2V、TI2V、S2V 等任务。
- Mixture-of-Experts (MoE) 架构,提升模型容量同时保持推理成本可控。
- 提供高压缩 Wan2.2-VAE 与多种尺度模型(5B、14B、A14B 等),兼顾速度与质量。
- 丰富的示例与集成:Hugging Face、ModelScope、ComfyUI 等生态支持。
使用场景
- 影视级短视频生成与原型制作。
- 基于文本或图像的内容创作与自动化动画替换。
- 研究与教学:基线比较、模型优化与大模型训练策略研究。
技术特点
- 架构:MoE 与高压缩 VAE 结合,实现高质量与高效推理的折中方案。
- 训练数据:大规模多模态数据与精细美学标注,用于提升画面美感与运动一致性。
- 部署:支持单卡/多卡推理(FSDP、DeepSpeed、Offload),提供分布式推理示例与性能测试结果。