Wan2.2

开源的先进大规模视频生成模型，支持多模态（T2V/I2V/TI2V/S2V）与高效推理。

简介

Wan2.2 是阿里巴巴开源的一套面向研究与工程的开源大规模视频生成模型，覆盖文本到视频（T2V）、图像到视频（I2V）、文本图像到视频（TI2V）和语音到视频（S2V）等任务，采用 Mixture-of-Experts (MoE) 架构并提供高压缩 VAE 以支持高效 720P 视频生成。该项目同时开源推理代码与部分模型权重，便于在 ModelScope、Hugging Face 或自建环境中复现与部署。

主要特性

支持多模态视频生成：T2V、I2V、TI2V、S2V 等任务。
Mixture-of-Experts (MoE) 架构，提升模型容量同时保持推理成本可控。
提供高压缩 Wan2.2-VAE 与多种尺度模型（5B、14B、A14B 等），兼顾速度与质量。
丰富的示例与集成：Hugging Face、ModelScope、ComfyUI 等生态支持。

使用场景

影视级短视频生成与原型制作。
基于文本或图像的内容创作与自动化动画替换。
研究与教学：基线比较、模型优化与大模型训练策略研究。

技术特点

架构：MoE 与高压缩 VAE 结合，实现高质量与高效推理的折中方案。
训练数据：大规模多模态数据与精细美学标注，用于提升画面美感与运动一致性。
部署：支持单卡/多卡推理（FSDP、DeepSpeed、Offload），提供分布式推理示例与性能测试结果。

资源信息

作者阿里巴巴

添加时间 2025-09-24

标签

开源项目图像生成数据与训练

Wan2.2

简介

主要特性

使用场景

技术特点

资源信息

相关资源

Llumnix

Qwen（通义千问）

Tongyi DeepResearch