📚 构建长期复利型知识基础设施的指南,详见 RAG 实战手册

Wan2.2

开源的先进大规模视频生成模型,支持多模态(T2V/I2V/TI2V/S2V)与高效推理。

简介

Wan2.2 是阿里巴巴开源的一套面向研究与工程的开源大规模视频生成模型,覆盖文本到视频(T2V)、图像到视频(I2V)、文本图像到视频(TI2V)和语音到视频(S2V)等任务,采用 Mixture-of-Experts (MoE) 架构并提供高压缩 VAE 以支持高效 720P 视频生成。该项目同时开源推理代码与部分模型权重,便于在 ModelScope、Hugging Face 或自建环境中复现与部署。

主要特性

  • 支持多模态视频生成:T2V、I2V、TI2V、S2V 等任务。
  • Mixture-of-Experts (MoE) 架构,提升模型容量同时保持推理成本可控。
  • 提供高压缩 Wan2.2-VAE 与多种尺度模型(5B、14B、A14B 等),兼顾速度与质量。
  • 丰富的示例与集成:Hugging Face、ModelScope、ComfyUI 等生态支持。

使用场景

  • 影视级短视频生成与原型制作。
  • 基于文本或图像的内容创作与自动化动画替换。
  • 研究与教学:基线比较、模型优化与大模型训练策略研究。

技术特点

  • 架构:MoE 与高压缩 VAE 结合,实现高质量与高效推理的折中方案。
  • 训练数据:大规模多模态数据与精细美学标注,用于提升画面美感与运动一致性。
  • 部署:支持单卡/多卡推理(FSDP、DeepSpeed、Offload),提供分布式推理示例与性能测试结果。

评论区

Wan2.2
资源信息
作者 阿里巴巴
添加时间 2025-09-24
标签
开源项目 图像生成 数据与训练