Wan2.2 的训练数据集比其前身 Wan2.1 大得多,图像数量增加了 65.6%,视频数量增加了 83.2%。这一扩展增强了模型在运动、语义和美学等多个维度上的泛化能力,在所有开源和闭源模型中均达到了顶级性能。该模型还支持 720P 分辨率、24fps 的文本转视频和图像转视频,并可在 4090 等消费级显卡上运行。
Wan2.2 开源了一个基于先进的 Wan2.2-VAE 构建的 5B 模型,压缩比达到 16×16×4。该模型支持 720P 分辨率、24fps 的文本转视频和图像转视频,并可在 4090 等消费级显卡上运行。它是目前最快的 720P@24fps 模型之一,能够同时服务于工业界和学术界。该模型还兼容各种框架和工具,包括 PyTorch、Hugging Face 和 ModelScope。