该模型提出了一种高效的架构,集成了 83 亿参数的扩散Transformer (DiT) 和一个 3D 因果 VAE,在空间维度上实现了 16 倍的压缩率,在时间轴上实现了 4 倍的压缩率。此外,创新的 SSTA(选择性和滑动窗口注意力)机制会剪除冗余的时空 kv 块,显著降低长视频序列的计算开销并加速推理。该模型还开发了一个高效的少步超分辨率网络,可将输出放大到 1080p,同时增强清晰度和校正失真。
该模型采用多阶段、渐进式的训练策略,涵盖了从预训练到后训练的整个流程。结合 Muon 优化器以加速收敛,这种方法全面优化了运动连贯性、美学质量和用户偏好对齐,实现了专业级的*内容生成。该模型提供了一个统一的框架,能够跨多种时长和分辨率实现高质量的文本到视频和图像到视频生成。广泛的实验表明,这个紧凑而高效的模型在开源模型中树立了新的最先进水平。

