VideoDiT

与简单地在图像扩散模型中添加时间层的传统方法不同，VideoDiT 引入了一种新颖的视频编码和生成方法。该框架使用 DP-VAE，它使用原始的 2D VAE 对视频的关键帧进行编码，而使用 3D VAE 压缩非关键帧，从而确保高效的时空建模。这种独特的组合能够将知识从预训练的图像扩散模型无缝迁移到视频生成任务。3D 位置嵌入的使用以及 2D 注意力机制在 3D 空间中的扩展，使 VideoDiT 能够以几乎不增加计算开销的方式对复杂的视频动态进行建模。

VideoDiT 支持图像-视频联合训练，在保留基础图像生成模型的空间建模能力的同时，在静态和动态内容创建方面均表现出色。这种双重能力使用户能够在统一的框架内生成高保真视频和图像，从而简化内容创建、动画和合成数据生成等应用的工作流程。大量实验验证了 VideoDiT 的有效性，证明了其能够生成高质量、时间一致的视频，同时保持基于图像的视频的细节和真实感。

主要功能包括：

集成了分布保持型 VAE 和 3D 扩散变换器
实现高效的图像-视频联合训练
支持高质量、时间一致的视频合成
利用预训练的图像扩散模型生成视频
利用 3D 位置嵌入进行高级时空建模
最大限度地减少视频功能的模型参数增加

Subscribe to the AI Search Newsletter