AccVideo 的核心是基于轨迹的少步引导策略。通过从预训练视频扩散模型生成的去噪轨迹中提取和利用关键数据点,AccVideo 使“学生”模型能够以更少的步骤精确地模拟“老师”的去噪过程。与领先模型相比,这不仅将视频生成速度提高了八倍以上,而且还保持了输出的高保真度和视觉一致性。合成数据集捕获每个扩散时间步长的数据分布,确保提炼后的模型能够学习去噪过程中最相关的方面,这对于生成复杂场景和动态内容至关重要。
为了进一步提高视频质量,AccVideo 采用了对抗训练策略,将学生模型的输出分布与高质量的合成数据集对齐。这确保了加速模型不会在视觉细节或分辨率上做出妥协。AccVideo 可以以 720x1280 的分辨率和每秒 24 帧的速度生成 5 秒的视频,其质量可与速度慢得多的扩散模型相媲美。其开源实现支持多 GPU 推理以及与热门框架的集成,方便寻求高效、可扩展视频生成解决方案的研究人员、开发者和创意专业人士使用。
主要功能包括:
- 与传统扩散模型相比,视频生成速度提高 8.5 倍
- 基于轨迹的几步引导,实现高效蒸馏
- 使用合成数据集优化数据利用率
- 对抗性训练,提升视频质量和一致性
- 生成时长 5 秒、分辨率 720x1280、帧率 24fps 的视频
- 开源,支持多 GPU 推理和集成