关键功能

使用层级潜 token 提升长程视频一致性。
在生成前通过层级自动编码器压缩每一帧。
通过由粗到细的 rollout 生成视频。
在受限 Transformer token 预算下生成更长且一致的视频。
比较视频生成中的质量与一致性权衡。
聚焦长记忆自回归视频生成。
提供 arXiv 和公开代码链接。
包含托管在页面上的直链项目演示视频。

该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧张的 token 预算下保留更长时间范围的结构。


MilliVid 适合研究长视频片段、场景一致性和内存高效生成的视频生成研究者。项目页面链接了 arXiv 和代码,并包含直链项目视频资源。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!