该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧张的 token 预算下保留更长时间范围的结构。
MilliVid 适合研究长视频片段、场景一致性和内存高效生成的视频生成研究者。项目页面链接了 arXiv 和代码,并包含直链项目视频资源。
该方法预训练一个层级自动编码器,将每帧压缩为多个 token 层级,然后通过由粗到细的 rollout 生成视频。与扁平潜表示相比,这让模型能在更紧张的 token 预算下保留更长时间范围的结构。
MilliVid 适合研究长视频片段、场景一致性和内存高效生成的视频生成研究者。项目页面链接了 arXiv 和代码,并包含直链项目视频资源。
在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!


Get top updates in AI to your inbox every weekend. It's free!