关键功能

保持视频在时间、观点和编辑方面的一致性。
使用 RGB 上下文内存进行外观感知观察。
使用深度上下文内存来保留纯几何结构。
在本地或全局编辑后,使用编辑感知逻辑更新和检索内存。
支持全局样式或外观更改,同时保持稳定的几何形状。
支持本地对象级编辑,同时保留不变的场景结构。
融合混合模态内存引用来指导生成。
提供论文、GitHub 代码、Hugging Face 数据集和直接演示视频。

该方法使用解缠结的多模态上下文记忆,其中包含用于语义外观的 RGB 库和用于几何结构的深度库。编辑感知内存更新和检索使生成器能够传播新的外观,同时在更改后保留稳定的几何形状。


PermaVid 对于视频编辑系统、场景模拟和长视野生成工作流程非常有用,在这些工作流程中,在摄像机移开和返回后编辑必须保持连贯。该项目提供论文、代码、数据集和直接演示资源。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!