Modality Forcing

关键功能

将预训练的文本到图像模型转换为联合图像深度 DiT。
在稀疏深度数据上使用简单的可扩展后训练方法。
为图像和深度的每种模式分配单独的噪声级别。
使用每个模态解码器来支持稀疏的现实世界深度训练。
支持图像和深度的条件和联合生成。
显示 300M 到 3B 参数 T2I 模型的缩放行为。
与现有的联合图像深度生成器相比,报告强大的深度预测。
arXiv、GitHub 代码和 Hugging Face Space 的链接。

该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合生成,同时从稀疏的现实世界深度监督中学习。


Modality Forcing 对于空间生成、单眼深度估计和图像深度合成工作流程很有用。该项目报告了从 300M 到 3B 参数 T2I 模型的缩放行为,并指出其最强的模型可与最先进的单目深度估计器竞争。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!