该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合生成,同时从稀疏的现实世界深度监督中学习。
Modality Forcing 对于空间生成、单眼深度估计和图像深度合成工作流程很有用。该项目报告了从 300M 到 3B 参数 T2I 模型的缩放行为,并指出其最强的模型可与最先进的单目深度估计器竞争。
该方法在稀疏深度数据上训练单个 DiT,每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合生成,同时从稀疏的现实世界深度监督中学习。
Modality Forcing 对于空间生成、单眼深度估计和图像深度合成工作流程很有用。该项目报告了从 300M 到 3B 参数 T2I 模型的缩放行为,并指出其最强的模型可与最先进的单目深度估计器竞争。
在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!


Get top updates in AI to your inbox every weekend. It's free!