Modality Forcing 是一个训练后配方，可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度，而不需要密集的深度数据或复杂的训练方法。
该方法在稀疏深度数据上训练单个 DiT，每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合生成，同时从稀疏的现实世界深度

Modality Forcing | 寻找最新最热门的图像AI | 浏览最全面的AI数据库

Modality Forcing 是一个训练后配方，可将预训练的文本到图像模型转变为联合图像深度生成器。它利用 T2I 模型内的空间先验来合成图像和深度，而不需要密集的深度数据或复杂的训练方法。 
该方法在稀疏深度数据上训练单个 DiT，每个模态和每个模态解码器具有单独的噪声级别。这使得模型能够以不同的排列执行图像和深度的条件联合生成，同时从稀疏的现实世界深度监督中学习。 
Modality Forcing 对于空间生成、单眼深度估计和图像深度合成工作流程很有用。该项目报告了从 300M 到 3B 参数 T2I 模型的缩放行为，并指出其最强的模型可与最先进的单目深度估计器竞争。

Modality Forcing

关键功能

Subscribe to the AI Search Newsletter