Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入（有或没有已知的相机姿态）中预测空间一致几何形状的模型。DA3 带来了两个关键的见解：单个纯粹的 Transformer 作为骨干网络就足够了，无需架构上的专业化；以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式，该模型在细节和泛化性方面达到了

Depth Anything 3 | 寻找最新最热门的视觉AI | 浏览最全面的AI数据库

Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入（有或没有已知的相机姿态）中预测空间一致几何形状的模型。DA3 带来了两个关键的见解：单个纯粹的 Transformer 作为骨干网络就足够了，无需架构上的专业化；以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式，该模型在细节和泛化性方面达到了与 Depth Anything 2 (DA2) 相当的水平。 DA3 可以从任意数量的视图中恢复视觉空间，涵盖从单视图到多视图。此演示说明了 DA3 从困难视频中恢复视觉空间的能力。准确的视觉几何估计可以提高 SLAM 的性能。定量结果表明，仅用 DA3 替换 VGGT-Long 中的 VGGT（DA3-Long）可以显著减少大规模环境中的漂移，甚至优于需要 48 小时以上才能完成的 COLMAP。 DA3 估计稳定且可融合的深度图，增强了自动驾驶汽车的环境理解能力。通过冻结整个骨干网络并训练一个 DPT 头部来预测 3DGS 参数，我们的模型实现了非常强大且可泛化的新视角合成能力。DA3 在所有任务上都设定了新的最先进水平，在相机姿态精度上平均比先前的 SOTA VGGT 提高了 35.7%，在几何精度上提高了 23.6%。此外，它在单目深度估计方面优于 DA2。

Depth Anything 3

关键功能

Subscribe to the AI Search Newsletter