DA3 可以从任意数量的视图中恢复视觉空间,涵盖从单视图到多视图。此演示说明了 DA3 从困难视频中恢复视觉空间的能力。准确的视觉几何估计可以提高 SLAM 的性能。定量结果表明,仅用 DA3 替换 VGGT-Long 中的 VGGT(DA3-Long)可以显著减少大规模环境中的漂移,甚至优于需要 48 小时以上才能完成的 COLMAP。
DA3 估计稳定且可融合的深度图,增强了自动驾驶汽车的环境理解能力。通过冻结整个骨干网络并训练一个 DPT 头部来预测 3DGS 参数,我们的模型实现了非常强大且可泛化的新视角合成能力。DA3 在所有任务上都设定了新的最先进水平,在相机姿态精度上平均比先前的 SOTA VGGT 提高了 35.7%,在几何精度上提高了 23.6%。此外,它在单目深度估计方面优于 DA2。

