关键功能

从任何视觉输入预测空间一致的几何形状
从任意数量的视图中恢复视觉空间
提高 SLAM 性能
减少大规模环境中的漂移
估计稳定且可融合的深度图
增强自动驾驶汽车的环境理解能力
实现强大且可泛化的新视角合成能力
在所有任务上设定新的最先进水平

DA3 可以从任意数量的视图中恢复视觉空间,涵盖从单视图到多视图。此演示说明了 DA3 从困难视频中恢复视觉空间的能力。准确的视觉几何估计可以提高 SLAM 的性能。定量结果表明,仅用 DA3 替换 VGGT-Long 中的 VGGT(DA3-Long)可以显著减少大规模环境中的漂移,甚至优于需要 48 小时以上才能完成的 COLMAP。


DA3 估计稳定且可融合的深度图,增强了自动驾驶汽车的环境理解能力。通过冻结整个骨干网络并训练一个 DPT 头部来预测 3DGS 参数,我们的模型实现了非常强大且可泛化的新视角合成能力。DA3 在所有任务上都设定了新的最先进水平,在相机姿态精度上平均比先前的 SOTA VGGT 提高了 35.7%,在几何精度上提高了 23.6%。此外,它在单目深度估计方面优于 DA2。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!