SpatialTrackerV2 通过联合学习几何和运动实现了显著的改进,其性能远超所有先前的 3D 追踪方法。此外,它在 2D 追踪和动态 3D 重建方面也表现出色。该模型由两个主要组件组成:一个 VGGT 风格的网络,用于从输入视频中提取高级语义特征,以初始化一致的场景几何形状和相机运动;以及一个轨迹优化器,用于迭代更新所有 4D 属性,包括 2D 和 3D 点追踪、轨迹方向的动态概率和相机姿态。
SpatialTrackerV2 可呈现跨多种场景的定性结果,所有结果均由模型以纯前馈方式生成,每个序列仅需 10-20 秒。该模型能够同时估算相机运动、一致的几何形状和像素级 3D 轨迹,使其成为适用于各种应用的强大工具。凭借其可扩展的训练和强大的性能,SpatialTrackerV2 有望推动 3D 点追踪及相关领域的发展。