该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散转换器,并通过涉及 DiT LoRA、输入和输出投影以及 VAE 组件的训练阶段对其进行调整。它在 Kubric、Dynamic Replica、PointOdyssey 和 TartanAir 等合成数据集上进行训练,使用渲染序列和深度或相机监督来学习密集的 3D 运动。这使得模型能够随着时间的推移生成点轨迹和可见性估计。
TrackCraft3R 对于 3D 场景理解、机器人感知、动态重建、增强现实以及在几何任务中重用生成视频先验的研究非常有用。它的价值在于,最初为视频生成而设计的模型可以转换为密集跟踪器,表明扩散变换器对有用的运动和空间结构进行编码。由于提交的URL是带有官方代码的GitHub存储库,因此被列为免费开源。

