TrackCraft3R

新

Free 3D 开源

网站推广

关键功能

从单目视频输入预测密集的 3D 轨迹。

将预测深度和相机信息与 RGB 视频一起使用。

重新利用预训练的 Wan2.1-T2V-1.3B 视频扩散变压器。

在单次前向传播中运行密集轨迹预测。

具有 DiT LoRA、I/O 投影和 VAE 适应阶段的训练。

使用合成数据集，包括 Kubric、Dynamic Replica、PointOdyssey 和 TartanAir。

提供官方训练代码和模型检查点说明。

面向 3D 跟踪、动态场景理解和机器人感知研究。

该系统以 Wan2.1-T2V-1.3B 为基础，作为预训练视频扩散转换器，并通过涉及 DiT LoRA、输入和输出投影以及 VAE 组件的训练阶段对其进行调整。它在 Kubric、Dynamic Replica、PointOdyssey 和 TartanAir 等合成数据集上进行训练，使用渲染序列和深度或相机监督来学习密集的 3D 运动。这使得模型能够随着时间的推移生成点轨迹和可见性估计。

TrackCraft3R 对于 3D 场景理解、机器人感知、动态重建、增强现实以及在几何任务中重用生成视频先验的研究非常有用。它的价值在于，最初为视频生成而设计的模型可以转换为密集跟踪器，表明扩散变换器对有用的运动和空间结构进行编码。由于提交的URL是带有官方代码的GitHub存储库，因此被列为免费开源。

在您的网站添加此徽章，以获得更多点赞并登上搜索结果顶部！

TrackCraft3R

关键功能

Subscribe to the AI Search Newsletter