关键功能

从单目视频输入预测密集的 3D 轨迹。
将预测深度和相机信息与 RGB 视频一起使用。
重新利用预训练的 Wan2.1-T2V-1.3B 视频扩散变压器。
在单次前向传播中运行密集轨迹预测。
具有 DiT LoRA、I/O 投影和 VAE 适应阶段的训练。
使用合成数据集,包括 Kubric、Dynamic Replica、PointOdyssey 和 TartanAir。
提供官方训练代码和模型检查点说明。
面向 3D 跟踪、动态场景理解和机器人感知研究。

该系统以 Wan2.1-T2V-1.3B 为基础,作为预训练视频扩散转换器,并通过涉及 DiT LoRA、输入和输出投影以及 VAE 组件的训练阶段对其进行调整。它在 Kubric、Dynamic Replica、PointOdyssey 和 TartanAir 等合成数据集上进行训练,使用渲染序列和深度或相机监督来学习密集的 3D 运动。这使得模型能够随着时间的推移生成点轨迹和可见性估计。


TrackCraft3R 对于 3D 场景理解、机器人感知、动态重建、增强现实以及在几何任务中重用生成视频先验的研究非常有用。它的价值在于,最初为视频生成而设计的模型可以转换为密集跟踪器,表明扩散变换器对有用的运动和空间结构进行编码。由于提交的URL是带有官方代码的GitHub存储库,因此被列为免费开源。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!