VerseCrafter 是一个可控的视频世界模型，提供对相机和多物体运动的明确的 4D 几何控制。它从大规模的野外数据中学习一个逼真且可控的视频世界先验，能够处理具有强大时空一致性的复杂动态场景。该模型允许用户指定目标相机轨迹和多物体 3D 高斯轨迹，从而在各种动态和静态场景中实现稳健的控制。VerseCrafter 的框架包括一个冻结的 Wan2.1 主

VerseCrafter | 寻找最新最热门的视频AI | 浏览最全面的AI数据库

VerseCrafter 是一个可控的视频世界模型，提供对相机和多物体运动的明确的 4D 几何控制。它从大规模的野外数据中学习一个逼真且可控的视频世界先验，能够处理具有强大时空一致性的复杂动态场景。该模型允许用户指定目标相机轨迹和多物体 3D 高斯轨迹，从而在各种动态和静态场景中实现稳健的控制。 VerseCrafter 的框架包括一个冻结的 Wan2.1 主干和一个轻量级的 GeoAdapter，它对渲染的 4D 控制图进行编码，并将它们注入到选定的扩散块中。这种设计实现了精确的相机和多物体运动控制，同时保持了清晰、几何一致的视频。该模型在 VerseControl4D 数据集上进行训练，该数据集包含 35,000 个带有完整几何监督的训练剪辑和 1,000 个验证/测试剪辑。 VerseCrafter 提供灵活的 4D 几何控制，允许用户指定仅相机、仅物体或联合控制模式。该模型还具有一个交互式 4D 控制界面，用户可以在 Blender 中设计自定义相机轨迹和 3D 高斯物体轨迹。生成的轨迹被导出为控制图，并被 VerseCrafter 用于生成几何一致、可控的视频。该模型生成具有对齐的相机和物体运动的一致的多视图世界动力学。

VerseCrafter

关键功能

Subscribe to the AI Search Newsletter