VerseCrafter 的框架包括一个冻结的 Wan2.1 主干和一个轻量级的 GeoAdapter,它对渲染的 4D 控制图进行编码,并将它们注入到选定的扩散块中。这种设计实现了精确的相机和多物体运动控制,同时保持了清晰、几何一致的视频。该模型在 VerseControl4D 数据集上进行训练,该数据集包含 35,000 个带有完整几何监督的训练剪辑和 1,000 个验证/测试剪辑。
VerseCrafter 提供灵活的 4D 几何控制,允许用户指定仅相机、仅物体或联合控制模式。该模型还具有一个交互式 4D 控制界面,用户可以在 Blender 中设计自定义相机轨迹和 3D 高斯物体轨迹。生成的轨迹被导出为控制图,并被 VerseCrafter 用于生成几何一致、可控的视频。该模型生成具有对齐的相机和物体运动的一致的多视图世界动力学。

