该模型的核心是一个帧因果矫正流Transformer(frame-causal rectified flow transformer),从头开始训练,重点关注交互式体验。这实现了无缝且无延迟的交互,用户可以用鼠标自由移动摄像机并输入键盘上的任何按键。每一帧的生成都以用户的控制作为上下文,提供逼真和沉浸式的体验。
Waypoint-1是Overworld平台的一部分,该平台包括用于交互式世界模型流的WorldEngine推理库。WorldEngine为纯Python中构建推理应用提供了核心工具,针对低延迟、高吞吐量、可扩展性和开发者简便性进行了优化。该库保持高性能,在4步时达到30 FPS,在2步时达到60 FPS,使其适用于实时交互式应用。

