关键功能

实时交互式视频扩散模型
可通过文本、鼠标和键盘进行控制和提示
在10,000小时的各种视频游戏素材上训练
帧因果矫正流Transformer架构
无缝且无延迟的交互
用于交互式世界模型流的WorldEngine推理库
高性能并针对低延迟和高吞吐量进行了优化
适用于实时交互式应用

该模型的核心是一个帧因果矫正流Transformer(frame-causal rectified flow transformer),从头开始训练,重点关注交互式体验。这实现了无缝且无延迟的交互,用户可以用鼠标自由移动摄像机并输入键盘上的任何按键。每一帧的生成都以用户的控制作为上下文,提供逼真和沉浸式的体验。


Waypoint-1是Overworld平台的一部分,该平台包括用于交互式世界模型流的WorldEngine推理库。WorldEngine为纯Python中构建推理应用提供了核心工具,针对低延迟、高吞吐量、可扩展性和开发者简便性进行了优化。该库保持高性能,在4步时达到30 FPS,在2步时达到60 FPS,使其适用于实时交互式应用。

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!