MineWorld 的一项关键创新是其对角线解码算法,这是一种并行解码方法,允许模型同时生成空间相关的 token 组。这显著加快了推理速度,实现了每秒 4 到 7 帧的实时帧速率——即使是经验丰富的游戏玩家也能轻松进行互动游戏。该模型的架构确保了较高的生成质量和强大的可控性,能够忠实地跟踪用户操作并保持跨帧的视觉一致性。MineWorld 还配备了新的评估指标,不仅可以评估生成场景的视觉保真度,还可以评估模型输出与预期操作的一致性,从而为世界建模中的动作跟踪能力树立了新的标杆。


除了模拟功能之外,MineWorld 还可以充当世界模型和策略模型,预测未来状态和操作,从而充当自主游戏代理。这种双重功能为 Minecraft 世界中的强化学习、代理训练和交互式叙事研究开辟了可能性。虽然目前 MineWorld 的开源版本仅限于固定分辨率的 Minecraft 数据,但它包含代码、模型权重和设置工具,可供对虚拟环境、生成式建模和交互式模拟感兴趣的研究人员、开发者和爱好者使用。


主要功能包括:


  • 用于高保真场景和动作生成的视觉动作自回归 Transformer
  • 用于实时帧速率 (4-7 fps) 和高效并行推理的对角线解码
  • 强大的可控性和动作跟踪能力,可用于交互式游戏
  • 兼具世界模型和策略模型的双重功能,可用于自主代理模拟
  • 开源版本包含代码、模型权重和易于实验的设置

在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

嵌入按钮预览 - 浅色主题
嵌入按钮预览 - 深色主题

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!