DIAMOND Diffusion for World Modeling


DIAMOND 的关键创新在于它使用扩散模型来生成世界模型,而不是像许多以前的方法那样依赖于离散潜在变量。这使得 DIAMOND 能够捕获更详细的视觉信息,这些信息对于强化学习任务至关重要。扩散世界模型吸收代理的动作和前几帧来预测和生成环境的下一帧。


DIAMOND 最初是在 Atari 游戏上开发和测试的,它在那里取得了最先进的性能。在 Atari 100k 基准测试中,DIAMOND 评估了仅在 100,000 帧游戏画面上训练的代理,获得了 1.46 的平均人类标准化分数 - 这意味着它的表现比人类水平高出 46%,并创下了完全在世界模型中训练的代理的新纪录。


由此产生的 CS:GO 世界模型可以在 RTX 3090 GPU 上以每秒大约 10 帧的速度进行交互播放。虽然它有一些限制和失败模式,但它展示了扩散模型捕捉复杂 3D 环境的潜力。


DIAMOND 的主要功能包括:

  • 基于扩散的世界模型,可捕捉详细的视觉信息
  • 在 Atari 100k 基准测试中表现出色
  • 能够对 2D 和 3D 游戏环境进行建模
  • 在世界模型中对强化学习代理进行端到端训练
  • 使用 EDM 采样实现稳定轨迹,仅需少量去噪步骤
  • 用于建模复杂 3D 环境的两阶段管道
  • 生成的世界模型具有交互式可玩性
  • 发布开源代码和预训练模型以供进一步研究


在您的网站添加此徽章,以获得更多点赞并登上搜索结果顶部!

Featured on

AI Search

1

Subscribe to the AI Search Newsletter

Get top updates in AI to your inbox every weekend. It's free!