DIAMOND Diffusion for World Modeling

DIAMOND 的关键创新在于它使用扩散模型来生成世界模型，而不是像许多以前的方法那样依赖于离散潜在变量。这使得 DIAMOND 能够捕获更详细的视觉信息，这些信息对于强化学习任务至关重要。扩散世界模型吸收代理的动作和前几帧来预测和生成环境的下一帧。

DIAMOND 最初是在 Atari 游戏上开发和测试的，它在那里取得了最先进的性能。在 Atari 100k 基准测试中，DIAMOND 评估了仅在 100,000 帧游戏画面上训练的代理，获得了 1.46 的平均人类标准化分数 - 这意味着它的表现比人类水平高出 46%，并创下了完全在世界模型中训练的代理的新纪录。

由此产生的 CS:GO 世界模型可以在 RTX 3090 GPU 上以每秒大约 10 帧的速度进行交互播放。虽然它有一些限制和失败模式，但它展示了扩散模型捕捉复杂 3D 环境的潜力。

DIAMOND 的主要功能包括：

基于扩散的世界模型，可捕捉详细的视觉信息
在 Atari 100k 基准测试中表现出色
能够对 2D 和 3D 游戏环境进行建模
在世界模型中对强化学习代理进行端到端训练
使用 EDM 采样实现稳定轨迹，仅需少量去噪步骤
用于建模复杂 3D 环境的两阶段管道
生成的世界模型具有交互式可玩性
发布开源代码和预训练模型以供进一步研究

Subscribe to the AI Search Newsletter