DIAMOND 的关键创新在于它使用扩散模型来生成世界模型,而不是像许多以前的方法那样依赖于离散潜在变量。这使得 DIAMOND 能够捕获更详细的视觉信息,这些信息对于强化学习任务至关重要。扩散世界模型吸收代理的动作和前几帧来预测和生成环境的下一帧。
DIAMOND 最初是在 Atari 游戏上开发和测试的,它在那里取得了最先进的性能。在 Atari 100k 基准测试中,DIAMOND 评估了仅在 100,000 帧游戏画面上训练的代理,获得了 1.46 的平均人类标准化分数 - 这意味着它的表现比人类水平高出 46%,并创下了完全在世界模型中训练的代理的新纪录。
由此产生的 CS:GO 世界模型可以在 RTX 3090 GPU 上以每秒大约 10 帧的速度进行交互播放。虽然它有一些限制和失败模式,但它展示了扩散模型捕捉复杂 3D 环境的潜力。
DIAMOND 的主要功能包括:
- 基于扩散的世界模型,可捕捉详细的视觉信息
- 在 Atari 100k 基准测试中表现出色
- 能够对 2D 和 3D 游戏环境进行建模
- 在世界模型中对强化学习代理进行端到端训练
- 使用 EDM 采样实现稳定轨迹,仅需少量去噪步骤
- 用于建模复杂 3D 环境的两阶段管道
- 生成的世界模型具有交互式可玩性
- 发布开源代码和预训练模型以供进一步研究