RynnVLA-002是一个统一的视觉-语言-动作和世界模型，集成了动作和图像的理解与生成。它是一个自回归动作世界模型，在LIBERO基准测试中达到了97.4%的成功率。该模型旨在推理过程中确认或精炼假设，使其成为地理定位任务和其他应用的强大工具。RynnVLA-002模型具有一个分层奖励系统，该系统利用多级地理信息来提高整体性能。它迭代地生成思想和动作，解

RynnVLA-002 | 寻找最新最热门的机器人技术AI | 浏览最全面的AI数据库

RynnVLA-002是一个统一的视觉-语言-动作和世界模型，集成了动作和图像的理解与生成。它是一个自回归动作世界模型，在LIBERO基准测试中达到了97.4%的成功率。该模型旨在推理过程中确认或精炼假设，使其成为地理定位任务和其他应用的强大工具。 RynnVLA-002模型具有一个分层奖励系统，该系统利用多级地理信息来提高整体性能。它迭代地生成思想和动作，解析并执行每个动作以产生新的观察结果。该模型已在LIBERO基准测试中进行了评估，该测试包括来自世界各地的照片和全景图，以及不同城市的卫星图像。 RynnVLA-002拥有一个完整的训练流程，包括冷启动监督微调阶段和强化学习阶段。该模型可以在包括LIBERO和LeRobot在内的各种数据集上进行训练，并且已证明在这些基准测试中取得了最先进的结果。该模型的性能通过演示视频得以展示，该视频展示了其在视觉-语言-动作任务中的能力。

RynnVLA-002

关键功能

Subscribe to the AI Search Newsletter