RynnVLA-002模型具有一个分层奖励系统,该系统利用多级地理信息来提高整体性能。它迭代地生成思想和动作,解析并执行每个动作以产生新的观察结果。该模型已在LIBERO基准测试中进行了评估,该测试包括来自世界各地的照片和全景图,以及不同城市的卫星图像。
RynnVLA-002拥有一个完整的训练流程,包括冷启动监督微调阶段和强化学习阶段。该模型可以在包括LIBERO和LeRobot在内的各种数据集上进行训练,并且已证明在这些基准测试中取得了最先进的结果。该模型的性能通过演示视频得以展示,该视频展示了其在视觉-语言-动作任务中的能力。

