该系统强调 3D 动作推理和机器人在双手操作、家务任务和实验室式工作流程等环境中的实际行为。 MolmoAct 2 结合了模型发布、数据、代码和新的操作数据集,以便社区可以重现、研究和扩展系统。这种开放基础方法很重要,因为机器人技术的进步在很大程度上取决于透明的数据集、策略评估以及对培训和部署堆栈的访问。
对于机器人团队来说,MolmoAct 2 为构建可以从视觉语言理解转向真实驱动的实体代理奠定了基础。它对于评估多模态模型如何在物理场景中进行地面指令、策略如何表示 3D 空间关系以及开放数据集如何提高操作可靠性非常有用。该产品最好被理解为现实世界机器人动作模型的开放研究平台,而不仅仅是博客公告或演示。

