
具身智能(Embodied AI)领域迎来了一位强力新成员!艾伦人工智能研究所(Ai2)的开源机器人动作推理模型MolmoAct2目前已正式登陆 Hugging Face 的LeRobot机器人学习框架。
这意味着开发者现在可以更轻松地在真实世界中训练、评估和部署这款前沿的机器人控制模型。
MolmoAct2是 Ai2 专门为真实世界机器人控制设计的开源动作推理模型(Action Reasoning Model)。它巧妙地结合了两种核心技术:
强大的视觉语言骨干网络(Molmo2-ER):赋予机器人极高的空间感知和指令理解能力。
流匹配连续动作专家(Flow-Matching Continuous Action Expert):确保机器人动作的流畅性与精准度。
通过将强大的视觉语言理解能力与精准的动作生成相结合,MolmoAct2 能够理解复杂的环境和人类指令,并将其转化为机器人小车、机械臂等硬件的实际动作。
随着 MolmoAct2 接入 LeRobot,开发者可以享受到全流程的“开箱即用”体验。此次集成带来了以下核心功能:
原生策略支持:LeRobot 现已原生支持 molmoact2 策略(Policy)。
全链路覆盖:从训练(Training)、评估(Evaluation)到部署(Deployment),以及详尽的官方文档,一应俱全。
双重动作模式:* 在推理时,通过流匹配动作专家支持连续动作推理(Continuous Action Inference)。在训练时,支持
离散动作 Token(Discrete Action Tokens),让模型训练更加高效稳定。

MolmoAct2 拥有卓越的开箱即用性能(Out-of-the-box performance)。无论你是想直接体验其强大的基准能力,还是希望针对特定的机器人任务进行微调(Fine-tune),LeRobot 框架都为你极大地降低了门槛。
目前,基于 NVIDIA DGX Spark 算力平台运行的物体抓取与投放(Pick-and-place)推理测试表现优异,证明了其在实际工业和研究场景中的巨大潜力。
MolmoAct2 的强大不仅体现在理论上,在实际的极高难度任务中也展现出了惊人的泛化与微调能力。
在最近的一项高难度机器人挑战中,开发团队的目标是让机器人使用基于扩散(Diffusion)或流匹配(Flow-matching)的策略,连续完成两次毛巾折叠(Two consecutive towel folds)。

该任务的圆满成功,不仅证明了 MolmoAct2 极其适合处理这类带有形变、高精度要求的柔性物体控制任务,更展示了Hugging Face 硬件生态 + NVIDIA 算力支持为机器人学习(Robot Learning)带来的无限可能。
如果你正在寻找一个强大、灵活且开源的机器人控制方案,不妨立即前往 LeRobot 社区,亲自体验 MolmoAct2 的魅力!
文档:https://huggingface.co/docs/lerobot/main/en/molmoact2