首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >“拼乐高”的月球机器人:每个模块自带AI,任意组合都能零样本上岗

“拼乐高”的月球机器人:每个模块自带AI,任意组合都能零样本上岗

作者头像
一点人工一点智能
发布2025-11-26 16:26:21
发布2025-11-26 16:26:21
50
举报

编辑:陈萍萍的公主@一点人工一点智能

论文地址:https://arxiv.org/pdf/2510.20347

引言

模块化机器人技术为太空探索提供了新的可能性,其具备可靠性高、易于维修和适应性强等特点,适合在月球等极端环境中执行多样化任务。本文基于日本科学技术振兴机构的“Moonshot计划”,旨在开发能够在月球表面自主协作、具备智能演化能力的模块化机器人系统。为此,研究团队开发了名为“MoonBots”的模块化可重构机器人平台,支持在月球基础设施的组装与维护中实现自主与协同操作。

尽管遥操作和算法组装等技术已取得一定进展,但长期太空任务仍需依赖自主重构能力。模块化机器人通过组合标准单元形成特定任务构型,然而,硬件快速重构的同时,控制策略的学习面临挑战,因为不同构型会改变机器人的运动学特性和观测-动作空间。为解决这一问题,本文提出了一种去中心化强化学习架构,使每个模块能够基于局部观测学习独立策略,并在全局任务中协同工作,从而实现策略的即插即用与零样本泛化。

相关工作

月球任务面临通信延迟高、带宽低和环境不确定等挑战,因此自主性成为关键技术需求。深度强化学习能够在部分可观测、随机性强的行星表面环境中学习最优策略,具备良好的泛化能力和适应性。近年来,研究者开始建立标准化的空间机器人操作评估框架,以比较学习型控制器与传统方法的性能。

随着系统复杂度提升,集中式强化学习在可扩展性和鲁棒性方面存在局限。去中心化强化学习通过分布式的学习与执行机制,使每个模块在局部观测下独立决策,同时实现全局协调。已有研究将Dec-RL应用于多机器人系统,如基于策略图的方法将硬件图与策略图对齐,实现跨构型的策略迁移。然而,这些方法仍依赖全局策略或中央控制器。本文提出的架构进一步推进了完全去中心化的策略学习与组合,使运动与操作模块能够在运行时动态组合,适应不同任务与构型。

模块化机器人系统与去中心化策略学习

3.1 机器人系统构型

MoonBots平台由轮式移动模块和7自由度机械臂模块组成,支持多种构型。本文重点研究两种典型构型:一是“车辆模式”,由两个轮式模块和一个机械臂组成,用于转向控制;二是“龙模式”,由两个轮臂串联模块组成,前臂执行操作任务,后臂负责稳定与机动,支持运动与任务并行执行。

3.2 策略学习框架

本文采用多模态强化学习框架,轮式模块使用Soft Actor-Critic算法学习运动策略,机械臂模块使用Proximal Policy Optimization算法学习转向与操作策略。这两种算法在连续控制任务中表现出良好的稳定性和效率。策略学习在MuJoCo和NVIDIA Isaac Lab仿真环境中进行,通过域随机化提升策略的鲁棒性。

3.3 策略建模与奖励函数

每个模块被建模为一个局部马尔可夫决策过程,其状态、动作和奖励函数根据任务特性设计。轮式模块的状态包括位置、速度与目标相对位移,动作包括转向与移动指令,奖励函数综合考虑位置误差、扭矩惩罚、稳定性与目标达成:

转向臂策略的状态包括关节角度、角速度与期望转向角,奖励函数鼓励转向精度与关节限制合规:

其中诱导转向角

通过前后轮模块的前向向量计算:

操作臂策略的状态包含末端执行器位姿与目标位姿,奖励函数鼓励空间精度与动作平滑性:

3.4 构型特定约束

在车辆模式下,转向仅限于关节2和6绕z轴反向旋转,以保持臂部刚性;在龙模式下,则充分利用7自由度关节,形成平滑的三角曲率,提升转向稳定性。这种策略复用机制体现了去中心化RL方法的适应性与鲁棒性。

策略组合与协调

为实现异构策略在运行时无缝协同,本文提出了三种策略执行模式:同步并行执行、异构策略并行执行与顺序执行。设模块集合为 MM,每个模块具有策略πm和局部观测

,全局任务T通过映射C:T→A分解为模块指令。协调层在每个时间步生成联合动作:

在同步并行模式下,同类模块共享同一策略并执行相同动作;在异构并行模式下,不同模块并发执行各自策略;在顺序执行模式下,通过门控变量

控制模块是否激活策略输出:

协调层维护全局任务图与同步映射,确保执行模式之间的平滑切换,支持策略的动态复用与系统扩展。

实验设置

实验分为实验室环境与JAXA月球模拟场地两部分。实验室中测试了7自由度臂的精确抓取策略;野外测试则验证了在松散沙地、光照不均和障碍物环境下龙模式机器人的自主重构能力。测试任务包括目标轮式模块的检测、导航与连接,机器人仅依赖板载YOLO视觉系统提供目标相对位姿,不依赖全局定位。

重构过程分为三个阶段:

· 首先,机器人通过视觉定位目标,轮式策略同步执行以稳定前进,转向策略动态调整航向;

· 当接近目标约0.3米时,高层决策模块触发策略切换,关闭运动与转向策略,启动操作策略进行末端对齐;

· 最后,通过遥操作完成精确抓取与模块分离,系统重构为车辆模式与最小模式。

整个过程使用OptiTrack运动捕捉系统记录真实位姿,用于导航与操作精度的定量评估。

结果与讨论

6.1 策略学习性能

转向策略在仿真中表现出高度一致性,期望转向角与诱导转向角之间的Pearson相关系数达0.9895,决定系数为0.9758,平均绝对误差为3.63°,78.2%的命令误差在5°以内。

操作策略在13个目标距离下均能收敛,84.6%的试验在1466步内达到稳定,53.8%的案例满足0.10米精度要求,误差与目标距离呈强正相关(r=0.937)。

轮式策略在训练过程中目标距离从2.520米降至0.000米,成功率从0%提升至99.6%,平均扭矩降低95.4%,显示出高效的学习性能与能量效率。

6.2 硬件实验性能

在实地测试中,龙模式机器人从初始位置导航至目标位置,总行程8.092米,路径效率为81.3%。运动过程分为探索、细化与终端引导三个阶段,位置方差从2.79 m²降至0.006 m²,最终接近精度为0.338米。速度标准差为0.030 m/s,路径曲率平均为0.498 rad/m,表现出平滑且可控的运动特性。

策略协调方面,轮式策略同步执行占总时间的70.9%,转向与运动并行执行占21.0%,操作策略顺序执行占3.7%。系统在整个任务中保持100%的活动率,仅发生24次状态切换,平均间隔9.5秒,未出现控制冲突或空闲状态,验证了去中心化策略组合的可行性与鲁棒性。

结论与展望

本文提出了一种面向模块化月球机器人的去中心化强化学习架构,通过仿真与实地实验验证了其在转向精度、操作稳定性、扭矩效率与多策略协调方面的有效性。系统在月球模拟环境中实现了自主运动、转向与预抓取对齐,最终抓取与分离操作由遥操作完成,受限于硬件安全性等因素。

未来工作将扩展至更轻量硬件、接触感知控制、更高样本效率与更广构型覆盖,以推动可重构空间机器人系统向长期、自适应任务方向发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档