
编辑:陈萍萍的公主@一点人工一点智能

论文地址:https://arxiv.org/pdf/2510.20347

引言
模块化机器人技术为太空探索提供了新的可能性,其具备可靠性高、易于维修和适应性强等特点,适合在月球等极端环境中执行多样化任务。本文基于日本科学技术振兴机构的“Moonshot计划”,旨在开发能够在月球表面自主协作、具备智能演化能力的模块化机器人系统。为此,研究团队开发了名为“MoonBots”的模块化可重构机器人平台,支持在月球基础设施的组装与维护中实现自主与协同操作。

尽管遥操作和算法组装等技术已取得一定进展,但长期太空任务仍需依赖自主重构能力。模块化机器人通过组合标准单元形成特定任务构型,然而,硬件快速重构的同时,控制策略的学习面临挑战,因为不同构型会改变机器人的运动学特性和观测-动作空间。为解决这一问题,本文提出了一种去中心化强化学习架构,使每个模块能够基于局部观测学习独立策略,并在全局任务中协同工作,从而实现策略的即插即用与零样本泛化。

相关工作
月球任务面临通信延迟高、带宽低和环境不确定等挑战,因此自主性成为关键技术需求。深度强化学习能够在部分可观测、随机性强的行星表面环境中学习最优策略,具备良好的泛化能力和适应性。近年来,研究者开始建立标准化的空间机器人操作评估框架,以比较学习型控制器与传统方法的性能。

随着系统复杂度提升,集中式强化学习在可扩展性和鲁棒性方面存在局限。去中心化强化学习通过分布式的学习与执行机制,使每个模块在局部观测下独立决策,同时实现全局协调。已有研究将Dec-RL应用于多机器人系统,如基于策略图的方法将硬件图与策略图对齐,实现跨构型的策略迁移。然而,这些方法仍依赖全局策略或中央控制器。本文提出的架构进一步推进了完全去中心化的策略学习与组合,使运动与操作模块能够在运行时动态组合,适应不同任务与构型。

模块化机器人系统与去中心化策略学习
3.1 机器人系统构型
MoonBots平台由轮式移动模块和7自由度机械臂模块组成,支持多种构型。本文重点研究两种典型构型:一是“车辆模式”,由两个轮式模块和一个机械臂组成,用于转向控制;二是“龙模式”,由两个轮臂串联模块组成,前臂执行操作任务,后臂负责稳定与机动,支持运动与任务并行执行。
3.2 策略学习框架
本文采用多模态强化学习框架,轮式模块使用Soft Actor-Critic算法学习运动策略,机械臂模块使用Proximal Policy Optimization算法学习转向与操作策略。这两种算法在连续控制任务中表现出良好的稳定性和效率。策略学习在MuJoCo和NVIDIA Isaac Lab仿真环境中进行,通过域随机化提升策略的鲁棒性。
3.3 策略建模与奖励函数
每个模块被建模为一个局部马尔可夫决策过程,其状态、动作和奖励函数根据任务特性设计。轮式模块的状态包括位置、速度与目标相对位移,动作包括转向与移动指令,奖励函数综合考虑位置误差、扭矩惩罚、稳定性与目标达成:

转向臂策略的状态包括关节角度、角速度与期望转向角,奖励函数鼓励转向精度与关节限制合规:

其中诱导转向角

通过前后轮模块的前向向量计算:

操作臂策略的状态包含末端执行器位姿与目标位姿,奖励函数鼓励空间精度与动作平滑性:

3.4 构型特定约束
在车辆模式下,转向仅限于关节2和6绕z轴反向旋转,以保持臂部刚性;在龙模式下,则充分利用7自由度关节,形成平滑的三角曲率,提升转向稳定性。这种策略复用机制体现了去中心化RL方法的适应性与鲁棒性。

策略组合与协调
为实现异构策略在运行时无缝协同,本文提出了三种策略执行模式:同步并行执行、异构策略并行执行与顺序执行。设模块集合为 MM,每个模块具有策略πm和局部观测

,全局任务T通过映射C:T→A分解为模块指令。协调层在每个时间步生成联合动作:

在同步并行模式下,同类模块共享同一策略并执行相同动作;在异构并行模式下,不同模块并发执行各自策略;在顺序执行模式下,通过门控变量

控制模块是否激活策略输出:

协调层维护全局任务图与同步映射,确保执行模式之间的平滑切换,支持策略的动态复用与系统扩展。


实验设置
实验分为实验室环境与JAXA月球模拟场地两部分。实验室中测试了7自由度臂的精确抓取策略;野外测试则验证了在松散沙地、光照不均和障碍物环境下龙模式机器人的自主重构能力。测试任务包括目标轮式模块的检测、导航与连接,机器人仅依赖板载YOLO视觉系统提供目标相对位姿,不依赖全局定位。

重构过程分为三个阶段:
· 首先,机器人通过视觉定位目标,轮式策略同步执行以稳定前进,转向策略动态调整航向;
· 当接近目标约0.3米时,高层决策模块触发策略切换,关闭运动与转向策略,启动操作策略进行末端对齐;
· 最后,通过遥操作完成精确抓取与模块分离,系统重构为车辆模式与最小模式。
整个过程使用OptiTrack运动捕捉系统记录真实位姿,用于导航与操作精度的定量评估。

结果与讨论
6.1 策略学习性能
转向策略在仿真中表现出高度一致性,期望转向角与诱导转向角之间的Pearson相关系数达0.9895,决定系数为0.9758,平均绝对误差为3.63°,78.2%的命令误差在5°以内。
操作策略在13个目标距离下均能收敛,84.6%的试验在1466步内达到稳定,53.8%的案例满足0.10米精度要求,误差与目标距离呈强正相关(r=0.937)。
轮式策略在训练过程中目标距离从2.520米降至0.000米,成功率从0%提升至99.6%,平均扭矩降低95.4%,显示出高效的学习性能与能量效率。


6.2 硬件实验性能
在实地测试中,龙模式机器人从初始位置导航至目标位置,总行程8.092米,路径效率为81.3%。运动过程分为探索、细化与终端引导三个阶段,位置方差从2.79 m²降至0.006 m²,最终接近精度为0.338米。速度标准差为0.030 m/s,路径曲率平均为0.498 rad/m,表现出平滑且可控的运动特性。


策略协调方面,轮式策略同步执行占总时间的70.9%,转向与运动并行执行占21.0%,操作策略顺序执行占3.7%。系统在整个任务中保持100%的活动率,仅发生24次状态切换,平均间隔9.5秒,未出现控制冲突或空闲状态,验证了去中心化策略组合的可行性与鲁棒性。


结论与展望
本文提出了一种面向模块化月球机器人的去中心化强化学习架构,通过仿真与实地实验验证了其在转向精度、操作稳定性、扭矩效率与多策略协调方面的有效性。系统在月球模拟环境中实现了自主运动、转向与预抓取对齐,最终抓取与分离操作由遥操作完成,受限于硬件安全性等因素。
未来工作将扩展至更轻量硬件、接触感知控制、更高样本效率与更广构型覆盖,以推动可重构空间机器人系统向长期、自适应任务方向发展。