首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >NaVILA:基于视觉-语言-动作模型的腿式机器人导航系统

NaVILA:基于视觉-语言-动作模型的腿式机器人导航系统

作者头像
一点人工一点智能
发布2025-11-26 16:06:26
发布2025-11-26 16:06:26
1450
举报

编辑:陈萍萍的公主@一点人工一点智能

摘要:NaVILA(Navigation Vision-Language-Action)是一种面向足式机器人(如四足机器狗或人形机器人)的视觉-语言导航系统。该系统通过两层架构将高级视觉语言理解与低级运动控制相结合,实现了在复杂环境中基于自然语言指令的自主导航。与传统方法不同,NaVILA不直接输出低级别关节动作,而是生成中级别语言指令(如“前进75厘米”),再由专门的运动策略执行。这种设计既保留了视觉语言模型的推理能力,又提升了系统的可迁移性和鲁棒性。论文在多个仿真与真实环境实验中验证了NaVILA的优越性能,特别是在VLN-CE基准测试中取得了超过17%的成功率提升。

论文地址:https://navila-bot.github.io/static/navila_paper.pdf

项目地址:https://navila-bot.github.io/

引言

视觉与语言导航是机器人领域的重要研究方向,旨在让机器人根据人类语言指令在未知环境中进行导航。传统方法多基于轮式机器人,而足式机器人因其更强的地形适应能力,在复杂环境中具有独特优势。然而,将语言指令直接映射到足式机器人的关节级控制面临巨大挑战,尤其是在连续环境中的实时感知与运动规划。

近年来,基于大语言模型和视觉语言模型的端到端系统在机器人任务中取得进展,但直接将高级推理与低级控制耦合存在效率与泛化问题。NaVILA提出将导航任务分解为两个层次:视觉语言模型负责生成中级别动作指令,而强化学习策略负责实时执行。这种分工不仅提升了系统的模块化程度,还允许模型从多样化的数据源中学习,包括真实人类视频。

方法

2.1 视觉语言模型的导航适配

NaVILA的核心之一是视觉语言模型(VLM)的适配与训练。论文基于VILA模型架构,该模型由视觉编码器、投影器和LLM组成。在处理视频输入时,传统方法通常采用视频编码器,但由于高质量视频-文本数据稀缺,NaVILA选择使用图像级VLM,并通过多帧输入模拟时序信息。

在导航任务中,当前帧与历史帧具有不同作用:当前帧提供即时环境信息,历史帧则作为记忆单元支持路径规划。为此,NaVILA设计了专门的导航提示模板,将当前帧与历史帧在文本提示中区分开来,例如使用“current observation:”和“video of historical observations:”作为前缀,从而引导模型更好地理解时空上下文。

在训练数据方面,NaVILA构建了一个多源混合数据集,包括仿真导航数据(如R2R-CE、RxR-CE)、真实人类游览视频(来自YouTube)、辅助导航数据(如ScanQA)以及通用视觉问答数据。特别值得一提的是,论文提出了一种从人类视频中提取导航轨迹的方法:通过熵采样筛选关键帧,利用MASt3R进行姿态估计,再结合VLM和LLM生成自然语言指令。这一流程使得模型能够从真实人类行为中学习连续导航策略。

训练过程采用三阶段策略:首先进行视觉-语言对齐预训练,然后在图文交错语料上进行预训练,最后通过指令微调优化整个模型。在推理阶段,使用正则表达式从LLM输出中解析动作类型和参数,确保指令可执行。

2.2 视觉运动策略

NaVILA的低级控制部分是一个基于视觉的强化学习策略,负责将VLM输出的中级别指令转化为关节运动。该策略在Isaac Lab仿真环境中训练,并直接部署到真实机器人(如Unitree Go2)。

动作空间定义为12个关节的目标位置

,通过刚度与阻尼参数转换为扭矩输入。观测空间包括机器人本体感知数据(如线速度、角速度、关节位置等)以及来自LiDAR的高度图。高度图通过点云体素化生成,每个体素取最低点高度,并应用最大滤波平滑处理。

为了提升策略的鲁棒性,NaVILA采用单阶段强化学习训练方法,避免了传统两阶段训练中的策略蒸馏过程。奖励函数设计涵盖多个方面,包括线速度与角速度跟踪、姿态稳定性、能量消耗等。

此外,还引入了关节加速度惩罚、能量消耗惩罚、身高保持奖励和防滑奖励等。通过域随机化(如质量、摩擦系数、电机强度等)增强仿真到真实的迁移能力。

实验

3.1 高层VLA性能评估

在高层VLA性能评估中,研究者在VLN-CE基准测试上对比了NaVILA与多种现有方法的表现。实验结果显示,NaVILA在R2R-CE与RxR-CE的Val-Unseen分割上均取得了最优性能,其导航误差、成功率等指标显著优于基线模型。特别值得注意的是,NaVILA是首个仅依赖单视角RGB输入即达到与全景视图、里程计等方法相媲美性能的VLN智能体,这证明了其强大的泛化能力。

在跨数据集评估中,NaVILA在未使用RxR训练数据的情况下,在RxR-CE任务上取得了34.3%的成功率,较当前最优模型NaVid提升了10.5个百分点。这一结果进一步验证了模型在未见场景中的适应能力。此外,在空间场景理解任务中,NaVILA在ScanQA基准上的表现也优于多种基于3D数据的大型多模态模型,尤其是在使用64帧输入时,其CIDEr得分达到102.7,显示出卓越的空间推理能力。

3.2 低级运动策略性能

与基于策略蒸馏的方法(如ROA)相比,NaVILA的单阶段RL策略在线速度误差、角速度误差和碰撞率三项指标上均表现更优。特别是在碰撞率方面,NaVILA仅为0.81%,远低于ROA的3.09%,说明其具备更强的障碍物规避能力。

3.3 足式机器人仿真导航性能

为评估足式机器人在VLN任务中的表现,论文提出了新的基准VLN-CE-Isaac,基于Isaac Sim高精度仿真平台。该基准包含1,077条可通行轨迹,覆盖R2R中的多种室内场景。实验结果表明,基于视觉的策略在Go2和H1机器人上均显著优于仅依赖本体感知的“盲策略”,成功率分别提升14%和21%。此外,与使用“Oracle”策略(理想执行)的基线相比,NaVILA在现实物理约束下的性能差距进一步凸显了仿真环境的真实性。

3.4 真实世界部署

在真实世界实验中,NaVILA在25条指令上进行了多次测试,涵盖了办公区、家庭环境与户外场景。实验结果显示,其在简单任务中的成功率达到100%,在复杂任务中也能达到75%以上的成功率。与GPT-4o相比,NaVILA在导航误差与成功率上均具有明显优势。此外,通过在不同机器人平台(如Booster T1人形机器人)上的测试,NaVILA展示了良好的跨平台适应性,无需重新训练即可实现有效导航。

研究者还进行了消融实验,验证了人类视频数据对模型性能的促进作用。结果显示,加入人类游览视频后,模型在户外场景中的成功率显著提升。此外,通过对记忆帧数量的调整,发现8帧历史信息已足以支持大多数导航任务,进一步优化了系统的实时性能。

相关工作总结

论文对视觉导航、视觉语言导航、机器人基础模型和足式机器人运动学习等领域的研究进行了系统梳理。指出当前VLN研究多集中于高层规划,缺乏对底层控制的关注;而足式机器人研究则多局限于本体感知或特定传感器,缺乏与语言指令的结合。NaVILA首次将视觉语言推理与足式机器人的实时运动控制相结合,填补了这一空白。

结论与局限性

NaVILA作为一种新型的视觉-语言-动作框架,通过分层设计与多数据源训练,在腿式机器人导航任务中取得了显著成果。其方法不仅提升了导航的准确性与鲁棒性,还展示了良好的跨场景与跨平台泛化能力。然而,系统仍存在一些局限性,如在复杂环境中的错误恢复能力有限,且基于图像的VLA模型计算开销较大。

未来工作可着眼于长上下文语言模型的应用与更大规模仿真训练的开展,以进一步提升系统的实用性与适应性。

附录与补充材料

附录部分提供了更多消融实验、实现细节和失败案例分析。例如,通过AWQ量化技术,模型在保持性能的同时将推理延迟降低约40%,内存占用减半。此外,还展示了在复杂地形(如沙地、高草、玻璃表面)中的障碍物规避能力,进一步验证了系统的鲁棒性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档