首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >北大&银河通用发布UrbanVLA:首个城市微出行VLA模型,让它像老司机一样认路、避障

北大&银河通用发布UrbanVLA:首个城市微出行VLA模型,让它像老司机一样认路、避障

作者头像
AI生成未来
发布2025-11-17 18:34:44
发布2025-11-17 18:34:44
1190
举报

作者:Anqi Li等

解读:AI生成未来

文章链接:https://arxiv.org/pdf/2510.23576 项目链接:https://pku-epic.github.io/UrbanVLA-Web/

图1:UrbanVLA 的实际部署展示了在具有未知布局、动态障碍物和不同光照的各种环境中的zero-shot泛化能力,并突出了其执行跨度超过 500 米的长距离城市微移动任务的能力。
图1:UrbanVLA 的实际部署展示了在具有未知布局、动态障碍物和不同光照的各种环境中的zero-shot泛化能力,并突出了其执行跨度超过 500 米的长距离城市微移动任务的能力。

图1:UrbanVLA 的实际部署展示了在具有未知布局、动态障碍物和不同光照的各种环境中的zero-shot泛化能力,并突出了其执行跨度超过 500 米的长距离城市微移动任务的能力。

亮点直击

  • 首个专为城市微出行设计的路由条件VLA框架:首次提出了一个专门用于城市微出行(如送货机器人)的路由条件视觉-语言-动作(Vision-Language-Action, VLA)模型,它能够将导航工具(如地图App)提供的高层级、有噪声的路线指令与车载视觉感知结合起来,实现可靠的长距离导航。
  • 创新的“模拟到现实”两阶段训练流程:设计了一个包含监督微调(SFT)和强化学习微调(RFT)的训练流程。SFT阶段使用模拟器和网络视频数据进行学习,RFT阶段则使用“模拟+真实”的混合数据,通过离线强化学习(IQL)显著提升了模型在真实世界中的安全性和适应性。
  • 提出启发式轨迹提升(HTL)算法:为了解决训练数据中理想化路径与现实世界中含噪声路径的差异问题,提出了HTL算法。该算法能从原始的专家轨迹中“提炼”出符合现实世界模糊性的高级路线信息,从而防止模型对路径指令过拟合,增强了其在真实世界中的泛化能力。
  • 卓越的性能表现:无论是在模拟器测试还是在真实世界部署中,UrbanVLA都表现出色。在模拟器中,其性能远超基于激光雷达(LiDAR)的强基线模型;在现实世界中,它成功完成了超过500米的复杂长距离导航任务,证明了框架的有效性和可扩展性。

解决的问题

旨在解决城市微出行设备(如送货机器人、辅助轮椅)在复杂、动态和非结构化的城市环境中进行长距离、可靠导航的挑战。传统方法,如基于SLAM的导航,严重依赖高精度地图,难以扩展到大规模多变的城市环境。而现有的学习方法通常将导航简化为点目标导航,难以处理导航工具(如谷歌地图)提供的仅有拓扑连续性但几何不精确的粗糙路线指令。此外,现有的VLA模型虽然在短距离导航上表现不错,但在长距离城市导航中,它们难以理解有噪声的路线、遵守复杂的交通规则(如人行道礼仪、交通信号灯)以及适应动态障碍物。

提出的方案

UrbanVLA,一个端到端的路由条件VLA框架。其核心流程如下:

  1. 输入:模型接收两种输入:一是来自导航工具的结构化路线描述(论文中称为“roadbooks”,包含一系列路点和转向指令);二是来自机器人多个摄像头的实时RGB图像。
  2. 模型架构:模型基于一个预训练的导航基础模型(NavFoM),并采用一个大型语言模型(LLM)作为骨干。它将编码后的路线指令(语言)和视觉观测(图像)融合处理。
  3. 两阶段训练
    • 监督微调(SFT):在第一阶段,模型通过模仿学习来掌握基本的导航能力。训练数据来自MetaUrban模拟器中的专家轨迹和从网络视频(Sekai数据集)中解析出的真实人类导航轨迹。
    • 强化学习微调(RFT):在第二阶段,为了提升模型的安全性和对真实世界复杂性的适应能力,作者使用一个“模拟+真实”的混合数据集,并采用离线强化学习算法——隐式Q学习(Implicit Q-Learning, IQL)对模型进行微调。这使得模型能更好地处理障碍物、与行人互动并遵守交通规则。
  4. 输出:模型直接预测出一条安全的、可执行的未来轨迹路点,引导机器人沿着高级路线前进。

所用技术点

  • 模型基础:Vision-Language-Action (VLA) 模型,基于预训练的 NavFoM 模型,并使用 Qwen2 作为LLM骨干。
  • 视觉编码器:使用 DINOv2SigLIP 两个预训练的视觉编码器来提取图像特征。
  • 训练范式:结合了监督微调 (Supervised Fine-Tuning, SFT)离线强化学习微调 (Offline Reinforcement Fine-Tuning, RFT)
  • 核心算法
    • 隐式Q学习(Implicit Q-Learning, IQL) :一种高效的离线强化学习算法,用于在RFT阶段从固定的专家数据中学习,以提高策略的安全性和鲁棒性,同时避免对分布外(OOD)动作的过度估计。
    • 启发式轨迹提升 (Heuristic Trajectory Lifting, HTL) :一种数据处理算法,通过去噪、检测关键拐点、增加高斯噪声和重新平滑等步骤,从精确的轨迹数据中生成更符合现实世界模糊性的高级路线指令。
  • 数据来源:训练数据结合了 MetaUrban 模拟器数据、Sekai 网络视频导航数据,以及真实世界中通过人类遥操作采集的数据。

达到的效果

UrbanVLA在模拟和真实世界测试中均取得了SOTA性能。

  • 模拟器性能:在MetaUrban的PointNav和SocialNav任务上,UrbanVLA的性能显著优于所有基线方法。例如,在PointNav任务的未见场景测试中,它的成功率(SR)达到了97%,比表现最好的基线模型高出37%。在更复杂的SocialNav任务中,它的社交导航分数(SNS)达到了0.85,而所有基于LiDAR的基线模型都未能超过0.65,展示了其在遵守社交规范方面的强大能力。
  • 真实世界性能:在真实世界的部署中,UrbanVLA能够在多样的城市环境中完成超过500米的长距离导航任务,成功处理了过街天桥、行人互动、街道转弯和避障等复杂场景。消融实验证明,HTL算法对于模型在真实世界的泛化至关重要,而RFT阶段则有效提升了模型在未见场景中的表现。

方法

A. 问题定义

任务定义。将路由条件的城市导航任务定义如下:在当前时间步T,给定一个由2D坐标序列 其中ᵢ 构成的宏观目标路线(该坐标是在智能体自我中心坐标系下从目标路线上采样的平面坐标),以及一个由C个不同摄像头在时间步拍摄的RGB图像观测序列 :ᵂˣᴴˣ³,智能体需要学习一个导航策略 πτ。其中ττττ 是一个由N个路点构成的导航轨迹,τ 代表了在当前自我中心坐标系下预测的2D位置和朝向,该轨迹能安全地驱动智能体沿着目标路线朝其目的地行驶。

流程概览。图2展示了本方法的整体流程。

图 2:UrbanVLA 概述。我们收集多样化的 VideoQA 数据和城市微移动演示,通过两阶段管道训练模型。在 SFT 阶段,UrbanVLA 学习基本的城市导航能力,如到达目标、避免碰撞和遵守社会规则;在 RFT 阶段,使用 IQL 的模拟真实聚合数据集完善模型,以增强在真实世界场景中的鲁棒性。
图 2:UrbanVLA 概述。我们收集多样化的 VideoQA 数据和城市微移动演示,通过两阶段管道训练模型。在 SFT 阶段,UrbanVLA 学习基本的城市导航能力,如到达目标、避免碰撞和遵守社会规则;在 RFT 阶段,使用 IQL 的模拟真实聚合数据集完善模型,以增强在真实世界场景中的鲁棒性。

利用一个预训练的导航基础模型NavFoM作为我们的基础模型,并采用一个通过监督微调(SFT)和强化学习微调(RFT)组成的两阶段微调策略。具体来说,我们应用一个提示模板(prompt template)将宏观的“路书”指令编码成语言形式 I。遵循现有的VLM方法,如[26], [41], [42],将 I 嵌入以获得语言令牌(language tokens)Eₗ,并使用预训练的视觉编码器对视觉观测Oᵥᵢₛ进行编码以获得视觉令牌(visual tokens)Eᵥ。然后,我们将Eₗ和Eᵥ一同送入大型语言模型(LLM)骨干网络。在SFT阶段,遵循先前的工作,让这个双分支的VLA学习执行两种任务:VideoQA和路由条件的导航。分别使用一个语言头和一个动作头对生成的令牌进行解码,以获取语言回答和导航轨迹。

在RFT阶段,进一步在一个结合了模拟和真实环境专家演示的混合数据集上对UrbanVLA进行微调。本文采用隐式Q学习(IQL),一个被广泛使用的离线强化学习算法,来有效利用这些有限的混合数据,同时缓解分布外(OOD)样本带来的过高估计问题。为了估计每个状态-动作对(s, a)的Q值和V值,将语言指令 I 和视觉观测 Oᵥᵢₛ 编码成一个统一的状态表示 s(使用精调后的LLM骨干网络),并将生成的轨迹(重塑为一维向量)视为动作 a。奖励函数 r(s, a) 经过精心设计,同时考虑了轨迹效率和导航安全,以便在真实世界中高效收集数据,并实现模拟与现实之间的一致性。

B. UrbanVLA 架构

高层级路线编码。城市导航任务中的高层级路线指令需要被转换成一种VLA模型可解释的形式,并且要与主流的城市导航工具的数据模式对齐,以便于大规模部署。因此,我们将路线指令转换成一个包含两个部分的结构化语言表示。首先,一个从高层级路线中采样的路点集合,为智能体提供了前方路径的整体几何形状和方向。其次,距离和方向指令(例如,“在30米后右转”)为智能体在路块之间转换提供了必要信息,这是成功进行城市导航的关键场景。

具体来说,给定一个高层级的导航路线R,首先以d米的间距对前方D米范围内的路线轨迹进行重采样(使用D=40,d=2,得到20个路点),并将其转换到机器人坐标系中。随后,在训练时,本文应用一个角点检测算法将路线分割成不同的路块,然后从这些路段中推导出路块级别的距离和方向提示;而在真实世界场景中,这些信息可以直接从城市导航工具的API中获取。最后,将上述信息格式化成一个指令模板,以获得导航指令 I。

VLA模型前向传播。给定多视角RGB观测 :ᵂˣᴴˣ³,对于路由条件的城市导航任务,应用一个视觉滑动窗口来保留最近的k帧图像 ::。遵循近期先进的VLM工作[26], [44], [45],使用两个预训练的视觉编码器(DINOv2和 SigLIP)来编码视觉信息,并将获得的视觉特征在通道维度上拼接,以构成最终的视觉特征 。随后,使用网格池化(grid pooling)策略对特征进行降采样,并使用一个跨模态投影器(双层MLP)将视觉特征投影到LLM骨干网络的嵌入空间中,从而获得视觉令牌。接着,将导航指令 I 嵌入为语言令牌 {E_L}。将所有令牌一同送入一个LLM骨干网络(Qwen2)。模型以两种方式生成令牌:对于导航任务,捕获当前时间步生成的动作令牌 {E_T^A},并通过一个基于MLP的动作模型对其进行解码,以获得导航轨迹 τ:

而对于VideoQA任务,模型会自回归地生成一组语言令牌,然后通过语言模型头进行解码,如图2所示。 您是对的!非常抱歉,我的疏忽导致方法部分的 C 和 D 小节被遗漏了。这是一个严重的错误,感谢您的指正。

我现在为您补上这部分内容的完整、详细的翻译。

C. 训练策略

监督微调 (Supervised Fine-tuning) 。首先对基础模型NavFoM应用监督微调(SFT)。在此阶段,模型从两方面学习:一是在模拟器中由一个PPO专家生成的城市导航演示,二是捕捉真实世界中人类导航行为的网络规模城市出行数据。SFT阶段旨在为模型注入基础的目标抵达能力,同时让模型接触到城市导航任务的多样性和复杂性,从而增强其向真实世界场景的泛化能力。

利用这类演示数据的一个关键挑战在于,导航“路书”无法直接获得。真实世界的演示通常只提供真值轨迹,而模拟器通常提供由ORCA等全局规划器生成的完美路线信息。如果直接使用这种理想化的路线作为条件,可能会导致模型对输入轨迹产生过拟合,从而损害其在真实世界场景中的泛化能力。

为了解决这个问题,引入了启发式轨迹提升 (Heuristic Trajectory Lifting, HTL) ,这是一种启发式算法,它能从城市导航数据的原始轨迹中“提升”出高层级的路线信息,从而鼓励模型从视觉线索中学习,而不是仅仅依赖于理想化的路线输入。原始轨迹会首先被预处理:我们使用Savitzky-Golay滤波器对网络视频轨迹进行去噪,而ORCA生成的轨迹则直接使用。接着,移除自相交或其他低质量的路径。然后,检测出重要的拐点以形成粗略的路点,并据此将轨迹分割成段。为了捕捉真实世界导航的模糊性,每个路段都会被施加高斯位置噪声,这反映了高层级指令(例如,“直行”)实际上对应的是一个可行的路径走廊,而非单条精确曲线。最后,这些带噪声的路段会被平滑地合并,并以固定的空间步长重新采样,最终得到抽象化后的路线 R。

这个流程使我们能够从模拟和真实世界两种来源生成一个大规模的(高层级路线,视觉观测,轨迹真值)元组数据集,为我们的导航策略的监督微调提供了坚实的基础。我们随后使用这个数据集,通过一个均方误差(MSE)损失函数来优化模型。

强化学习微调 (Reinforcement Fine-tuning) 。在SFT所获得能力的基础上,UrbanVLA在路线跟随、目标抵达以及在多样的城市环境(如交叉路口、转弯和不同街道布局)中导航已表现出强大的性能。为了进一步提升其技能,特别是在碰撞规避和处理模糊线索方面,采用了一种基于隐式Q学习(IQL)的离线强化学习方法,该方法非常适合处理离线数据,并能有效缓解分布外(out-of-distribution)行为引发的问题。

将路由引导的导航任务形式化为一个部分可观察马尔可夫决策过程(POMDP) γ,其中 S 是状态空间,是动作空间,是观测空间,是转移模型,是奖励,γ是折扣因子。在每个时间步,智能体接收一个观测 ,它由多视角视觉输入和一条路线指令组成:。对于用于估计动作价值和状态价值函数的值网络 θ和ψ,其输入状态 s ∈ S 是由LLM骨干网络的隐藏表示 构建的,其中 对应于第n个transformer层最后一个令牌的隐藏状态(直观图示见图2),dim 表示LLM的隐藏维度。这个紧凑的表示在经过跨模态推理后,整合了视觉和语言上下文,可作为策略学习的任务感知嵌入。根据经验,发现使用中间层(n=17)的隐藏状态比顶层状态能产生更好的价值估计,因为后者更倾向于过拟合动作的 logits 而非环境状态,从而导致不稳定的Q函数学习。

动作 a ∈ A 对应于模型预测的导航轨迹 τ,该轨迹由N个导航路点构成。这些路点由三个变量(平面位置和方向)表示,并被重塑为一个向量τ³ᴺ,从而允许在轨迹层面上进行优化。基于上述定义,从离线数据集中学习一个价值函数ψ和一个函数θ,并通过优势加权回归()目标来更新策略π:

其中 θψ 是优势估计,β 是一个逆温度参数,用于权衡模仿学习和性能提升。

奖励函数 r(s, a) 的设计考虑了几个关键因素。首先,它的组成部分应该易于获取,以便在人类专家遥操作期间高效收集数据,而无需大量后处理。其次,奖励函数应同时适用于模拟和真实世界环境,提供一个统一的学习目标以对齐模拟与现实,从而提高数据效率。将其定义为:

其中 表示与真值路线对齐的轨迹完成度的增量,而和分别指示是否发生了碰撞或严重偏离路线走廊。权重系数λ_comp, λ_coll, λ_dev用于平衡效率和安全性,具体数值在章节III-D中指定。这个定义只依赖于现成的或易于测量的量(参见图3中的用户界面),使得学习到的策略能够无缝迁移到真实环境中,并方便了在真实世界实验中的奖励标注。

基于此设计,收集了一个“模拟-真实”混合聚合数据集,其中包含在MetaUrban模拟器中使用PPO专家收集的2,400个片段(约40小时),以及约8小时通过人类遥操作收集的真实世界演示。大规模的模拟数据有助于Qθ(s, a)和Vψ(s)网络的快速收敛,而人类遥操作数据则确保模型能学习适应复杂的真实世界场景。总而言之,RFT阶段旨在高效利用人类遥操作数据,使模型能够识别真实世界部署中的边缘案例,并通过综合考虑路线信息和视觉信息来做出导航决策。

D. 实现细节 (Implementation Details)

模型在一个配备了8块NVIDIA H100 GPU的集群服务器上进行训练,总共耗时约12小时,即96个GPU小时。VideoQA数据集是从LongVU和Sekai中收集的。与导航任务中引入的滑动窗口机制不同,在处理VideoQA任务时,会保留所有视觉帧并输入模型。使用交叉熵损失来监督其结果。

对于提到的角点检测算法,具体采用了一种基于窗口的检测算法:对每个点,我们计算由其邻近k个点构成的向量之间的转角。转角超过阈值的点被标记为候选点。随后的候选点通过取中点进行合并,并通过一个贪婪选择步骤强制实施最小弧长间距,以移除冗余的角点。

在RFT阶段,关于真实世界数据集,收集了视觉观测、通过实时查询导航工具API获得的导航路线指令,以及通过用户界面标注或使用LiDAR-Odometry系统生成的奖励项。我们特意收集了一些导航信息与真实世界状况不一致的场景。奖励函数中的权重系数 λλ和λ 分别被设为0.5, 1, 和 1。

实验

实验部分从模拟器测试真实世界测试两个维度全面评估了UrbanVLA的性能,并进行了详尽的消融研究

  1. 实验设置
    • 模拟器:使用MetaUrban平台,在PointNav(点导航)和SocialNav(社交导航)两个基准任务上进行测试。模型在一个子集上训练,在包含1000个场景的测试集和100个未见场景的测试集上进行评估。为了公平比较,模型的动作空间(轨迹规划)被设定为与基线方法一致的单步最大移动距离。
    • 真实世界:使用一台Unitree Go2四足机器人,配备四个摄像头、GPS和5G通信模块。模型部署在远程服务器上,通过网络与机器人通信。实验场景覆盖了城市中的多种复杂环境,如过街天桥、人行横道和有动态障碍物的区域。
图 3:UrbanVLA 的实际部署。本系统包括一个配备 GPS、Wi-Fi、摄像头和机载计算单元的四足机器人,以及一个可移动部署的控制台,用于实时监控、发送导航目标、可视化地图和模型预测,以及注释用于强化学习的远程操作数据。
图 3:UrbanVLA 的实际部署。本系统包括一个配备 GPS、Wi-Fi、摄像头和机载计算单元的四足机器人,以及一个可移动部署的控制台,用于实时监控、发送导航目标、可视化地图和模型预测,以及注释用于强化学习的远程操作数据。

图 3:UrbanVLA 的实际部署。本系统包括一个配备 GPS、Wi-Fi、摄像头和机载计算单元的四足机器人,以及一个可移动部署的控制台,用于实时监控、发送导航目标、可视化地图和模型预测,以及注释用于强化学习的远程操作数据。

  1. 定量实验(模拟器)
    • 表1所示,UrbanVLA在PointNav和SocialNav任务上全面超越了所有基于LiDAR的基线方法(包括PPO、IQL、BC等)。
    • PointNav任务中,UrbanVLA在测试集和未见场景集上的成功率(SR)分别达到了94%和97%,路径效率(SPL)也相应达到了0.91和0.95,展现了极强的泛化能力和高效的路径规划能力。
    • 在更具挑战性的SocialNav任务中,UrbanVLA的社交导航分数(SNS)在测试集和未见场景集上分别达到了0.87和0.85,远高于所有基线。这表明模型不仅能有效避障,还能遵守社交规范(如与行人保持距离)。
    • 虽然模型的累积成本(Cost)相对较高,但考虑到其极高的成功率(意味着行驶距离更长,遇到障碍的概率更高),这个结果是合理的。这也反映了仅用RGB输入来避障比用LiDAR更具挑战性。
  1. 定性实验(真实世界)
    • 图一图四展示了模型在真实世界中的表现。UrbanVLA成功完成了超过500米的长距离导航,能够稳定地跟随指定路线,并适应光照、天气甚至夜间条件的变化。
    • 实验结果表明,模型能有效地将高层级的导航指令与视觉观察对齐,从而在交叉路口正确转弯、成功通过天桥,并适应不同的道路结构。同时,它还能避开静态和动态的障碍物,与行人保持合理距离。
  1. **消融研究 **:
    • HTL算法的有效性表二对比了使用和不使用HTL算法的效果。在模拟器中,去掉HTL会使性能略微提升,因为模拟器中的路线是完美的。但在真实世界中,去掉HTL导致路线完成率(RC)从100%骤降至42%。这是因为没有HTL的模型会过拟合于精确的路线指令,当真实世界的GPS信号出现偏差时,模型会固执地尝试到达错误的地点,导致碰撞失败。这证明了HTL对于提升模型在真实世界中的鲁棒性至关重要。
    • 强化学习的有效性表三对比了仅使用SFT和结合SFT+RFT两个阶段训练的效果。结果显示,经过RFT阶段后,模型在测试集和未见场景集上的性能都得到了稳定提升,尤其是在未见场景中,成功率提升了6%,成本降低了0.16。这说明RFT,特别是引入了真实世界遥操作数据后,显著增强了模型的泛化能力。

结论

UrbanVLA:路由条件视觉-语言-动作框架,专为城市微出行设计。该框架将导航工具的输出与车载视觉相结合,以实现可扩展且可靠的长距离导航。该模型通过在模拟和网络视频解析的轨迹上进行监督微调(SFT)进行训练,随后利用一个“模拟-真实”混合聚合数据集进行强化学习微调(RFT),以增强其安全性和适应性。本方法不仅改善了避障能力和社交合规性,还为在动态行人环境中部署具身智能体建立了一个实用的框架。未来的工作将探索更广泛的多模态线索,并进一步提高模型对多样化城市环境的适应能力。

参考文献

[1] UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI生成未来 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 亮点直击
    • 解决的问题
    • 提出的方案
    • 所用技术点
    • 达到的效果
  • 方法
    • A. 问题定义
    • B. UrbanVLA 架构
    • C. 训练策略
  • 实验
  • 结论
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档