作者:Anqi Li等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2510.23576 项目链接:https://pku-epic.github.io/UrbanVLA-Web/

图1:UrbanVLA 的实际部署展示了在具有未知布局、动态障碍物和不同光照的各种环境中的zero-shot泛化能力,并突出了其执行跨度超过 500 米的长距离城市微移动任务的能力。
旨在解决城市微出行设备(如送货机器人、辅助轮椅)在复杂、动态和非结构化的城市环境中进行长距离、可靠导航的挑战。传统方法,如基于SLAM的导航,严重依赖高精度地图,难以扩展到大规模多变的城市环境。而现有的学习方法通常将导航简化为点目标导航,难以处理导航工具(如谷歌地图)提供的仅有拓扑连续性但几何不精确的粗糙路线指令。此外,现有的VLA模型虽然在短距离导航上表现不错,但在长距离城市导航中,它们难以理解有噪声的路线、遵守复杂的交通规则(如人行道礼仪、交通信号灯)以及适应动态障碍物。
UrbanVLA,一个端到端的路由条件VLA框架。其核心流程如下:
UrbanVLA在模拟和真实世界测试中均取得了SOTA性能。
任务定义。将路由条件的城市导航任务定义如下:在当前时间步T,给定一个由2D坐标序列 其中ᵢ 构成的宏观目标路线(该坐标是在智能体自我中心坐标系下从目标路线上采样的平面坐标),以及一个由C个不同摄像头在时间步拍摄的RGB图像观测序列 :ᵂˣᴴˣ³,智能体需要学习一个导航策略 πτ。其中ττττ 是一个由N个路点构成的导航轨迹,τ 代表了在当前自我中心坐标系下预测的2D位置和朝向,该轨迹能安全地驱动智能体沿着目标路线朝其目的地行驶。
流程概览。图2展示了本方法的整体流程。

利用一个预训练的导航基础模型NavFoM作为我们的基础模型,并采用一个通过监督微调(SFT)和强化学习微调(RFT)组成的两阶段微调策略。具体来说,我们应用一个提示模板(prompt template)将宏观的“路书”指令编码成语言形式 I。遵循现有的VLM方法,如[26], [41], [42],将 I 嵌入以获得语言令牌(language tokens)Eₗ,并使用预训练的视觉编码器对视觉观测Oᵥᵢₛ进行编码以获得视觉令牌(visual tokens)Eᵥ。然后,我们将Eₗ和Eᵥ一同送入大型语言模型(LLM)骨干网络。在SFT阶段,遵循先前的工作,让这个双分支的VLA学习执行两种任务:VideoQA和路由条件的导航。分别使用一个语言头和一个动作头对生成的令牌进行解码,以获取语言回答和导航轨迹。
在RFT阶段,进一步在一个结合了模拟和真实环境专家演示的混合数据集上对UrbanVLA进行微调。本文采用隐式Q学习(IQL),一个被广泛使用的离线强化学习算法,来有效利用这些有限的混合数据,同时缓解分布外(OOD)样本带来的过高估计问题。为了估计每个状态-动作对(s, a)的Q值和V值,将语言指令 I 和视觉观测 Oᵥᵢₛ 编码成一个统一的状态表示 s(使用精调后的LLM骨干网络),并将生成的轨迹(重塑为一维向量)视为动作 a。奖励函数 r(s, a) 经过精心设计,同时考虑了轨迹效率和导航安全,以便在真实世界中高效收集数据,并实现模拟与现实之间的一致性。
高层级路线编码。城市导航任务中的高层级路线指令需要被转换成一种VLA模型可解释的形式,并且要与主流的城市导航工具的数据模式对齐,以便于大规模部署。因此,我们将路线指令转换成一个包含两个部分的结构化语言表示。首先,一个从高层级路线中采样的路点集合,为智能体提供了前方路径的整体几何形状和方向。其次,距离和方向指令(例如,“在30米后右转”)为智能体在路块之间转换提供了必要信息,这是成功进行城市导航的关键场景。
具体来说,给定一个高层级的导航路线R,首先以d米的间距对前方D米范围内的路线轨迹进行重采样(使用D=40,d=2,得到20个路点),并将其转换到机器人坐标系中。随后,在训练时,本文应用一个角点检测算法将路线分割成不同的路块,然后从这些路段中推导出路块级别的距离和方向提示;而在真实世界场景中,这些信息可以直接从城市导航工具的API中获取。最后,将上述信息格式化成一个指令模板,以获得导航指令 I。
VLA模型前向传播。给定多视角RGB观测 :ᵂˣᴴˣ³,对于路由条件的城市导航任务,应用一个视觉滑动窗口来保留最近的k帧图像 ::。遵循近期先进的VLM工作[26], [44], [45],使用两个预训练的视觉编码器(DINOv2和 SigLIP)来编码视觉信息,并将获得的视觉特征在通道维度上拼接,以构成最终的视觉特征 。随后,使用网格池化(grid pooling)策略对特征进行降采样,并使用一个跨模态投影器(双层MLP)将视觉特征投影到LLM骨干网络的嵌入空间中,从而获得视觉令牌。接着,将导航指令 I 嵌入为语言令牌 {E_L}。将所有令牌一同送入一个LLM骨干网络(Qwen2)。模型以两种方式生成令牌:对于导航任务,捕获当前时间步生成的动作令牌 {E_T^A},并通过一个基于MLP的动作模型对其进行解码,以获得导航轨迹 τ:

而对于VideoQA任务,模型会自回归地生成一组语言令牌,然后通过语言模型头进行解码,如图2所示。 您是对的!非常抱歉,我的疏忽导致方法部分的 C 和 D 小节被遗漏了。这是一个严重的错误,感谢您的指正。
我现在为您补上这部分内容的完整、详细的翻译。
监督微调 (Supervised Fine-tuning) 。首先对基础模型NavFoM应用监督微调(SFT)。在此阶段,模型从两方面学习:一是在模拟器中由一个PPO专家生成的城市导航演示,二是捕捉真实世界中人类导航行为的网络规模城市出行数据。SFT阶段旨在为模型注入基础的目标抵达能力,同时让模型接触到城市导航任务的多样性和复杂性,从而增强其向真实世界场景的泛化能力。
利用这类演示数据的一个关键挑战在于,导航“路书”无法直接获得。真实世界的演示通常只提供真值轨迹,而模拟器通常提供由ORCA等全局规划器生成的完美路线信息。如果直接使用这种理想化的路线作为条件,可能会导致模型对输入轨迹产生过拟合,从而损害其在真实世界场景中的泛化能力。
为了解决这个问题,引入了启发式轨迹提升 (Heuristic Trajectory Lifting, HTL) ,这是一种启发式算法,它能从城市导航数据的原始轨迹中“提升”出高层级的路线信息,从而鼓励模型从视觉线索中学习,而不是仅仅依赖于理想化的路线输入。原始轨迹会首先被预处理:我们使用Savitzky-Golay滤波器对网络视频轨迹进行去噪,而ORCA生成的轨迹则直接使用。接着,移除自相交或其他低质量的路径。然后,检测出重要的拐点以形成粗略的路点,并据此将轨迹分割成段。为了捕捉真实世界导航的模糊性,每个路段都会被施加高斯位置噪声,这反映了高层级指令(例如,“直行”)实际上对应的是一个可行的路径走廊,而非单条精确曲线。最后,这些带噪声的路段会被平滑地合并,并以固定的空间步长重新采样,最终得到抽象化后的路线 R。
这个流程使我们能够从模拟和真实世界两种来源生成一个大规模的(高层级路线,视觉观测,轨迹真值)元组数据集,为我们的导航策略的监督微调提供了坚实的基础。我们随后使用这个数据集,通过一个均方误差(MSE)损失函数来优化模型。
强化学习微调 (Reinforcement Fine-tuning) 。在SFT所获得能力的基础上,UrbanVLA在路线跟随、目标抵达以及在多样的城市环境(如交叉路口、转弯和不同街道布局)中导航已表现出强大的性能。为了进一步提升其技能,特别是在碰撞规避和处理模糊线索方面,采用了一种基于隐式Q学习(IQL)的离线强化学习方法,该方法非常适合处理离线数据,并能有效缓解分布外(out-of-distribution)行为引发的问题。
将路由引导的导航任务形式化为一个部分可观察马尔可夫决策过程(POMDP) γ,其中 S 是状态空间,是动作空间,是观测空间,是转移模型,是奖励,γ是折扣因子。在每个时间步,智能体接收一个观测 ,它由多视角视觉输入和一条路线指令组成:。对于用于估计动作价值和状态价值函数的值网络 θ和ψ,其输入状态 s ∈ S 是由LLM骨干网络的隐藏表示 构建的,其中 对应于第n个transformer层最后一个令牌的隐藏状态(直观图示见图2),dim 表示LLM的隐藏维度。这个紧凑的表示在经过跨模态推理后,整合了视觉和语言上下文,可作为策略学习的任务感知嵌入。根据经验,发现使用中间层(n=17)的隐藏状态比顶层状态能产生更好的价值估计,因为后者更倾向于过拟合动作的 logits 而非环境状态,从而导致不稳定的Q函数学习。
动作 a ∈ A 对应于模型预测的导航轨迹 τ,该轨迹由N个导航路点构成。这些路点由三个变量(平面位置和方向)表示,并被重塑为一个向量τ³ᴺ,从而允许在轨迹层面上进行优化。基于上述定义,从离线数据集中学习一个价值函数ψ和一个函数θ,并通过优势加权回归()目标来更新策略π:

其中 θψ 是优势估计,β 是一个逆温度参数,用于权衡模仿学习和性能提升。
奖励函数 r(s, a) 的设计考虑了几个关键因素。首先,它的组成部分应该易于获取,以便在人类专家遥操作期间高效收集数据,而无需大量后处理。其次,奖励函数应同时适用于模拟和真实世界环境,提供一个统一的学习目标以对齐模拟与现实,从而提高数据效率。将其定义为:

其中 表示与真值路线对齐的轨迹完成度的增量,而和分别指示是否发生了碰撞或严重偏离路线走廊。权重系数λ_comp, λ_coll, λ_dev用于平衡效率和安全性,具体数值在章节III-D中指定。这个定义只依赖于现成的或易于测量的量(参见图3中的用户界面),使得学习到的策略能够无缝迁移到真实环境中,并方便了在真实世界实验中的奖励标注。
基于此设计,收集了一个“模拟-真实”混合聚合数据集,其中包含在MetaUrban模拟器中使用PPO专家收集的2,400个片段(约40小时),以及约8小时通过人类遥操作收集的真实世界演示。大规模的模拟数据有助于Qθ(s, a)和Vψ(s)网络的快速收敛,而人类遥操作数据则确保模型能学习适应复杂的真实世界场景。总而言之,RFT阶段旨在高效利用人类遥操作数据,使模型能够识别真实世界部署中的边缘案例,并通过综合考虑路线信息和视觉信息来做出导航决策。
D. 实现细节 (Implementation Details)
模型在一个配备了8块NVIDIA H100 GPU的集群服务器上进行训练,总共耗时约12小时,即96个GPU小时。VideoQA数据集是从LongVU和Sekai中收集的。与导航任务中引入的滑动窗口机制不同,在处理VideoQA任务时,会保留所有视觉帧并输入模型。使用交叉熵损失来监督其结果。
对于提到的角点检测算法,具体采用了一种基于窗口的检测算法:对每个点,我们计算由其邻近k个点构成的向量之间的转角。转角超过阈值的点被标记为候选点。随后的候选点通过取中点进行合并,并通过一个贪婪选择步骤强制实施最小弧长间距,以移除冗余的角点。
在RFT阶段,关于真实世界数据集,收集了视觉观测、通过实时查询导航工具API获得的导航路线指令,以及通过用户界面标注或使用LiDAR-Odometry系统生成的奖励项。我们特意收集了一些导航信息与真实世界状况不一致的场景。奖励函数中的权重系数 λλ和λ 分别被设为0.5, 1, 和 1。
实验部分从模拟器测试和真实世界测试两个维度全面评估了UrbanVLA的性能,并进行了详尽的消融研究。

图 3:UrbanVLA 的实际部署。本系统包括一个配备 GPS、Wi-Fi、摄像头和机载计算单元的四足机器人,以及一个可移动部署的控制台,用于实时监控、发送导航目标、可视化地图和模型预测,以及注释用于强化学习的远程操作数据。




UrbanVLA:路由条件视觉-语言-动作框架,专为城市微出行设计。该框架将导航工具的输出与车载视觉相结合,以实现可扩展且可靠的长距离导航。该模型通过在模拟和网络视频解析的轨迹上进行监督微调(SFT)进行训练,随后利用一个“模拟-真实”混合聚合数据集进行强化学习微调(RFT),以增强其安全性和适应性。本方法不仅改善了避障能力和社交合规性,还为在动态行人环境中部署具身智能体建立了一个实用的框架。未来的工作将探索更广泛的多模态线索,并进一步提高模型对多样化城市环境的适应能力。
[1] UrbanVLA: A Vision-Language-Action Model for Urban Micromobility