Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

闭环端到端精度暴涨19.61%!华科&小米汽车联手打造自动驾驶框架ORION,代码将开源

作者头像
机器之心
发布于 2025-04-11 03:24:09
发布于 2025-04-11 03:24:09
1290
举报
文章被收录于专栏:机器之心机器之心
近年来,端到端(End-to-End,E2E)自动驾驶技术不断进步,但在复杂的闭环交互环境中,由于其因果推理能力有限,仍然难以做出准确决策。虽然视觉 - 语言大模型(Vision-Language Model,VLM)凭借其卓越的理解和推理能力,为端到端自动驾驶带来了新的希望,但现有方法在 VLM 的语义推理空间和纯数值轨迹的行动空间之间仍然存在巨大鸿沟。

除此之外,现有的方法常常通过叠加多帧的图像信息完成时序建模,这会受到 VLM 的 Token 长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION,这是一个通过视觉语言指令指导轨迹生成的端到端自动驾驶框架。ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息,VLM 用于驾驶场景理解和推理,并启发式地利用生成模型对齐了推理空间与动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

图 1:不同的端到端自动驾驶范式的对比

ORION 在具有挑战性的闭环评测 Bench2Drive 数据集上实现了优秀的性能,驾驶得分为 77.74 分,成功率为 54.62%,相比之前的 SOTA 方法分别高出 14.28分和 19.61% 的成功率。

此外,ORION 的代码、模型和数据集将很快开源。

  • 论文标题:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
  • 论文地址:https://arxiv.org/abs/2503.19755
  • 项目地址:https://xiaomi-mlab.github.io/Orion/
  • 代码地址:https://github.com/xiaomi-mlab/Orion
  • 单位:华中科技大学、小米汽车

我们来看一下 ORION 框架下的闭环驾驶能力:

ORION 检测到骑自行车的人并向左变道避免了碰撞。

ORION 检测到右前方的车辆,先执行减速,然后再改变车道。

ORION 识别停车标志并停车,等待一段时间,然后重新启动成功通过十字路口。

主要贡献

本文提出了一个简单且有效的端到端自动驾驶框架 ORION,主要包含如下几方面的贡献:

  • VLM + 生成模型:利用生成模型弥补了 VLM 的推理空间与轨迹的动作空间之间的差距,从而使 ORION 能够理解场景并指导轨迹生成。
  • QT-Former:引入 QT-Former 聚合历史场景信息,使模型能够将历史信息整合到当前推理和动作空间中。
  • 可扩展性:ORION 可以与多种生成模型兼容,实验证明了所提出框架的灵活性。
  • 性能优异:在仿真数据集 Bench2drive 的闭环测试上取得 SOTA 的性能。

研究动机

经典的 E2E 自动驾驶方法通过多任务学习整合感知、预测和规划模块,在开环评估中表现出优秀的能力。然而,在需要自主决策和动态环境交互的闭环基准测试中,由于缺少因果推理能力,这些方法往往表现不佳。

近年来,VLM 凭借其强大的理解和推理能力,为 E2E 自动驾驶带来了新的解决思路。但直接使用 VLM 进行端到端自动驾驶也面临诸多挑战,例如,VLM 的能力主要集中在语义推理空间,而 E2E 方法的输出是动作空间中的数值规划结果。

一些方法尝试直接用 VLM 输出基于文本的规划结果,但 VLM 在处理数学计算和数值推理方面存在不足,且其自回归机制导致只能推断单一结果,无法适应复杂场景。还有些方法通过设计接口,利用 VLM 辅助经典 E2E 方法,但这种方式解耦了 VLM 的推理空间和输出轨迹的动作空间,阻碍了两者的协同优化。

除此之外,长期记忆对于端到端自动驾驶是必要的,因为历史信息通常会影响当前场景中的轨迹规划。现有使用 VLM 进行端到端自动驾驶的方法通常通过拼接多帧图像来进行时间建模。但这会受到 VLM 的输入 Token 的长度限制,并且会增加额外的计算开销。

为了解决上述问题,本文提出了 ORION。ORION 的结构包括 QT-Former、VLM 和生成模型。 ORION 通过 QT-Former 聚合长时间上下文信息,并巧妙地结合了生成模型和 VLM,有效对齐了推理空间和动作空间,实现了视觉问答(VQA)和规划任务的统一端到端优化。

方法概览

具体来说,ORION 通过以下三大核心模块,显著提升了自动驾驶系统的决策能力:

1. QT-Former:长时序上下文聚合

ORION 引入了 QT-Former,通过引入历史查询和记忆库,有效聚合长时视觉上下文信息,增强了模型对历史场景的理解能力。相比现有方法,QT-Former 不仅减少了计算开销,还能更好地捕捉静态交通元素和动态物体的运动状态。

2. VLM:场景推理与指令生成

ORION 利用 VLM 的强大推理能力,结合用户指令、长时和当前的视觉信息,能够对驾驶场景进行多维度分析,包括场景描述、关键物体行为分析、历史信息回顾和动作推理,并且利用自回归特性聚合整个场景信息以生成规划 token,用来指导生成模型进行轨迹预测。

3. 生成模型:推理与动作空间对齐

ORION 通过生成模型,将 VLM 的推理空间与预测轨迹的动作空间对齐。生成模型使用变分自编码器(VAE)或扩散模型,以规划 token 作为条件去控制多模态轨迹的生成,确保模型在复杂场景中做出合理的驾驶决策。

图 2:ORION 整体架构图

实验结果

本文在 Bench2Drive 数据集上进行闭环评估测试,如表 1 所示,ORION 取得了卓越的性能,其驾驶得分(DS)和成功率(SR)分别达到了 77.74 和 54.62%,相比现在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展现了 ORION 强大的驾驶能力。

表 1:Bench2Drive 上闭环评估和开环评估的性能对比

此外,如表 2 所示,ORION 还在 Bench2Drive 的多能力评估中表现优异,特别是在超车(71.11%)、紧急刹车(78.33%)和交通标志识别(69.15%)等场景中,ORION 的表现远超其他方法。这得益于 ORION 通过 VLM 对驾驶场景的理解,能够更好地捕捉驾驶场景之间的因果关系。

表 2:Bench2Drive 上多能力评估测试对比

可解释性结果

下图展示了 ORION 在 Bench2Drive 的闭环评估场景中的可解释性结果。ORION 可以理解场景中正确的因果关系,并做出准确的驾驶决策,然后根据推理信息指导规划轨迹预测。

图 3:可解释性结果图

总结

ORION 框架为端到端自动驾驶提供了一种全新的解决方案。ORION 通过生成模型实现语义与动作空间对齐,引入 QT-Former 模块聚合长时序场景上下文信息,并联合优化视觉理解与路径规划任务,在闭环仿真中取得了卓越的性能。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑
3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。
新智元
2025/03/31
1410
AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑
毫末智行,首推自动驾驶「ChatGPT」
机器智行原创 作者:于雷 AI大‍模型 DriveGPT 重塑汽车智能化技术路线。 2 月 17 日,毫末智行预告了即将发布自动驾驶生成式大模型 DriveGPT。与近几个月大火的 ChatGPT 一样,DriveGPT 同样都所采用了 Transformer 模型,同时也使用了 RLHF(人类反馈强化技术)算法进行强化训练;与 ChatGPT 使用自然语言文本进行训练不同,DriveGPT 使用的是驾驶场景数据进行模型训练,并通过不断引入真实人驾接管数据,让模型自我优化,逐步训练自己不断给出更高质量的答案
机器之心
2023/04/21
3110
毫末智行,首推自动驾驶「ChatGPT」
做自动驾驶涉及哪些技术?超全总结上线
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
博文视点Broadview
2023/09/09
1.3K0
做自动驾驶涉及哪些技术?超全总结上线
thinktwice:用于端到端自动驾驶的可扩展解码器(已开源)
题目:Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving
BBuf
2023/08/22
3860
thinktwice:用于端到端自动驾驶的可扩展解码器(已开源)
驶向未来,首个多视图预测+规划自动驾驶世界模型来了
近期,世界模型的概念引发了火热浪潮,而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队,首次提出了一种名为 Drive-WM 的全新多视图世界模型,旨在增强端到端自动驾驶规划的安全性。
机器之心
2023/12/05
3030
驶向未来,首个多视图预测+规划自动驾驶世界模型来了
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。
机器之心
2024/02/26
3140
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
4540
下一代自动驾驶系统,少不了大模型,系统调研来了
随着大语言模型 (LLM) 和视觉基础模型 (VFM) 的出现,受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里,LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力,但其在驾驶系统中的关键挑战、机遇和未来研究方向仍然缺乏文章对其详细阐明。
机器之心
2023/12/20
4060
下一代自动驾驶系统,少不了大模型,系统调研来了
【源头活水】看Diffusion模型如何提升端到端自动驾驶的能力!!!
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/05/14
4720
【源头活水】看Diffusion模型如何提升端到端自动驾驶的能力!!!
大模型+机器人,详尽的综述报告来了,多位华人学者参与
大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。
机器之心
2023/12/28
6680
大模型+机器人,详尽的综述报告来了,多位华人学者参与
地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型
OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平,强化学习训练和推理技术是其中的关键。而在自动驾驶,近年来端到端模型大幅提升了规划控车的效果,但是由于端到端模型缺乏常识和推理能力,在处理长尾问题上仍然效果不佳。
机器之心
2025/03/24
1440
地平线提出AlphaDrive,首个基于GRPO强化学习和规划推理实现自动驾驶大模型
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1450
每日学术速递2.20
从ChatGPT思考自动驾驶将如何前行
自动驾驶汽车有望彻底改变多个行业,包括人员和货物运输。而实际上面向L4+ 自动驾驶汽车系统的开发则是一项重大挑战。如今,主要瓶颈则是车辆安全处理驾驶事件“长尾效应”的能力(即道路上遇到的许多罕见情况下可能会出现的不安全行为),实际上这在世界级自动驾驶研发进程上也未能真正完全的实现。而在2022年11月30日发布的ChatGPT的研发思路却为我们带来了进阶开发的整体思路。
一点人工一点智能
2023/02/28
5410
大模型竟塞进自动驾驶,AI会解说自己怎么开车了!
最近,Wayve推出了基于视觉语言行动的大模型(VLAMs)的自动驾驶交互大模型LINGO-1,把大语言模型和自动驾驶进行了深度融合。
新智元
2023/09/19
4360
大模型竟塞进自动驾驶,AI会解说自己怎么开车了!
自动驾驶中的决策规划算法概述
作者简介:byheaven,2018年加入美团无人配送部,目前在pnc组负责决策规划相关工作。
美团无人配送
2019/07/30
3.6K0
自动驾驶中的决策规划算法概述
ECCV2022解读:首篇基于环视相机的端到端自动驾驶框架!
项目地址: https://github.com/OpenPerceptionX/ST-P3
用户1150922
2022/09/19
8200
ECCV2022解读:首篇基于环视相机的端到端自动驾驶框架!
每日学术速递12.19
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2024/12/19
1580
每日学术速递12.19
从特斯拉到英伟达,那些端到端自动驾驶研发系统有何不同?
Nvidia是比较早做端到端控制车辆工作的公司,其方法训练CNN模型完成从单个前向摄像头的图像像素到车辆控制的映射。 其系统自动学习一些处理步骤的内部表示,比如只用转向角作为训练信号去检测道路特征。
AI科技大本营
2019/07/14
9560
分层多代理驾驶系统 AD-H,利用语言模型提升自动驾驶的适应性和性能 !
自动驾驶系统代表了当代交通的重大进步,它要求车辆能够在大型和动态环境中自动运行。随着多模态大语言模型以及基于MLLM的代理在探索MLLM作为自动驾驶系统的核心代理,以实现更好的感知、推理和交互方面取得了显著进展。这些方法采用的主要范式是使用MLLM将高级上下文指令转换为低级控制信号。
AIGC 先锋科技
2024/07/08
1880
分层多代理驾驶系统 AD-H,利用语言模型提升自动驾驶的适应性和性能 !
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
本文的作者均来自北京大学与智元机器人联合实验室,通讯作者为北京大学计算机学院助理教授董豪。目前团队研究方向覆盖智能机器人的泛化操纵、具身导航和感知自主决策。团队持续开放联合实习生岗位,提供充足的机器人本体和计算资源。
机器之心
2025/02/03
1650
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
推荐阅读
相关推荐
AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档