文章/答案/技术大牛

发布

工业领域的deepseek时刻！

文章来源：企鹅号 - 亨特hunter

下周，英伟达GPU技术大会(GTC )大会将会召开。

从相关预告来看，理想自动驾驶贾鹏老师将做主题为【VLA：迈向自动驾驶物理智能体的关键一步】的报告。预告称：

理想 VLA 模型将快慢系统结合为一个单一大模型并赋予该模型自主决定何时采用慢思维的能力。它实现了空间感知与理解、开放世界知识、语言推理和行动策略的统一并进行联合训练和优化。此模型已经部署在下一代单 NVIDIA DRIVE AGX 的车载平台上，展现出了诸多令人兴奋的特性和能力。这套系统可以被视为一个物理世界智能体的雏形，通过语言自然地与用户互动，执行复杂、开放世界的驾驶任务。这一进步不仅标志着技术上的飞跃，也预示着一种全新、前所未有的自动驾驶产品形态的出现。

汽车智能驾驶领域的VLA模型要来了。

除了理想的分享。

周末小鹏汽车何小鹏在两会的采访中也表示，类似于汽车L3级别的机器人可能会在明年量产，而根据他之前的发文和采访，实现这样功能的机器人需要的也是一个成熟的VLA模型。

视觉 - 语言 - 动作（VLA）模型是什么这个问题我在之前的文章只出卖肉体是不够的...中写到过。

由于很多车企的技术是个黑箱子，没有对外公布，我们不知道他们是什么样的技术，因此只能用有大量对外论文和新文的理想来举例子。

理想现在的智驾模型是端到端+VLM。

二者的组合可以理解为是，端到端大模型负责开车，但由于端到端处理不了复杂场景，也不识字（识别不了ETC，潮汐车道），因此需要VLM 提供意见，为少量复杂场景兜底。

这种组合虽然弥补了端到端大模型的不足，但由于二者需要握手，VLM把指令传给端到端，VLM模型计算速度比较慢，再加上握手的传递信息的时间，这样的组合在处理复杂问题时往往会力不从心。

那VLA能实现什么样的功能呢？

我觉得有三个维度的功能可以期待。

第一是真正通往L3的智能驾驶。

最近特斯拉FSD入华，大家应该看了大量的测评，在这些测评中虽然头部智驾企业都表现出了非常强的能力，但在超过60km的测试中，一家车企都没有实现过0接管。

这里主要问题有两个，首先虽然车企都号称自己是端到端，但各家车企都不是真正的端到端，往往还是要通过多个步骤来实现智驾，比如都需要大模型决策，输出决策为轨迹，轨迹输出控制细节。

这意味着更长的时延。要知道开车的过程中，开好车和反应速度有很大的关系，反应越快发现危险越早，就越能舒适的做出应对，不会急刹重刹。

VLA就是真正的端到端，没有任何握手问题，决策速度会变快，智驾的体验也会变好。

其次，VLA模型泛化能力明显加强，而且真的可能会出现涌现。

目前虽然各个车企都用大量数据去训练智能驾驶，但我们要知道哪怕是全世界最优秀的司机也不可能一辈子驾驶不出现问题。

开车这件事就是有可能出现大量的突发意外情况，这种意外情况可能是训练的时候没有训练到的。

这个时候就需要一些人工智能涌现的能力来解决，通过能力泛化的方式来解决。

简单来说，VLA的实现可以帮助汽车的智能驾驶能力更加强大。

第二个维度是交互上的变化。

VLA将很有可能支持自然语言交互。

我举个例子，今天你开车送老人，你需要车开的平稳一点，你可以告诉他，今天请开的平稳一些，慢一些。

导航出现了错误，需要调整，你可以告诉他，这里不要直行了，右转绕路。

这种支持自然语言的交互在某种程度上会打开智驾的黑盒子，我们可以自然语言和智驾交互，智驾也可以通过自然语言和我们交互。

这意味着智驾可以从黑盒子变得可理解，这会大大降低监管的理解成本，推动法律法规的完善。

第三个维度就是用于机器人等其他领域了。

比如在工业领域，如果VLA有所应用，那么一些定制需求也将可以被完成。过去车企都在将就SKU的精简化，因为这个样子最节省成本，现在一个产线同一个机械臂就可以针对不同的零部件完成不同的工作。

这样企业可以在同样节省成本的背景下实现多SKU的生产，实现更柔性的生产。

这样的多模态能力在很多领域都可以泛化，比如未来是不是可以有自动整理的冰箱，衣柜。

一个可以使用自然语言交互控制的多模态模型，他的应用想象空间是巨大的，绝不止一个智能驾驶。

我们回顾deepseek时刻，中国企业通过自身的努力实现了对Open AI的追赶，甚至在部分领域提供了新的研究方法和策略。

在智能驾驶领域，虽然特斯拉中国版的FSD因为适配性的问题表现不好，但从特斯拉产品的细节表现以及在美国的表现中，我们还是看到一个更加强大的智能驾驶模型。

VLA是工业场景中有巨大应用空间的多模态大模型，对于中国这个制造业大国来说，在工业，制造业相关的AI保持全球的竞争力非常重要，甚至比在GPT这种文字模型中保持竞争力更重要。

我们期待着GTC大会上中国VLA模型的发布，更期待搭载着中国VLA模型的中国工业品在未来发布上市。

deepseek是中国科技追赶美国的开始，上周不少人惊呼manus是下一个deepseek时刻。

而在我看来，VLA的应用落地更有可能是真正的下一个deepseek时刻。

发表于: 2025-03-102025-03-10 21:25:00
原文链接：https://page.om.qq.com/page/OTemydu9IrqpSCJe4ZdRKJZw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

工业领域的deepseek时刻！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐