首页
学习
活动
专区
圈层
工具
发布

机器人的“暗物质”:那些我们习以为常却难以复制的身体智慧

下次你从书架上抽出一本紧挨着的书时,不妨留意一下自己的手在做什么。你会先把书往旁边推一推,给手指腾出空间吗?会把它滑到边缘再抬起来吗?如果一个重物开始打滑,你会不会先放下来重新调整握法?

这些动作太细微了,细微到我们几乎从不注意。但正是这些不起眼的小动作,支撑起了人类操控物理世界的惊人能力。

这就是“身体常识”。它是一种反应式的、闭环的智能,是我们对力、摩擦、柔性和不确定性的直觉。这种直觉来自一生的感觉运动经验,最终被编译成反射和肌肉记忆。它让我们能在动作中途调整,不假思索地纠正错误,在失败发生之前就从意外中恢复过来。

它无处不在,但对我们来说如同呼吸一般自然的事情,对机器而言却难如登天。

1966年,哲学家波兰尼把这种知识称为“默会知识”,就是那种难以用语言表达、只能通过身体力行才能获得的知识,比如骑自行车或揉面团。1988年,人工智能专家莫拉维克指出了一个悖论:进化最先在人类身上优化的技能,恰恰是机器最难复制的。

几十年过去了,这个悖论依然存在。机器可以在受控环境中以毫米级精度重复预编程的动作,但一旦遇到哪怕稍微有点混乱的情况,比如物体打滑、杂物堆积、柔软物体、不确定性,它们的失败方式就会显得极不像人。

为什么在互联网上训练的模型学不会身体常识?波兰尼的观点在这里切中要害:身体常识之所以难以描述,正是因为它不是语言性的。它不存在于命题中,而是存在于感知和行动之间的循环里。

在互联网文本和图像上训练的模型可以学到一种特定的“语义常识”,即词语、事实和符号之间的统计规律。当这些模型被适当地搭建起来,它们可以生成计划、代码或高层次的动作序列,有时也能用在机器人上。但这不是身体常识。

缺失的关键要素是闭环交互。互联网数据没有本体感觉,没有干预,没有后果。没有打滑的物体,没有纠正性的反射。在网上学习驾驶手册能获得有用的背景知识,但这和在路上真正学开车的体验完全不同。

身体常识是从感觉运动循环中涌现出来的。在与世界互动的过程中,行动产生信息:智能体观察结果,消除对世界的不确定性,更新下一步该做什么的先验判断。智能不仅通过阅读形成,更通过行动形成。

一个倒水的孩子不是从描述中学习的,而是从感觉中学习的。容器变轻了,水溅到手指上了,表面变滑了,握力失效又重新调整了。这些不是标注,而是经验。“容器”“水”“滑”这些概念在后果中获得了根基。

语言模型教会了我们一件重要的事:常识可以从规模中涌现。如果大规模文本能产生语义常识,那么大规模的物理交互或许能产生身体常识。但前提是,数据必须保留那个闭环。

今天大部分机器人数据来自远程遥控操作。然而,遥控操作往往会打破感觉运动循环:延迟、有限的触觉反馈、不自然的界面,把操作者从快速反应式的控制推向缓慢审慎的规划。结果产生的轨迹僵硬而生涩。

在Generalist,我们打造了轻便的手持设备,让人们几乎可以像用自己的手一样操控物体。操作几分钟后,操作者就不再“思考”,而是开始“反应”。我们的模型在这些数据上训练后产生的机器人行为,人们一致形容为“像人”。这不是偶然。

随着我们扩大真实世界的反应式操控数据规模,我们开始看到一个规律:在大规模、多样化物理交互上预训练的前沿模型,适应更快,迁移更好,需要的任务特定调优更少。

身体常识是让机器人领域出现规模定律的涌现结构。

这正是让我每天早上兴奋起床的原因。看到机器人运行时那些令人惊叹的时刻,有人会说“哇,你看到那个了吗?”那些恢复动作看起来不像是脚本化的,那些纠正“免费”发生了,那些行为感觉不像是在回放轨迹,而更像是在实时响应物理世界。

从“编程完美”到“学习直觉”的转变将是根本性的。经典机器人技术要求结构化环境和毫米级精度,它们可以很壮观,直到世界变得稍微有点乱,然后就开始崩溃。而人类在没有毫米级精度的情况下也能成功,因为我们携带着一个关于物理交互的学习先验。我们适应、恢复,在不确定性下保持稳健。

携带身体常识出厂的机器人,几乎在所有事情上都会做得更好。

真正的机器人智能,始于身体常识。

x.com/andyzengineer/status/2016919715529314450

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLy_0ubtqa8jG5wJEKi02TsQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券