Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划

把大象装冰箱总共要几步?英伟达发布ProgPrompt,让语言模型给机器人安排计划

作者头像
新智元
发布于 2022-10-11 11:10:41
发布于 2022-10-11 11:10:41
8240
举报
文章被收录于专栏:新智元新智元


新智元报道  

编辑:LRS

【新智元导读】一条命令,让机器人帮你把大象装冰箱里!

对于机器人来说,任务规划(Task Planning)是一个绕不过去的难题。

想要完成一个真实世界的任务,首先你得知道把大象装冰箱总共要几步。

即便是比较简单的扔苹果任务也包含多个子步骤,机器人得先观察苹果的位置,如果没有看到苹果就要持续寻找,然后靠近苹果,把苹果抓起来,找到并靠近垃圾桶。

如果垃圾桶是关着的,还得先把它打开,然后再把苹果扔进去,关上垃圾桶。

但每个任务的具体实施细节不可能都由人来设计,如何通过一句命令来生成动作序列就成了难题。

用命令生成序列?这不正是语言模型的工作么?

过去有研究人员使用大型语言模型(LLMs)根据输入的任务指令对潜在的下一步行动空间进行评分,然后生成行动序列。指令由自然语言进行描述,不包含额外的领域信息。

但这类方法要么需要列举所有可能的下一步行动进行评分,要么生成的文本在形式上没有任何限制,其中可能包含在当前环境下特定机器人不可能采取的行动。

最近南加州大学和英伟达联合推出了一个新模型ProgPrompt,同样使用语言模型对输入指令进行任务规划,其中包含了一个程序化的提示结构,使得生成的计划在不同的环境、具有不同能力的机器人、不同的任务中都能发挥作用。

在保证任务的规范性上,研究人员采用生成python风格代码的形式来提示语言模型哪些动作是可用的、环境中有哪些物体以及哪些程序是可执行的。

比如输入「扔苹果」命令就可以生成如下程序。

ProgPrompt模型在虚拟家庭任务中达到了sota性能,研究人员还将该模型部署在一个用于桌面任务的物理机器人手臂上。

妙用语言模型

想要完成日常家庭任务(everyday household tasks)既需要对世界具有常识性理解,也需要当前环境的情景知识。

为了创建一个「做晚饭」的任务计划,智能体最起码需要知道的常识包括:物体的功能,如炉子和微波炉可以用来加热;行动的逻辑顺序,在添加食物之前必须先预热烤箱;以及物体和行动的任务相关性,例如加热和寻找食材首先是与「晚饭」相关的行动。

但如果没有状态反馈(state feedback),这种推理就无法进行。

智能体需要知道当前环境中哪里有食物,例如冰箱里是否有鱼,或者冰箱里是否有鸡肉。

在大型语料库上训练的自回归大型语言模型可以在输入提示的条件下生成文本序列,具有显著的多任务泛化能力。

比如输入「做晚饭」,语言模型可以生成后续序列,如打开冰箱、拿起鸡肉、拿起苏打水、关闭冰箱、打开电灯开关等。

生成的文本序列需要映射到智能体的行动空间中,比如生成的指令是「伸手拿起一罐泡菜」,对应的可执行动作可能就是「拿起罐子」,然后模型会计算出一个行动的概率评分值。

但缺少环境反馈的情况下,如果冰箱里没有鸡肉,却仍然选择「拿起鸡肉」行动,就会导致任务失败,因为「做晚饭」并没有包含任何关于世界状态的信息。

ProgPrompt模型在任务规划中巧妙地利用了编程语言结构,因为现有的大规模语言模型通常都在编程教程和代码文档的语料中进行过预训练。

ProgPrompt为语言模型提供了一个Pythonic的程序头部作为提示,导入了可用的动作空间、预期参数和环境中可用的物体。

然后定义了诸如make_dinner, throw_away_banana等函数,其主体是对物体进行操作的动作序列,然后通过断言计划的先决条件,例如在试图打开冰箱之前靠近冰箱,以及用恢复行动来应对断言失败的情况,以此纳入环境的状态反馈。

最重要的是,ProgPrompt程序中还包括了自然语言编写的注释,用以解释行动的目标,从而提高了生成的计划程序执行任务的成功率。

ProgPrompt

有了完整的想法,ProgPrompt的整体工作流程就清晰了,主要包括三部分,Pythonic函数构建、构造编程语言提示、任务计划的生成和执行。

1、将机器人计划表述为Pythonic函数

计划函数包括对动作原语(action primitive)的API调用,总结动作并添加注释,以及跟踪执行的断言。

每个动作原语需要一个物体作为参数,比如「把三文鱼放进微波炉」任务中,包括对find(salmon)的调用,其中find就是一个动作原语。

利用代码中的注释来为后续的动作序列提供自然语言的总结,注释有助于将高层次的任务分解成合乎逻辑的子任务,即「抓取三文鱼」和「把三文鱼放进微波炉」。

注释也可以让语言模型了解当前的目标,减少不连贯、不一致或重复输出的可能性,类似于思维链(chain of thought)生成中间结果。

断言(assertions)提供了一个环境反馈机制,以确保前提条件成立,并在不成立时实现错误恢复,比如在抓取行动之前,计划断言智能体已经接近了三文鱼,否则智能体需要先执行find行动。

2、构造编程语言prompt

prompt需要向语言模型提供关于环境和主要行动的信息,包括观察、行动原语、例子,并生成了一个Pythonic提示,供语言模型补全。

然后,语言模型将<next task>预测为一个可执行的函数,即microwave_salmon()

在微波炉三文鱼这个任务中,LLM可以生成的且合理的第一步是取出三文鱼,但负责执行计划的智能体可能没有这样一个动作原语。

为了让语言模型了解智能体的动作原语,将其在prompt中通过import语句导入,也就将输出限制为在当前环境下可用的函数上。

要改变智能体的行为空间,只需要更新import的函数列表即可。

变量objects以一个字符串列表的形式提供了环境中的所有可用物体。

prompt还包括一些完全可执行的程序计划作为示例,每个示例任务都演示了如何使用给定环境中的可用动作和目标来完成一个给定的任务,如throw_away_lime

3、任务计划的生成和执行

给定任务之后,计划完全是由语言模型根据ProgPrompt提示推断出来的,然后可以将生成的计划在虚拟智能体或物理机器人系统上执行,需要用到一个解释器,针对环境执行每个行动命令。

在执行过程中,断言检查以闭环的方式进行,并根据当前环境状态提供反馈。

在实验部分,研究人员在虚拟家庭(VH)仿真平台评估了该方法。

VH的状态包括一组物体和相应的属性,比如三文鱼在微波炉内部(in),或者靠近(agent_close_to)等。

行动空间包括抓取(grab)、放入(putin)、放回(putback)、行走(walk),寻找(find)、打开(open)、关闭(close)等。

最终实验了3个VH环境,每个环境包括115种不同的物体,研究人员创建了一个包含70个家务任务的数据集,抽象程度很高,命令都是「微波三文鱼」这类的,并为之创建一个ground-truth的行动序列。

在虚拟家庭上对生成的程序进行评估后,评估指标包括成功率(SR),目标条件召回(GCR)和可执行性(Exec),从结果上可以看到ProgPrompt明显优于基线和LangPrompt,表格中还展示了每个特征是如何提升性能的。

研究人员同样在真实世界进行了实验,使用一个带有平行爪子的Franka-Emika熊猫机器人,并假设可以获得一个拾取和放置(pick-and-place)的策略。

该策略将目标物体和目标容器的两个点云作为输入,并执行拾取和放置操作,将物体放在容器上或里面。

系统实现引入一个开放词汇的物体检测模型ViLD来识别和分割场景中的物体,并构建prompt中的可用物体列表。

与在虚拟环境中不同的是,这里物体列表是每个计划函数的局部变量,这样可以更灵活地适应新对象。

语言模型输出的计划中包含形式为grab和putin等函数调用。

由于现实世界的不确定性,实验设置中没有实施基于断言的闭环选项。

可以看到,机器人在分类任务中,能够识别出香蕉和草莓是水果,并生成计划步骤,将它们放在盘子里,而将瓶子放在盒子里。

参考资料:

https://progprompt.github.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ICML 2023 Workshop | Siamese SIREN:隐式神经表征的音频压缩
隐式神经表征 (INRs) 已经成为一种很有前景的表示各种数据模式的方法,包括3D形状、图像和音频。虽然最近的研究已经证明了 INRs 在图像和 3D 形状压缩方面的成功应用,但它们在音频压缩方面的潜力仍未得到充分开发。基于此,本文提出了一项关于使用 INRs 进行音频压缩的初步研究。
用户1324186
2023/09/27
5880
ICML 2023 Workshop | Siamese SIREN:隐式神经表征的音频压缩
Relu激活函数Out了?正弦周期激活函数在隐式神经表示中大显神威!
下图就是一些我们经常使用的激活函数,从这些激活函数的图像可以看出它们有的是局部线性的有的是非线性的,有的是一个函数表达式下来的,有的是分段的。但其表达式好像都不是很常见,给人一种应凑的感觉有没有?
AI科技评论
2020/07/15
2.4K0
Relu激活函数Out了?正弦周期激活函数在隐式神经表示中大显神威!
学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差
众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。
机器之心
2018/07/26
9870
学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差
如何从频域的角度解释CNN(卷积神经网络)?
时域卷积=频域乘积,卷积神经网络大部分的计算也在卷积部分,如何从频域的角度思考卷积神经网络,如何从频域的角度解释ResNet。
abs_zero
2020/11/11
1.3K0
如何从频域的角度解释CNN(卷积神经网络)?
性能优于ReLU,斯坦福用周期激活函数构建隐式神经表示,Hinton点赞
这个非线性激活函数效果比 ReLU 还好?近日,斯坦福大学的一项研究《Implicit Neural Representations with Periodic Activation Functions》进入了我们的视野。这项研究提出利用周期性激活函数处理隐式神经表示,由此构建的正弦表示网络(sinusoidal representation network,SIREN)非常适合表示复杂的自然信号及其导数。
机器之心
2020/06/29
1.5K0
性能优于ReLU,斯坦福用周期激活函数构建隐式神经表示,Hinton点赞
ICML 2019 | SGC:简单图卷积网络
题目:Simplifying Graph Convolutional Networks
Cyril-KI
2022/11/17
8870
ICML 2019 | SGC:简单图卷积网络
SIREN周期激活函数
CNN强大的学习能力使其能拟合任意函数,然而这种网络架构无法对信号进行细致的建模,很难去表示信号在时域,空域的衍生信息。我们提出以「周期激活函数来表示隐式神经网络」,并「证明这些网络非常适合复杂的自然信号及其导数」。而在实验中也表明SIREN相较于其他激活函数对于音视频任务有更好的效果。
BBuf
2020/07/09
1.9K0
SIREN周期激活函数
另一个角度看神经网络回归-频域分析
神经网络模型被广泛应用在回归问题中。神经网络模型的回归精度与训练数据的分布有关。本文从训练数据的频域的角度来对该问题进行分析
绿盟科技研究通讯
2019/12/11
2K0
另一个角度看神经网络回归-频域分析
WACV 2023 | ImPosing:用于视觉定位的隐式姿态编码
标题:ImPosing:Implicit Pose Encoding for Efficient Visual Localization
3D视觉工坊
2023/04/30
3070
WACV 2023 | ImPosing:用于视觉定位的隐式姿态编码
上海交大 | 神经网络的两个简单偏好(频率原则、参数凝聚)
我是 2017 年 11 月开始接触深度学习,至今刚好五年。2019 年 10 月入职上海交大,至今三年,刚好第一阶段考核。2022 年 8 月 19 号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链接可以见:
ShuYini
2022/12/06
2.5K0
上海交大 | 神经网络的两个简单偏好(频率原则、参数凝聚)
深度神经网络中的数学,对你来说会不会太难?
选自MIT 机器之心编译 参与:Jane W 这是一篇讲解深度学习数学的系列文章,但并非是基础数学,还涉及到了拓扑与测度论等内容。本文为该系列文章的第一部分,机器之心会持续把后续内容全部放出。更规范
机器之心
2018/05/09
7050
深度神经网络中的数学,对你来说会不会太难?
2025最新卷积神经网络(CNN)详细介绍及其原理详解
本文详细介绍了卷积神经网络(CNN)的基础概念和工作原理,包括输入层、卷积层、池化层、全连接层和输出层的作用。通过举例和图解,阐述了CNN如何处理图像,提取特征,以及如何进行手写数字识别。此外,讨论了池化层的平移不变性和防止过拟合的重要性。 本文是关于卷积神经网络(CNN)技术教程,整体内容从基础概念到实际示例,逐层剖析 CNN 的各个组成部分与作用,并通过手写数字识别案例帮助大家更直观地理解其工作原理。
猫头虎
2025/06/08
1.4K0
2025最新卷积神经网络(CNN)详细介绍及其原理详解
NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏
目前,神经图像压缩(NIC)在分布内(in-distribution, IND)数据的 RD 性能和运行开销表现出了卓越的性能。然而,研究神经图像压缩方法在分布外(out-of-distribution, OOD)数据的鲁棒性和泛化性能方面的工作有限。本文的工作就是围绕以下关键问题展开的:
用户1324186
2024/01/04
5200
NeurIPS 2023 | 神经网络图像压缩:泛化、鲁棒性和谱偏
Tacotron2论文阅读
这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。我们的模型得到了4.53的平均意见得分(MOS),专业录制语音的MOS得分是4.58。为了验证模型设计,我们对系统的关键组件作了剥离实验研究,并且评估了使用梅尔频谱替代语言学、音长和F0特征作为WaveNet输入带来的不同影响。我们进一步展示了使用紧凑的声学中间表征可以显著地简化WaveNet架构
mathor
2020/08/13
1.6K0
90后华裔教授一年连发三篇Nature子刊!首个量子神经网络QuantumFlow开源
---- 新智元报道   作者:姜炜文 编辑:好困 【新智元导读】近日,华裔教授姜炜文再获量子计算革命性突破,在QuantumWeek上开源了首个量子神经网络设计栈,加速了神经网络在量子计算机上的发展。 神经网络是当下计算应用中发展最快,使用最广的机器学习算法。然而,随着应用不断复杂化导致网络结构不断扩大,存储性能瓶颈已逐渐凸显。 在传统计算平台上,N个数字比特只能表示1个N位数据,然而在量子计算中,M个量子比特却同时能表示2^M个数据,并能同时操作这些数据。 量子计算机如此强大的存储与计算能力,使其
新智元
2023/05/22
3360
90后华裔教授一年连发三篇Nature子刊!首个量子神经网络QuantumFlow开源
一位上海交大教授的深度学习五年研究总结
我是2017年11月开始接触深度学习,至今刚好五年。2019年10月入职上海交大,至今三年,刚好第一阶段考核。2022年8月19号,我在第一届中国机器学习与科学应用大会做大会报告,总结这五年的研究以及展望未来的方向。本文是该报告里关于理论方面的研究总结(做了一点扩展)。报告视频链接可以见:https://www.bilibili.com/video/BV1eB4y1z7tL/
黄博的机器学习圈子
2022/11/07
9000
一位上海交大教授的深度学习五年研究总结
既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型
如果你尝试过目前最火的 AI 绘画工具之一 Stable Diffusion,那你就已经体验过扩散模型(diffusion model)那强大的生成能力。但如果你想更进一步,了解其工作方式,你会发现扩散模型的形式其实有很多种。
机器之心
2023/09/08
5710
既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型
图神经网络 GNN GAT & GCN(一)
知乎: https://www.zhihu.com/people/gong-jun-min-74
zenRRan
2020/04/21
3.6K0
图神经网络 GNN GAT & GCN(一)
最基本的25道深度学习面试问题和答案
近年来,对深度学习的需求不断增长,其应用程序被应用于各个商业部门。各公司现在都在寻找能够利用深度学习和机器学习技术的专业人士。在本文中,将整理深度学习面试中最常被问到的25个问题和答案。如果你最近正在参加深度学习相关的面试工作,那么这些问题会对你有所帮助。
deephub
2022/11/11
9840
最基本的25道深度学习面试问题和答案
解读 | 如何从信号分析角度理解卷积神经网络的复杂机制?
机器之心原创 作者:Qintong Wu 参与:Jane W 随着复杂和高效的神经网络架构的出现,卷积神经网络(CNN)的性能已经优于传统的数字图像处理方法,如 SIFT 和 SURF。在计算机视觉领域,学者们开始将研究重点转移到 CNN,并相信 CNN 是这一领域的未来趋势。但是,人们对成效卓著的 CNN 背后的机理却缺乏了解。研究 CNN 的运行机理是当今一个热门话题。基本上,有三种主流观点:1>优化、2>近似、3>信号。前两种观点主要集中在纯数学分析,它们试图分析神经网络的统计属性和收敛性,而第三种观
机器之心
2018/05/07
8570
解读 | 如何从信号分析角度理解卷积神经网络的复杂机制?
推荐阅读
相关推荐
ICML 2023 Workshop | Siamese SIREN:隐式神经表征的音频压缩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档