Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >原创 | 一文读懂多模态强化学习

原创 | 一文读懂多模态强化学习

作者头像
数据派THU
发布于 2023-09-07 13:10:38
发布于 2023-09-07 13:10:38
8320
举报
文章被收录于专栏:数据派THU数据派THU

作者:陈之炎本文约3500字,建议阅读8分钟本文介绍了多模态强化学习

多模态强化学习是将多个感知模态和强化学习相结合的方法,能够使智能系统从多个感知源中获取信息,并利用这些信息做出更好的决策。这种方法对于处理现实世界中的复杂任务具有潜在的价值,并为智能系统的发展提供了新的研究方向。

强化学习是一种机器学习方法,其通过智能体与环境的交互来学习最优的决策策略。早期的强化学习主要集中在单一模态数据上,如状态信息和奖励信号。经典的强化学习算法,如Q-learning和深度强化学习(DRL),在各种领域取得了重大突破。

多模态学习涉及多个感知模态的融合和处理,如图像、语音、文本等。该领域的研究主要关注如何从多模态数据中提取有用的特征,并利用这些特征进行模式识别、分类和生成等任务。多模态学习已经在计算机视觉自然语言处理语音识别等领域取得了显著的成果。

随着多模态学习和强化学习的发展,研究者开始将两者结合起来,形成了多模态强化学习的研究方向。多模态强化学习的目标是通过融合多种感知模态的数据,提供更全面的信息来进行决策和学习。这样的方法可以帮助智能体更好地理解环境和任务,并做出更准确的决策。

2023年5月28日,以李飞飞为代表的人工智能团队,发布了题为“’VIMA: General Robot Manipulation with Multimodal Prompts ”(多模态提示符下的通用机器人操作)一文,正式拉开了多模态智能体强化学习的序幕,接下来,让我们仔细研读一下李飞飞的研究,论文中的代码和演示视频,可在vimalabs.github.io.上获取。

通用机器人操纵任务可以通过多模态提示来表达,李飞飞团队开发了一个新的模拟基准,其中包括成千上万个程序生成的桌面任务,具有多模态提示, 60多万个用于模拟学习的专家轨迹,以及用于系统泛化的四级评估协议。它是一个基于Transformer的机器人智能体( VIMA ),它能自回归地处理输入提示命令并输出电机功率。VIMA具有实现强大模型可扩展性和数据效率,在给定相同的训练数据的前提下,零样本泛化设置最多可达2.9倍的任务成功率,即便在训练数据少了10倍的情况下, VIMA的性能仍然比最好的竞争变体好2.7倍。

VIMA的目标是构建一个能够执行多模态联运提示的机器人智能体。为了学习有效的多任务机器人策略,VIMA构建出一种具有多任务编码器-解码器架构和以物体为中心的机器人智能体。

具体来说,机器人需要学习策略π (

| P, H) ,其中H: =[

,

,

,

,...,

]表示历史观察

∈O和历史动作

∈ A在步长内的相互作用。对多模态联运提示进行编码。

在利用交叉注意力层对输入提示进行编码过程中,冻结预训练语言模型和解码机器人动作命令, VIMA采用以物体为中心的表示,从边界框坐标和裁剪的RGB补丁中计算标记。

词汇切分提示中有三种格式的原始输入:文本、单个物体的图像和完整桌面场景的图像。对于文本输入,使用预训练的T5标记器和词嵌入来获取单词标记;对于完整桌面场景的图像,首先使用域微调的Mask R-CNN 提取出单个物体。将每个物体表示为装订框和裁剪的图像。然后,通过使用边界框编码器和ViT 分别对其进行编码来计算出物体标记。由于Mask R-CNN的不完美性,物体的边界框可能会有噪声,裁剪的图像可能具有不相关的像素;对于单个物体的图像,以相同的方式获取标记,使用虚拟边界框。提示标记化后,将生成一系列交错的文本和视觉标记,然后通过预训练的T5编码器对提示进行编码。由于T5已经在大型文本语料库上进行了预训练,因此VIMA继承了语义理解能力和鲁棒性。

机器人控制器。设计多任务策略的挑战性是选择合适的调节机制。在架构图1 中,机器人控制器(解码器)由提示序列P和历史轨迹序列H 之间的交叉注意力层实现调节。

VIMA 模型采用了Transformer架构,在PyTorch 框架下实现,VIMA 的架构如下:

图1 VIMA 架构图

1.多模态提示标记化

通常有三种格式的多模态提示符,文本输入、全景图片和单个物体图片。对于文本输入提示符,按照自然语言处理标准管道,将源语言标记化,作为T5 预训练标记的输入,通过T5 预训练模型嵌入查找表获取对应单词标记;对于全景图片提示符,首先利用Mask R-CNN检测模型对全景图片进行微调,提取出其中的单个物体,每个物体用一张图片和一个边界框表示。边界框的格式为 xcenter, ycenter, height, width(横坐标中心,纵坐标中心,高度和宽度),将每个维度值除以上边界的坐标值之后,对边界框格式值进行归一化,使其在[0,1] 之间。将边界框的值输入MLP边界框编码器,提取出特征向量。处理单张图片时,先将矩形图片处理成正方形图片,再将图片大小修正为预配置的大小,将其送入ViT中提取出图片特征。最终获得物体的标记,并携带边界框特征和图片特征,将它们映射为嵌入维度;对于单个物体图片输入提示符,作上述相同的处理,唯一的区别是单个物体图片输入提示符没有边界框,标记化模型的超参数在表1 中列出:

种类

超参数

数值

文本标记化

标记器

T5-base 标记器

嵌入维度

768

图像标记化

ViT输入图像大小

32*32

ViT补丁大小

16

ViT宽度

768

ViT层数

4

ViT头数

24

边界框MLP

隐含层维度

768

隐含层深度

2

提示编码

预训练的LM

T5-base

N个未冻结层

2

位置编码

绝对

标记适配器ML深度

2

表1 标记化模型的超参数列表

在获取到提示的标记序列之后,将其传递给预训练的t5-base编码器,生成提示编码。为了防止发生灾难性遗忘,在物体标记和T5 编码器之间加入MLP 适配器,VIMA 会冻结其他层,只对语言编码器的最后两层进行微调,采用绝对位置编码进行学习,模型超参数在表1 中列出。

2.观察编码

全部的RGB 观察均为全景图片,同理,按照上述流程获取到物体的标记,由于需要提供前视和由上到下俯视两种视图,对物体对象按照前视和由上到下俯视的顺序对物体标记进行排序,对最终效果的状态进行独热编码。将物体标记与最终效果状态级联并将其转化为观察标记。采用绝对位置编码进行学习,观察编码的模型超参数在表2 中列出

超参数

数值

观察标记维度

768

终端效果嵌入维度

2

位置编码

绝对

表2 观察编码模型的超参数列表

3.动作编码

在实现观察编码的同时,VITA 模型也要实现动作编码,和历史动作相交织,需要对过往动作标记化,动作编码利用双层MLP 对过往动作实现编码,隐含层维度为256,将输出映射为标记维度,从而获取到动作标记。

4. 序列建模

VIMA 机器人控制为一个解码器,能够自回归预测未来动作。为了解码提示标记,在历史标记和提示标记之间执行交叉注意力机制,具体来说,将历史标记当作Query序列,提示标记当作 Key-value 序列,输入到交叉注意力模块当中。再将输出的“提示知晓轨迹”标记输入到自注意力模块当中,交替使用交叉注意力模块和自注意力模块L 次,这一过程可以用以下伪代码来描述。

5.动作解码

获取到预测动作标记之后,将其映射到动作空间A得到预测的动作,通过一组动作头来实现动作解码。动作空间中包含两组SE(2) 姿态,每一组姿态用六个独立的头(两个头代表x,y坐标,四个头代表四象旋转)解码离散动作,最后将这些离散动作集成映射为连续的动作。两组姿态独立建模,由于采用的是交替注意力机制,两组姿态的性能相当。动作解码的模型超参数见表3。

超参数

数值

隐含层维度

512

隐含层深度

2

激活函数

ReLU

X轴离散容量

50

y轴离散容量

100

旋转离散容量

50

表3 动作解码的模型超参数

结论

李飞飞团队的研究工作引入了一种新颖的多模态提示公式,将各种机器人操作任务转换为均匀序列建模问题。并在VIMA-B ENCH中实例化了这种架构, VIMA-B ENCH是一种具有多模态任务和系统评估协议的基准。VIMA的概念为基于Transformer的智能体,能够实现视觉目标达成、一次性视频模拟和单一模型的新概念落地等任务。通过多方面的实验,证明了VIMA具有很强的模型可扩展性和零样本泛化能力。可以将VIMA多模态智能体设计作为未来工作的起点。

编辑:王菁

校对:汪雨晴

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
One RL to See Them All?一个强化学习统一视觉-语言任务!
强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深入探索。
机器之心
2025/06/10
560
One RL to See Them All?一个强化学习统一视觉-语言任务!
​NIPS 2018 | Spotlight论文:凭借幻想的目标进行视觉强化学习
我们想构建一个能够在复杂的非结构化环境中完成任意目标的智能体,例如可以做家务的机器人。一种有前景的方法是使用深度强化学习,这是一种用于教授智能体最大化奖励函数的强大框架。然而,典型的强化学习范例一般需要手动设计奖励函数来训练智能体解决独立任务。
机器之心
2018/11/07
7660
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
一直以来,DeepMind 引领了强化学习(RL)智能体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。
机器之心
2023/08/08
3280
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
一文读懂具身智能:方法、进展及挑战
具身智能,通俗来说,是指研究在环境中具有实体的智能体(如现实或仿真环境下的机器人,能够直接与环境进行物理交互)如何通过与环境的交互来取得认知能力,学习并掌握新技能新知识的一个人工智能的子领域。
小腾资讯君
2023/12/18
2.2K0
多模态大语言模型研究进展!
多模态大型语言模型(MM-LLMs)在过去一年取得了显著进步,通过优化模态对齐和与人类意图对齐,增强了现成的单模态基础模型(LLMs)以支持各种MM任务。本文对MM-LLMs进行了全面综述,包括模型架构和训练流程的概述,以及122个最新进展的MM-LLM分类系统。
算法进阶
2024/07/22
3260
多模态大语言模型研究进展!
TensorFlow 强化学习:11~15
到目前为止,我们已经看到了强化学习在 AlphaGo,自动驾驶,项目组合管理等方面的进步。 研究表明,强化学习可以提供认知特征,例如动物行为。
ApacheCN_飞龙
2023/04/27
3970
李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
人工智能领域的下一个发展机会,有可能是给AI模型装上一个「身体」,与真实世界进行互动来学习。
新智元
2023/01/06
5070
李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍
一文带你了解基于视觉的机器人抓取自学习(Robot Learning)
“一眼就能学会动作”,或许对人而言,这样的要求有点过高,然而,在机器人的身上,这个想法正在逐步实现中。马斯克(Elon Musk)创立的人工智能公司Open AI研究通过One-Shot Imitation Learning算法(一眼模仿学习),让机器人能够复制人类行为。现阶段理想化的目标是人类教机器人一个任务,经过人类演示一次后,机器人可以自学完成指定任务。机器人学习的过程,与人类的学习具有相通之处,但是需要机器人能够理解任务的动作方式和动作意图,并且将其转化为机器人自身的控制运动上。
计算机视觉
2020/12/11
1.9K0
一文带你了解基于视觉的机器人抓取自学习(Robot Learning)
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
是时候给大模型造个身体了,这是多家顶级研究机构在今年的 ICML 大会上向社区传递的一个重要信号。
机器之心
2023/08/08
3280
像GPT-4一样能看懂图文,李飞飞等人的具身AI给机器人造了个多模态对话框
UC伯克利 NIPS2018 Spotlight论文:依靠视觉想象力的多任务强化学习
AI 科技评论按:NIPS 2018 的录用论文近期已经陆续揭开面纱,强化学习毫不意外地仍然是其中一大热门的研究领域。来自加州大学伯克利分校人工智能实验室(BAIR)的研究人员分享了他们获得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他们提出了一种只需要图片即可进行视觉监督的强化学习方法,使得机器人能够自主设定目标,并学习达到该目标。下面是 AI 科技评论对该博客的部分编译。
AI科技评论
2018/09/21
6320
UC伯克利 NIPS2018 Spotlight论文:依靠视觉想象力的多任务强化学习
谷歌的 PlaNet 强化学习网络
迁移学习是Google、Salesforce、IBM和Azure云服务商提供的托管AutoML服务的基础。它现在在最新的NLP研究中占据突出的地位——包括谷歌的BERT以及ULMFIT中有重要的作用。
AI研习社
2019/05/17
6350
谷歌的 PlaNet 强化学习网络
从多模态大模型到通用具身智能体:方法与经验
文章:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
点云PCL博主
2025/02/07
3700
从多模态大模型到通用具身智能体:方法与经验
从Transformer到扩散模型,一文了解基于序列建模的强化学习方法
机器之心转载 来源:知乎 作者:蒋铮尧 本文将简单谈谈基于序列建模的强化学习方法。 大规模生成模型在近两年为自然语言处理甚至计算机视觉带来的巨大的突破。最近这股风潮也影响到了强化学习,尤其是离线强化学习(offline RL),诸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]这样的方法,将强化学习的数据(包括状态,动作,奖励和 return-to-go)当成了一串去结构化的序列数据,并将建
机器之心
2022/08/29
2K0
从Transformer到扩散模型,一文了解基于序列建模的强化学习方法
GPT-5新能力预测!艾伦AI研究所 | 发布最强多模态模型:Unified-IO 2
GPT-5何时到来,会有什么能力?来自艾伦人工智能研究所(Allen Institute for AI)的新模型告诉你答案。
ShuYini
2024/01/11
5030
GPT-5新能力预测!艾伦AI研究所 | 发布最强多模态模型:Unified-IO 2
强化学习+扩散模型的综述
扩散模型(Diffusion Model)已成为一种十分强大的生成模型,在多个领域取得了显著进展。在强化学习(RL)领域,扩散模型被应用于序列决策任务,特别是在离线RL中,用于拟合轨迹生成、规划未来轨迹、替换传统高斯策略、增强经验数据集、提取潜在技能等。
算法进阶
2023/12/13
2.2K0
强化学习+扩散模型的综述
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
探索 VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化,而探索仍然更像是一个开放性话题。
深度强化学习实验室
2020/08/28
3.7K0
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
构建多模态AI应用的7大工具
多模态人工智能系统可以同时处理多种类型的数据,例如文本、图像和视频。以下列出了我们最喜欢的七个工具。
云云众生s
2024/12/20
2730
开发 | 谷歌开源强化学习深度规划网络 PlaNet
AI 科技评论按:近日,谷歌在官方博客上开源了强化学习深度规划网络 PlaNet,PlaNet 成功解决各种基于图像的控制任务,最终性能与先进的无模型智能体相比,在数据处理效率方面平均提高了 5000%。
AI科技评论
2019/03/07
6100
开发 | 谷歌开源强化学习深度规划网络 PlaNet
谷歌开源PlaNet,一个通过图像了解世界的强化学习技术
通过强化学习,研究AI如何随着时间的推移提高决策能力的研究进展迅速。对于这种技术,智能体在选择动作(如运动命令)时观察一系列感官输入(如相机图像),有时会因为达到指定目标而获得奖励。
AiTechYun
2019/03/13
6320
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
推荐阅读
相关推荐
One RL to See Them All?一个强化学习统一视觉-语言任务!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档