文章/答案/技术大牛

发布

社区首页 >专栏 >大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

新智元

发布于 2023-11-13 08:59:05

3560

文章被收录于专栏：新智元新智元

编辑：LRS 好困

【新智元导读】让视觉语言模型（VLM）在模拟的电子世界里游玩是什么体验？让Octopus根据智能体的观测写控制代码，即可实现让VLM做家务、闯荡洛圣都。

随着游戏制作技术的不断发展，电子游戏已然成为现实世界的模拟舞台。

以游戏《侠盗猎车手》（GTA）为例，在GTA的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。

然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们是否也能有一个AI视觉模型，操控GTA中的角色，成为执行任务的「玩家」呢？

GTA的AI玩家又是否能够扮演一个五星好市民，遵守交通规则，帮助警方抓捕罪犯，甚至做个热心肠的路人，帮助流浪汉找到合适的住所？

目前的视觉-语言模型（VLMs）在多模态感知和推理方面取得了实质性的进步，但它们往往基于较为简单的视觉问答（VQA）或者视觉标注（Caption）任务。这些任务设定显然无法使VLM真正完成现实世界当中的任务。

因为实际任务不仅需要对于视觉信息的理解，更需要模型具有规划推理以及根据实时更新的环境信息做出反馈的能力。同时生成的规划也需要能够操纵环境中的实体来真实地完成任务。

尽管已有的语言模型（LLMs）能够根据所提供的信息进行任务规划，但其无法理解视觉输入，极大的限制了语言模型在执行现实世界的具体任务时的应用范围，尤其是对于一些具身智能任务，基于文本的输入往往很难详尽或过于复杂，从而使得语言模型无法从中高效地提取信息从而完成任务。

而当前的语言模型对于程序生成已经进行了若干探索，但是根据视觉输入来生成结构化，可执行，且稳健的代码的探索还尚未深入。

为了解决如何使大模型具身智能化的问题，创建能够准确制定计划并执行命令的自主和情境感知系统。

来自新加坡南洋理工大学，清华大学等的学者提出了一种基于视觉的可编程智能体Octopus，其目的是通过视觉输入学习、理解真实世界，并以生成可执行代码的方式完成各种实际任务。

论文地址：https://arxiv.org/abs/2310.08588

项目网页：https://choiszt.github.io/Octopus/

开源代码：https://github.com/dongyh20/Octopus

通过在大量视觉输入和可执行代码的数据对的训练，Octopus学会了如何操控电子游戏的角色完成游戏任务，或者完成复杂的家务活动。

数据采集与训练

为了训练能够完成具身智能化任务的视觉-语言模型，研究者们还开发了OctoVerse，其包含两个仿真系统用于为Octopus的训练提供训练数据以及测试环境。

这两个仿真环境为VLM的具身智能化提供了可用的训练以及测试场景，对模型的推理和任务规划能力都提出了更高的要求。具体如下：

1. OctoGibson：

基于斯坦福大学开发的OmniGibson进行开发，一共包括了476个符合现实生活的家务活动。整个仿真环境中包括16种不同类别的家庭场景，涵盖155个实际的家庭环境实例。模型可以操作其中存在的大量可交互物体来完成最终的任务。

2. OctoGTA：

基于《侠盗猎车手》（GTA）游戏进行开发，一共构建了20个任务并将其泛化到五个不同的场景当中。通过预先设定好的程序将玩家设定在固定的位置，提供完成任务必须的物品和NPC，以保证任务能够顺利进行。

下图展示了OctoGibson的任务分类以及OctoGibson和OctoGTA的一些统计结果。

为了在构建的两个仿真环境中高效的收集训练数据，研究者构建了一套完整的数据收集系统。

通过引入GPT-4作为任务的执行者，研究者们使用预先实现的函数将在仿真环境当中采集到的视觉输入处理为文本信息提供给GPT-4，在GPT-4返回当前一步的任务规划和可执行代码后，再在仿真环境当中执行代码，并判断当前一步的任务是否完成。

如果成功，则继续采集下一步的视觉输入；如果失败，则回到上一步的起始位置，重新采集数据。

上图以OctoGibson环境当中的Cook a Bacon任务为例，展示了收集数据的完整流程。

需要指出的是，在收集数据的过程中，研究者不仅记录了任务执行过程中的视觉信息，GPT-4返回的可执行代码等，还记录了每一个子任务的成功情况，这些将作为后续引入强化学习来构建更高效的VLM的基础。

GPT-4的功能虽然强大，但并非无懈可击，错误可以以多种方式显现，包括语法错误和模拟器中的物理挑战。

例如，如图3所示，在状态#5和#6之间，由于agent拿着的培根与平底锅之间的距离过远，导致「把培根放到平底锅」的行动失败，此类挫折会将任务重置到之前的状态。

如果一个任务在10个步骤之后仍未完成，则被认定为不成功，我们会因预算问题而终止这个任务，而这个任务的所有子任务的数据对都会认为执行失败。

在收集一定规模的训练数据后，研究者利用这些数据训练出了一个具身智能化的视觉-语言模型Octopus，上图展现了完整的数据采集和训练流程。

在第一阶段，通过使用采集的数据进行监督式微调，研究者构建出了一个能够以视觉信息作为输入，遵从固定格式进行输出的VLM模型。在这一阶段，模型能够完成视觉输入信息到任务计划以及可执行代码的映射。

在第二阶段，研究者引入了RLEF（Reinforcement Learning with Environmental Feedback），通过利用先前采集的子任务的成功情况作为奖励信号，采用强化学习的算法更进一步的提升VLM的任务规划能力，从而提高整体任务的成功率。

实验结果

研究者在构建的OctoGibson环境中，对于当前主流的VLM和LLM进行了测试，下表展示了主要实验结果。

对于不同的测试模型，Vision Model列举了不同模型所使用的视觉模型，对于LLM来说，研究者将视觉信息处理为文本作为LLM的输入，其中O代表提供了场景中可交互物体的信息，R代表提供了场景中物体相对关系的信息，GT代表使用真实准确的信息，而不引入额外的视觉模型来进行检测。

对于所有的测试任务，研究者报告了完整的测试集成功率，并进一步将其分为四个类别，分别记录在训练集中存在的场景中完成新任务，在训练集中不存在的场景中完成新任务的泛化能力，以及对于简单的跟随任务以及复杂的推理任务的泛化能力。

对于每一种类别的统计，研究者报告了两种评价指标，其中第一个为任务的完成率，以衡量模型完成具身智能任务的成功率；第二个为任务规划准确率，用于体现模型进行任务规划的能力。

此外，研究者还展示了不同模型对于OctoGibson仿真环境中采集的视觉数据的响应实例。下图展示了TAPA+CodeLLaMA，Octopus以及GPT-4V对于OctoGibson当中视觉输入生成的回复。

可以看到，相较于TAPA+CodeLLaMA以及只进行了监督式微调的Octopus模型，使用RLEF进行训练之后的Octopus模型的任务规划更加合理，即使是对于较为模糊的任务指令（find a carboy）也能提供更加完善的计划，这些表现都更进一步说明了RLEF训练策略对于提升模型的任务规划能力以及推理能力的有效性。

总体来说，现有的模型在仿真环境中表现出的实际任务完成度和任务规划能力依旧有很大的提升空间。研究者们总结了一些较为关键的发现：

1. CodeLLaMA能够提升模型的代码生成能力，但不能提升任务规划能力。

研究者指出，通过实验结果可以看出，CodeLLaMA能够显著的提升模型的代码生成能力。

然而，尽管一些模型使用了CodeLLaMA进行代码生成，但整体任务的成功率依然会受到自身任务规划能力的限制。

而反观Octopus，尽管未使用CodeLLaMA，代码的可执行率有所下降，但得益于其强大的任务规划能力，整体任务成功率依旧优于其他模型。

2. LLM在面对大量的文本信息输入时，处理较为困难。

在实际的测试过程中，研究者通过对比TAPA和CodeLLaMA的实验结果得出了一个结论，即语言模型很难较好地处理长文本输入。

研究者们遵从TAPA的方法，使用真实的物体信息来进行任务规划，而CodeLLaMA使用物体和物体之间的相对位置关系，以期提供较为完整的信息。

但在实验过程中，研究者发现由于环境当中存在大量的冗余信息，因此当环境较为复杂时，文本输入显著增加，LLM难以从大量的冗余信息当中提取有价值的线索，从而降低了任务的成功率。

这也体现了LLM的局限性，即如果使用文本信息来表示复杂的场景，将会产生大量冗余且无价值的输入信息。

3. Octopus表现出了较好的任务泛化能力。

通过实验结果可以得出，Octopus具有较强的任务泛化能力，其在训练集当中未出现的新场景中完成任务的成功率和任务规划的成功率均优于已有的模型，也展现出了视觉-语言模型的一些内在优势，针对同一类别的任务，其泛化性优于传统的LLM。

4. RLEF能够增强模型的任务规划能力。

在实验结果中，研究者们提供了只经过第一阶段监督式微调的模型以及经过RLEF训练之后模型的性能比。

可以看出，在经过RLEF训练之后，模型在需要较强的推理能力和任务规划能力的任务上，整体成功率和规划能力有了显著提升。

与已有的VLM训练策略相比，RLEF也更加的高效。上图所展示的示例也能够体现RLEF训练之后模型在任务规划能力上的提升，经过RLEF训练之后的模型能够懂得在面对较为复杂的任务时，如何在环境当中进行探索；

此外，模型在任务规划上能够更加遵从仿真环境中的实际要求（如，模型需要先移动到要交互的物体，才能开始交互），从而降低任务规划的失败比率。

讨论

消融实验

在对模型的实际能力进行评估之后，研究者们更进一步探究了一些影响模型性能的可能因素。如下图所示，研究者从三个方面开展了实验。

1. 训练参数的比重

研究者对比了只训练视觉模型与语言模型的连接层，训练连接层和语言模型，以及完整训练的模型的性能。

可以看出，随着训练参数的增加，模型的性能逐渐获得了提升。这说明，训练参数的多少对于模型是否能够在一些固定的场景当中完成任务至关重要。

2. 模型的大小

研究者们比较了较小的3B参数模型与基线7B模型在两个训练阶段的性能差异。通过比较可以看出，当模型整体参数量较大时，模型的性能也会得到明显的提升。

如何选定合适的模型训练参数，使得模型能够拥有完成对应任务的能力，同时也能够保证模型的轻量化和较快的推理速度，将是未来VLM领域研究中较为关键的一点。

3. 视觉输入的连续性

为了探究不同的视觉输入对于实际VLM性能的影响，研究者对视觉信息的输入顺序进行了实验。

在测试的过程中，模型会在仿真环境当中顺序转动，采集第一视角图像，并采集两张鸟瞰图，之后这些视觉图像会按顺序输入VLM当中。

而在实验中，当研究者随机打乱视觉图像顺序再输入VLM中时，VLM产生了较大的性能损失。

这一方面说明了完整且结构化的视觉信息对于VLM的重要性，另一方面也从某种程度上反映了VLM在对视觉输入进行响应时需要依靠视觉图像的内在联系，而一旦这种视觉上的联系被破坏，将会极大的影响VLM的表现。

GPT-4 & GPT-4V(ision)

此外，研究者还对GPT-4以及GPT-4V在仿真环境当中的性能进行了测试和统计。

1. GPT-4

针对GPT-4，在测试过程中研究者提供与使用其采集训练数据时完全相同的文本信息作为输入。在测试任务上，GPT-4能够完成一半的任务，这一方面说明现有的VLM相对于GPT-4这样的语言模型，从性能上还有很大的提升空间；

另一方面也说明，即使是GPT-4这样性能较强的语言模型，在面对具身智能任务时，其任务规划能力和任务执行能力依然需要更进一步的提升。

2. GPT-4V

由于GPT-4V刚刚发布可以直接调用的API，研究者还没来得及尝试，但是研究者们之前也手动测试了一些实例来展现GPT-4V的性能。

通过一些示例，研究者认为GPT-4V对于仿真环境当中的任务具有较强的零样本泛化能力，也能够根据视觉输入生成对应的可执行的代码，但其在一些任务规划上稍逊色于在仿真环境采集的数据上微调之后的模型。

局限性

研究者们指出了目前工作的一些局限性。

1. 当前的Octopus模型在较为复杂的任务上性能并不令人满意。在面对复杂任务时，Octopus往往会做出错误的规划，并且严重依赖于环境给出的反馈信息，最终往往难以完成整体的任务。

2. Octopus模型仅在仿真环境当中进行训练，而如何将其迁移到真实世界当中将会面临一系列的问题。例如，真实环境当中模型将难以得到较为准确的物体相对位置信息，如何构建起物体对于场景的理解将变得更加困难

3. Octopus目前的视觉输入为离散的静态图片，如何使其能够处理连续的视频将是未来的挑战。

连续的视频可以更进一步提高模型完成任务的性能，但如何高效地处理和理解连续视觉输入将成为进一步提升VLM性能的关键。

参考资料：

https://arxiv.org/abs/2310.08588

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-11-09，如有侵权请联系 cloudcommunity@tencent.com 删除

游戏

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

3092

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

1831

60页PPT全解：DeepSeek系列论文技术要点整理

3050

让视觉语言模型搞空间推理，谷歌又整新活了

对象论文模型设计数据

视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展，包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难，比如需要理解目标在三维空间中的位置或空间关系的任务。

机器之心

2024/02/26

2080

具身智能中VLA（视觉-语言-动作）技术论文解读

腾讯技术创作特训营S13

上个月的“全球首场人机马拉松”的赛事，可以说是具身智能技术发展的一个小里程碑。不过机器人们的躺平，摔倒，瘫痪，掉头等突发状况也直观暴露了当前具身智能技术的瓶颈：大脑和四肢协调能力、续航能力、环境感知与决策等问题，所以在复杂环境的长距离运动对机器人的“身体”（硬件）与“大脑”（算法）都还是一个很大的挑战。

languageX

2025/04/29

1K0

从多模态大模型到通用具身智能体：方法与经验

模型数据游戏机器人基础

文章：From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

点云PCL博主

2025/02/07

3740

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

强化学习基础框架模型数据

一直以来，DeepMind 引领了强化学习（RL）智能体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。

机器之心

2023/08/08

3280

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

数据系统性能自动驾驶模型

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。

机器之心

2024/02/26

3160

用GPT-4V和人类演示训练机器人：眼睛学会了，手也能跟上

机器人 gpt 对象模型视频

训练自定义模型的方法已经过时，基于最近大语言模型（LLM）和视觉语言模型（VLM）的技术进展，通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。

机器之心

2023/12/05

3450

大模型+机器人，详尽的综述报告来了，多位华人学者参与

强化学习机器人基础模型数据

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

机器之心

2023/12/28

6680

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

系统机器人框架论文模型

前脚来自斯坦福的会用锅的机器人刚刚登场，后脚又来了个会用咖啡机的机器人 Figure-01 。

机器之心

2024/01/11

2020

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

scaling 论文模型数据优化

最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中，一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据，比如有一项研究就预计，如果 LLM 保持现在的发展势头，到 2028 年左右，已有的数据储量将被全部利用完。

机器之心

2025/02/03

830

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿，当前方法与未来方向的调查！

模型视频数据性能音频

大型语言模型（LLM）的出现标志着人工智能一个转型时代的开始， Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争，以推进LLM的能力。然而，一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据，特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战，这标志着在AI领域进一步创新的一个重要方向。

AIGC 先锋科技

2024/07/08

3810

斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿，当前方法与未来方向的调查！

清华 & 北大提出 EgoPLan ，以自我为中心的视觉语言规划！

模型视频数据机器人代理

大型语言模型（LLMs）和大型的多模态模型（LMMs）的出现，彻底改变了人工智能领域的格局。它们强大的推理能力和强大的泛化能力使得它们可以直接应用在各种场景中。在实现人工通用智能（AGI）的路上，研究行人正考虑让大型模型（LMs），特别是LMMs，突破文本和图像所表达的世界，与物理世界互动。他们的目标是构建一个能够智能地与物理世界互动的通用可嵌入代理。

AIGC 先锋科技

2024/08/27

3380

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

模型强化学习 gpt 函数框架

这种方法得到的模型，已经学会了看图玩扑克、算“12点”等任务，表现甚至超越了GPT-4v。

量子位

2024/06/04

1710

“AI玩手机”原理揭秘：大模型驱动的移动端GUI智能体

人工智能

在后LLM时代，随着大语言模型和多模态大模型技术的日益成熟，AI技术的实际应用及其社会价值愈发受到重视。AI智能体（AI Agent）技术通过集成行为规划、记忆存储、工具调用等机制，为大模型装上“手脚”，使其能够利用强大的多模态感知交互与推理决策能力，与真实世界进行有效交互，成为连接人类与数字世界的桥梁，并迎来前所未有的发展机遇。（了解更多关于智能体的见解：《在后LLM时代，关于新一代智能体的思考》）。

澜舟科技

2024/11/22

4540

具身智能新时代！VLA迎来最强基础模型Magma：UI导航、机器人操作全能

模型视频机器人 ui 基础

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作，无法像人类一样与物理世界产生交互。

新智元

2025/03/11

1900

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令

机器人地图论文模型系统

大语言模型+视觉语言模型就能从3D空间中分析出目标和需要绕过的障碍，帮助机器人做行动规划。

量子位

2023/08/05

8220

李飞飞「具身智能」新成果！机器人接入大模型直接听懂人话，0预训练就能完成复杂指令

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

机器人框架模型数据开源

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？

机器之心

2024/01/17

8750

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

《探索具身智能机器人视觉-运动映射模型的创新训练路径》

腾讯技术创作特训营S13 第二期热点征文-人工智能

视觉 - 运动映射模型作为实现智能交互与精准行动的核心，吸引着全球科研人员与技术爱好者的目光。这一模型就像机器人的 “神经中枢”，连接着视觉感知与肢体运动，使机器人能够在复杂的现实环境中灵活应对各种任务。

程序员阿伟

2025/05/20

1320

业内首个具身智能原子技能库架构

模型数据采集算法大模型部署架构

具身智能技术突破与应用是通向 AGI 的必经之路，目前全球科技公司正加速布局，包括特斯拉 Optimus、Agility Digit、波士顿动力 Atlas 及 Figure AI 等，今年蛇年春晚机器人“扭秧歌”也成为了人们茶余饭后的谈资。随着大模型技术的进步，具身智能也迎来了快速的发展。

松灵机器人

2025/02/20

3210

斯坦福 | 提出OctopusV3，参数不超1B，媲美GPT-4V和GPT-4

模型数据系统 gpt 开发

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

ShuYini

2024/05/06

2440

清华团队攻破GPT-4V、谷歌Bard等模型，商用多模态大模型也脆弱？

安全 gpt 模型数据优化

GPT-4 近日开放了视觉模态（GPT-4V）。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合，在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而，视觉模型长久以来存在对抗鲁棒性差的问题，而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在，但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。

机器之心

2023/10/24

5480