首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互

具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互

作者头像
机器之心
发布于 2025-04-27 05:22:34
发布于 2025-04-27 05:22:34
1840
举报
文章被收录于专栏:机器之心机器之心

OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮,但这些推理模型大多关注数学、代码等专业领域。如何将这种深度推理模型扩展到智能体和具身领域,让机器人通过思考和推理来完成复杂具身交互等任务?

近期,来自浙江大学、中科院软件所和阿里巴巴的团队提出了 Embodied-Reasoner,让机器人或智能体拥有深度思考和交互决策能力,从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。

可以想象,未来某一天,机器人能够帮你在房间里找钥匙、信用卡等容易遗忘的小物件。它可以观察房间、分析和思考,然后一步一步地搜索,最后帮你找到它们。

  • 论文标题:Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
  • 论文地址:https://arxiv.org/abs/2503.21696
  • 项目主页:https://embodied-reasoner.github.io
  • 代码地址: https://gitee.com/agiros/EmbodiedReasoner https://github.com/zwq2018/embodied_reasoner
  • HuggingFace:https://huggingface.co/datasets/zwq2018/embodied_reasoner

一分钟看懂 Embodied-Reasoner

简介

尽管深度思维模型在数学和编码任务上展现出卓越的推理能力,但不同于数学、代码等文字模态上的推理,具身领域的推理有几个重要的挑战需要解决:

  • 首先,具身模型不同于单轮聊天对话,需要通过交互方式运行。它们必须持续与环境交互,收集视觉反馈,并基于这些反馈做出合理的行动(文本模态)。因此,模型每次需要处理多轮次的、图文交织的冗长输入,而后产生连贯、符合上下文的推理和决策。
  • 其次,与数学任务主要依赖于逻辑推理和专业知识不同,具身场景中推理还需要更丰富的能力,包括多模态的感知、基于物理世界的常识推断、空间关系理解、时序的推理以及面对环境交互失败后的自我反思等能力,这些都对大模型提出了更高要求。
  • 最后,当前的 LLM 主要以语言形式输出,无法直接控制机器人执行物理交互。因此,如何设计合理的语义动作空间让「思考」和「行动」解耦也是一个难点

如刚才视频中展示的具体例子,当具身智能体在未知房间中搜索隐藏物体时,它必须利用物理常识推断潜在的搜索区域(步骤 1、3),理解物体的空间关系以规划高效的探索路径(步骤 1、5),并运用时序推理回忆先前尝试中的相关线索(步骤 9),同时反思先前的失败。这些多方面的推理要求对多模态模型提出了挑战。

实验发现,即使是像 OpenAI o3-mini 这样的先进 LLM,在这些具身交互任务中也经常难以展现可靠的推理和决策,容易出现重复的搜索或前后不一致的行为

基于上述挑战,团队提出了 Embodied-Reasoner,将深度思考能力扩展到具身交互任务。其关键的两点包括:

  • 纯文本模态上的推理似乎无法解决这种长序列的具身任务。因此,Embodied-Reasoner 设计了图文交织的思维链:观察-思考-行动,三者相互交织构成真正的多模态思维链。这个设计类似于最近刚刚推出的 OpenAI 的 o3 和 o4-mini 模型,集成了图片编辑(缩放、裁剪等)等中间动作,也创造了图文交织的多模态思维链。
  • 设计了多样化的思考因子适应不同的交互阶段,包括情景分析、任务规划、空间推理、行为反思和多重验证等。这些多样化的思考因子能够促进模型从不同角度进行推理和思考。

为了开发这种能力,如上图所示,我们构建了一个数据引擎,自动合成连贯的观察-思考-行动轨迹,引入了具身场景下多样化的思考过程,例如情境分析、空间推理、自我反思、任务规划和自我验证。这些连贯的、图像-文本交错的轨迹引导模型学习如何基于其交互历史和空间布局进行规划和推理,从而提升其空间和时间推理能力。

此后,我们引入了一个三阶段迭代训练流程,结合了模仿学习、自我探索和自我纠正微调。该流程首先利用合成轨迹进行模仿学习以培养基本交互能力,然后通过拒绝采样微调增强探索能力,最后经反思调优培养自我纠正能力。

下面是一个具体的例子:

如上图所示,模型需要空间推理能力来理解厨房布局和物体关系,基于常识知识推断潜在位置(冰箱、餐桌),系统地搜索未探索区域,并通过实时观察调整计划,同时避免重复搜索。

技术方案

任务定义

任务环境:使用广泛采用的 AI2-THOR 模拟器构建了具身任务环境,该模拟器提供物理模拟和实时视觉观测。实验使用 120 个独特的室内场景(如厨房)以及 2,100 个可交互物体(如信用卡和微波炉)。实验通过 AI2-THOR 的 API 控制机器人的移动(如向前移动)和交互(如拾取物体),同时在每一步返回视觉观察。

任务类别:机器人初始化在未知房间的一个角落,视野有限,即只能看到房间的一部分。本节设计了日常生活中四种常见的交互任务,复杂度依次增加:

  • 搜索:在未知房间中搜索物体,如钥匙链。它可能放置在某处或隐藏在容器内。
  • 操作:搜索后与物体交互,如「找到一盏灯并打开开关」。
  • 运输:找到隐藏物体后,将其运输到另一个位置。这涉及多个搜索和操作步骤。
  • 复合任务:按顺序涉及多个运输任务,如「将鸡蛋放入微波炉,加热后放在桌子上。之后,找到……」。

动作定义:虽然 AI2-THOR 提供了许多低层级的动作,但本节的任务侧重于高级规划和推理,而非运动控制。此外,低级动作可能导致过多交互,因此本节在原子动作基础上封装了 9 个高级动作:观察、向前移动、导航至 {}、放入 {}、拾取 {}、切换 {}、关闭 {}、打开 {}、终止。

「观察-思维-行动」交织的思维链合成

为了开发适用于具身场景的 o1 风格推理模型,本节首先设计了一个需要高级规划和推理,而非低级运动控制的具身任务,即搜索隐藏物体。接着,基于模拟器设计了一个数据引擎,用于合成交互式推理语料库:任务指令和相应的关键动作序列。

每个动作产生一个视觉观察,形成交互轨迹。最后,数据引擎为每个动作生成多种思考链,如情境分析、任务规划、空间推理、反思和验证,创建了一个具有观察-思考-行动上下文的交互式推理语料库。

  • 指令合成(Instruction Synthesis)
    • 基于物理环境约束设计多样化任务模板(如「将 A 从容器取出放入 B」)。
    • 通过物体属性筛选可行组合(A 需为可拾取物,B 需为容器)。
    • 利用 GPT-4o 进行指令风格多样化处理。
    • 通过指令组合构建不同难度梯度的任务。
  • 动作序列合成(Action Sequence Synthesis)
    • 从属关系图:数据引擎使用模拟器的元数据构建一个从属关系图。
    • 关键动作序列:数据引擎利用构建的从属关系图和合成的指令模板推导出完成任务所需的最小动作序列(关键动作)。
    • 添加额外的搜索过程:除了关键动作序列外,数据引擎还通过插入额外的搜索过程来合成探索路径。
  • 观察-动作序列中插入多样化的思考过程

在运行合成的动作(

)后,数据引擎获得一个交互轨迹:

,其中 oi 表示第一人称视角图像。然后,数据引擎为每个动作生成多种深度思考内容(

),从而创建一个图文交织的上下文:观察-思考-行动。

多样化思考模式:首先,本节定义了五种思考模式,模拟人类在不同情况下的认知活动:情境分析(Situation Analysis)、任务规划(Task Planning)、空间推理(Spatial Reasoning)、自我反思(Self-reflection)和双重验证(Double Verification)。本章节使用简洁的提示来描述每种模式,指导 GPT-4o 合成相应的思考过程。

从观察-行动中推导思考:对于每次交互,数据引擎指导 GPT-4o 选择一种或多种思考模式,然后基于交互上下文生成详细的思考。这些思考被插入到观察和行动之间(

)。具体来说,数据引擎用之前的交互轨迹(

)和即将到来的动作(

)提示 GPT-4o,生成一个合理的思考过程(

)。它应该考虑最新的观察(

)并为下一步动作(

)提供合理的理由,同时与之前的思考保持逻辑一致。

模型训练策略

多轮对话格式:考虑到交互轨迹遵循交织的图像-文本格式(观察-思考-行动),Embodied-Reasoner 将其组织为多轮对话语料库。在每个回合中,观察到的图像和模拟器的反馈作为用户输入,而思考和行动则作为助手输出。在训练过程中,我们仅对思考和行动 token 计算损失。

为了增强推理能力,Embodied-Reasoner 设计了三个训练阶段:模仿学习、拒绝采样微调和反思调优,这些阶段将通用视觉语言模型逐步提升为具有深度思考能力的具身交互模型:

  • 第一阶段模仿学习:使用数据引擎生成少量的指令-轨迹对,大多数包含有限的搜索过程或仅由关键动作组成(观察-思考-关键动作)。然后在此数据集上微调 Qwen2-VL-7B-Instruct,使其学会理解交织的图像-文本上下文,输出推理和动作 token。经过微调得到 Embodied-Interactor。
  • 第二阶段拒绝采样微调,学习搜索:使用上一阶段的模型采样大量生成轨迹进行进一步训练,并且使用数据引擎来评估这些采样轨迹。该阶段一共保留了 6,246 个成功轨迹进行微调,最后得到 Embodied-Explorer。
  • 第三阶段反思微调:上一阶段的模型有时会产生不合理的动作,特别是在长序列交互任务中,如幻觉。此外,机器人经常会遇到临时硬件故障,这要求模型能够对不合理行为进行自我反思,识别异常状态,并及时纠正。如上图所示,第三阶段使用 Embodied-Explorer 在先前任务上采样大量轨迹。对于失败的轨迹,我们定位第一个错误动作并构建自我纠正轨迹。对于成功的轨迹,我们插入异常状态来模拟硬件故障。这一步骤补充了 2,016 条反思轨迹(每条轨迹平均 8.6 步)。

交织思维链分析

统计结果:我们为三个训练阶段合成了 9,390 个独特的任务指令及其观察-思考-行动轨迹,即〈场景, 指令, 交织的多模态思维链〉。如下面表格所示,在第一阶段,数据引擎合成了 1,128 条轨迹数据。在第二阶段,通过拒绝采样保留了 6,246 条探索轨迹。在第三阶段,数据引擎合成了 2,016 条自我纠正轨迹。所有合成的数据集涵盖 107 个多样化的室内场景(如厨房和客厅),包括 2,100 个可交互物体(如鸡蛋、笔记本电脑)和 2,600 个容器(如冰箱、抽屉)。所有轨迹包含 64K 张第一人称视角的观察图像和 8M 个思考 token。

测试任务:此外,我们在 12 个全新场景中构建了 809 个测试案例,这些场景与训练场景不同。然后,人工设计了任务指令并标注相应的关键动作和最终状态:〈指令,关键动作,最终状态〉。值得注意的是,测试集还包含 25 个精心设计的超长序列决策任务,每个任务涉及四个子任务的组合,并涵盖至少 14 个、最多 27 个关键动作。

思考模式的分布:本节统计了所有轨迹中五种思考模式的频率。如下图所示,Task Planning 和 Spatial Reasoning 出现最频繁,分别为 36.6k 和 26.4k 次。这意味着每条轨迹包含约四次 Task Planning 和三次 Spatial Reasoning。此外,Self-Reflection 通常在搜索失败后出现,每条轨迹平均出现两次。这些多样化的思考促进了模型的推理能力。

思考模式之间的转换:五种思考模式之间的转移概率如下图所示。实验发现它们之间的关系是灵活的,取决于具体情况。通常从 Situation Analysis 开始,随后是 Task Planning(55%)和 Spatial Reasoning(45%)。在导航到未知区域时,它经常依赖 Spatial Reasoning(Action→S:42%)。如果搜索尝试失败,它会转向 Self-Reflection(Action→R:33%),当(子)任务完成时,它有时会进行 Double Verification(Action→V:3%,S→V:6%)。这种多样化的结构使模型能够学习自发思考和灵活适应性。

实验分析

对比实验

实验对比了通用的 VLMs 和近期出现的视觉推理模型,例如 o1、Claude-3.7-sonnet-thinking 等。

从上表的实验结果来看,Embodied-Reasoner 显著优于所有推理模型和 VLMs,成功率比 GPT-o1 高出 9.6%,比 GPT-o3-mini 高出 24%,比 Claude-3.7-Sonnet-thinking 高出 13%。它在搜索效率和任务完成度方面也明显领先,尤其在复杂任务(如复合和运输任务)上表现更为突出,在复合任务上比第二好的模型 GPT-4o 高出 39.9%。通过三阶段训练(模仿学习、拒绝采样调优和自我纠正轨迹微调),模型性能从基础的 14.7% 逐步提升至 80.9%,减少了其他模型常见的重复搜索和不合理规划问题,展现出更强的深度思考和自我反思能力,尽管规模小于先进推理模型。

分析:深度思考范式如何增强具身搜索任务?

对长序列任务更具鲁棒性:Embodied-Reasoner 在处理复杂的长序列决策任务时表现出显著优势。实验结果显示,当任务所需的关键动作数量增加时,基线模型的成功率急剧下降,特别是在任务超过五个动作时。而 Embodied-Reasoner 在大多数复杂情况下仍能保持超过 60% 的成功率,展现出对长序列任务的强大鲁棒性。

自发地为复杂任务生成更长的推理链:面对复杂任务时,Embodied-Reasoner 会自动生成更深入的思考过程。数据显示,随着任务复杂度增加,其输出 token 从 1,000 增长到 3,500 左右,几乎是 Gemini-2.0-flash-thinking 的五倍。这种深度思考能力使其能够规划更高效的搜索路径并避免冗余动作,而其他模型如 Gemini-2.0-flash-thinking 则无法通过扩展推理时间来应对更复杂的具身任务。

深度思考减轻了重复搜索行为:实验引入重复探索率(RER)来衡量模型在轨迹中重复导航到同一区域的频率。Embodied-Reasoner 和 Explorer 在所有任务类型中都表现出显著较低的 RER。在复合任务中,Embodied-Explorer 的 RER 仅为 26%,而 GPT-o3-mini 和 Qwen2-VL-72B 分别达到 54% 和 43%。Embodied-Reasoner 通过回忆过去观察、反思先前探索动作并制定新计划,增强了时序推理能力,有效减少了重复搜索行为。

真实世界实验

为了评估 Embodied-Reasoner 的泛化能力,本节设计了一个关于物体搜索的真实世界实验,涵盖三个场景中的 30 个任务:6 个厨房任务、12 个浴室任务和 12 个卧室任务。在测试过程中,人类操作员手持摄像机捕捉实时视觉输入。模型分析每张图像并生成动作命令,然后由操作员执行这些动作。

上图展示了一个例子:「你能帮我找到咖啡并加热它吗?」Embodied-Reasoner 在两次探索(步骤 1、2)后排除了台面和餐桌,最终在橱柜中找到咖啡(#7)并将其放入微波炉加热(#11)。然而,实验观察到 OpenAI o3-mini 未能制定合理的计划,先前往微波炉而不是搜索咖啡。此外,它经常忘记搜索并表现出重复搜索行为,这与本章节之前的分析一致。

总结

Embodied-Reasoner 的贡献包括:

  • 一个将深度思考扩展到具身场景的框架,解决了交互式推理的独特挑战;
  • 一个数据引擎,合成多样化的多模态思维链,包含交错的观察、思考和行动;
  • 一个三阶段训练流程,逐步增强交互、探索和反思能力;
  • 广泛的评估,相比最先进模型取得了显著改进,特别是在复杂的长序列交互任务中。

Embodied-Reasoner 已发布于 AGIROS 智能机器人操作系统开源社区。AGIROS 智能机器人操作系统开源社区由中国科学院软件研究所发起,旨在通过凝聚智能机器人操作系统产学研用各方力量,共同推动智能机器人操作系统技术及生态的发展,全面推进智能机器人领域的开源开放协同创新,为智能机器人产业夯实基础。

研究团队来自浙江大学、中科院软件所、阿里巴巴和中科南京软件技术研究院,在多模态模型、具身智能体、机器人共用算法框架技术等方面拥有丰富的研究经验。共同一作为张文祺(浙江大学博士生)与王梦娜(中科院软件所硕士生),通讯作者为中科院软件所副研究员李鹏与浙大庄越挺教授。该团队曾开发了数据分析智能体 Data-Copilot,在 github 上获得超过 1500 stars, 开发multimodal textbook,首月在huggingface上超过15000次下载。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
近日,智源研究院发布具身大脑 RoboBrain 2.0 32B 版本以及跨本体大小脑协同框架 RoboOS 2.0 单机版。
机器之心
2025/07/16
5090
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机
AI-Compass 致力于构建最全面、最实用、最前沿的AI技术学习和实践生态,通过六大核心模块的系统化组织,为不同层次的学习者和开发者提供从完整学习路径。
汀丶人工智能
2025/09/18
2470
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机
视觉语言导航的发展趋势:基于基础模型的系统化综述
这篇综述论文,系统性地回顾了视觉与语言导航(VLN)领域在基础模型时代的最新进展与研究范式转变。论文摘要开宗明义地指出,随着基础模型(Foundation Models)的显著成就,VLN研究的挑战与方法论正在被重新塑造。
一点人工一点智能
2025/07/27
4230
视觉语言导航的发展趋势:基于基础模型的系统化综述
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
随着AI生成内容(AIGC)需求的增长,对高质量、多样化且可扩展数据的需求变得日益关键。然而,收集大规模真实世界数据仍然成本高昂且耗时,阻碍了下游应用的发展。尽管部分工作尝试通过渲染过程收集任务特定数据,但大多数方法仍依赖手动场景构建,限制了其可扩展性和准确性。为应对这些挑战,提出Follow-Your-Instruction,一个由多模态大语言模型(MLLM)驱动的框架,用于自动合成高质量的2D、3D和4D数据。
AI生成未来
2025/08/27
2580
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
从「行走」到「思考」:机器人进化之路与感知—决策链路的工程化实践
近年来,人形机器人和具身智能频频登上舞台,从马拉松式的步态演示到竞技擂台上的“对打”,一次次制造着社交媒体上的话题热度。然而,炫技过后留下的核心问题是:机器人能否真正走出实验室与秀场,进入工厂车间、医疗手术室、家庭客厅,承担起生产与生活中的真实任务?
音视频牛哥
2025/08/18
2660
从「行走」到「思考」:机器人进化之路与感知—决策链路的工程化实践
机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」
不过现在行业遭遇的一个重大瓶颈,就是急缺数据、训练效率低,让许多机器人的性能暴涨被卡了脖子。
新智元
2025/07/29
1910
机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」
从人形到具身智能:融合时代的机器人技术趋势与直播SDK感知方案
过去十年,机器人技术经历了从单一任务执行到多模态感知与自主决策的跨越式发展,其中人形机器人(Humanoid Robots)与具身智能机器人(Embodied Intelligent Robotics)成为最具代表性的两大技术方向。
音视频牛哥
2025/08/15
2770
从人形到具身智能:融合时代的机器人技术趋势与直播SDK感知方案
人形机器人的进化之路|2.5万字圆桌实录
本期为《仲夏六日谈》第四季第五期节目文字内容,主题为《从「行走」到「思考」机器人进化之路》。
小腾资讯君
2025/08/06
2020
一篇具身智能的最新全面综述!(上)
还是各类具身智能产品,如李飞飞的 Voxposer、谷歌的 RT1 和 RT2、谷歌的 RTX、字节跳动的 Robot Flamingo、斯坦福的 ACT 和卡耐基梅隆的 3D_diffuser_act,均在不同任务和场景中展示了强大的能力,并有潜力带来革命性的变革。
Datawhale
2024/10/29
2.9K0
一篇具身智能的最新全面综述!(上)
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。
新智元
2025/03/11
3120
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
一文全面了解目前具身智能的核心内容和未来发展
文章:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
点云PCL博主
2025/02/03
1.8K0
一文全面了解目前具身智能的核心内容和未来发展
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。
新智元
2024/03/25
2200
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
目前,大部分机器人主要是基于特定机型、特定场景、特定任务进行固定程序的开发,机器人的智能化仍处于初级阶段。
新智元
2025/03/18
1820
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
从多模态大模型到通用具身智能体:方法与经验
文章:From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons
点云PCL博主
2025/02/07
5830
从多模态大模型到通用具身智能体:方法与经验
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。
机器之心
2023/12/12
8040
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
在基于物理世界的真实场景进行视觉问答时,有可能出现参考选项中没有最佳答案的情况,比如以下例子:
机器之心
2025/03/27
1350
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
具身智能,究竟还缺什么?
本期AGI路线图中关键节点:Figure 02、Optimus Gen-2、宇树G1、傅利叶GR-2、众擎SE01、BVS、WonderWorld、ReKep、DrEureka、DeepMind足球机器人、腾讯「小五」、达芬奇AI机器人、Project GR00T、LeRobot。
小腾资讯君
2024/11/14
4230
谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
但这次谷歌不卷商业大模型了,而是转而发布了首个在具身机器人上「本地&离线」就能运行的VLA模型——Gemini Robotics On-Device!
新智元
2025/06/26
2130
谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
智元机器人发布并开源首个机器人动作序列驱动的世界模型
近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。
深度学习与Python
2025/05/25
3140
智元机器人发布并开源首个机器人动作序列驱动的世界模型
北大提出多模态 Situated 问题回答,三维场景中的多模态坐标推理 !
理解并与现实世界的3D物理世界进行交互是实现具有身体智能的AI的基本需求。为代理集成情境意识到模型中是一个中心挑战。特别是在增强代理的理解和推理、在3D场景中进行规划方面,情境意识具有关键作用。例如,情境意识可以连接代理的多模态局部上下文(比如,文本描述,图像,点云等)和全局环境状态。
AIGC 先锋科技
2024/10/10
3580
北大提出多模态 Situated 问题回答,三维场景中的多模态坐标推理 !
推荐阅读
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
5090
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机
2470
视觉语言导航的发展趋势:基于基础模型的系统化综述
4230
告别人工标注!首个MLLM数据流水线!中国团队重构AIGC生态:2D→3D→4D全自动生成
2580
从「行走」到「思考」:机器人进化之路与感知—决策链路的工程化实践
2660
机器人WAIC现场抢活讲PPT?商汤悟能具身智能平台让机器人「觉醒」
1910
从人形到具身智能:融合时代的机器人技术趋势与直播SDK感知方案
2770
人形机器人的进化之路|2.5万字圆桌实录
2020
一篇具身智能的最新全面综述!(上)
2.9K0
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
3120
一文全面了解目前具身智能的核心内容和未来发展
1.8K0
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
2200
机器人安卓时刻!行业首个通用具身智能平台亮相,国家队全程真机直播
1820
从多模态大模型到通用具身智能体:方法与经验
5830
首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下
8040
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
1350
具身智能,究竟还缺什么?
4230
谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
2130
智元机器人发布并开源首个机器人动作序列驱动的世界模型
3140
北大提出多模态 Situated 问题回答,三维场景中的多模态坐标推理 !
3580
相关推荐
智源RoboBrain 2.0+RoboOS 2.0双发:问鼎评测基准最强具身大脑,刷新跨本体多机协作技术范式
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档