Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌发76页智能体白皮书!你的「AI替身」已上线

谷歌发76页智能体白皮书!你的「AI替身」已上线

作者头像
新智元
发布于 2025-05-12 02:11:56
发布于 2025-05-12 02:11:56
1040
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:英智

【新智元导读】谷歌最新发布的76页AI智能体白皮书,深入剖析了智能体的应用前景。智能体通过感知环境、调用工具和自主规划,能够完成复杂任务并做出高级决策。从智能体运维(AgentOps)到多智能体协作,这份白皮书为AI智能体指明了方向。

近日,谷歌发表了76页的AI智能体白皮书!

智能体通过感知环境,并利用工具策略性地采取行动,实现特定目标。

其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。

这些智能体具备自主运行的能力,它们可以追寻目标,主动规划后续行动,无需明确指令就能行动。

参考链接:https://www.kaggle.com/whitepaper-agent-companion

白皮书深入探讨了智能体的评估方法,介绍了谷歌智能体产品在实际应用中的情况。

参与过生成式AI开发的人都知道,从一个创意发展到概念验证阶段并不难,但想保证最终成果的高质量,并将其投入实际生产,就没那么简单了。

在将智能体部署到生产环境时,质量和可靠性是最大的问题,智能体运维(AgentOps)流程是优化智能体构建过程的有效方案。

智能体运维

过去两年,生成式AI(GenAI)发生了巨大变革,企业客户越来越关注如何将解决方案真正应用到实际业务中。

智能体与运维(AgentOps)属于生成式AI运维的一个分支,重点关注如何让智能体更高效地运行。

AgentOps新增了一些关键组件,包括对内部和外部工具的管理、智能体核心提示(像目标、配置文件、操作指令)的设置与编排、记忆功能的实现,任务分解等。

开发运维(DevOps)是整个技术运营体系的基石。

模型应用开发在一定程度上继承了DevOps的理念和方法,机器学习运维(MLOps)则是在DevOps的基础上,针对模型的特点发展而来的。

运维离不开版本控制、通过持续集成 / 持续交付(CI/CD)实现的自动化部署、测试、日志记录、安全保障,以及指标衡量等能力。

每个系统通常会根据指标进行优化,衡量系统的工作情况、评估结果和业务指标,然后通过自动化流程获取更全面的指标,一步步提升系统性能。

不管叫「A/B测试」「机器学习运维」,还是「指标驱动开发」,本质上都基于相同的理念,AgentOps中也会遵循这些原则。

需要注意的是,新的技术实践并不会完全取代旧的。

DevOps和MLOps中的优秀实践经验,对于AgentOps来说依然不可或缺,它们是AgentOps顺利运行的基础。

比如,智能体调用工具时会涉及API,而这个过程中用到的API,和非智能体软件使用的API是一样的。

智能体成功指标

大多数智能体都是围绕完成特定目标设计的,目标完成率是一个关键指标。

一个大目标往往可以细分成几个关键任务,或者涉及一些关键的用户交互环节。这些关键任务和交互都应单独监测和评估。

每个业务指标、目标,或者关键交互数据,都会按照常见的方式进行汇总统计,比如计算尝试次数、成功次数、成功率等。

另外,从应用程序遥测系统获取的指标,像延迟、错误率等,对智能体也非常重要。

监测这些高级指标,是了解智能体运行状况的重要手段。

用户反馈也是一个不可忽视的指标。

在智能体或任务执行的过程中,一个简单的反馈表,就能帮助了解智能体哪些地方表现得好,哪些地方还需要改进。

这些反馈可能来自普通用户,也可能是企业员工、质量检测人员,或者是相关领域的专家。

智能体评估

想把概念验证阶段的智能体,变成可以真正投入生产使用的产品,一个强大的自动化评估框架必不可少。

评估智能体能力

在评估特定的智能体应用场景之前,可以先参考一些公开的基准测试和技术报告。

对很多基本能力,像模型性能、是否会产生幻觉、工具调用和规划能力等,都有公开的基准测试。

例如,伯克利函数调用排行榜(BFCL)和τ-bench等基准测试,就能展示智能体的工具调用能力。

PlanBench基准测试,则专注于评估多个领域的规划和推理能力。

工具调用和规划只是智能体能力的一部分。智能体行为,会受到它所使用的LLM和其他组件的影响。

智能体和用户的交互方式,在传统的对话设计系统和工作流系统中也有迹可循,可以借鉴这些系统的评估指标和方法,来衡量智能体的表现。

AgentBench这样的综合智能体基准测试,会在多种场景下对智能体进行全面评估,测试从输入到输出的整体性能。

现在,很多公司和组织针对特定的应用场景,设立了专门的公开基准测试,如Adyen的数据分析排行榜DBAStep。

大多数基准测试报告中,都会讨论智能体常见的失败模式,这能为建立适合应用场景的评估框架提供思路。

除了参考公开评估,还要在各种不同的场景中测试智能体的行为。

可以模拟用户和智能体的交互过程,观察它的回应,不仅要评估最终给出的答案,还要关注它得出答案的过程,也就是行动轨迹。

软件工程师可以把智能体评估和代码的自动化测试联系起来。在代码测试中,自动化测试能节省时间,还能让开发者对软件质量更有信心。

对于智能体来说,自动化评估同样如此。

精心准备评估数据集非常重要,它要能准确反映智能体在实际应用中会遇到的情况,这点甚至比软件测试中的数据集准备还要关键。

评估行动轨迹和工具使用

智能体在回复用户之前,通常会执行一系列操作。

比如,它可能会对比用户输入和会话历史,消除某个术语的歧义;也可能查找政策文档、搜索知识库,或者调用API来保存票据。

这些操作中的每一个,都是其达成目标路径上的一个步骤,也被称为行动轨迹。

每次智能体执行任务时,都存在这样一条行动轨迹。

对开发者来说,对比智能体实际采取的行动轨迹和预期的行动轨迹,非常有助于发现问题。

通过对比,能够找出错误或效率低下的环节,提升智能体的性能。

不过,并非所有指标都适用于每种情况。

有些应用场景要求智能体必须严格按理想的行动轨迹执行,而有些场景则允许一定的灵活性和偏差。

这种评估方法也存在明显的局限性,那就是需要有一个参考行动轨迹作为对比依据。

评估最终响应 最终响应评估,其实核心是:智能体有没有实现既定目标?

可以根据自身的需求,制定自定义的成功标准来衡量这一点。

比如,评估一个零售聊天机器人能否准确回答产品相关问题;或者判断一个研究智能体,能不能用恰当的语气和风格,有效地总结研究成果。

为了实现评估过程的自动化,可以使用自动评分器。自动评分器本质上是一个LLM,它扮演着评判者的角色。

给定输入提示和智能体生成的响应后,自动评分器会依据用户预先设定的一组标准,对响应进行评估,以此模拟人类的评估过程。

不过要注意,由于这种评估可能没有绝对的事实依据作为参照,精确地定义评估标准就显得尤为关键。

人机协同评估

人机协同评估在一些需要主观判断、创造性解决问题的任务中,有很大的价值。

同时,它还能用来校准和检验自动化评估方法,看其是否真的有效,是否符合预期。

人机协同评估主要有以下优点:

  • 主观性:人类能够评估一些难以量化的特质,像创造力、常识以及一些细微的差别,这些是机器较难把握的。
  • 情境理解:人类评估者可以从更广泛的角度,考虑智能体行动的背景以及产生的影响,做出更全面的判断。
  • 迭代改进:人类给出的反馈,能为优化智能体的行为和学习过程,提供非常有价值的见解,助力智能体不断优化。
  • 评估评估者:人类反馈还能为校准和优化自动评分器提供参考,让自动评分器的评估更加准确。

多模态生成(如图像、音频、视频)的评估,则更为复杂,需要专门的评估方法和指标。

多智能体及其评估

如今,AI系统正朝着多智能体架构方向发生变革。

在这种架构中,多个具有专业能力的智能体相互协作,共同完成复杂的目标。

多智能体系统就好比是一个由专家组成的团队,各自在擅长的领域发挥专长。

每个智能体都是一个独立的个体,它们可能使用不同的LLM,承担独特的角色,并且有着不同的任务背景。

这些智能体通过相互沟通、协作,来实现共同的目标。

这和传统的单智能体系统有很大区别,在单智能体系统中,所有任务都由一个LLM来处理。

理解多智能体架构

多智能体架构会把一个复杂问题拆解成不同的任务,交给专门的智能体去处理。

每个智能体都有明确的角色,它们之间动态互动,以此优化决策过程、提升知识检索效率、确保任务顺利执行。

这种架构实现了更有条理的推理方式、去中心化的问题解决模式,以及可扩展的任务自动化处理。

多智能体系统运用了模块化、协作和分层的设计原则,构建出一个强大的AI生态系统。

智能体可以根据功能分为不同类型,例如:

  • 规划智能体:负责将高层次的目标拆解成一个个结构化的子任务,为后续工作制定详细计划。
  • 检索智能体:通过动态地从外部获取相关数据,优化知识获取过程,为其他智能体提供信息支持。
  • 执行智能体:承担具体的计算工作,生成响应内容,或者与 API 进行交互,实现各种实际操作。
  • 评估智能体:对其他智能体生成的响应进行监控和验证,确保符合任务目标,并且逻辑连贯、准确无误。

通过这些组件的协同工作,多智能体架构不再局限于简单的基于提示的交互方式,实现了自适应、可解释且高效的AI驱动工作流程。

多智能体评估

多智能体系统评估是在单智能体系统评估的基础上发展而来的。

智能体的成功指标在本质上并没有改变,业务指标依然是核心关注点,其中包括目标和关键任务的完成情况,以及应用程序遥测指标,如延迟和错误率等。

通过对多智能体系统运行过程的跟踪记录,有助于在复杂的交互过程中发现问题、调试系统。

评估行动轨迹和评估最终响应这两种方法,同样适用于多智能体系统。

在多智能体系统中,一个完整的行动轨迹可能涉及多个甚至所有智能体的参与。

即便多个智能体共同协作完成一个任务,最终呈现给用户的是一个单一的答案,这个答案可以单独进行评估。

由于多智能体系统的任务流程通常更为复杂,步骤更多,所以可以深入到每个步骤进行细致评估。行动轨迹评估是一种可行的、可扩展的评估方法。

智能体增强检索生成

在智能体增强检索生成(Agentic RAG)中,智能体会通过多次搜索来获取所需信息。

在医疗保健领域,智能体增强检索生成可以帮助医生浏览复杂的医学数据库、研究论文和患者记录,为他们提供全面、准确的信息。

Vertex AI Search是一个完全托管的、具有谷歌品质的搜索与检索增强生成(RAG)服务提供商。涵盖数据收集、处理、嵌入、索引 / 排序、生成、验证和服务等流程。

Vertex AI Search拥有布局解析器、向量排序API等组件,还提供RAG引擎,通过Python SDK进行编排,支持众多其他组件。

对于希望构建自己搜索引擎的开发者,上述每个组件都作为独立的API开放,RAG引擎能借助类似LlamaIndex的Python接口轻松编排整个流程。

企业中的智能体

企业开发并使用智能体,协助员工执行特定任务,或在后台自动化运行。

商业分析师借助AI生成的见解,能轻松挖掘行业趋势,制作极具说服力的数据驱动型演示文稿;人力资源团队可利用智能体优化员工入职流程。

软件工程师依靠智能体,能主动发现并修复漏洞,更高效地进行开发迭代,加快部署进程。

营销人员利用智能体,能深入分析营销效果,优化内容推荐,灵活调整营销活动以提升业绩。

目前,有两类智能体崭露头角:

助手型智能体:这类智能体与用户进行交互,接收任务并执行,然后将结果反馈给用户。

助手型智能体既可以是通用的,也可以专门针对特定领域或任务。

例如,帮助安排会议、分析数据、编写代码、撰写营销文稿、协助销售人员把握销售机会的智能体,甚至还有根据用户要求对特定主题进行深入研究的智能体。

它们响应方式不同,有些能快速同步返回信息或完成任务,有些则需要较长时间运行(比如深度研究型智能体)。

自动化智能体:这类智能体在后台运行,监听事件,监测系统或数据的变化,然后做出合理决策并采取行动。

这些行动包括操作后端系统、进行测试验证、解决问题、通知相关员工等。

如今,知识工作者不再只是简单地调用智能体执行任务并等待结果,他们正逐渐转型为智能体的管理者。

为了便于管理,未来会出现新型用户界面,实现对多智能体系统的编排、监控和管理,这些智能体既能执行任务,还能调用甚至创建其他智能体。

NotebookLM企业版

NotebookLM是一款研究和学习工具,旨在简化复杂信息的理解与整合流程。

用户可以上传各种源材料,如文档、笔记和其他相关文件,NotebookLM借助AI技术,助力用户更深入地理解这些内容。

想象一下,在研究复杂主题时,NotebookLM能把零散的资料整合到一个有序的工作空间。

本质上,NotebookLM就像一个专属研究助手,加速研究进程,帮助用户从单纯的信息收集迈向深度理解。

NotebookLM企业版将这些功能引入企业环境,简化员工的数据交互方式,帮他们从中获取有价值的见解。

例如,AI生成的音频摘要功能,用户可以通过「听」研究内容来提升理解效率,促进知识吸收。

NotebookLM企业版融入了企业级的安全和隐私功能,严格保护敏感的公司数据,符合相关政策要求。

Agentspace空间企业版

Google Agentspace提供了一套由AI驱动的工具,旨在通过方便员工获取信息,自动化复杂的智能体工作流程,提升企业生产力。

Agentspace有效解决了传统知识管理系统的固有缺陷,通过整合分散的内容源,生成有依据且个性化的回复、简化业务流程,帮助员工高效获取信息。

Agentspace企业版的架构基于多个核心原则构建。

安全性始终是Google Agentspace的首要关注点。

员工可以通过它获取复杂问题的答案,还能统一访问各类信息源,无论是文档、邮件等非结构化数据,还是表格等结构化数据。

企业可根据自身需求配置一系列智能体,用于深度研究、创意生成与优化、数据分析等工作。

智能体空间企业版还支持创建定制化的AI智能体,满足特定业务需求。

该平台能够开发和部署具有上下文感知能力的智能体,帮助营销、财务、法律、工程等各部门员工高效开展研究、快速生成内容,并实现重复性任务(包括多步骤工作流程)的自动化。

定制智能体可连接内外部系统和数据,贴合公司业务领域和政策要求,甚至能基于专有业务数据训练模型。

多智能体架构实际应用

为了说明多智能体概念在实际中的应用,来看一个专为汽车设计的综合多智能体系统。

在这个系统中,多个专用智能体协同工作,为用户带来便捷、流畅的车内体验。

  • 对话式导航智能体:专门用于帮助用户查找位置、推荐地点,并借助Google Places和Maps等API进行导航。
  • 对话式媒体搜索智能体:专注于帮用户查找和播放音乐、有声读物和播客。
  • 消息撰写智能体:帮助用户在驾驶时起草、总结和发送消息或电子邮件。
  • 汽车手册智能体:借助检索增强生成(RAG)系统,专门解答与汽车相关的问题。
  • 通用知识智能体:解答关于世界、历史、科学、文化及其他通用主题的事实性问题。

多智能体系统将复杂任务拆解为多个专业子任务。

在这种架构下,每个智能体专注于特定领域。这种专业化使整个系统更加高效。

导航智能体专注于定位和路线规划;媒体搜索智能体精通音乐和播客资源查找;汽车手册智能体擅长解决车辆相关问题。

系统会根据任务难度分配资源,简单任务用低配置资源,复杂任务再调用高性能资源。

关键功能(如调节温度、开窗等)由设备端智能体快速响应,而像餐厅推荐这类非紧急任务则交给云端智能体。

这种设计还具备天然的容错能力。网络连接中断时,设备端智能体仍能保证基本功能正常运行,比如温度控制和基本媒体播放不受影响,只是暂时无法获取餐厅推荐。

参考资料:

https://x.com/aaditsh/status/1919383594533072974

https://www.kaggle.com/whitepaper-agent-companion

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(240805-240809)
Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割
叶子的技术碎碎念
2025/04/08
850
每周AI论文速递(240805-240809)
LLMOps+DeepSeek:大模型升级一体化运维
蛇年伊始,DeepSeek凭借其卓越表现火爆出圈,让AI大模型瞬间成为街头巷尾热议的焦点,也让大众重新燃起对AGI(通用人工智能)“平民化”的信心,DeepSeek通过先进的模型架构,带来的高效率与低成本优势,加快了应用场景的百花齐放。
嘉为蓝鲸
2025/02/21
7760
LLMOps+DeepSeek:大模型升级一体化运维
深入浅出智能工作流(Agentic Workflow)|技术干货
著名 AI 学者、斯坦福大学教授吴恩达提出了 AI Agent 的四种设计方式后,Agentic Workflow(智能体工作流)立即火爆全球,多个行业都在实践智能体工作流的应用,并推动了新的 Agentic AI 探索热潮。
Botnow
2024/09/18
1K0
深入浅出智能工作流(Agentic Workflow)|技术干货
AI日报 - 2025年3月30日
▎🤖 模型进展 | Qwen2.5-Omni多模态实时交互,Gemini 2.5 Pro/GPT-4o低调升级,Claude内部思考过程揭秘。
訾博ZiBo
2025/03/29
1110
AI日报 - 2025年3月30日
谷歌AI Agent白皮书:2025年AI智能体时代来临
作者|Authors: Julia Wiesinger, Patrick Marlow and Vladimir Vuskovic
陈宇明
2025/02/26
5100
谷歌AI Agent白皮书:2025年AI智能体时代来临
AI智能体的开发流程
AI 智能体(AI Agent)的开发是一个涉及多个步骤的复杂过程,需要清晰的规划和执行。它不仅仅是训练一个模型那么简单,而是构建一个能够感知环境、做出决策并执行动作的完整系统。以下是一个较为全面的 AI 智能体开发流程概述,涵盖了从需求分析到部署维护的各个阶段。
数字孪生开发者
2025/01/11
5880
AI智能体的开发流程
“AI玩手机”原理揭秘:大模型驱动的移动端GUI智能体
在后LLM时代,随着大语言模型和多模态大模型技术的日益成熟,AI技术的实际应用及其社会价值愈发受到重视。AI智能体(AI Agent)技术通过集成行为规划、记忆存储、工具调用等机制,为大模型装上“手脚”,使其能够利用强大的多模态感知交互与推理决策能力,与真实世界进行有效交互,成为连接人类与数字世界的桥梁,并迎来前所未有的发展机遇。(了解更多关于智能体的见解:《在后LLM时代,关于新一代智能体的思考》) 。
澜舟科技
2024/11/22
3850
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。
机器之心
2025/02/14
2500
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世
每周AI论文速递(241104-241108)
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
叶子的技术碎碎念
2025/04/08
530
每周AI论文速递(241104-241108)
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
有很多人或许会疑惑,Agent 这个东西看起来跟 LLM 也没差得那么远,那为啥最近突然 Agent 那么火,而不称之为 LLM-Application 或者其他的词呢?这就得从 Agent 的来历上说起了,因为 Agent 是个很古老的术语,甚至可以追溯至亚里士多德和休谟等人的言论。从哲学意义上讲,“代理人”是指具有行动能力的实体,而 “代理” 一词则表示这种能力的行使或体现。而从狭义上讲,“代理”通常是指有意行动的表现; 相应地,“代理人” 一词表示拥有欲望、信念、意图和行动能力的实体。需要注意的是,代理人不仅包括人类个体,还包括物理世界和虚拟世界中的其他实体。重要的是,“代理” 的概念涉及个人的自主性,赋予他们行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。
汀丶人工智能
2024/07/05
2.8K0
AI Agent框架(LLM Agent):LLM驱动的智能体如何引领行业变革,应用探索与未来展望
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241216-241220)
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。
机器之心
2024/06/04
1440
AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%
谷歌刚刚发布 AI Agent 白皮书,2025 年agent时代已开启
作者:Julia Wiesinger, Patrick Marlow 和 Vladimir Vuskovic
AIGC新知
2025/01/07
1.3K0
谷歌刚刚发布 AI Agent 白皮书,2025 年agent时代已开启
深度解析RAG技术在大模型时代的原理与实践
AI 日报_硅谷 “鲁迅” 怒怼马斯克_炮轰 AI 界 * 前 OpenAI 安全主管入职友商 Anthropic
可信AI进展
2024/06/03
2.8K0
打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym
LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!
机器之心
2024/06/17
3880
每周AI论文速递(241028-241101)
视觉-语言模型 (Vision-language models, VLMs) 在多模态任务中表现出色,但将其应用于开放世界环境中的具身决策仍面临挑战。主要难点在于如何将低级观察中的个体实体与规划所需的抽象概念有效关联。常见的解决方案是采用分层智能体,其中 VLMs 作为高级推理器,将任务分解为可执行的子任务,通常通过语言和虚拟观察来指定。然而,语言在传达空间信息方面往往力不从心,而生成高准确性的未来图像仍具挑战。为此,我们提出了视觉-时间上下文提示,这是一种 VLMs 与策略模型之间的新型通信协议。该协议利用过去和当前观察中的对象分割来指导策略与环境的交互。基于此,我们训练了 ROCKET-1,一个根据连接的视觉观察和分割掩码预测动作的低级策略,实时对象跟踪由 SAM-2 提供。我们的方法充分发挥了 VLMs 的视觉-语言推理能力,使其能够解决复杂的创造性任务,特别是那些高度依赖空间理解的任务。在 Minecraft 中的实验表明,我们的方法使智能体能够完成以往难以完成的任务,突显了视觉-时间上下文提示在具身决策中的有效性。代码和演示将在项目页面上提供:https://craftjarvis.github.io/ROCKET-1。
叶子的技术碎碎念
2025/04/08
670
每周AI论文速递(241028-241101)
上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究 !
近期AI的发展被日益重要的协作AI系统的成功所定义,这些系统整合了多种模型和工具作为整体协作系统。ChatGPT Plus(OpenAI,2024年)的成功表明将诸如网页浏览、图像生成和代码执行等任务集成到一个单一的聊天代理的可能性。与传统AI模型作为单一实体的不同,协作AI系统整合多个AI组件,每个组件贡献独特的能力来解决复杂问题。向整合方向的转变对于实现最先进的结果至关重要,因为整合了多样AI功能的优势在一个统一框架内。
AIGC 先锋科技
2024/09/26
1900
上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究 !
Cell | 前瞻性分析:AI智能体赋能生物学发现
今天为大家介绍的是来自哈佛医学院Marinka Zitnik团队的一篇论文。作者设想“AI科学家”是能够进行批判性学习和推理的系统,它们通过协作型智能体整合AI模型、生物医学工具和实验平台,从而推动生物医学研究的发展。这些生物医学AI智能体并不是要将人类排除在发现过程之外,而是将人类的创造力与专业知识,与AI在分析大型数据集、探索假设空间以及执行重复性任务方面的能力结合在一起。AI智能体在各种任务中将表现出色,包括规划发现工作流程、进行自我评估以识别并弥补知识空白。这些智能体利用大语言模型和生成模型,具备结构化记忆能力以实现持续学习,并使用机器学习工具整合科学知识、生物学原理和理论。AI智能体的应用领域广泛,包括虚拟细胞模拟、表型的可编程控制、细胞电路设计以及新疗法的开发等方面。
DrugAI
2024/12/23
1810
Cell | 前瞻性分析:AI智能体赋能生物学发现
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
嘿,大家好!作为一名技术宅,我在2024年与AI的大型语言模型(LLM)技术有了不少“亲密接触”,感觉就像是和一位日益聪明的老友并肩前行。
汀丶人工智能
2025/01/25
6740
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
前些时日,AI 大模型开始掌握操作计算机的能力,但整体而言,它们与物理世界互动的能力仍处于早期阶段。
机器之心
2025/02/14
1360
智能体首次达到Kaggle Grandmaster水平,华为用结构化推理补齐思维链短板
推荐阅读
相关推荐
每周AI论文速递(240805-240809)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档