作者 | Bill Doerrfeld
编译 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
操作 Windows 程序、自动对账发票、预订航班和酒店——这些只是新一代大型语言模型(LLMs)为 AI 智能体带来的众多可能性中的几个。研究人员将这一阶段的进化称为“大型行动模型(Large Action Models)”,简称 LAMs。
迄今为止,LLM 是无状态的——它们无法自行采取行动、适应环境或与工具交互。但 LAMs 的出现,正在使智能体能够执行更复杂的操作,甚至能在图形用户界面(GUI)中自主导航。
IT 服务公司 Xebia 的集团董事总经理 Preetpal Singh 在接受采访时表示:“LAM 是 AI 系统发展中的一个关键转折点,它标志着 AI 从被动应答者向自主操作者的跃迁。”
实际上,LAM 正在将行业从“生成式 AI”引导向“智能体 AI”。
xtype(一家 ServiceNow 多实例管理平台公司)的产品营销负责人 Scott Willson 也表示:“AI 一直需要一个‘执行引擎’,LAM 正是生成式 AI 对这一需求的回应。”
LAM 是在 LLM 基础上训练而成的,专注于“行动”任务,并具备真实的外部数据与系统连接能力。这意味着,LAM 驱动的智能体远比普通 LLM 更强大——后者仅限于推理、检索和文本生成。
MinIO(对象存储系统)的 AI 解决方案工程师 Keith Pijanowski 表示:“当你在讨论 LAM,其实你就是在谈智能体。LAM 实际上是智能体的大脑。”
与传统 LLM 面向通用用途、训练数据来源广泛不同,LAM 更注重任务导向。Imagine Learning(教育平台)的 AI 事务副总裁 Jason Fournier 指出:“LAM 是将 LLM 微调,使其在推荐达成目标的行动方面表现更优。”
目前的一些 LAM 实践案例包括:
目前学界仍在积极研究 LAM,而业界对其定义尚未统一。尽管名称五花八门,许多被称为“可调用工具的 LLM”或“智能体框架”的项目,本质上都属于 LAM 范畴。
例如,OpenAI 最近在其 Responses API 中新增了“计算机操作”功能,允许开发者引导 AI 执行点击、滚动等屏幕上的操作。虽然 OpenAI 没有使用 LAM 这一术语,但这一功能正体现了“AI 行动力”的整体趋势。
微软研究人员在去年12月发布的一篇关于 LAM 的研究摘要中写道:“人们对超越语言助手、能执行现实任务的智能体系统需求正在快速增长。”而今年5月更新的另一项研究则描绘了一种“以 LLM 为大脑的新一代 GUI 智能体”。
在传统的企业自动化中,人们依赖于“机器人流程自动化(RPA)”,通过模拟点击、滚动、复制文本等用户行为来完成重复任务。而 LAM 正在走得更远。
不同于依赖硬编码逻辑的 RPA,基于 LAM 的智能体可以在运行时收集信息,甚至是那些在流程设计时尚不存在的数据。Pijanowski 表示:“这更像是一种动态业务逻辑。”
Willson 则认为 LAM 比 RPA “强太多了”:“……”
Willson 认为 LAM 的能力已经远超 RPA:“它不是根据固定脚本去做事,而是实时推理,适应不同场景。RPA 是静态的,而 LAM 是动态的。”
这使得基于 LAM 的智能体比传统系统更能适应变化的业务环境和用户需求。例如,它们可以:
目前的 LAM 系统,往往由以下几个关键构件组成:
这些能力使 LAM 成为真正意义上的“AI 操作员”,可以辅助甚至替代人类在桌面环境、网页、企业内部系统等界面中执行任务。
目前,除了微软、OpenAI 和一些学术机构之外,还有越来越多创业公司和开源社区也在推动 LAM 的实践。比如:
尽管这一领域仍在早期阶段,但它可能比“仅生成文本”的 AI 革命更具现实影响力,因为它直接进入了人类工作流的执行层。
我们曾用 LLM 革命性地解决了“理解”和“表达”的问题,现在 LAM 正试图解决“执行”的问题。
就像 Keith Pijanowski 所说:“语言模型是 AI 的大脑,而行动模型才是 AI 的双手和双脚。”
随着更多 GUI-aware、具备系统访问能力的 LAM 被开发出来,我们将看到 AI 真正开始动手做事——从写邮件、处理表格,到登录系统、分析报表、执行指令。
也许未来,企业的每个部门都会配有一个“数字助手”,不再只是回答你问题,而是真正替你完成任务。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。