其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。
我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。
1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。
2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等
让模型再回答之前,先主动拆解一下问题,一步一步进行回答。
从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。
所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。
但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。
综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有