前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”

AI Agent 都是噱头?真相揭示:它们其实只是模型的“傀儡”

原创
作者头像
算法一只狗
发布于 2025-05-05 13:05:22
发布于 2025-05-05 13:05:22
1280
举报
文章被收录于专栏:算法一只狗算法一只狗

其实 AI Agent 本质上还是要依赖于背后的大模型能力,如果大模型能力本质上效果不佳,就算Agent 再怎么去设计,其最后的效果还是很难达到“好用”的程度。

我们先来看看 Agent 本质上其实就是能够“让 AI 真正实现自主完成任务”,其能力主要包含下面三个基本能力。

  • 感知能力:让Agent 理解输入的能力

1)文本感知:单纯的文本大语言模型靠的是文本感知。训练的时候靠得就是海量的文本数据,依赖于人工输入文本然后回答。

2)多模态能力感知:GPT-4o的出现,使得这类大模型能够拥有视觉感知、语音感知等

  • 规划能力:让 Agent 拆解任务,看看需要执行哪些步骤

让模型再回答之前,先主动拆解一下问题,一步一步进行回答。

  • 行动能力:大模型需要调用工具执行某些操作,来获取信息和输出特定的格式。比如最近很火的 MCP 协议就是为了解决这个问题而提出来的

从上面这三个能力来看,其实很依赖于大模型的基础能力,现阶段的大模型在推理和规划能力上其实本质上还是不足。

  • 上下文理解有限: 当前的 Agent 通常基于大语言模型(LLM),LLM 擅长单步任务(如问答),但面对多步、跨领域任务的规划时,容易丢失上下文,出现规划失误。
  • 长期任务规划与记忆困难: 多数 LLM 缺乏稳定可靠的长期记忆机制,无法持久追踪任务的整体进度,影响任务的连贯性与稳定性。
  • 不确定性处理薄弱: 面对真实环境的不确定因素(如意外输入、网络波动、API失败),当前的 Agent 尚不具备足够的鲁棒性和容错能力。

所以我一直认为,如果大模型其实就是 Agent 的上限。就像 OpenAI 最近把o3 和 o4-mini的效果提升到前所未有的多模态理解和图像推理能力。这样其实就干死了很多 AI Agent 的公司。因为这类的推理大模型,本质上就是一个拥有解决很多问题的 简易 Agent。

但是又由于现在这类大模型的效果还远远达不到真的这么强,将文本、语音、视觉等不同模态信息有效整合并形成统一的理解,目前仍存在技术瓶颈。另一方面,虽然 Agent 能够调用外部工具,但由于工具种类繁多、接口标准不统一,Agent 对工具的理解、选择和精准调用仍然缺乏一致性。所以用起来还是不太好用。

综合来看,尽管现阶段开发基础版 AI Agent 较为容易,但要真正实现高效、可靠、实用的 Agent 体验,还需克服上述多重技术瓶颈,需要在基础模型能力提升、外部工具标准化、多模态融合、交互设计以及安全控制等多个方向取得重大突破。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档