前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI智能体工作流,突破LLM代际差异,GPT-3.5干出4.0的效果

AI智能体工作流,突破LLM代际差异,GPT-3.5干出4.0的效果

作者头像
否子戈
发布2024-04-12 16:59:30
4600
发布2024-04-12 16:59:30
举报
文章被收录于专栏:

事件背景

今天一篇“吴恩达:AI智能体工作流……超过下一代基础模型”的文章刷屏,随后我去看了原文,觉得现在的媒体有点脑残夸张,用标题取胜。实际上吴的意思是通过agent workflows可以大幅提高LLMs的输出表现(performance),因此,他猜测今年构建agent工作流会是一个比基础模型建设更重要的趋势,他自己也会投入更多注意力在这件事上。由于公众号文章无法插入链接,你可以访问我的博客(点击下方阅读原文)来找到文章链接。

通过吴的实验,在相同的一个任务目标中,“GPT-3.5 (zero shot) 正确率为48.1%。GPT-4 (zero shot) 的表现更好,为67.0%。然而,从GPT-3.5到GPT-4的提升与合并迭代智能体工作流相比显得微不足道。实际上,在智能体循环里运行,GPT-3.5可以达到95.1%的正确率”。这说明一个非常关键的问题,以前我们会认为GPT-4会被GPT-3.5强很多,但是在agent workflows的加持下,两者的差别却几乎没有,可见,在面对具体问题的时候,AI的智能程度,并不能绝对的决定它的最终表现,而通过好的软件架构,也能明显提升目标效果。

有了这样的一个认识基础,我们有理由相信,通过应用层面的模式运用和架构设计,可以更好的解决实际问题,而非在基础模型建设上,拼命的持续投入。这对我们现在业界的情况冲击还是挺大的,因为包括openAI在内的厂商,现在都在做基础模型的竞赛,GPT-4之后,很快就会出GPT-5,其他厂商也在宣称自己的模型比GPT-4更优秀。然而,如果这些基础模型的表现和通过agent workflows优化后的应用相比,结果就会差强人意。这也就是为什么吴说自己会在今年更加专注智能体工作流这件事。

智能体设计模式

吴恩达在同篇推送中提出了基于工作流思路,有4种智能体的设计模式,可以帮助我们实现利用workflow来优化LLMs表现。这4种模式分别是:

  • Reflection:LLM审查自己的工作,提出改进的方法。
  • Tool use:LLM被赋予工具,如网络搜索,代码执行,或任何其他功能,以帮助它收集信息,采取行动,或处理数据。
  • Planning:LLM提出并执行一个多步骤计划来实现一个目标(例如,编写一篇文章的大纲,然后进行在线研究、编写草稿,等等)。
  • Multi-agent collaboration:多个AI智能体一起工作,分解任务、讨论和辩论想法,提出比单个智能体更好的解决方案。

其实,从我个人的角度来看,前3种模式基本都out了。目前业界的发展很快,前3种都是古早的方法,人工也可以操作,其中tool use就包括了RAG知识库模式。就目前来看,主流的趋势是第4种,即multi-agent模式,这在我上一篇博客中已经解释过了,这里就不再过多解释。目前市面上能够出来令人感到一点惊艳的,大部分都是采用这种模式,例如Devin,它作为一个用来编程的程序员AI,本质上它自己并不只完成程序员的工作,它还要完成研发流程上各个角色的工作,例如任务理解和拆分(研发PM)、测试(QA)、质量评估、部署上线(DevOps)等等,最终在一个工作流生命周期中生产产物(而非代码碎片),从而给人非常惊艳的感觉。另外,从概念上讲multi-agent模式不是智能体本身的设计模式,而是构建AI智能系统的模式,当然,如果把一个具有复杂设计的系统也作为智能体,也是可以的,那就是一个包含了内部agent的big agent。

多智能体工作流

工作流可以有效的帮我们提升工作的成果质量,本质上是因为系统论原理。就像人类社会的生产一样,独立一个人的生产能力是有限的,但是如果形成一个组织(如公司)来进行生产,通过系统化的分工和管理,提升效率,就可以达到1+1>2的效果。因此,工作流模式解决实际问题,我也认为是目前为止最好的应用路径。从AI的发展来看,智能程度的提升就像人脑智力水平高,然而实际要干活,还是得靠智力水平一般,但是勤奋努力的个体来实现。所以,未来当我们拥有足够智力水平的LLM底座之后,发展的方向一定是基于系统论的应用层构建。关注我的公众号 wwwtangshuangnet 有更多的文章来聊这一方向。

以LangGraph为例,它已经是按multi-agent模式设计好的框架,开发者只需要按照它的使用方法,完成下面3件事,就可以开发出自己的AI工作流:

  • 工具定义
  • LLM接入
  • 流程定义

工具是最终干实事的部分,可以调用网络接口,也可以是驱动本地软件、硬件等,通过这些工具,agent才能产生实际的生产效果。流程定义部分比较复杂,这里面就需要定义做这件事应该如何去划分职责,如何规划阶段,每个阶段不同角色应该做什么事,达到什么样的条件,如何去执行动作等等。

它在设计上提供了3种模式:

多智能体协同模式

也就是吴恩达所指出的Multi-agent collaboration,这种模式通过将多个智能体囊括在一个工作流中,协同工作来提升产出的质量。

监督人模式

这种模式下,agent之间不再共享同一个暂存器,各自独立工作,通过监督人(Supervisor)来进行协调和最终的输出。

分层次团队模式

在监督人模式的基础上,不同agent被分为多个team,在一个team内的agents可以更高效的协作。最终,多个team通过监督人进行协调和最终输出。

可以看出,一方面,我们需要让分工更加明确,一件事由一个agent完成,这样可以更高效;另一方面,我们需要让这些agent协同起来,通过有效的组织、联系、反馈,来让整套工作流运作更加高效。

结语

从本文中,你肯定可以发现一些规律,即agents以workflow的模式来进行工作,可能会是将来AI应用的主要开发模式。在这样的体系中,分工会越来越细,每一个agent都可以在单独某个方面具备更优秀的能力,这也意味着在一套系统中,我们可能需要多个领域的小模型或者经过微调的LLM。同时,我们也可以看到,由于分工很细,有不少agent的功能愈发单一,我们就可以采用耗能更小的技术架构来实现这类agent,只有那种需要非常高智能的agent,我们才可能需要比GPT-4更高智能的大模型,这就显得更加环保,对当下芯片资源、电力资源紧张感有一定的缓解作用。另外一方面,由于这种越来越细的分工,我们需要一个agent market来随时扩展系统能力,当用户在平台上准备让AI完成自己的任务,但是又没有在当前系统中看到可以实现自己需要的能力的agent时,可以便捷的在market上载入新的agent。基于这一思考,我们就会豁然开朗,为什么吴恩达会认为智能体工作流会是今年一个重要的课题了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐霜 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 事件背景
  • 智能体设计模式
  • 吴恩达在同篇推送中提出了基于工作流思路,有4种智能体的设计模式,可以帮助我们实现利用workflow来优化LLMs表现。这4种模式分别是:
  • 多智能体工作流
  • 工作流可以有效的帮我们提升工作的成果质量,本质上是因为系统论原理。就像人类社会的生产一样,独立一个人的生产能力是有限的,但是如果形成一个组织(如公司)来进行生产,通过系统化的分工和管理,提升效率,就可以达到1+1>2的效果。因此,工作流模式解决实际问题,我也认为是目前为止最好的应用路径。从AI的发展来看,智能程度的提升就像人脑智力水平高,然而实际要干活,还是得靠智力水平一般,但是勤奋努力的个体来实现。所以,未来当我们拥有足够智力水平的LLM底座之后,发展的方向一定是基于系统论的应用层构建。关注我的公众号 wwwtangshuangnet 有更多的文章来聊这一方向。
  • 以LangGraph为例,它已经是按multi-agent模式设计好的框架,开发者只需要按照它的使用方法,完成下面3件事,就可以开发出自己的AI工作流:
  • 结语
  • 从本文中,你肯定可以发现一些规律,即agents以workflow的模式来进行工作,可能会是将来AI应用的主要开发模式。在这样的体系中,分工会越来越细,每一个agent都可以在单独某个方面具备更优秀的能力,这也意味着在一套系统中,我们可能需要多个领域的小模型或者经过微调的LLM。同时,我们也可以看到,由于分工很细,有不少agent的功能愈发单一,我们就可以采用耗能更小的技术架构来实现这类agent,只有那种需要非常高智能的agent,我们才可能需要比GPT-4更高智能的大模型,这就显得更加环保,对当下芯片资源、电力资源紧张感有一定的缓解作用。另外一方面,由于这种越来越细的分工,我们需要一个agent market来随时扩展系统能力,当用户在平台上准备让AI完成自己的任务,但是又没有在当前系统中看到可以实现自己需要的能力的agent时,可以便捷的在market上载入新的agent。基于这一思考,我们就会豁然开朗,为什么吴恩达会认为智能体工作流会是今年一个重要的课题了。
相关产品与服务
CODING DevOps
CODING DevOps 一站式研发管理平台,包括代码托管、项目管理、测试管理、持续集成、制品库等多款产品和服务,涵盖软件开发从构想到交付的一切所需,使研发团队在云端高效协同,实践敏捷开发与 DevOps,提升软件交付质量与速度。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档