AI智能体工作流，突破LLM代际差异，GPT-3.5干出4.0的效果

否子戈

发布于 2024-04-12 08:59:30

5520

文章被收录于专栏：码码

事件背景

今天一篇“吴恩达：AI智能体工作流……超过下一代基础模型”的文章刷屏，随后我去看了原文，觉得现在的媒体有点脑残夸张，用标题取胜。实际上吴的意思是通过agent workflows可以大幅提高LLMs的输出表现（performance），因此，他猜测今年构建agent工作流会是一个比基础模型建设更重要的趋势，他自己也会投入更多注意力在这件事上。由于公众号文章无法插入链接，你可以访问我的博客（点击下方阅读原文）来找到文章链接。

通过吴的实验，在相同的一个任务目标中，“GPT-3.5 (zero shot) 正确率为48.1%。GPT-4 (zero shot) 的表现更好，为67.0%。然而，从GPT-3.5到GPT-4的提升与合并迭代智能体工作流相比显得微不足道。实际上，在智能体循环里运行，GPT-3.5可以达到95.1%的正确率”。这说明一个非常关键的问题，以前我们会认为GPT-4会被GPT-3.5强很多，但是在agent workflows的加持下，两者的差别却几乎没有，可见，在面对具体问题的时候，AI的智能程度，并不能绝对的决定它的最终表现，而通过好的软件架构，也能明显提升目标效果。

有了这样的一个认识基础，我们有理由相信，通过应用层面的模式运用和架构设计，可以更好的解决实际问题，而非在基础模型建设上，拼命的持续投入。这对我们现在业界的情况冲击还是挺大的，因为包括openAI在内的厂商，现在都在做基础模型的竞赛，GPT-4之后，很快就会出GPT-5，其他厂商也在宣称自己的模型比GPT-4更优秀。然而，如果这些基础模型的表现和通过agent workflows优化后的应用相比，结果就会差强人意。这也就是为什么吴说自己会在今年更加专注智能体工作流这件事。

智能体设计模式

吴恩达在同篇推送中提出了基于工作流思路，有4种智能体的设计模式，可以帮助我们实现利用workflow来优化LLMs表现。这4种模式分别是：

Reflection：LLM审查自己的工作，提出改进的方法。
Tool use：LLM被赋予工具，如网络搜索，代码执行，或任何其他功能，以帮助它收集信息，采取行动，或处理数据。
Planning：LLM提出并执行一个多步骤计划来实现一个目标（例如，编写一篇文章的大纲，然后进行在线研究、编写草稿，等等）。
Multi-agent collaboration：多个AI智能体一起工作，分解任务、讨论和辩论想法，提出比单个智能体更好的解决方案。

其实，从我个人的角度来看，前3种模式基本都out了。目前业界的发展很快，前3种都是古早的方法，人工也可以操作，其中tool use就包括了RAG知识库模式。就目前来看，主流的趋势是第4种，即multi-agent模式，这在我上一篇博客中已经解释过了，这里就不再过多解释。目前市面上能够出来令人感到一点惊艳的，大部分都是采用这种模式，例如Devin，它作为一个用来编程的程序员AI，本质上它自己并不只完成程序员的工作，它还要完成研发流程上各个角色的工作，例如任务理解和拆分（研发PM）、测试（QA）、质量评估、部署上线（DevOps）等等，最终在一个工作流生命周期中生产产物（而非代码碎片），从而给人非常惊艳的感觉。另外，从概念上讲multi-agent模式不是智能体本身的设计模式，而是构建AI智能系统的模式，当然，如果把一个具有复杂设计的系统也作为智能体，也是可以的，那就是一个包含了内部agent的big agent。