2023年市面上出现了很多和大模型相关的产品,旧金山的Prompt AI融资了500万美元,来自新加坡的Neuronicx成为全球最知名的GPT账号服务商,国内的各类套壳网站通过广告和会员赚的盆满钵满。之后,文心一言、通义千问、智普清言等服务商迅速降低了国内的大语言模型使用门槛,字节发布了第一个面向普通用户的手机App豆包则把大模型的使用门槛进一步拉低。2024年,初创公司Cognition Labs发布了全球首款全智能AI程序员Devin,字节发布coze,大模型开发进入了新的事态,让普通非编程用户基于大模型做符合自己需求的应用成为可能。
大模型应用开发经历了几个阶段,目前我认为处于3.5阶段。第1.0阶段,Chat模式,在大模型基座上开发出聊天机器人,并给聊天机器人增加相应的辅助功能来获得用户好感,典型产品ChatGPT。第2.0阶段,单体Agent模式,基于Chat模型做应用开发,让应用可以在完成某个目标时智能化自主完成,代表框架LangChain,典型产品AutoGPT。这一阶段,整个编程范式已经发生变化,从以前“写代码来实现需求”转变到“写代码来控制AI实现需求”。第3.0阶段,Multi-Agent模式,对单体模式的进一步深化,从系统论的分工理论出发,将一项任务的实现,拆分为不同角色的协同过程,由不同Agent扮演不同角色来完成目标,因为扮演单一角色能让Agent在更小的范围内获得更准确的效果,因此,Multi-Agent的生成效果会被单体Agent更好,代表框架AutoGen、LangGraph,典型产品Devin。
今天,我们市场的主流声音开始强调workflow,试图通过workflow和multi-agent结合,来让大模型应用输出更好的效果。我称这个阶段为3.5阶段,它虽然在范式上没有改变,但形成了一种主要的开发模式,排除了其他模式的可能性。
和其他App不同,使用coze的用户目标从其产品设计看,不是为chat,而是为了创建一个自己的Agent应用(虽然有不少人把它当阶段1的chat应用来使用)。我们进入coze的主界面,可以直接通过传统的chat界面来实现某种处理。就这一点就非常有意思,它是一个chat,但是它是一个用来创建应用的chat。接下来,coze提供了Bot商店和插件商店,Bot商店是用来展示别人创建的Agent,插件商店类似GPTs,是自己用来创建Agent的原材料。最后,coze提供了个人空间和团队空间,其中特点是团队空间支持多人一起做一个Agent项目。
在一个空间中,用户可以开始开发自己的Agent应用。用户可以开发5种东西:Bot、插件、工作流、知识库、卡片(消息体UI)。Bot就是我们开发的最终形态,可以被发布,发布后不仅可以在Bot商店被搜到,还可以在豆包中被搜到。除了Bot的其他4种东西,都可以理解是开发半成品,最终在Bot中被使用。而且,coze还提供了Bot的数据分析dashboard,感觉做的还是很全面的。目前似乎所有发布的Bot都还没有收费模式,不知道将来它的盈利模式是什么。(据称目前大模型遇到的最大问题不是算力,而是数据,字节通过这种方式让用户把数据留在平台上,也是一种可能吧。)
之所以对coze解释的这么详细,是因为接下来要介绍的两款产品,在产品设计思路上大致相同,概念对应。
接下来我们重点看关注的worflow(工作流)部分。
从UI上看,与传统的workflow工具/平台在配置设计上不同,我们以前注重流程,因此把配置放在界面右侧,选中某个节点后展开右侧配置界面去配置。而现在新生代的流程配置UI都改为了直接在节点处配置,这就使得每一个节点的panel都比较丰富。它的link可以多进多出(一个节点进口和出口都可以和多个其他节点连线),之所以能做到这样,这是因为它需要在节点内配置数据分配,也算是在流程和配置之间找到了平衡点。
从提供的能力看,coze的工作流中的节点有3种来源:基础节点、插件、其他工作流,其中基础节点中包含了知识库,也是可被开发的。我认为这也是非常丰富的,比较全。特别是它的插件市场,可以使用别人制作的插件,可以提供无限的可能性。就目前来看,它已经具备了非常多功能的节点,已经可以做出非常复杂的工作流了。
它可以调试单个节点,也可以试运行整个流水线。发布后就可以作为其他Bot或工作流的素材。
Dify本身是以创建Agent应用为目标的平台。它提供了应用市场,有趣的是你可以直接将某个应用添加到工作区进行修改后发布为自己的应用,这和文生图社区的玩法一致,在创建应用时还可以支持DSL导入,也是一个亮点。它提供了一系列内置工具,但是没有工具市场。对于用户而言,可以在dify上开发Agent应用、知识库、自定义工具。其中Agent应用可以分为聊天助手、文本生成应用、Agent,文本生成应用可以引用知识库,Agent在此基础上可以引用工具,它们都无法使用workflow进行编排。只有聊天助手可以选择使用配置模式还是workflow模式进行开发。dify只支持单人开发,且限额较低。
Dify的导航概念不是很清晰,上手时需要花点时间琢磨。