
原文:ANTHROPIC官方
翻译:沉浸式翻译
编辑:绛烨
在过去的一年里,ANTHROPIC与数十个团队合作,构建了跨行业的大型语言模型 ( LLM ) 代理。
始终如一,最成功的实现并不使用复杂的框架或专门的库。相反,他们使用简单、可组合的模式进行构建。
在这篇文章中,ANTHROPIC分享了从与客户和构建代理(agent)合作中学到的知识,并为开发商提供构建有效代理的实用建议。
什么是代理?
“代理”可以通过多种方式定义。
一些客户将代理定义为完全自主的系统,可以长时间独立运行,使用各种工具完成复杂的任务。其他人使用该术语来描述遵循预定义工作流程的更具规范性的实现。
在 Anthropic,我们将所有这些变体归类为代理系统,但在工作流和代理之间划出了重要的架构区别:
下面将详细探讨这两种类型的代理系统。在附录 1中,描述了客户发现使用此类系统具有特殊价值的两个领域。
当使用LLMs构建应用程序时,我们建议寻找尽可能最简单的解决方案,并且仅在需要时增加复杂性,这可能意味着根本不构建代理系统。代理系统通常会以延迟和成本来换取更好的任务性能,应该考虑这种权衡何时有意义。
有许多框架可以使代理系统更容易实现,包括:
这些框架通过简化标准低级任务(例如调用LLMs 、定义和解析工具以及将调用链接在一起)使入门变得容易。
它们经常创建额外的抽象层,这些抽象层可能会掩盖底层的提示和响应,从而使它们更难以调试。当更简单的设置就足够时,它们还可能会增加复杂性。
建议开发人员从直接使用LLM API 开始:许多模式可以通过几行代码实现。如果您确实使用框架,请确保您了解底层代码。对底层内容的错误假设是客户错误的常见来源。
本节将探讨在生产中看到的代理系统的常见模式。
从基础构建块:增强的LLM 开始,并逐步增加复杂性,从简单的组合工作流程到自主代理。
代理系统的基本构建模块是通过检索、工具和记忆等增强功能增强的LLM 。我们当前的模型可以积极使用这些功能——生成自己的搜索查询、选择适当的工具以及确定要保留哪些信息。

建议重点关注实施的两个关键方面:根据特定用例定制功能,并确保为LLM提供简单且记录良好的界面。
实现这些增强的方法有很多,一种方法是通过最近发布的模型上下文协议,允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。
假设每个LLM调用都可以访问这些增强功能。
提示链接将任务分解为一系列步骤,其中每个LLM调用都会处理前一个步骤的输出。您可以在任何中间步骤上添加编程检查,以确保流程仍按计划进行。

何时使用此工作流程:非常适合任务可以轻松、干净地分解为固定子任务的情况。
主要目标是通过使每个LLM调用变得更容易,来权衡延迟以获得更高的准确性。
提示链有用的示例:
路由对输入进行分类并将其引导至专门的后续任务。此工作流程允许分离关注点并构建更专业的提示。如果没有此工作流程,针对一种输入的优化可能会损害其他输入的性能。

何时使用此工作流程:路由非常适合复杂的任务,其中存在更好单独处理的不同类别,并且可以通过LLM或更传统的分类模型/算法准确处理分类。
路由有用的示例:
LLMs有时可以同时完成一项任务,并以编程方式汇总其输出。此工作流程(并行化)体现在两个关键变体中:

何时使用此工作流程:当可以并行化划分的子任务以提高速度时,或者当需要多个视角或尝试以获得更高置信度的结果时,并行化是有效的。
对于具有多种考虑因素的复杂任务,当每个考虑因素都由单独的LLM调用处理时, LLMs通常会表现得更好,从而允许将注意力集中在每个特定方面。
并行化有用的示例:
在orchestrator-workers工作流程中,中央LLM动态分解任务,将它们委托给worker LLMs ,并综合其结果。

何时使用此工作流程:此工作流程非常适合您无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量以及每个文件中可能发生的更改的性质)取决于任务)。
虽然它在拓扑上相似,但与并行化的主要区别在于它的灵活性——子任务不是预先定义的,而是由协调器根据特定输入确定。
Orchestrator-Workers 有用的示例:
在评估器-优化器工作流程中,一个LLM调用生成响应,而另一个调用则在循环中提供评估和反馈。

何时使用此工作流程:当我们有明确的评估标准并且迭代细化提供可衡量的价值时,此工作流程特别有效。
良好契合的两个标志是,首先,当人们清楚地表达他们的反馈时, LLM反应可以得到明显改善;其次, LLM可以提供此类反馈。这类似于人类作家在制作精美文档时可能经历的迭代写作过程。
评估器优化器有用的示例:
随着LLMs在关键能力方面的成熟——理解复杂的输入、参与推理和规划、可靠地使用工具以及从错误中恢复,代理正在生产中出现。
代理通过人类用户的命令或与人类用户的交互式讨论开始工作。一旦任务明确,智能体就会独立计划和操作,并有可能返回人类以获取进一步的信息或判断。
在执行过程中,代理在每个步骤(例如工具调用结果或代码执行)中从环境中获取“基本事实”以评估其进度至关重要。然后,agent可以在检查点或遇到拦截者时暂停以获取人工反馈。任务通常在完成后终止,但通常还包含停止条件(例如最大迭代次数)以保持控制。
代理可以处理复杂的任务,但它们的实现通常很简单。他们通常只是LLMs使用基于循环环境反馈的工具。因此,清晰且深思熟虑地设计工具集及其文档至关重要。在附录 2中详细介绍了工具开发的最佳实践。

何时使用代理:代理可用于解决难以或不可能预测所需步骤数以及无法硬编码固定路径的开放式问题。LLM可能会运作很多轮,你必须对其决策有一定程度的信任。代理的自主性使它们成为在可信环境中扩展任务的理想选择。
代理的自主性意味着更高的成本,并且可能会出现复合错误。我们建议在沙盒环境中进行广泛的测试,并配备适当的护栏。
代理有用的示例:
以下示例来自我们自己的实现:

这些构建模块不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样,成功的关键是衡量性能和迭代实施。
重复一遍:只有当复杂性明显改善结果时,您才应该考虑增加复杂性。
总结
LLM领域的成功并不在于构建最复杂的系统。这是为了构建适合您需求的系统。从简单的提示开始,通过综合评估对其进行优化,仅在简单的解决方案无法满足要求时才添加多步骤代理系统。
在实施代理时,我们尝试遵循三个核心原则:
框架可以帮助您快速入门,但在转向生产时请毫不犹豫地减少抽象层并使用基本组件进行构建。通过遵循这些原则,您可以创建不仅功能强大而且可靠、可维护且受到用户信任的代理。
与客户的合作揭示了人工智能代理的两个特别有前途的应用,它们证明了上述模式的实际价值。这两个应用程序都说明了代理如何为需要对话和行动的任务增加最大价值,具有明确的成功标准,启用反馈循环,并集成有意义的人工监督。
客户支持通过工具集成将熟悉的聊天机器人界面与增强的功能结合起来。这对于更多开放式代理来说是自然的选择,因为:
一些公司已经通过基于使用的定价模型证明了这种方法的可行性,该模型仅对成功的解决方案收费,这表明了对其代理效率的信心。
软件开发领域已显示出LLM功能的巨大潜力,其功能从代码完成发展到自主解决问题。代理特别有效,因为:
在我们自己的实现中,代理现在可以仅根据拉取请求描述来解决SWE-bench Verified基准中的实际 GitHub 问题。然而,虽然自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。
无论您正在构建哪种代理系统,工具都可能是代理的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定外部服务和 API 的确切结构和定义来与外部服务和 API 进行交互。当 Claude 响应时,如果它计划调用工具,它将在 API 响应中包含一个工具使用块。工具定义和规范应该像整体提示一样得到及时的工程关注。在这个简短的附录中,我们描述了如何提示设计您的工具。
通常有多种方法来指定相同的操作。
例如,您可以通过写入差异或重写整个文件来指定文件编辑。对于结构化输出,您可以在 markdown 或 JSON 中返回代码。在软件工程中,此类差异是表面性的,可以无损地从一种差异转换为另一种差异。
然而,对于LLM来说,某些格式比其他格式更难编写。编写差异需要知道在编写新代码之前块头中有多少行发生了变化。在 JSON 中编写代码(与 Markdown 相比)需要额外转义换行符和引号。
对决定工具格式的建议如下:
一条经验法则是考虑在人机界面 (HCI) 上投入多少精力,并计划投入同样多的精力来创建良好的代理计算机界面 (ACI)。以下是关于如何做到这一点的一些想法:
在为SWE-bench构建代理时,我们实际上花费了比整体提示更多的时间来优化我们的工具。例如,我们发现在代理移出根目录后,模型会使用相对文件路径的工具出错。为了解决这个问题,我们将工具更改为始终需要绝对文件路径,并且我们发现该模型完美地使用了这种方法。