首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Anthropic 构建多智能体系统的经验分享:原理、实用的核心提示以及有效的评估策略。

Anthropic 构建多智能体系统的经验分享:原理、实用的核心提示以及有效的评估策略。

作者头像
mixlab
发布2026-03-24 20:37:09
发布2026-03-24 20:37:09
1740
举报

每一条经验都是教科书级别的,要做好智能体,必须花功夫在Prompt的设计上,Prompt的范围包括工具的描述,标准的制定,以及模型理解能力的测试。

如果你在构建智能体,下面的每一条经验值得学习:

原理 Principles

多智能体系统之所以强大,是基于以下几个核心原理,并通过具体场景得以验证:

适应复杂性与不确定性

使用智能体进行研究工作通常涉及开放性问题,其所需步骤难以提前预测。传统的线性、一次性流程无法处理这些动态任务。多智能体系统能够根据动态研究工作调整方法,追随调查中出现的线索,并自主进行多次决策,决定探索方向。

信息压缩与并行处理

搜索的本质是从海量语料中提炼见解。子智能体通过在各自的上下文窗口中并行操作,同时探索问题的不同方面,然后将最重要的信息压缩并传递给主研究智能体。每个子智能体还提供关注点分离,拥有不同的工具、提示和探索轨迹,这减少了路径依赖性,并能实现彻底、独立的调查。

规模化性能

一旦智能达到一定阈值,多智能体系统就成为扩展性能的关键方式。就像人类社会通过集体智能和协调能力实现指数级发展一样,即使是通用智能的单个智能体也会有其局限性,但群体智能体可以完成更多任务。

具体示例

一个由 Claude Opus 4 作为主智能体、Claude Sonnet 4 作为子智能体的多智能体系统,在研究评估中比单个 Claude Opus 4 智能体性能高出 90.2%。

例如,当被要求识别信息技术标准普尔 500 指数中所有公司的董事会成员时,多智能体系统通过将任务分解给子智能体,成功找到了正确答案,而单个智能体则因缓慢的顺序搜索而失败。

提升 Token 使用效率

多智能体系统之所以有效,主要是因为它们能够消耗足够的 Token 来解决问题。Token 使用量本身就解释了 BrowseComp 评估中 80% 的性能差异。

这种架构通过将工作分配给具有独立上下文窗口的智能体来增加并行推理能力,从而有效地扩展了单智能体无法处理的任务的 Token 使用量。

适用场景

多智能体研究系统尤其擅长处理需要同时追求多个独立方向的广度优先查询。它在处理需要大量并行化、信息量超出单个上下文窗口限制以及需要与大量复杂工具交互的高价值任务时表现出色。

局限性

多智能体架构的缺点是它们会快速消耗大量 Token ,通常比聊天交互多 4 倍,比单智能体系统多 15 倍。

因此,多智能体系统需要任务的价值足够高才能支付其增加的性能成本。

此外,一些需要所有智能体共享相同上下文或涉及许多依赖关系的领域(例如,大多数编码任务)不适合当前的多智能体系统。

核心提示

Core Tips

关键的提示工程和架构原则:

架构概览:协调者-工作者模式

系统采用协调者-工作者模式,其中主智能体协调流程,并委托给专门的子智能体并行操作。

工作流示例

用户提交查询后,主研究智能体(LeadResearcher)会分析查询,制定策略,并生成专门的子智能体(Subagents)并行探索不同方面。

主研究智能体会思考其方法并将其计划保存到内存中,以持久化上下文。

每个子智能体独立执行网络搜索,使用交错思考评估工具结果,并将发现返回给主研究智能体。

主研究智能体合成这些结果并决定是否需要更多研究。

一旦收集到足够的信息,系统会退出研究循环,并将所有发现传递给一个引用智能体(CitationAgent),该智能体处理文档和研究报告以识别具体的引用位置,确保所有声明都有适当的出处。

这些改变将复杂查询的研究时间缩短了高达 90%,使研究在几分钟内完成更多工作,并覆盖比其他系统更多的信息。

测试表明,扩展思考改善了指令遵循、推理和效率。子智能体也会在工具结果后进行规划,然后使用交错思考来评估质量、识别差距并优化其下一个查询。

智能体通常会默认使用过于冗长、具体的查询,导致结果很少。通过提示智能体从简短、宽泛的查询开始,评估可用信息,然后逐步缩小范围来对抗这种倾向。

通过数十次测试,该智能体发现了关键的细微差别和错误,使未来使用新描述的智能体任务完成时间减少了 40% 。

一个在网络上搜索仅存在于 Slack 中的内容的智能体注定会失败。

糟糕的工具描述会将智能体引入完全错误的路径。

简单的事实查找,只需 1 个智能体进行 3-10 次工具调用;

直接比较,可能需要 2-4 个子智能体,每个进行 10-15 次调用;

复杂研究,可能需要 10 个以上具有明确分工责任的子智能体。

允许主智能体给出简单、简短的指令(例如“研究半导体短缺”)导致子智能体误解任务或执行与其它智能体完全相同的搜索。例如,一个子智能体探索 2021 年汽车芯片危机,而另外两个则重复调查 2025 年的当前供应链,缺乏有效的分工

智能体在已经有足够结果时继续工作、使用过于冗长的搜索查询或选择不正确的工具等失败模式。

像你的智能体一样思考

为了有效地迭代提示,必须理解它们的效果。Anthropic 通过模拟系统中的精确提示和工具,逐步观察智能体的工作,从而立即发现了故障模式。

教导协调者如何委派

主智能体需要将查询分解为子任务,并向子智能体描述这些任务。每个子智能体都需要目标、输出格式、工具和来源的使用指导以及明确的任务边界。

根据查询复杂性调整投入

智能体难以判断不同任务的适当投入,因此需要在提示中嵌入扩展规则。

工具设计和选择至关重要

智能体与工具的接口与人机接口同等重要。Anthropic 给智能体提供了明确的启发式规则,例如:

首先检查所有可用工具、将工具使用与用户意图匹配、通过网络进行广泛的外部探索、优先使用专业工具而非通用工具。

让智能体自我改进

Claude 4 模型可以作为优秀的提示工程师。当给予一个提示和一种失败模式时,它们能够诊断智能体失败的原因并提出改进建议。Anthropic 甚至创建了一个工具测试智能体,当给定一个有缺陷的工具时,它会尝试使用该工具,然后重写工具描述以避免失败。

先广后深

搜索策略应模仿人类专家研究:先探索整体情况,然后深入细节。

引导思考过程

扩展思考模式

Extended thinking mode

作为可控的草稿本。主智能体使用思考来规划其方法,评估哪些工具适合任务,确定查询复杂性和子智能体数量,并定义每个子智能体的角色。

并行工具调用

并行化极大地提高了速度和性能。Anthropic 引入了两种并行化:

(1) 主智能体并行启动 3-5 个子智能体,而非串行;

(2) 子智能体并行使用 3 个以上的工具。

生产可靠性和工程挑战的应对

用户报告智能体“没有找到明显的信息”,但无法看到原因——是使用了错误的搜索查询?选择了不良来源?还是遇到了工具故障?。

状态管理与错误处理

智能体可以长时间运行并保持状态。Anthropic 构建了能够从错误发生的地方恢复的系统。他们还利用模型的智能来优雅地处理问题,例如,让智能体知道工具何时失败并让它适应。这结合了 AI 智能体的适应性与重试逻辑和定期检查点等确定性保障。

调试新方法

代理做出动态决策,并且在运行之间是非确定性的,即使使用相同的提示也是如此。通过添加完整的生产跟踪,可以诊断代理失败的原因并系统地修复问题。

部署协调

通过彩虹部署

(rainbow deployments)逐步将流量从旧版本转移到新版本,同时保持两者同时运行,避免中断正在运行的智能体。

异步执行(未来方向)

当前的同步执行会造成信息流瓶颈。异步执行将实现额外的并行化,但会增加结果协调、状态一致性和跨子智能体的错误传播方面的挑战。

其他建议

这种模式特别适用于代码、报告或数据可视化等结构化输出。

对于复杂的工作流,可以将评估分解为离散的检查点,而不是尝试验证每个中间步骤。

终端状态评估

对于修改持久状态的多轮对话智能体,侧重于终端状态评估而不是逐轮分析。与其判断智能体是否遵循特定过程,不如评估它是否达到了正确的最终状态。

长周期对话管理

智能体总结已完成的工作阶段并将关键信息存储在外部内存中,然后继续新任务。当上下文限制接近时,智能体可以生成新的子智能体,同时通过仔细的交接保持连续性。它们还可以从内存中检索存储的上下文(例如研究计划)。

子智能体输出到文件系统

对于某些类型的输出,子智能体可以直接输出,绕过主协调器,从而提高保真度和性能。子智能体调用工具将其工作存储在外部系统中,然后将轻量级引用传回协调器。

评估策略

Evaluation Strategies

评估多智能体系统提出了独特的挑战,因为它不像传统系统那样遵循预设的固定步骤。

挑战

:即使起点相同,智能体也可能采取完全不同的有效路径来达到目标。因此,不能仅仅检查智能体是否遵循了预先规定的“正确”步骤。相反,需要灵活的评估方法来判断智能体是否达到了正确的结果,同时遵循了合理的过程。

立即开始小样本评估

:在早期开发阶段,变化的影响往往是巨大的,因为有大量的“低垂果实”。Anthropic 从一组约 20 个代表真实使用模式的查询开始测试,这使他们能够清楚地看到变化的影响。

一个提示调整可以将成功率从 30% 提升到 80%。

LLM 作为评估者

LLM-as-judge

由于研究输出是自由形式的文本,很少有单一正确答案,LLM 自然适合对输出进行评分。

Anthropic 使用 LLM 评估者根据事实准确性、引用准确性、完整性、来源质量和工具效率等标准对每个输出进行评估。他们发现,一次 LLM 调用、一个提示,输出 0.0-1.0 分数和通过/不通过等级是最一致且与人类判断一致的方法。

当评估测试用例有明确答案时(例如,是否准确列出了研发预算前三名的制药公司),此方法尤其有效。

人工评估

人工测试人员能够发现自动化评估遗漏的边缘情况,包括异常查询上的幻觉答案、系统故障或微妙的来源选择偏差。

早期智能体持续选择 SEO 优化的内容农场而非权威但排名较低的来源(如学术 PDF 或个人博客),通过在提示中添加来源质量启发式规则解决了这个问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档