当前,基于大语言模型的 Agent 系统正迎来前所未有的发展热潮。全球科技公司纷纷推出自己的 Agent 产品,试图打造能够自主完成复杂任务的 AI 助手。这一浪潮的关键转折点是 OpenAI 推出的 DeepResearch——专为复杂研究任务设计的高级 AI 智能体。
DeepResearch 本质上是 AI Agent 的一种具体形态,属于 “任务型智能体”。基于 o3 模型开发的 DeepResearch 能够实时联网搜索、进行长时间深度思考,最终生成带完整引用的专业级研究报告。紧随其后,谷歌推出 Gemini-2.5-Pro Deep Research 等竞品,标志着深度研究智能体赛道全面启动。
然而,热度不等于实力。面对真实业务场景,这些 DeepResearch 产品究竟表现如何?正如 AGI-Eval 大模型评测社区此前对Manus、Coze空间、Genspark 等主流 Agent产品评测中发现的那样, Agent 产品百花齐放但质量参差不齐,我们亟需科学的评估标准来判断这些“智能研究员”的真实水平。
更关键的是,深度研究任务评估面临独特挑战:Agent 内部推理过程不透明,复杂研究查询难以建立标准答案,现有评估框架存在明显局限:能力评估孤立(无法衡量端到端表现)和缺乏真实场景(偏离用户实际需求)。
正是在这样的背景下,研究人员提出了 DeepResearch Bench——首个专门针对 DeepResearch 类产品的综合性基准,包含 22 个领域、100 项任务,每项任务均由领域专家精心设计。通过对 9.6 万条真实用户查询的统计分析,并遵循图 2(a) 所示流程确定各领域任务数量。
DeepResearch Bench 通过创新的 RACE 和 FACT 评估框架,分别针对报告生成质量和信息检索能力提供精准测评,填补了深度研究智能体端到端能力评估的空白,为 DeepResearch 产品生态发展提供科学评估标准。
△ 图 2(a):领域任务数量确定流程图
此外,研究人员认为这些方法论的应用范围并不仅限于深度研究场景。具体而言,RACE 可作为评估文本生成能力的通用框架,而 FACT 则为衡量 LLM 信息检索的覆盖度与可靠性提供了有效方案。
△ 图1:DeepResearch Bench上的深度研究智能体性能排名
此次 DeepResearch Bench 的评测结果,为我们揭示了当前全球顶尖深度研究智能体的最新实力排位。如图 1 所示,谷歌的 Gemini 2.5 Pro DeepResearch以 48.9 分高居榜首,OpenAI的DeepResearch(46.5分)与 Anthropic 的 Claude Research(45.0分)紧随其后,构成了国际第一梯队。尤为引人注目的是,国内厂商的新兴力量表现十分出色。Kimi Researcher(44.6分)和豆包 DeepResearch(44.3分)凭借优异的性能,不仅超越了众多国际知名模型,更成功跻身全球前五,与顶尖水平的差距微乎其微。这一排名清晰地表明,针对深度研究场景进行特殊优化的模型,其性能远超其通用或预览版本,凸显了领域专用优化的重要性。这不仅证实了国产大模型在复杂任务处理能力上的长足进步,也预示着在专业智能体领域的竞争将愈发激烈。
本文数据均引用自 DeepResearch Bench 论文(arXiv:2506.11763 [cs.CL] ),发布日期 2025 年 6 月 13 日。
该基准测试已与 AGI-Eval 大模型评测社区达成合作,后续将由 AGI-Eval 评测社区负责长期维护与更新。欢迎大家持续关注,可前往社区查看 DeepResearch Bench 的所有子集!
接下来,我们将详细介绍 DeepResearch Bench 是如何构建的,以及我们如何对这些顶尖 Agent 进行评测。
1.1 基于真实用户需求的任务分布
△图 3:44,019 个筛选后深度研究任务的主题分布
左图:环形图显示各主题领域的比例份额;“其他”部分汇总了代表性最少的类别
右图:条形图列出了所有 22 个领域的绝对任务数量
如图 3 所示,为确保 DeepResearch Bench 能够真实反映用户的实际研究需求,研究团队对 9.6 万条真实用户查询进行了深入的统计分析。左侧的环形图清晰展现了经过筛选后的 44,019 个深度研究任务在各个主题领域中的分布比例,可以看出某些领域(如技术、商业、学术研究等)占据了较大的份额,而一些专业性较强的细分领域则被归入“其他”类别。右侧的条形图则提供了更为精确的数据视角,详细列出了全部 22 个领域的具体任务数量,这种基于真实用户需求的任务分布设计确保了基准测试的实用性和代表性。通过这种数据驱动的方法,DeepResearch Bench 能够更准确地评估 Agent 在实际应用场景中的表现能力。
1.2 高质量与高挑战性的任务构建
△图 4:DeepResearch Bench 中的两个示例任务
左图:科学与技术领域;右图:金融与商业领域
如图 4 所示,这两个具体的任务示例充分展现了 DeepResearch Bench 的设计特色和复杂性。左侧的科学技术类任务涉及无人机控制系统的深度技术问题,需要 Agent 具备扎实的工程技术背景和系统性的分析能力;右侧的金融商业类任务则聚焦于量化投资策略的评估框架构建,要求 Agent 能够整合金融理论知识与实践经验。值得注意的是,每个任务都标注了相应的专业背景要求(如“自动化与控制工程博士”、“金融工程博士”),这突出了 DeepResearch Bench 任务的高专业门槛和深度研究特征。这种设计确保了基准测试能够真正考验 Agent 在处理复杂、开放性研究问题时的综合能力。
为全面评估智能体的两个核心能力维度——信息检索与收集及最终报告的生成质量,研究人员开发了两个互补的评估框架:RACE 和 FACT。
2.1 RACE:报告质量评估框架
评估长篇研究报告面临显著挑战。为克服传统静态评分标准难以适应多样化任务的难题,研究人员引入了 RACE 框架,采用 “ LLM 作为裁判”的方法。如图 2(b) 所示,RACE 通过以下创新步骤实现自适应评估:
△图2(b):DeepResearch Bench RACE(基于参考的自适应标准驱动动态加权评估框架)概览
如图 2 所示,DeepResearch Bench 的完整设计框架包含三个核心组成部分。子图 (b) 和 (c) 分别展示了两大创新评估框架的设计理念,这些框架构成了DeepResearch Bench 评估体系的核心。
评估长篇研究报告面临显著挑战。为克服传统静态评分标准难以适应多样化任务的难题,研究人员引入了 RACE 框架,采用“ LLM 作为裁判”的方法。如图 2(b) 所示,RACE 详细阐述了这一基于参考的自适应标准驱动评估系统的运作机制,该框架采用动态加权策略,通过以下创新步骤实现自适应评估:
2.2 FACT:网络检索评估框架
为评估报告内容的事实依据及网络信息利用的有效性,研究人员引入了 FACT 框架。该框架通过自动化流程实现:
△图 2(c):DeepResearch Bench 概览
如图 2(c) 则展现了 FACT 框架的核心设计理念,该框架专门针对事实丰富度与引用可信度进行评估,通过多维度的信息检索与引用准确性分析,系统性地检验 Agent 在信息收集、事实核查和来源引用方面的能力表现。这一框架填补了传统评估方法在信息可靠性验证方面的空白。
附注:引用准确率(C.Acc.):衡量智能体引用的精确性,反映其正确为陈述匹配适当来源的能力;
单任务平均有效引用数(E.Cit.):量化智能体每任务检索并呈现的可验证支持信息的平均数量。
研究人员主要评估了四类早期发布的深度研究智能体(Gemini 2.5 pro,Deep Research, OpenAI Deep Research, Grok Deeper Search, Perplexity Deep Research)以及若干带搜索工具的主流 LLM。在 RACE 框架中,研究人员采用 Gemini 2.5 pro 作为裁判 LLM;在 FACT 框架中,则使用 Gemini 2.5 flash 以平衡性能与成本。
3.2 主要结果
△表 1:DeepResearch Bench 的总体评估结果
△图 5:RACE 评估下不同模型在各种主题和语言中的得分。红色表示较高分数,蓝色表示较低分数
如图 5 所示,这一热力图直观地展现了各个 Agent 模型在不同主题领域和语言环境下的性能表现分布。通过红蓝色彩的深浅变化,我们可以清晰地识别出每个模型的优势领域和薄弱环节。总体而言,各个模型在不同主题任务中都保持了相对稳定的性能表现,这进一步证实了 RACE 评估框架的鲁棒性。有趣的是,研究人员发现在交通主题的中文任务中,所有模型的表现都低于各自的平均水平,这表明该特定问题集具有更高的难度级别,为评估不同 Agent 系统在挑战性任务中的表现提供了有价值的测试案例。
3.3 方法论验证:
与人类判断的高度一致性
为验证 RACE 框架的可靠性,研究人员开展了大规模的人工一致性实验。研究人员招募了 70 多位领域专家,对智能体生成的报告进行评估,并设计了四项指标来量化评估方法与人类判断的一致性。
△表 2:不同评估方法的人类一致性分数对比
△表 3:RACE(完整)框架中使用不同裁判 LLM 的人类一致性分数和平均成本对比
本研究深入分析了当前大语言模型智能体评估中存在的困境,并提出了首个面向深度研究场景的综合评估基准——DeepResearch Bench。通过基于真实用户需求构建的 100 项高质量任务,以及创新的 RACE 和 FACT 评估框架,研究人员系统性地揭示了当前顶尖智能体的能力图谱。
评测结果表明,不同智能体在能力上存在显著的权衡,例如,Gemini 在报告的信息丰富度上领先,而 Perplexity 和 OpenAI 的智能体则在引用精确度上更具优势,同时,Claude 3.7 等通用模型的强大竞争力也为领域发展带来了新的启示。尤为重要的是,研究人员的研究验证了所提出的 RACE 评估方法与人类判断的高度一致性,其成对一致性率甚至超越了人类专家之间的一致性,为未来智能体的自动化评估树立了一个科学、可靠的标杆。
研究人员期望 DeepResearch Bench 能够指导开发者构建更强大、更贴合人类真实需求的 AI 智能体系统,推动 AI 技术切实解决现实世界中的复杂问题。研究人员已将基准与评估协议公开,以促进该领域的共同发展与持续创新。
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来实用干货,别忘了关注我们!
— 完 —
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。