随着基于大语言模型的智能代理(LLM-based Agents)迅速走向实际应用,如何有效评估这些系统的真实能力成为关键问题。表面上的流畅对话或单一任务完成率已不足以判断Agent在复杂环境中的可靠性。
Agent评测的核心目标:
维度 | 描述 | 关键指标 |
|---|---|---|
任务完成 | Agent能否成功完成给定任务 | 成功率、完成度 |
工具使用 | Agent调用工具的准确性和效率 | 工具选择准确率、调用成功率 |
推理能力 | Agent的逻辑推理和问题分解能力 | 推理步骤正确率、规划合理性 |
效率 | 完成任务所需的资源和时间 | 步骤数、Token消耗、响应时间 |
鲁棒性 | 面对异常情况的处理能力 | 错误恢复率、边界情况处理 |
安全性 | Agent行为的安全合规性 | 越界操作率、敏感信息泄露率 |
┌─────────────────────────────────────────────────────────┐ │端到端评测│ │(最终任务完成情况)│ ├─────────────────────────────────────────────────────────┤ │轨迹评测│ │(Agent执行路径是否合理)│ ├─────────────────────────────────────────────────────────┤ │单步评测│ │(每个决策/工具调用是否正确)│ ├─────────────────────────────────────────────────────────┤ │基础能力评测│ │(LLM基础能力:理解、生成等)│ └─────────────────────────────────────────────────────────┘ 基准名称 | 发布机构 | 评测重点 | 任务类型 |
|---|---|---|---|
AgentBench | 清华大学等 | 综合Agent能力 | 8种环境任务 |
GAIA | Meta+HuggingFace | 通用AI助手 | 多步推理+工具使用 |
WebArena | CMU | Web交互能力 | 网页操作任务 |
OSWorld | 多机构 | 操作系统交互 | 桌面操作任务 |
基准名称 | 评测重点 | 特点 |
|---|---|---|
SWE-bench | 代码修复能力 | 真实GitHub Issue修复 |
PaperBench | 科研复现能力 | 复现顶会论文实验 |
BFCL | 函数调用能力 | 工具调用准确性 |
Windows Agent Arena | Windows操作能力 | 多模态OS Agent |
┌──────────────┐┌──────────────┐┌──────────────┐ │数据集│────▶│Agent│────▶│评估器│ │(测试样本)││(被测系统)││(打分系统)│ └──────────────┘└──────────────┘└──────────────┘ │││ ▼▼▼ 输入问题执行输出评估分数 参考答案执行轨迹详细报告 Agent的错误可分为以下几类:
错误类型 | 描述 | 示例 |
|---|---|---|
规划错误 | 任务分解或执行顺序不当 | 跳过必要步骤、循环执行 |
工具错误 | 工具选择或参数错误 | 选错工具、参数格式错误 |
推理错误 | 逻辑推理出现偏差 | 错误推断、信息遗漏 |
执行错误 | 工具执行失败 | API调用失败、超时 |
效率问题 | 完成任务但效率低下 | 冗余步骤、重复操作 |
工具名称 | 开发方 | 主要功能 |
|---|---|---|
DeepEval | Confident AI | 多维度Agent评估 |
LangSmith | LangChain | 轨迹追踪与评估 |
AgentNeo | RagaAI | 多Agent系统监控 |
Arize Phoenix | Arize | LLM执行流程追踪 |
TruLens | TruEra | 性能反馈评估 |
OpenCompass | 上海AI Lab | 大模型综合评测 |
评测准备: -明确评测目标和范围 -选择合适的评测基准 -准备测试数据集 -配置评测环境 评测执行: -记录完整执行轨迹 -收集多维度指标 -多次运行取平均值 -记录异常情况 结果分析: -计算各项指标得分 -对比基准线和竞品 -分析错误模式分布 -生成评测报告