LangChain创始人Harrison Chase发布联合AWS推出基于LangSmith的Deep Agent全流程评估方案,完整实践内容已上线AWS官方技术博客。

整套方案针对Agent落地的核心痛点:不同于普通大模型调用的确定性输出,Agent是非确定性的多步系统,一个早期的工具调用错误就能串联毁掉整个工作流,上线前很难通过零散测试覆盖所有情况,上线后出问题也难追溯根源。有从业者在评论区直接点出,评估设计是拖死大部分Agent项目的核心原因,还有人提到,很少有团队在项目初期就设计长周期的评估规则,一旦Agent的决策分支超过3个,传统单元测试的思路就完全失效。
本次发布的方案整合了LangChain在Deep Agent评估上的落地经验与Anthropic的Agent评估框架,给出了从开发到生产全生命周期的可落地流程,所有示例都基于Amazon Bedrock上的Amazon Nova 2 Lite模型,配套有完整的开源代码仓库。
和直接评估大模型输出相比,Agent评估有三个无法回避的特性:
针对这些特性,方案给出了三类评分器的搭配原则:能用确定性代码卡的规则就用代码(比如有没有执行危险的SQL删改语句),需要判断内容质量的用LLM-as-judge(比如复杂分析的完整度),人工只做定期校准,不用来做批量测试。有网友在评论区调侃“评估Deep Agent就是自己给自己画及格线,直到推上生产”,这套搭配的核心就是尽量把这条及格线画得客观可复现,减少主观判断的空间。
方案总结了五种覆盖所有场景的评估模式,全部可以通过LangSmith和Pytest集成,自动化运行:
举个最简单的SQL安全检查逻辑,只需要扫描执行语句的关键词即可:
dangerous_keywords = {"INSERT", "UPDATE", "DELETE", "DROP", "ALTER", "TRUNCATE"}
for query in executed_queries:
for keyword in dangerous_keywords:
if keyword in query.upper().split():
return {"sql_safety": 0}所有测试的结果都会自动同步到LangSmith,能看到完整的执行链路、每一步的tool call、token消耗和延迟,测试失败的时候直接定位到出错的步骤。测试集还可以按用途拆分:能力评估用来测Agent新增的能力行不行,一开始通过率低没关系,逐步提升即可;回归评估用来覆盖已经验证过的场景,通过率必须接近100%,一旦下降就说明代码改动引入了新问题。


离线测试只能覆盖预设的场景,上线后的真实用户请求永远会出预料之外的问题。方案同时给出了生产环境的在线评估方案,不需要改业务代码,直接在LangSmith后台配置就能生效:


整套流程形成闭环:生产里发现的bad case直接加到离线测试集里,下次迭代就能避免同样的问题,不用靠主观感觉判断Agent的好坏,所有优化都有明确的指标参考。
针对评论区有人问到的“Agent做出了正确但不符合测试用例预设路径的决策怎么办”,方案里明确给出了原则:永远评估行为和结果,不评估具体路径,只要核心规则没违反,最终结果正确就算通过。
另外有第三方工具AgentSwarms提到,他们的模板库已经上线了同类可运行的评估示例,支持可视化查看每一步的执行情况,还可以导出到AWS Bedrock Agentcore直接运行,有需要的可以自行查看。
完整的方案细节和可运行的text-to-SQL Agent代码可以通过以下链接获取: