前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >仅靠大模型充当评估者救不了产品,关键在于优化流程

仅靠大模型充当评估者救不了产品,关键在于优化流程

作者头像
致Great
发布于 2025-06-11 11:16:53
发布于 2025-06-11 11:16:53
930
举报
文章被收录于专栏:自然语言处理自然语言处理

很多人对产品评估(product evals)存在误解。一些人认为,只要增加新的评估工具、指标,甚至是让大模型(LLM)充当评估者(LLM-as-judge),就能解决问题、挽救产品。但这恰恰是绕开了核心问题,逃避了真正要做的工作。

评估并非一成不变的产物或速效药;它们是一套实践方法,涵盖了科学方法、评估驱动开发(eval-driven development,简称EDD)和AI输出监控。

构建产品评估体系,本质上就是应用科学方法。 这才是其中的秘诀。它是一个循环往复的过程,包含探究、实验和分析。

这个过程首先始于观察 ,即仔细审视数据,俗称“看数据”。这意味着检查我们的输入、AI的输出以及用户与系统交互的方式。通过观察数据,我们可以了解系统哪些方面表现良好,更关键的是,哪些方面存在问题。识别这些失效模式(failure modes)是实现有意义改进的起点。

接着是标注 数据,重点是那些存在问题的模型输出。这意味着对成功的和失败的样本进行标记,以构建一个均衡且具有代表性的数据集。理想情况下,通过和未通过的样本比例应为 1:1,并涵盖输入分布的各种情况。这个数据集是进行有针对性的评估、追踪针对已识别问题的性能表现的基础。

然后,我们要假设这些失败的原因所在。也许是检索增强生成(RAG)系统未能返回相关的上下文,抑或是模型难以遵循复杂(有时甚至是相互冲突的)的指令。通过查看检索到的文档、推理轨迹和错误的输出等数据,我们可以优先确定要修复的失败类型和要验证的假设。

接下来,我们设计并运行实验 来验证假设。实验可能包括重写提示词、更新检索组件或更换不同的模型。一个好的实验会明确定义哪些结果能证实或驳斥假设。理想情况下,实验还应包含一个基线或对照组,以便进行对比。

衡量结果,分析错误 通常是最具挑战性的一步。这不像随意的“凭感觉检查”,它要求量化实验更新是否真正改善了结果:准确率是否提高了?产生的缺陷是否减少了?新版本在成对比较中表现是否更好?如果我们无法衡量结果,就无法对其进行改进。

如果实验成功,就应用更新;如果失败,就深入进行错误分析,完善假设,然后再次尝试。通过这种迭代循环,产品评估成为了推动数据飞轮的动力,不断改进我们的产品,减少缺陷,赢得用户信任。

将科学方法应用于构建AI产品。

评估驱动开发(EDD)有助于我们构建更好的AI产品。 它类似于 测试驱动开发(test-driven development),即先编写测试,然后再编写能通过这些测试的软件。EDD遵循相同的理念:在开发一个AI功能之前,我们首先通过产品评估来定义成功的标准,确保从一开始就目标明确且可衡量。这里有个秘密:机器学习团队几十年来一直在实践这一点,他们会针对 验证集和测试集(validation and testsets) 来构建模型和系统。这些想法虽然名称不同,但本质是相通的。

在EDD中,评估指导着我们的开发。我们从评估一个基线(比如一个简单的提示词)开始,获得初步的基准。从那时起,每一个提示词的微调、每一次系统更新、每一次迭代都会被评估。简化提示词是否提高了输出的可信度?更新检索组件是否提高了相关文档的召回率?或者说,这次更新是否导致性能下降了?

由于EDD提供了即时、客观的反馈,我们可以清楚地看到哪些地方在改进,哪些没有。这种循环——编写评估、进行修改、运行评估、整合改进——确保了可衡量的进展。它不是依赖模糊的、基于直觉的认知,而是建立了一个根植于软件工程实践的反馈闭环。

首先,编写一些评估;然后,构建能通过这些评估的系统。

即使采用了自动化评估器(即大模型充当评估者),仍然需要人工监督。 自动化评估有助于大规模监控,但并不能弥补疏忽。如果我们不积极审查AI输出和客户反馈,自动化评估器并不能拯救我们的产品。

为了评估和监控AI产品,我们通常会采样输出,并对其质量和缺陷进行标注。有了足够数量的高质量标注数据,我们就可以 校准自动化评估器,使其与人类判断保持一致。这可能包括衡量二元标签的召回率或准确率(precision),或者在进行成对比较时衡量与人类选择结果的相关性。一旦经过适当校准,这些评估器就能帮助实现AI系统的持续大规模监控。

但拥有自动化评估器并不能取代人工监督的需求。 我们仍然需要定期采样和标注数据,并分析用户反馈。理想情况下,我们应该设计能够通过用户交互捕获隐含反馈的产品。尽管如此,显式反馈(虽然频率较低且偶尔带有偏见)也同样有价值。

此外,虽然自动化评估器擅长规模化,但并非完美无缺。人类标注者也是如此。尽管如此,通过收集更多和更高质量的标注数据,我们可以更好地校准这些评估器。保持定期采样数据、标注输出、改进自动化评估器这一反馈循环,需要组织上的纪律性,这一点至关重要。

自动化评估器放大了我们现有的标注和反馈流程。

虽然使用AI进行开发有时感觉像魔法,但构建AI产品仍需要实打实的努力。如果团队不应用科学方法、不实践评估驱动开发、不监控系统输出,那么仅仅购买或构建另一种评估工具并不能拯救产品。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
姚顺雨提到的「AI下半场」,产品评估仍被误解
前段时间,OpenAI 研究员姚顺雨发表了一篇主题为「AI 下半场」的博客。其中提到,「接下来,AI 的重点将从解决问题转向定义问题。在这个新时代,评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展,这可能需要更接近产品经理的思维方式。」(参见《清华学霸、OpenAI 姚顺雨:AI 下半场开战,评估将比训练重要》)
机器之心
2025/06/10
510
姚顺雨提到的「AI下半场」,产品评估仍被误解
TKE 助力 Agent 可观测及评估体系建设,靠谱助手轻松养成!
张跃华,腾讯云容器服务 TKE 后台开发工程师,主要负责 LLM 应用相关研发工作。
腾讯云原生
2025/06/09
1030
TKE 助力 Agent 可观测及评估体系建设,靠谱助手轻松养成!
谷歌发76页智能体白皮书!你的「AI替身」已上线
其核心原理,是将推理能力、逻辑思维以及获取外部信息的能力融合,完成一些基础模型难以实现的任务,做出更复杂的决策。
新智元
2025/05/12
1900
谷歌发76页智能体白皮书!你的「AI替身」已上线
评估与优化RAG指南:提高准确性与质量的最佳实践
本指南将教你如何评估一个 RAG 系统的准确性 和质量。你将学会通过测试搜索精度、召回率、上下文相关性和响应准确性来保持 RAG 系统的性能。
AgenticAI
2025/03/18
2470
评估与优化RAG指南:提高准确性与质量的最佳实践
聊一聊五种智能体模式
随着 AI 驱动型应用程序的快速发展,开发人员越来越多地利用大语言模型(LLM)构建智能体,以高效执行复杂任务。然而,最有效的实现并非依赖于复杂的框架,而是采用简单且可组合的设计模式。
技术人生黄勇
2025/03/04
3682
聊一聊五种智能体模式
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
机器之心报道 演讲:蔡玮鑫 在机器之心主办的 WAIC 2023 AI 开发者论坛上,微软 Office Product Group 技术负责人蔡玮鑫博士以视频的方式为大家带来了精彩的演讲。他结合自己
机器之心
2023/08/08
2640
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
AI智能体的开发流程
AI智能体的开发流程是一个多阶段、迭代的过程,它将机器学习、软件工程和领域知识结合在一起,旨在创建一个能够感知、推理、学习和行动的自主系统。下面是一个详细的AI智能体开发流程。
数字孪生开发者
2025/06/16
1680
AI智能体的开发流程
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
前有Perplexity横空出世,后有谷歌Gemini和OpenAI的SearchGPT纷纷加入。
新智元
2025/02/15
740
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
大语言模型系统评估新框架:微观指标构建方法论
Denys Linkov 在 QCon 旧金山技术大会上发表了题为《构建 LLM 系统评估微观指标的框架设计》的专题演讲。本文整理自该演讲内容,重点探讨大语言模型(LLM)准确性评估所面临的独特挑战,并系统地阐述了如何通过创建、跟踪及动态修正微观指标体系来持续优化 LLM 模型表现。
深度学习与Python
2025/02/18
1820
大语言模型系统评估新框架:微观指标构建方法论
不输 Claude 3.5/3.7?Windsurf发布自研SWE-1模型+流程感知,付费用户限免,另两款全员畅享。
Windsurf 又整上活了, 推出了他们第一个专为软件工程优化的模型家族——SWE-1。 不光是写代码,而是要搞定整个软件工程流程。
AI进修生
2025/05/17
1550
不输 Claude 3.5/3.7?Windsurf发布自研SWE-1模型+流程感知,付费用户限免,另两款全员畅享。
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
大型语言模型(LLMs)是目前大多数自然语言处理(NLP)任务的最新技术。尽管取得了成功,但预训练的LLM有时难以准确理解不同用户指令,可能生成与人类预期不符的输出。此外,LLM可能产生偏见或虚构的事实,这可能限制其实际应用价值。
AIGC 先锋科技
2024/10/25
1770
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]
现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中,LLMs 的表现已经“足够好”可以应用于现实世界。LLMs 改进的速度,加上社交媒体上的大量演示,将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性,让每个人,而不仅仅是机器学习工程师和科学家,都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低,但要创建那些不仅仅是演示效果好的产品,仍然充满挑战。
硬核编程
2024/06/07
2660
使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]
互联网十万个为什么之什么是自然语言处理?
自然语言处理(Natural Language Processing,简称NLP)属于人工智能的一个分支,旨在让计算机能够理解并处理人类语言,从中提取出有用的信息,帮助人类更高效地处理各种任务。
linus_lin
2024/09/06
1460
互联网十万个为什么之什么是自然语言处理?
大模型时代的模型运维与部署:LLMops
术语 LLMOps 代表大型语言模型运维。它的简短定义是 LLMOps 是 LLM 的 MLOps。这意味着 LLMOps 是一组工具和最佳实践,用于管理 LLM 支持的应用程序的生命周期,包括开发、部署和维护。
悟乙己
2023/07/09
6.7K0
大模型时代的模型运维与部署:LLMops
ANTHROPIC:高端的食材往往需要最朴素的烹饪方法: prompt, workflow, agent
在过去的一年里,ANTHROPIC与数十个团队合作,构建了跨行业的大型语言模型 ( LLM ) 代理。
AIGC新知
2024/12/23
1580
ANTHROPIC:高端的食材往往需要最朴素的烹饪方法: prompt, workflow, agent
第二章--第五篇:闭合式对话系统
对话系统作为人机交互领域的重要研究方向,在现实生活和技术领域具有广泛的应用。它的重要性体现在以下几个方面。 首先,对话系统能够提供自然、直观的人机交互方式。传统的人机交互方式主要依靠键盘、鼠标等输入设备,但对于一些用户,使用自然语言进行对话更加便捷和直观。对话系统通过语音识别和自然语言处理技术,能够理解用户的语言输入,并以自然语言的形式回复用户,使用户能够像与人类对话一样与计算机交流。 其次,对话系统在实现智能个人助理、智能客服和虚拟人物等领域具有重要应用。智能个人助理可以帮助用户处理日常事务、提供个性化的推荐和建议,提升用户的生活品质。智能客服能够为用户提供实时的技术支持和服务,提高客户满意度。虚拟人物则能够与用户进行情感交流、提供娱乐和教育等功能。 此外,对话系统在知识获取和信息检索方面发挥着重要作用。对话系统可以与用户进行语义理解和意图识别,从海量的数据中提取有用的信息,为用户提供准确、实时的答案和解决方案。对话系统还可以通过与用户的对话交互,逐步获取并更新知识库,实现知识的持续积累和更新。 最后,对话系统的发展也推动了人工智能技术的进步。为了实现对话系统的自动化、智能化,需要运用自然语言处理、机器学习、深度学习等前沿技术。对话系统的研究和应用促进了这些技术的发展,提升了人工智能在其他领域的应用水平。
喵叔
2023/05/25
4720
一个时代彻底结束了,投资达2000亿美元,分享我们落地大模型的路径、方法、踩坑!
最近一年,LLM(大型语言模型)已经成熟到可以投入实际应用中了。预计到 2025 年,AI 领域的投资会飙升到 2000 亿美元。现在,不只是机器学习专家,任何人都能轻松地把 AI 技术融入自己的产品里。
架构狂人
2024/07/16
1590
一个时代彻底结束了,投资达2000亿美元,分享我们落地大模型的路径、方法、踩坑!
Nature | 通过语言模型反馈反向传播优化生成式AI
近年来,人工智能(AI)领域的突破性进展越来越依赖于由多个大语言模型(LLMs)及其他专业工具(如搜索引擎和模拟器)协同驱动的系统。然而,目前这些系统主要依赖领域专家手工设计,并通过启发式方法进行调整,而非自动优化,这在加速AI进步方面构成了重大挑战。人工神经网络的发展曾面临类似的困境,直到反向传播和自动微分的引入,使优化流程变得高效便捷。
DrugAI
2025/03/21
3060
Nature | 通过语言模型反馈反向传播优化生成式AI
GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
大模型满天飞的时代,AI行业最缺的是什么?毫无疑问一定是算(xian)力(ka)。
新智元
2023/09/19
1.3K0
GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架
基于大型语言模型(LLM),开发者或用户可以通过描述任务,并给出几个样例来构造自然语言提示,很轻松地就能实现指定的功能。
新智元
2023/09/25
2250
参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架
推荐阅读
姚顺雨提到的「AI下半场」,产品评估仍被误解
510
TKE 助力 Agent 可观测及评估体系建设,靠谱助手轻松养成!
1030
谷歌发76页智能体白皮书!你的「AI替身」已上线
1900
评估与优化RAG指南:提高准确性与质量的最佳实践
2470
聊一聊五种智能体模式
3682
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
2640
AI智能体的开发流程
1680
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
740
大语言模型系统评估新框架:微观指标构建方法论
1820
不输 Claude 3.5/3.7?Windsurf发布自研SWE-1模型+流程感知,付费用户限免,另两款全员畅享。
1550
GUIDE:通过注意力分数优化LLMs指令对齐的简单有效方法 !
1770
使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]
2660
互联网十万个为什么之什么是自然语言处理?
1460
大模型时代的模型运维与部署:LLMops
6.7K0
ANTHROPIC:高端的食材往往需要最朴素的烹饪方法: prompt, workflow, agent
1580
第二章--第五篇:闭合式对话系统
4720
一个时代彻底结束了,投资达2000亿美元,分享我们落地大模型的路径、方法、踩坑!
1590
Nature | 通过语言模型反馈反向传播优化生成式AI
3060
GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7
1.3K0
参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架
2250
相关推荐
姚顺雨提到的「AI下半场」,产品评估仍被误解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档