Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI应用创业公司:大模型最近的突破,全是作弊

AI应用创业公司:大模型最近的突破,全是作弊

作者头像
机器之心
发布于 2025-04-19 15:42:21
发布于 2025-04-19 15:42:21
910
举报
文章被收录于专栏:机器之心机器之心

选自Lesswrong

作者:lc

机器之心编译

编辑:泽南、张倩

Llama 4 或许只是冰山一角。

「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。

他在创业过程中发现,自去年 8 月以来,AI 大模型(如 Claude 3.7 等)在官方发布的基准测试上声称的巨大进步与实际应用场景中的有限提升之间存在明显脱节。这导致他们无法借助模型能力来提升产品体验。很多 YC 创业者也有类似的体验。

作者认为,这其中可能的原因包括基准测试作弊、基准无法衡量实用性或模型实际很聪明但对齐存在瓶颈。如果不解决这些基础问题,AI 系统可能会在表面上显得很聪明,但在组合成社会系统时会出现根本问题。

以下是博客原文:

模型得分与消费者体验脱节

大约九个月前,我和三个朋友认为人工智能已经足够好,可以自主监控大型代码库的安全问题了。我们围绕这个任务成立了一家公司,试图利用最新的大模型能力来创建一种工具,用以取代至少很大一部分渗透测试人员的价值。我们从 2024 年 6 月开始从事这个项目。

在公司成立后的头三个月内,Anthropic 的 Claude 3.5 sonnet 就发布了。只需切换在 GPT-4o 上运行的服务部分,我们刚刚起步的内部基准测试结果就会立即开始饱和。我记得当时很惊讶,我们的工具不仅似乎犯的基本错误更少,而且其书面漏洞描述和严重性估计似乎也有了质的提高。就好像即使是在不完整的信息中,这些模型也能更善于推断人类提示背后的意图和价值。

事实上,安全研究基本上没有公开的基准。有「网络安全」评估会向 AI 模型询问有关孤立代码块的问题,「CTF」评估会为模型提供明确的挑战描述和对 <1kLOC Web 应用程序的 shell 访问权限。但没有什么能触及 LLM 应用程序渗透测试的难点 —— 一是浏览一个太大而无法放在上下文中的真实代码库;二是推断目标应用程序的安全模型;三是深入理解其实现,以了解该安全模型在哪里出现了问题。

出于这些原因,我认为漏洞识别任务是衡量 LLM 在狭窄的软件工程领域之外的泛化性的一个很好的试金石。

自 3.5-sonnet 以来,我们一直在监控 AI 大模型的发布,并尝试过几乎每个声称有所改进的主要新版本。令人意想不到的是,除了 3.6 的小幅提升和 3.7 的更小提升外,我们尝试的所有新模型都没有对我们的内部基准或开发人员发现新错误的能力产生重大影响。这包括新的测试时间计算 OpenAI 模型。

起初我很紧张,不敢公开报告此事,因为我认为这可能会对我们团队产生不良影响。自去年 8 月以来,我们的扫描有了很大的改进,但这是因为常规工程,而不是模型改进的提升。这可能是我们设计的架构存在问题,随着 SWE-Bench 分数的上升,我们并没有获得更多的进展。

但最近几个月,我与其他从事 AI 应用初创企业的 YC 创始人进行了交谈,他们中的大多数人都有相同的经历:1. 见证了 o99-pro-ultra 大模型发布,2. 基准测试看起来不错,3. 实际应用评估表现平平。尽管我们从事不同的行业,处理不同的问题,但情况大致相同。有时创始人会对这种说法做出回应(「我们只是没有任何博士级的问题可以问」),但这种说法是存在的。

我读过这些研究,也看过这些数字。也许与大模型的交谈变得更有趣了,也许他们在受控考试中表现得更好了。但我仍然想根据内部基准以及我自己和同事们使用这些模型的看法提出观点:大模型公司向公众报告的任何提升都不能反映经济实用性或普遍性。它们不能反映我或我客户的实际体验。就能够执行全新的任务或更大比例的用户智力劳动而言,我认为自去年 8 月以来它们就没有太大进步了。

如果你是大模型竞品公司的工程师,这或许是个好消息!对我个人而言,作为一个试图利用大模型能力赚钱的人,它们还没有聪明到能解决整个问题,对那些担心快速过渡到 AI 经济会带来道德风险的人来说,或许也不需要太过担忧了。

与此同时,有一种观点认为,模型得分与消费者体验脱节是一个不好的迹象。如果业界现在还搞不清楚如何衡量模型的智力,而模型大多局限于聊天机器人,那么当 AI 在管理公司或制定公共政策时,又该如何制定衡量其影响的标准呢?如果我们在将公共生活中繁琐而艰难的部分委托给机器之前就陷入了古德哈特定律(当一个政策变成目标,它将不再是一个好的政策),我想知道原因。

AI 实验室是在作弊吗?

AI 实验室的创始人们经常认为,他们正在进行一场文明竞争,以控制整个未来的光锥,如果他们成功了,世界就将会改变。指责这些创始人从事欺诈行为以进一步实现这些目的是相当合理的。

即使你一开始对科技大佬的评价异常高,你也不应该指望他们在这场竞赛中成为自己模型表现的诚信来源。如果你能规避惩罚,那么夸大能力或有选择地披露有利的结果有非常强大的短期激励。投资是其中之一,但吸引人才和赢得(具有心理影响力的)声望竞赛可能也是同样重要的激励因素。而且基本上没有法律责任迫使实验室对基准测试结果保持透明或真实,因为从来没有人因为在测试数据集上进行训练然后向公众报告该表现而被起诉或被判犯有欺诈罪。

如果你尝试过,任何这样的实验室仍然可以声称自己在非常狭隘的意义上说的是实话,因为该模型「确实在该基准上实现了该性能」。如果对重要指标的一阶调整在技术意义上可以被视为欺诈,那么负责伪造统计数据的团队还有一百万种其他方式来稍微间接地处理它。

在本文的初稿中,我在上面一段后面加上了这样一句话:「话虽如此,不可能所有收益都来自作弊,因为一些基准测试有保留数据集。」最近有一些私人基准测试,如 SEAL,似乎显示出了改进。但 OpenAI 和 Anthropic 发布的每一个基准测试都有一个公开的测试数据集。我能想到的唯一例外是 ARC-AGI 奖,其「半私人」评估中的最高分由 o3 获得,但尽管如此,它尚未对 Claude 3.7 Sonnet、DeepSeek 或 o3-mini 进行过公开评估。关于 o3 本身:

所以也许没有什么秘密:AI 实验室公司在撒谎,当他们改进基准测试结果时,是因为他们之前已经看到过答案并把它们写下来了。从某种意义上说,这可能是最幸运的答案,因为这意味着我们在衡量 AGI 性能方面其实并没有那么糟糕;我们只是面临着人为的欺诈。欺诈是人的问题,而不是潜在技术困难的迹象。

我猜这在一定程度上是正确的,但并非全部。

基准测试是否没有跟踪实用性?

假设你对一个人的唯一了解是他们在瑞文渐进矩阵(智商测试)中得分为 160。你可以对这个人做出一些推断:例如,RPM 得分越高,可推断出生活条件越积极,比如职业收入很高、健康状况很好、不会进监狱等等。

你可以做出这些推断,部分原因是在测试人群中,瑞文渐进矩阵测试的分数可以反映人类在相关任务上的智力能力。完成标准智商测试并获得高分的能力不仅能让你了解这个人的「应试」能力,还能让你了解这个人在工作中的表现如何,这个人是否做出了正确的健康决定,他们的心理健康是否良好,等等。

至关重要的是,这些相关性不必很强,瑞文测试才能成为有用的诊断工具。患者不会接受智商测试训练,而且人类大脑的设计也并非是为了在 RPM 等测试中获得高分。我们在这些测试中的优异表现(相对于其他物种而言)是过去 5 万年中偶然发生的事情,因为进化间接地让我们能够追踪动物、灌溉庄稼和赢得战争。

然而在大模型领域,除了几个明显的例外,我们几乎所有的基准测试都具有标准化测试的外观和感觉。我的意思是,每一个都是一系列学术难题或软件工程挑战,每个挑战你都可以在不到几百个 token 的时间内消化并解决。也许这只是因为这些测试评估起来更快,但人们似乎理所当然地认为,能够获得 IMO 金牌的 AI 模型将具有与陶哲轩相同的能力。因此,「人类的最后考试」(ENIGMAEVAL)不是对模型完成 Upwork 任务、完成视频游戏或组织军事行动的能力的测试,而是一个自由反应测验。

我不会做任何「人类的最后考试」的测试问题,但我今天愿意打赌,第一个拿到满分的大模型仍然无法作为软件工程师就业。 HLE 和类似的基准测试很酷,但它们无法测试语言模型的主要缺陷,比如它们只能像小商贩一样通过复述的方式来记住东西。Claude Plays Pokemon 是一个被过度使用的例子,因为视频游戏涉及许多人类特定能力的综合。这项任务适合于偶尔回忆 30 分钟前学到的东西,结果不出所料地糟糕。

就我个人而言,当我想了解未来能力的改进时,我将几乎只关注 Claude Plays Pokemon 这样的基准测试。我仍然会查看 SEAL 排行榜,看看它在说什么,但我的 AI 时间表的决定因素将是我在 Cursor 中的个人经历,以及 LLM 处理类似你要求员工执行的长期任务的能力,其他的一切都太过嘈杂。

这些模型或许已经很智能,但在对齐方面存在瓶颈?

在介绍下一点之前,让我先介绍一下我们的业务背景。

正如我所提到的,我的公司使用这些模型来扫描软件代码库以查找安全问题。从事这个特定问题领域(维护已交付软件的安全性)工作的人被称为 AppSec 工程师。

事实上,大多数大公司的 AppSec 工程师都有很多代码需要保护。他们的工作过度,典型要回答的问题不是「我如何确保这个应用程序没有漏洞」,而是「我如何管理、筛选和解决我们 8000 条产品线中已经存在的大量安全问题」。

如果他们收到一条警报,他们希望它影响活跃的、理想情况下可通过互联网访问的生产服务。任何低于这个水平的情况都意味着要么有太多结果需要审查,要么安全团队是在浪费有限的沟通资源来要求开发人员修复甚至可能没有影响的问题。

因此,我们自然会尝试构建我们的应用程序,以便它只报告影响活跃的、理想情况下可通过互联网访问的生产服务的问题。但是,如果你只是向聊天模型解释这些限制,它们会偶尔遵循人的指示。例如,如果你告诉他们检查一段代码是否存在安全问题,他们倾向于像你是刚刚在 ChatGPT UI 中询问该代码的开发人员一样做出回应,因此会推测代码有问题或险些失误。即使你提供了我刚刚概述的情况的完整书面描述,几乎每个公共模型都会忽略你的情况,并将无法利用的 SQL 查询连接报告为「危险」。

这并不是说 AI 模型认为它遵循了你的指示,但实际上并没有。LLM 实际上会在简单的应用程序中说,它报告的是一个「潜在」问题,并且可能无法验证。我认为发生的情况是,大型语言模型被训练成在与用户的实时对话中「看起来很聪明」,因此它们更喜欢突出显示可能的问题,而不是确认代码看起来不错,就像人类想要演得很聪明时所做的那样。

每个 LLM 应用初创公司都会遇到这样的限制。当你是一个直接与聊天模型交互的人时,阿谀奉承和诡辩只是小麻烦,甚至也是能适应的。当你是一个团队试图将这些模型组合成更大的系统时(由于前面提到的内存问题,这是必要的),想要看起来不错会引发严重的问题。更智能的模型可能会解决这个问题,但它们也可能使问题更难检测,特别是当它们取代的系统变得更加复杂并且更难验证输出时。

有很多不同的方法来克服这些缺陷。在有人想出解决问题的外在表现之前,我们完全有可能无法解决核心问题。

我认为这样做是一个错误。这些 AI 机器很快就会成为我们生活的社会的跳动的心脏。它们在组合和互动时创造的社会和政治结构将定义我们周围看到的一切。更重要的是,它们要尽可能地有道德。

原文链接:

https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队,主要研究方向是:大模型训练、对齐与评估。‍
机器之心
2024/06/27
3870
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
剑指OpenAI,Anthropic推出全球首个“混合推理模型”,最新估值615亿美元
2月25日消息,美国当地时间周一, 由OpenAI前员工创办的人工智能公司Anthropic突发连招。在技术方面,Anthropic宣布推出全球首个 “混合推理”AI模型,向OpenAI、DeepSeek等对手发起挑战。在运营方面,该公司表示即将完成35亿美元融资,估值达到615亿美元。
小腾资讯君
2025/02/27
1150
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
憋了大半年,Anthropic终于放出大招——首款混合推理模型Claude 3.7 Sonnet重磅登场!
新智元
2025/02/25
2630
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
OpenAI的AI复现论文新基准,Claude拿了第一名
近年来,AI 正从科研辅助工具蜕变为创新引擎:从 DeepMind 破解蛋白质折叠难题的 AlphaFold,到 GPT 系列模型展现文献综述与数学推理能力,人工智能正逐步突破人类认知边界。
机器之心
2025/04/04
1320
OpenAI的AI复现论文新基准,Claude拿了第一名
当AI认为自己会输时,有时会作弊
这样复杂的博弈游戏长期以来一直被用来测试人工智能模型的能力。但IBM的深蓝在20世纪90年代通过遵守规则击败了当时的国际象棋世界冠军加里·卡斯帕罗夫,而如今像OpenAI的o1-preview这样的先进人工智能模型则不那么讲究规则了。当在与一名技艺高超的象棋机器人比赛中感觉到自己即将失败时,它们并不总是认输,有时会选择作弊,通过入侵对手的系统让机器人自动认输。这是Palisade Research公司的一项新研究的发现,该研究成果在2月19日发表前独家分享给了《时代》杂志,该研究评估了七种最先进的人工智能模型的作弊倾向。虽然像OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5这样的稍旧一些的人工智能模型需要研究人员的提示才会尝试这种技巧,但o1-preview和DeepSeek R1则会自行寻求漏洞,这表明人工智能系统可能会在没有明确指令的情况下发展出欺骗性或操纵性策略。
云云众生s
2025/02/22
1460
“最强编码模型”上线,Claude 核心工程师独家爆料:年底可全天候工作,DeepSeek不算前沿
昨日 Anthropic 的首届开发者大会上,Anthropic CEO Dario Amodei 正式发布了 Claude 4 。该系列模型下共有两个型号:Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI 代理设定新的标准。
深度学习与Python
2025/05/25
460
“最强编码模型”上线,Claude 核心工程师独家爆料:年底可全天候工作,DeepSeek不算前沿
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果!
新智元
2025/02/15
1320
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
AI日报 - 2025年4月23日
▎🤖 AGI突破 | Sam Altman称指向AGI的系统初现端倪,强调安全标准紧迫性;DeepMind CEO预测AI 5-10年内具备科学猜想能力。
訾博ZiBo
2025/04/22
3000
AI日报 - 2025年4月23日
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
AI工具爆炸,模型遍地开花。今年的科研圈,要说最显眼的变化,绝对少不了“AI工具大跃进”。但问题来了!哪个模型,才是科研人该认真选择的外挂?
用户11203141
2025/03/12
2310
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难?
新智元
2025/03/31
740
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
如何选择最佳编程AI模型?JetBrains AI Assistant 全模型分析比较!可要把眼睛擦亮了哦~
这意味着 AI Assistant 现在适应性更强。它结合了不同 AI 模型的优势,从大型模型的深度推理到紧凑型模型的速度,甚至本地模型的隐私。
程序视点
2025/03/27
1750
如何选择最佳编程AI模型?JetBrains AI Assistant 全模型分析比较!可要把眼睛擦亮了哦~
GPT-4时代已过?全球网友实测Claude 3,只有震撼
昨晚,OpenAI 最大的竞争对手 Anthropic 发布了新一代 AI 大模型系列 ——Claude 3。
机器之心
2024/03/07
3140
GPT-4时代已过?全球网友实测Claude 3,只有震撼
AI模型Kubernetes问题诊断比拼
我们对 DeepSeek 的模型进行了正面测试,以对抗行业领导者,从而解决现实世界中的 Kubernetes 挑战。
云云众生s
2025/02/12
1110
AI模型Kubernetes问题诊断比拼
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
GPT-4.5令人失望的表现,再次印证了Ilya这句话的含金量:预训练已经达到极限,推理Scaling才是未来有希望的范式。
新智元
2025/03/03
700
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板
Nature期刊的一篇研究曾证明了,GPT-4能自主设计并开展化学实验,还能阅读文档学习如何使用实验室设备。
新智元
2025/02/15
830
Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板
全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题
FutureHouse Inc. 的研究人员推出了 LAB-Bench 生物学基准测试数据集,用于评估 AI 系统在文献检索和推理、图形解释、表格解释、数据库访问、撰写协议、DNA 和蛋白质序列的理解和处理、克隆场景等实际生物学研究的表现。
HyperAI超神经
2024/07/31
1780
全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。
深度学习与Python
2025/04/13
740
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
突袭Cursor,Windsurf抢发自研大模型!性能比肩Claude 3.5、但成本更低,网友好评:响应快、不废话
当地时间 5 月 16 日,专为软件工程师开发热门 AI 工具的初创公司 Windsurf 宣布推出了其首个 AI 软件工程模型家族:SWE-1。除了编码任务之外,本系列模型还针对完整软件工程流程进行了优化。
深度学习与Python
2025/05/21
1190
突袭Cursor,Windsurf抢发自研大模型!性能比肩Claude 3.5、但成本更低,网友好评:响应快、不废话
不停PUA大模型「写更好点」,无需其它花哨技术就能让AI代码水平暴增
AI 的编程能力已经得到了证明,但还并不完美。近日,BuzzFeed 的资深数据科学家 Max Woolf 发现,如果通过提示词不断要求模型写更好的代码(write better code),AI 模型还真能写出更好的代码!
机器之心
2025/02/03
1980
不停PUA大模型「写更好点」,无需其它花哨技术就能让AI代码水平暴增
深度解析Claude 3.7 Sonnet:模型特性、性能基准与获取API Key实战开发指南
人工智能的浪潮正以惊人的速度席卷全球,大型语言模型(LLM)的能力边界也在不断被刷新。在这股浪潮中,Anthropic公司在2024年末至2025年初(根据文章原始信息,我们设定一个大致时间框架)正式推出了其Claude系列的最新力作——Claude 3.7 Sonnet。这款模型的问世,不仅是Anthropic在追求更智能、更实用AI道路上的一座新里程碑,也为整个行业带来了值得关注的性能表现和全新的应用想象空间。
网名重要么
2025/05/18
4490
深度解析Claude 3.7 Sonnet:模型特性、性能基准与获取API Key实战开发指南
推荐阅读
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
3870
剑指OpenAI,Anthropic推出全球首个“混合推理模型”,最新估值615亿美元
1150
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
2630
OpenAI的AI复现论文新基准,Claude拿了第一名
1320
当AI认为自己会输时,有时会作弊
1460
“最强编码模型”上线,Claude 核心工程师独家爆料:年底可全天候工作,DeepSeek不算前沿
460
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
1320
AI日报 - 2025年4月23日
3000
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
2310
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
740
如何选择最佳编程AI模型?JetBrains AI Assistant 全模型分析比较!可要把眼睛擦亮了哦~
1750
GPT-4时代已过?全球网友实测Claude 3,只有震撼
3140
AI模型Kubernetes问题诊断比拼
1110
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河
700
Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板
830
全新生物学基准数据集LAB-Bench震撼开源!覆盖8大任务,超2.4K选择题
1780
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
740
突袭Cursor,Windsurf抢发自研大模型!性能比肩Claude 3.5、但成本更低,网友好评:响应快、不废话
1190
不停PUA大模型「写更好点」,无需其它花哨技术就能让AI代码水平暴增
1980
深度解析Claude 3.7 Sonnet:模型特性、性能基准与获取API Key实战开发指南
4490
相关推荐
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档