首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型评测:从MMLU到Chatbot Arena,一文看懂AI出生都要经过哪些考试。

大模型评测:从MMLU到Chatbot Arena,一文看懂AI出生都要经过哪些考试。

原创
作者头像
Klein.Z
发布2026-06-17 16:07:26
发布2026-06-17 16:07:26
1930
举报
文章被收录于专栏:AI行业研究AI行业研究

当你看到“某模型MMLU得分超越GPT-4”时,你是否疑惑过:MMLU到底是什么?为什么各家大模型都爱用它来“晒成绩”?国内的大模型又是如何证明自己“更懂中文”的?

在大模型(LLM)爆发式增长的今天,各种评测榜单(Benchmark)成了厂商宣传的必争之地,也是用户选型的重要参考。然而,面对满屏的英文缩写和专业术语,很多人感到一头雾水。

本文将为你拆解国际通用的学术基准国内特色的评测体系,并揭秘像Anthropic(Claude)智谱(GLM)这样的头部玩家,究竟在用什么“试卷”考核自己的模型。


一、 学术界的“高考”:通用能力基准(The Big Six)

无论 GLM、Anthropic、OpenAI 还是 Google,对外发布时基本都要交六张卷,这就是所谓的ARC(Advanced Reasoning & Coding)核心套餐。你不跑这些,论文/技术报告根本发不出来、媒体也不会引你。

如果把大模型比作学生,那么学术界维护的一系列数据集就是标准化的“高考试卷”。无论你是硅谷的Claude,还是北京的GLM,想要在国际舞台上有姓名,这几门“必修课”必须考:

1. 通识知识的“地基”:MMLU 与 MMLU-Pro

  • MMLU (Massive Multitask Language Understanding):这是目前最知名的“百科知识”测试。涵盖57个学科(从美国历史到高等数学),共1.5万道题。它是大模型知识广度的“入场券”。
  • 痛点与进化:随着模型越来越强,MMLU出现了题目错误和“饱和”现象(顶级模型分数挤在一起)。于是升级版MMLU-Pro诞生了,增加了选项数量,提升了推理难度,是目前更有含金量的版本。

2. 数学推理的“试金石”:GSM8K 与 MATH

  • GSM8K:小学到初中的应用题,主要考察模型是否具备基础的多步推理能力(Chain-of-Thought)。
  • MATH:竞赛级难题(类似AIME/AMC)。如果说GSM8K是中考,MATH就是奥赛。它是区分“死记硬背”和“真逻辑推理”的分水岭。

3. 代码生成的“硬通货”:HumanEval

  • 由OpenAI提出,包含164个手写编程问题。评分标准是Pass@k——即代码能否通过单元测试。这是衡量模型“程序员辅助”能力的核心指标。

4. 极限推理的“珠峰”:GPQA

  • 博士级别的科学问答(生物、物理、化学)。题目设计得非常难,甚至让人类专家在没有工具的情况下也容易答错。这是目前检验大模型“智力上限”的最权威基准。

5. 常识与逻辑的“补漏”:BBH (Big-Bench Hard)

  • 从庞大的BIG-Bench项目中筛选出的23个任务,这些都是早期模型表现不如人类的“硬骨头”。主要考察常识因果和复杂指令遵循。

六张卷

优先级

Benchmark

测什么

为什么必报

⭐⭐⭐

MMLU / MMLU-Pro​

通用知识广度 + 推理

最老牌的"地基分",媒体和采购方最先看

⭐⭐⭐

GSM8K​

小学~初中多步数学

最简单的"推理能力门槛"探针

⭐⭐⭐

MATH​

竞赛级数学(AIME/AMC风格)

区分"背出来"vs"真推导"

⭐⭐⭐

HumanEval(pass@k)​

Python函数级代码生成

代码能力的硬通货指标

⭐⭐⭐

GPQA(-Diamond)​

博士级理化生,Google-proof

当前推理上限最受认可的基准

⭐⭐

BBH / BIG-Bench Hard​

多步推理中模型曾低于人类的那23类任务

补MMLU的不足——更偏"思维链"


二、 用户的“大众点评”:对话与主观体验

光有客观选择题还不够,毕竟我们是用AI聊天和工作的。为了衡量“好不好用”,业界发展出了两套机制:

1. Chatbot Arena:匿名对战平台

由加州大学伯克利分校发起,堪称AI界的“英雄联盟”。用户在同一界面下向两个匿名模型提问,选出更好的回答,系统根据海量投票计算Elo评分

  • 特点:完全由真实用户驱动,很难作弊,最能反映模型的“实战手感”。

2. MT-Bench:大模型当裁判

由于人工评测太慢,学界引入了“LLM-as-a-Judge”机制。用GPT-4级别的强模型去评价其他模型的回答。虽然不完全客观,但效率极高,且与人类偏好吻合度超过80%。


三、 本土化战场:中文大模型的“特色试卷”

对于国内的GLM、Qwen等模型来说,仅仅在国际榜上拿高分是不够的,还需要证明自己在中文语境下的实力。

1. C-Eval 与 CMMLU:中国版的MMLU

  • C-Eval:涵盖了52个中国大学学科(包括中国近现代史、法律、执业医师考试等)。这是检验模型是否具备“中式知识体系”的标尺。
  • CMMLU:更进一步,它不仅考知识,还考中国文化语境(例如交通规则、饮食习俗)。

2. AGIEval 与 高考榜

直接拿中国的高考、公务员考试、法考题来考模型。这种评测最具现实意义:如果AI能考上一本,它在处理复杂的本土业务逻辑时就更值得信赖。

3. SuperCLUE:中文社区的琅琊阁

国内最早的综合性评测体系之一,除了客观题,还包含大量的开放式问答和“琅琊榜”匿名对战,专门评估中文对齐能力和指令遵循度。


四、 实战观察:Claude 和 GLM 到底在考什么?

理解了上述体系,我们再回头看两家代表性公司的技术报告,就能读懂它们的策略。

1. Anthropic (Claude):主打“全球通才”

Claude的评测清单非常“国际化”和“极客化”:

  • 核心招牌GPQA(博士级推理)、MMLU(通识)、HumanEval(代码)。
  • 避坑指南:Claude通常不报C-Eval或CMMLU分数,因为它定位为全球模型,中文专项并非其首要宣传点。
  • 新趋势:随着模型成熟,Claude开始重点攻克SWE-bench(真实软件工程修复),证明自己能解决GitHub上的实际Bug,而不仅仅是刷题。

2. 智谱 (GLM):主打“中英双语+本土深耕”

GLM的策略是典型的“两条腿走路”:

  • 左手国际卷:必须跑通MMLU、GSM8K、MATH、HumanEval,证明自己达到了国际SOTA(State-of-the-Art)水平。
  • 右手中文卷:重点展示C-EvalCMMLUAlignBench(中文对齐)的分数,强调其在中文理解上的优势。
  • 未来方向:在GLM-5阶段,评测重点已转向Agentic Engineering(智能体工程),例如Terminal-Bench(终端操作)和长上下文处理,意在证明模型能像工程师一样干活。

五、 合规与准入:看不见的“国标线”

除了学术榜单,在中国市场落地,还有一个隐形的评测体系——国家标准与信通院认证

  • GB/T 45288:中国首部大模型国家标准,规定了性能、安全和服务能力的底线。
  • 可信AI评估:由中国信通院主导,是大模型进入政务、金融、电信等关键行业的“准入证”。

这意味着,即便一个模型在MMLU上拿了满分,如果通不过国家的安全合规评测,依然无法在严肃场景中大规模应用。


六、 写在最后:如何正确看待评测?

对于普通用户和开发者来说,面对眼花缭乱的榜单,建议记住以下三点:

  1. 没有全能冠军:MMLU饱和不代表模型完美,可能只是题目不够难了。GPQA和MATH更能反映高阶推理能力。
  2. 场景决定选择
    1. 写代码看 HumanEval / SWE-bench;
    2. 处理中文公文看 C-Eval / AlignBench;
    3. 想要聊天顺畅看 Chatbot Arena。
  3. 实战胜于榜单:最靠谱的评测永远是拿你自己的业务数据去测试。用GPT-4o或Claude 3.5作为裁判,对你的候选模型进行Pairwise对比,这才是选型的“黄金标准”。

大模型评测正在从“做题家”时代迈向“实干家”时代。

未来,我们关注的将不再是模型能做对几道选择题,而是它能为我们的工作和生活解决多少实际问题。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 学术界的“高考”:通用能力基准(The Big Six)
    • 1. 通识知识的“地基”:MMLU 与 MMLU-Pro
    • 2. 数学推理的“试金石”:GSM8K 与 MATH
    • 3. 代码生成的“硬通货”:HumanEval
    • 4. 极限推理的“珠峰”:GPQA
    • 5. 常识与逻辑的“补漏”:BBH (Big-Bench Hard)
  • 二、 用户的“大众点评”:对话与主观体验
    • 1. Chatbot Arena:匿名对战平台
    • 2. MT-Bench:大模型当裁判
  • 三、 本土化战场:中文大模型的“特色试卷”
    • 1. C-Eval 与 CMMLU:中国版的MMLU
    • 2. AGIEval 与 高考榜
    • 3. SuperCLUE:中文社区的琅琊阁
  • 四、 实战观察:Claude 和 GLM 到底在考什么?
    • 1. Anthropic (Claude):主打“全球通才”
    • 2. 智谱 (GLM):主打“中英双语+本土深耕”
  • 五、 合规与准入:看不见的“国标线”
  • 六、 写在最后:如何正确看待评测?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档