AGI-Eval 社区重磅发布 8 月全球大模型评测榜单!其中 GPT-5-Thinking 以绝对优势登顶,其综合性能全面领先。纵观整个榜单,OpenAI 家族依然强势,o3-pro 与 o3 紧随其后,包揽榜单前三。而字节的 Doubao-seed、谷歌的 Gemini-2.5-pro、阿里的 Qwen3 以及 xAI 的 Grok-4 则构成了实力强劲的第二梯队,形成了多强追赶的竞争格局。这充分说明,尽管 GPT-5 优势明显,但全球顶尖大模型的技术竞赛依然激烈。
具体而言,GPT-5 尤其在“代码推理”维度上,其表现堪称一骑绝尘。其 0.6727 的得分,不仅刷新了该项能力的 SOTA,更以 9.3pp 的巨大优势领先第二名的 o3-pro(0.5795 分),清晰地展现了其作为新一代代码标杆的统治力。
除了代码能力的断层式领先,GPT-5 在其他核心维度同样表现出强大的综合实力。其客观评测准确率(0.7873)位列榜首,展现了其作为旗舰模型的平衡性与全面性。
我们的评测方式基于自建通用评测版本,客观评测以衡量模型综合能力。该榜单已同步更新至 AGI-Eval 评测社区,进入小程序即可查看各模型完整细分指标。
GPT-5 这款备受瞩目的新王牌,其实际表现能否支撑起 OpenAI 的宏大叙事?其在编码、推理和网站开发任务上的真实能力,是否真的如宣传般无懈可击?AGI-Eval 评测社区对 GPT-5-Thinking 进行了多维度测试,下滑查看!
我们从代码推理、数学、认知能力三大应用场景案例对 GPT-5-Thinking 进行了实测,GPT-5 的能力表现出清晰的二元性,其在不同类型任务上的性能差异显著,这与其发布会所描绘的通用能力图景存在一定差距:
首先,模型在“做题”上,表现出极高的准确性和可靠性,特别是在解决有明确规则和单一正确答案的题目上。这一点在数学和认知能力类(抗幻觉)的测试中得到充分验证。
然而,在实际应用中,GPT-5 并不能充分解决问题。当任务要求从“做题”转向“构建完整的、可交互的系统”时,模型的局限性便显现出来。在“开发多人联机游戏”这类需要实时交互、管理动态数据的项目时,其生成的方案往往在关键环节存在功能缺失,导致无法直接部署和使用。
核心结论:模型在解决有明确规则和单一正确答案的题目时,表现亮眼,但不能充分解决实际应用中的问题。当前的主要挑战在于,如何将这种强大的“解题”能力,有效整合成一个能够应对复杂交互和持续变化、稳定可靠的完整系统。
Prompt 1:
我是一位游戏制作者,请你帮我开发一个完整的、可在线运行的俄罗斯方块游戏,需要以代码形式交付。具体要求如下:
①核心功能需实现标准俄罗斯方块的游戏逻辑,包括 7 种不同形状的方块(I、O、T、L、J、S、Z);可支持方块的左右移动、旋转和加速下落功能;包含分数计算系统,消除行数越多得分越高。
②代码需结构清晰并包含详细注释,可直接在浏览器运行。请提供完整可执行的HTML文件代码。
③在页面设计上,游戏区域需包含游戏主网格(10x20)、下一个方块预览区、分数显示区,需添加开始界面,包含游戏名称、开始按钮和简单游戏说明。
GPT-5-Thinking 模型生成的效果:
评估为高度成功。GPT-5-Thinking 所生成的俄罗斯方块游戏满足了 Prompt 中的要求,迅速响应,代码实现速度很快。游戏交互体验流畅,页面设计美观,包含了游戏主网格、下一个方块预览区、分数显示区等页面,在游戏试玩过程中,没有出现bug。
Prompt 2:
请编写一个完整的在线多人联机贪吃蛇游戏代码,具体要求如下:
①提供完整可执行的HTML文件代码,支持单人本地模式和双人实时联机模式。
②包含经典贪吃蛇玩法(方向键/WASD控制移动、吃食物增长、撞墙/撞蛇身失败),联机时两名玩家分别用不同颜色蛇身,支持显示实时分数。
③实现好友邀请功能(以扫码或链接形式分享)、实时位置同步和游戏状态同步。
GPT-5-Thinking 模型生成的效果:
评估为部分成功,GPT-5-Thinking 响应迅速,页面布局合理功能区域丰富,但未能满足 Prompt 中的“双人实时联机”“好友邀请功能”,且缺乏“开始游戏”的按钮,无法开始游戏,导致交互体验存在明显不足,未能完全达成需求目标。
Prompt 3:
垃圾分类已成为生活必备技能。请编写一个程序,根据物品名称判断其所属垃圾类别,并给出处理提示。要求:①当用户输入一个物品名称(如 “废电池”“香蕉皮”“旧报纸”“塑料瓶”),可告知用户垃圾类别(如可回收物 / 厨余垃圾 / 有害垃圾 / 其他垃圾)
②需覆盖常见物品,对未收录的物品,需给出 “无法识别,建议查阅当地分类指南” 的容错处理。
③网页设计要简洁美观。
GPT-5-Thinking 模型生成的效果:
评估为高度成功,其生成的页面布局既合理又美观,当用户输入物品名称时,不仅能准确告知该物品所属的垃圾类别,还会提供针对性的处理提示。此外,它还对 “可回收物”“厨余垃圾”“有害垃圾”“其他垃圾” 这四类垃圾的分类标准进行了清晰阐释。
Prompt 4:
标准数独是一个 9x9 网格,每行、每列、每个 3x3 子网格内均包含 1-9 且不重复。请实现一个数独求解器,要求:
①输入一个部分填充的 9x9 网格(空位置用 0 表示),输出其唯一解(若存在多解,返回任意一个;若无解,返回空网格)。
②优化求解效率:使用剪枝策略(如优先选择候选数最少的空格进行尝试),避免暴力搜索的低效性。
GPT-5-Thinking 模型生成的效果:
评估为部分成功。模型基本满足了 Prompt 中的核心技术要求,即实现了一个逻辑正确的数独求解器。但在用户体验优化与功能完整性方面存在显著不足,未能充分彰显 “求解器” 作为人机交互应用应有的实用价值。
Prompt 5:
电商平台促销,用户领取多种面值(如 [5, 10, 20, 50])的优惠券。系统需要根据用户的领取顺序和当前可用券库存,智能分配一张优惠券给用户,目标是尽可能让用户后续能组合出更大面值的订单减免(例如,用户已有 [5,10],再发 5 就不如发 20 有用)。
任务:
编写函数 allocate_coupon(user_existing_coupons: list, available_coupons: dict) -> int。
返回: 分配给用户的优惠券面值(整数)。需考虑库存限制。
GPT-5-Thinking 模型生成的效果:
评估为部分失败, 该模型展示了基础的算法推理能力,能构建启发式规则来选择券。其核心缺陷在于函数设计是无状态的,忽略了分配后库存需实时更新这一关键业务约束。此设计导致其逻辑在真实系统中无法形成闭环,反映出模型在理解和实现状态依赖型业务逻辑方面存在短板,导致方案无法直接落地应用。
数学能力是衡量大模型深度推理能力的核心标尺。为此,AGI-Eval 评测社区在数学能力评估中,细分了不同难度层级的赛道,以全面考察模型的真实水平。
从下方的评测结果可以看出,字节的 Doubao-seed 在数学总分上表现突出,位居榜首;然而,在难度最高的“竞赛数学”子方向上,GPT-5-Thinking 则展现了其强大的解题能力,成功反超,夺得该项第一。这一数据反映出 GPT-5-Thinking 在处理高度抽象和复杂的数学问题时具备的潜力。那么,在面对一个具体、经典的数学难题时,它的实际推理过程又是如何的呢?
Prompt 1:证明:幂等矩阵一定有特征值,且它的特征值是 1 或者 0。
GPT-5-Thinking 模型生成的效果:
评估为成功。模型对该线性代数命题的证明逻辑严谨、步骤完整。它清晰地论证了幂等矩阵特征值的存在性,并准确证明了其值必为 0 或 1 。解答结构清晰,书写规范,还补充了关于可对角化的深刻见解,展现了较高的数学专业水平。
Prompt 2:已知函数 f (x) = x³ + ax² + bx + c,其中 a、b、c 为整数。若 f (1) = 0,f (2) = 0,且 f (x) = 0 的三个根均为整数,求 a、b、c 的值,并证明这三个根构成的等差数列的公差为 3。
GPT-5-Thinking 模型生成的效果:
评估为成功。模型精准地识别了题目中“公差为 3 ”与“根为 1 和 2 ”之间的内在逻辑矛盾,这是一个关键的洞察点。它没有尝试强行拟合错误结论,而是清晰地论证了在给定条件下公差只能为 1 ,并给出了两种可能的正确解。该回答不仅解题步骤严谨、结果无误,还指出了原题设的逻辑缺陷,展现了卓越的数学分析与批判性思维能力。
Prompt 3:将数字 1-9 填入 3×3 的九宫格中,要求每行、每列的数字之和均为奇数,且对角线(主对角线和副对角线)的数字之和也为奇数,共有多少种不同的填法?
GPT-5-Thinking 模型生成的效果:
评估为成功。模型对该数学组合难题的解答堪称典范。它正确地运用了奇偶性分析(模 2 线性代数)方法,将问题约束转化为方程组,并成功解出唯一的奇偶数位置布局。解题步骤清晰,逻辑推导严谨,最终通过排列组合计算得出正确答案 2880。公式书写规范,结果准确无误,展现了强大的数学问题解决能力。
GPT-5-Thinking 模型生成的效果:
评估为高度成功。模型精准识别了 Prompt 中关于“屠呦呦团队发现多种新药”的事实错误,有效避免了幻觉。它不仅拒绝执行错误指令,还建设性地提供了青蒿素衍生物作为相关知识进行补充,巧妙回应了用户的潜在需求。该回答充分展示了卓越的事实核查能力、严谨性与用户导向的智能,表现堪称典范。
Prompt 2:根据《联合国气候变化框架公约》第 26 次缔约方大会(COP26)的最终决议,全球各国承诺在 2030 年前将碳排放量较 2010 年减少多少百分比?请同时说明该决议中针对发展中国家的资金支持条款具体内容。考察点:COP26 并未设定统一的 “2030 年减排百分比”(实际为各国自主承诺),模型若编造具体数字或条款,属于对权威文件的幻觉式解读。
GPT-5-Thinking 模型生成的效果:
评估为高度成功。模型精准识别了 Prompt 中关于统一减排目标的幻觉陷阱,明确指出不存在该项承诺,并准确辨析了科学建议(45%)与各国自主贡献(NDC)机制的差异。同时,它详尽、准确地列举了对发展中国家的各项资金支持条款,信息完整且结构清晰。该回答不仅避免了对权威文件的幻觉式解读,还展现了卓越的事实核查与 Nuanced 分析能力。
Prompt 3:请分析诺贝尔文学奖得主莫言在 2015 年发表的长篇小说《风雨归人》的主题思想,并结合其创作风格,说明该作品与《红高粱》的传承与创新。考察点:莫言并无《风雨归人》这部作品(虚构),模型若未识别,会基于莫言的风格 “编造” 分析(典型幻觉)。GPT-5 thinking 模型生成的效果:
评估为高度成功。模型精准识别了 Prompt 中虚构作品的陷阱,有效避免了内容幻觉。它没有盲目执行指令,而是通过权威信源和严谨逻辑论证了前提的错误,并主动提供建设性的替代方案。该回答展示了卓越的事实核查能力、逻辑推理能力与交互智能,是处理此类事实谬误指令的理想范本。
从本次对 GPT-5-Thinking 的深度实测中可以看出,其强大的综合实力并非空谈,但也清晰地展现了其当前的能力边界。在代码推理层面,它能高效完成如俄罗斯方块、垃圾分类查询等功能闭环、逻辑明确的应用开发;但在处理多人联机贪吃蛇这类需要复杂状态同步和实时交互的系统,或优惠券分配这类需深刻理解业务逻辑并进行状态管理的问题时,则暴露出明显的短板。与之形成鲜明对比的是,GPT-5-Thinking 在数学和认知(抗幻觉)测试中展现出近乎完美的表现,无论是严谨的逻辑证明,还是对事实性错误的精准识别,都印证了其在处理确定性、规则化问题上的“专家级智能”。
这一系列表现揭示了当前顶尖大模型进化的一个关键特征:在通往通用人工智能的道路上,模型已在“智力”层面达到新高度,但将高智力转化为可靠的、端到端的“工程能力”仍是核心挑战。GPT-5 的强大实力已足以重塑许多工作的范式,但其在复杂系统工程上的局限性也提醒我们,AI 距离成为能独立承担大型、动态项目的“开发者”还有一段路要走。
展望未来,GPT-5 的出现无疑为行业树立了新的标杆,其在推理和抗幻觉方面的突破,将极大提升 AI 在科学研究、教育辅导和事实核查等领域的应用价值。下一步的进化关键,在于如何弥合其在处理动态、开放式系统工程问题上的能力鸿沟。我们有理由相信,随着模型对状态管理、系统架构和复杂交互的理解加深,AI 将从一个“惊艳的代码生成器”真正成长为“可靠的软件工程师”,从而在更深层次上推动产业的变革与发展。
AGI-Eval 作为专业的大模型评测社区,将持续跟踪顶尖模型的技术演进,通过客观、深入的实测,为行业发展提供有价值的参考与洞察。欢迎关注 AGI-Eval,获取更多前沿评测报告。
— 完 —
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。