首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Claude 发布 Opus 4.8 还是最强的大模型吗?

Claude 发布 Opus 4.8 还是最强的大模型吗?

作者头像
勇哥AI笔记
发布2026-06-01 09:55:59
发布2026-06-01 09:55:59
1270
举报
文章被收录于专栏:技术人生黄勇技术人生黄勇

Anthropic 昨天发布了最新旗舰模型 Claude Opus 4.8,据官方公告,在编码、代理任务和专业工作方面表现更出色,具有持续处理长期任务所需的稳定性和自主性。

SuperCLUE团队基于中文大模型测评基准体系对Claude Opus 4.8 进行了测评,以下是测评结果与分析。

一、SuperCLUE智能指数

这个智能指数是个综合得分,幻觉控制、数学推理、科学推理、精确指令遵循、代码生成、智能体(任务规划)六种任务的综合分数,就是看谁是真·六边形战士。

即使是中文评测,“御三家”仍然保持着领先地位。

Gemini 倒是后来者居上,还是谷歌老牌技术公司有底蕴。

梁圣的 DeepSeek 紧随其后,国产模型和芯片随时有可能类似汽车行业一样,在新的领域中从追赶者变为领路人:DeepSeek 的 10 万亿美元大战略

这个榜单还没纳入新出的小米模型Mimo,实际使用的体验其实也不错。

图片
图片

二、模型象限图

从应用能力、推理能力来划分各家大模型的擅长领域。

新出的Hy3位居最末。

图片
图片

三、性价比区间分布

这个不用说,大家应该知道 DeepSeek-V4-Pro 最具性价比了。

是全球首家宣布降价1/4的大模型平台,让大家用得起便宜又好又的AI。

图片
图片

四、推理效能区间分布

推理最快的,还是御三家把持了前三。

图片
图片

五、总体表现(2026年5月)

图片
图片

测评结果与分析

一、Claude-Opus-4.8在代码生成任务中取得83.58分,位列第一。

领先Gemini-3.1-Pro-Preview(81.47分)超2分,较上个版本(Claude-Opus-4.7)提升超过4.5分。

Claude-Opus-4.8在SWE(软件工程)子任务中表现优异,取得73.33分,占据榜单第一,相较于Opus 4.7提升较大,在独立函数生成和Web Coding子任务中均处于头部位置。

二、Claude-Opus-4.8在幻觉控制任务中取得87.48分,占据榜单第一,相较于Opus 4.7提升超过6分。

三、Claude-Opus-4.8在科学推理任务中取得77.19分,占据榜单第一,相较于Opus 4.7提升8.77分。

四、Claude-Opus-4.8对比Claude-Opus-4.7。

Claude-Opus-4.8 在幻觉控制、科学推理和代码生成上均有较大幅度的提升。

其中幻觉控制由81.11分提升到87.48分,提升超过6分,科学推理由68.42分提升至77.19分,代码生成由79.01分提升至83.58分。

但在智能体(任务规划)、数学推理和指令遵循有一定的下降。

特别是在指令遵循任务上,由56.19分降低到44.76分,下降超过11分。

五、推理速度和性价比相较于Opus 4.7并无明显变化。

Claude-Opus-4.8的推理耗时(97.76秒/题)相较于上个版本(99.34秒/题)几乎持平,依旧位于高效能区间。

Claude-Opus-4.8的API价格和上个版本(74.38元/百万Tokens)保持一致,依旧处于低性价比区间。

更多榜单细节,评测内容,题集等,请访问下面官方地址:

SuperCLUE官网地址:http://www.superclueai.com

CLUE官网:http://www.CLUEBenchmarks.com

Github地址:https://github.com/CLUEbenchmark/SuperCLUE

现在发新模型从以前的半年缩短到数月,再到现在一个月,甚至个别版本就间隔几周。

感觉大家都已经习以为常了,时不时谁家发的新闻,最多就是看一下,日常该用哪个模型还继续用。

好久没有看评测,今天看一下第三方机构对目前的大模型的评测,基本上跟日常使用的体感差不多。

期待6月份的 DeepSeek 新版本:韬定律与DeepSeek齐头并进改变人工智能格局

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档