
Anthropic 昨天发布了最新旗舰模型 Claude Opus 4.8,据官方公告,在编码、代理任务和专业工作方面表现更出色,具有持续处理长期任务所需的稳定性和自主性。
SuperCLUE团队基于中文大模型测评基准体系对Claude Opus 4.8 进行了测评,以下是测评结果与分析。
一、SuperCLUE智能指数
这个智能指数是个综合得分,幻觉控制、数学推理、科学推理、精确指令遵循、代码生成、智能体(任务规划)六种任务的综合分数,就是看谁是真·六边形战士。
即使是中文评测,“御三家”仍然保持着领先地位。
Gemini 倒是后来者居上,还是谷歌老牌技术公司有底蕴。
梁圣的 DeepSeek 紧随其后,国产模型和芯片随时有可能类似汽车行业一样,在新的领域中从追赶者变为领路人:DeepSeek 的 10 万亿美元大战略
这个榜单还没纳入新出的小米模型Mimo,实际使用的体验其实也不错。

二、模型象限图
从应用能力、推理能力来划分各家大模型的擅长领域。
新出的Hy3位居最末。

三、性价比区间分布
这个不用说,大家应该知道 DeepSeek-V4-Pro 最具性价比了。
是全球首家宣布降价1/4的大模型平台,让大家用得起便宜又好又的AI。

四、推理效能区间分布
推理最快的,还是御三家把持了前三。

五、总体表现(2026年5月)

测评结果与分析
一、Claude-Opus-4.8在代码生成任务中取得83.58分,位列第一。
领先Gemini-3.1-Pro-Preview(81.47分)超2分,较上个版本(Claude-Opus-4.7)提升超过4.5分。
Claude-Opus-4.8在SWE(软件工程)子任务中表现优异,取得73.33分,占据榜单第一,相较于Opus 4.7提升较大,在独立函数生成和Web Coding子任务中均处于头部位置。
二、Claude-Opus-4.8在幻觉控制任务中取得87.48分,占据榜单第一,相较于Opus 4.7提升超过6分。
三、Claude-Opus-4.8在科学推理任务中取得77.19分,占据榜单第一,相较于Opus 4.7提升8.77分。
四、Claude-Opus-4.8对比Claude-Opus-4.7。
Claude-Opus-4.8 在幻觉控制、科学推理和代码生成上均有较大幅度的提升。
其中幻觉控制由81.11分提升到87.48分,提升超过6分,科学推理由68.42分提升至77.19分,代码生成由79.01分提升至83.58分。
但在智能体(任务规划)、数学推理和指令遵循有一定的下降。
特别是在指令遵循任务上,由56.19分降低到44.76分,下降超过11分。
五、推理速度和性价比相较于Opus 4.7并无明显变化。
Claude-Opus-4.8的推理耗时(97.76秒/题)相较于上个版本(99.34秒/题)几乎持平,依旧位于高效能区间。
Claude-Opus-4.8的API价格和上个版本(74.38元/百万Tokens)保持一致,依旧处于低性价比区间。
更多榜单细节,评测内容,题集等,请访问下面官方地址:
SuperCLUE官网地址:http://www.superclueai.com
CLUE官网:http://www.CLUEBenchmarks.com
Github地址:https://github.com/CLUEbenchmark/SuperCLUE
现在发新模型从以前的半年缩短到数月,再到现在一个月,甚至个别版本就间隔几周。
感觉大家都已经习以为常了,时不时谁家发的新闻,最多就是看一下,日常该用哪个模型还继续用。
好久没有看评测,今天看一下第三方机构对目前的大模型的评测,基本上跟日常使用的体感差不多。
期待6月份的 DeepSeek 新版本:韬定律与DeepSeek齐头并进改变人工智能格局。