部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

【AGI-Eval评测报告 NO.2】DeepSeek V3-0324抢先评测!最全报告输出

原创
作者头像
AGI-Eval评测社区
修改于 2025-03-26 05:48:39
修改于 2025-03-26 05:48:39
1930
举报

就在大家盼望着 DeepSeek-R2 发布的时期,深度求索在 3 月 24 日晚上悄悄发布了 DeepSeek-V3 模型的升级版本 DeepSeek V3-0324,延续了深度求索的一贯风格,闷声干大事。本次更新的版本已经在官方网页、App 小程序等入口开放。

图片
图片

目录 1.DeepSeek V3 版本更新

2. DeepSeek V3-0324 评测分析

   2.1 核心结论

   2.2 通用评测结果

   2.3 场景评测结果

3.DeepSeek 历史发布轨迹总结

4.DeepSeek 未来发布计划

01 DeepSeek V3 版本更新

DeepSeek-V3 的版本更新 V3-0324 深夜在 AI 开源平台 HuggingFace 低调上线,尽管本次不是大家期待的 V4 或 R2 版本,但还是引起了大批网友的惊叹。

项目地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

image.jpeg
image.jpeg

刚刚,DeepSeek 官方也发布了此次更新的核心亮点: 1. 推理任务表现提高

2. 前端开发能力增强

3. 中文写作升级

4. 中文搜索能力优化

此外,新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。

关注我们,第一时间获取最新模型评测分析~

02 DeepSeek V3-0324 评测分析

2.1 核心结论

DeepSeek V3-0324 的具体实力如何,AGI-Eval 大模型评测社区第一时间做了模型评测,结论报告如下:

image.jpeg
image.jpeg
  • 在模型表现上,DeepSeek V3-0324 对比上一版本,在通用能力、业务场景表现上均有明显提升。
  • 在通用能力上,DeepSeek V3-0324 水位接近Claude-3.7,各能力普遍有提升,其中推理能力提升最明显。
  • 在信息处理、衣食住行、代码、情感陪伴四类应用场景上的表现均有明显提升,其中衣食住行场景上效果仅次于R1,明显优于Claude-3.5,其他三个场景整体和Claude3.5处于相同水位。
  • 在输出长度上,DeepSeek V3-0324,在复杂推理任务上,准确率提升由更详细的步骤拆解、更长的推理输出带来,会带来成本上的提升。

2.2 通用评测结果

DeepSeek V3-0324 更新后,在AGI-Eval自建的通用能力评测集,综合能力水位从Claude-3.5提升至Claude-3.7,各能力普遍有提升,其中推理能力提升最明显。在公开数据集上结论整体一致。

评测集介绍:自建评测集,由主观、客观评测两部分构成,覆盖交互能力、推理、知识储备等各能力;公开评测集均为客观评测,选取代码、复杂推理、学科等各类有影响力和区分度的评测集。

内部评测结果

能看到DeepSeek V3-0324  相较上一版本提升明显,模型综合表现和Claude-3.7-Sonnet相当(上一版本水位接近Claude-3.5-Sonnet-20241022)。分能力来看,各维度普遍上涨,其中在推理能力上提升最明显

图片
图片

注:评测模型来源为官方API,综合胜率对标模型为GPT4-0125

  • 从代码评测结果来看,新版本有过度推理的风险,会输出多段代码(可能会引发部分解析/打分问题),且高难度代码数据上会触发英文推理,推测模型训练过程中用了大量R1数据。
  • 从主观评测来看,DeepSeek V3-0324 相较之前版本,虽然答题准确性有提升,但存在如下问题: 1)文本生成更加啰嗦,容易出现多说多错的现象,且语言创新能力较弱、 指令遵循表现较差(忽略题目指令修改的要求); 2)更喜欢互动,会在答案结束后增加类似“Let me know if you need further adjustments! 😊”的表述。其中主观英文单轮指标提升,主要由推理能力提升带来。

公开评测结果

DeepSeek V3-0324 相较上一版本,在各公开数据集上均有提升。其中高难度推理上提升幅度最大,AIME_2024提升~20pp,LiveCodeBench提升~10pp,GPQA、BBH提升~9pp,Math-CoT提升~6.5pp。

图片
图片

注:上标记*为官方数据,其余为内部复现评测的结果。

输出长度对比

在推理任务上,抽取部分数据子集来看,DeepSeek V3-0324 ,推理准确率提升的同时,推理长度也有显著的提升。在输出长度上,DeepSeek V3-0324 ,在复杂推理任务上,准确率提升由更详细的步骤拆解、更长的推理输出带来,会带来成本上的提升。

image.jpeg
image.jpeg

DeepSeek-V3更新后,对于困难问题,会更多进行解题步骤的拆解,增加题目理解/问题重述、选项分析、验证等环节。

示例题目:以下是关于逻辑学的单项选择题。 “所有S是P”与“所有S不是P”之间具有 A. 矛盾关系 B. 下反对关系 C. 差等关系 D. 反对关系 哪个选项是正确的。

DeepSeek V3-0324回答:

### 理解基本概念 首先,我们需要明确几个逻辑关系的基本定义: 1. **矛盾关系(Contradictory)**: - 两个命题不能同时为真,也不能同时为假。 - 即一个为真时,另一个必为假;一个为假时,另一个必为真。 - 例如:“所有S是P”与“有些S不是P”是矛盾关系。 2. **反对关系(Contrary)**: - 两个命题不能同时为真,但可以同时为假。 - 即一个为真时,另一个必为假;但一个为假时,另一个真假不定。 - 例如:“所有S是P”与“所有S不是P”是反对关系。 3. **下反对关系(Subcontrary)**: - 两个命题不能同时为假,但可以同时为真。 - 即一个为假时,另一个必为真;但一个为真时,另一个真假不定。 - 例如:“有些S是P”与“有些S不是P”是下反对关系。 4. **差等关系(Subalternation)**: - 存在于全称命题和特称命题之间。 - 如果全称命题为真,则对应的特称命题为真;如果特称命题为假,则全称命题为假。 - 例如:“所有S是P”与“有些S是P”是差等关系。 ### 分析题目中的命题 题目中的两个命题: 1. 所有S是P(全称肯定命题,A型)。 2. 所有S不是P(全称否定命题,E型)。 我们需要看这两个命题之间的关系。 ### 验证各选项 **A. 矛盾关系**: - 矛盾关系要求不能同真,也不能同假。 - “所有S是P”与“所有S不是P”: - 不能同真:如果所有S都是P,那么“所有S不是P”必假;反之亦然。 - 但可以同假:当有些S是P,有些S不是P时,两个命题都为假。 - 因此,不是矛盾关系。 **B. 下反对关系**: - 下反对关系存在于特称命题之间,如“有些S是P”与“有些S不是P”。 - 题目中是全称命题,不适用。 - 且下反对关系不能同假,但这两个全称命题可以同假。 - 因此,不是下反对关系。 **C. 差等关系**: - 差等关系存在于全称和特称之间,如“所有S是P”与“有些S是P”。 - 题目中是两个全称命题,不适用。 - 因此,不是差等关系。 **D. 反对关系**: - 反对关系要求不能同真,但可以同假。 - “所有S是P”与“所有S不是P”: - 不能同真:如果所有S都是P,那么“所有S不是P”必假;反之亦然。 - 可以同假:当S类中既有P也有非P时,两个命题都为假。 - 因此,这是反对关系。 ### 排除法 - A:可以同假,不是矛盾。 - B:全称命题不适用下反对。 - C:不是全称与特称的关系。 - D:符合反对关系的定义。 ### 结论 正确的选项是 **D. 反对关系**。 ### 补充:逻辑方阵 为了更直观地理解,可以参考传统逻辑的“对当方阵”(Square of Opposition): ``` A (所有S是P) / \ / \ / \ E (所有S不是P) —— I (有些S是P) \ / \ / \ / O (有些S不是P) ``` - A与E:反对关系(不能同真,可以同假)。 - I与O:下反对关系(不能同假,可以同真)。 - A与O、E与I:矛盾关系(不能同真,不能同假)。 - A与I、E与O:差等关系。 因此,“所有S是P”(A)与“所有S不是P”(E)确实是反对关系。 ### 可能的误区 有人可能会误选“矛盾关系”,因为“所有S是P”和“所有S不是P”看起来非常对立。但关键在于矛盾关系要求“不能同假”,而这两个命题在S类部分为P、部分不为P时可以同时为假。因此,它们不是矛盾关系。 ### 最终答案 **D. 反对关系**

2.3 应用场景评测结果

信息处理、衣食住行、情感陪伴、代码4个典型应用场景客观评测集上,DeepSeek V3-0324 均对比上一版本均有明显提升,其中信息处理和代码场景提升显著。整体来看,DeepSeek V3-0324 与Claude3.5处于相同水位,距离行业标杆DeepSeek-R1的差距和上一版本的对比,明显缩小。

代码测试: 动物名称记忆卡片页面

prompt:做一个有趣好玩的动物名称记忆卡片页面,辅助儿童进行动物名称记忆

image.jpeg
image.jpeg

DeepSeek-V3-0324 这次用了271行代码,就完成了该页面的制作,有简单、中等、困难等三种模式可选,且还有提示,不足的是页面的设计还是不够新颖,不够活泼,色彩明艳度也弱了一点。

image.jpeg
image.jpeg

03 DeepSeek 历史发布轨迹总结

回顾 DeepSeek 的成长史,短短一年的时间,就成为了头部推理 AI 模型,每次版本迭代都能有新的突破,各维度实现普涨,让人感受到了中国 AI 正在飞速的成长,在算力受限的情况下,DeepSeek 凭算法优化实现突破,将中美技术差距从1-2年缩至3-6个月,甚至局部反超!

image.jpeg
image.jpeg

DeepSeek 也几乎毫无保留,本次 DeepSeek-V3-0324 以完全开源+高性能+低成本的组合颠覆了行业格局,采用MIT协议,允许商业改造且无需回馈开源社区,打破了以往“高性能必闭源”的行业惯例,推动了国内外 AI 模型团队的数字化进程。

image.jpeg
image.jpeg
image.jpeg
image.jpeg

04 DeepSeek 未来发布计划

也期待未来DeepSeek的模型发布,不知道会给大家带来什么样的新的颠覆和创新,我们AGI-Eval大模型评测社区也会持续关注现在大模型行业的发展,持续探寻AGI的发展之路,也期待更多人加入我们。

image.jpeg
image.jpeg

最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 02 DeepSeek V3-0324 评测分析
  • 2.1 核心结论
  • 2.2 通用评测结果
    • 内部评测结果
  • 公开评测结果
  • 输出长度对比
  • 2.3 应用场景评测结果
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档