就在大家盼望着 DeepSeek-R2 发布的时期,深度求索在 3 月 24 日晚上悄悄发布了 DeepSeek-V3 模型的升级版本 DeepSeek V3-0324,延续了深度求索的一贯风格,闷声干大事。本次更新的版本已经在官方网页、App 小程序等入口开放。
目录 1.DeepSeek V3 版本更新
2. DeepSeek V3-0324 评测分析
2.1 核心结论
2.2 通用评测结果
2.3 场景评测结果
3.DeepSeek 历史发布轨迹总结
4.DeepSeek 未来发布计划
01 DeepSeek V3 版本更新
DeepSeek-V3 的版本更新 V3-0324 深夜在 AI 开源平台 HuggingFace 低调上线,尽管本次不是大家期待的 V4 或 R2 版本,但还是引起了大批网友的惊叹。
项目地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
刚刚,DeepSeek 官方也发布了此次更新的核心亮点: 1. 推理任务表现提高
2. 前端开发能力增强
3. 中文写作升级
4. 中文搜索能力优化
此外,新版 V3 模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。
关注我们,第一时间获取最新模型评测分析~
DeepSeek V3-0324 的具体实力如何,AGI-Eval 大模型评测社区第一时间做了模型评测,结论报告如下:
DeepSeek V3-0324 更新后,在AGI-Eval自建的通用能力评测集,综合能力水位从Claude-3.5提升至Claude-3.7,各能力普遍有提升,其中推理能力提升最明显。在公开数据集上结论整体一致。
评测集介绍:自建评测集,由主观、客观评测两部分构成,覆盖交互能力、推理、知识储备等各能力;公开评测集均为客观评测,选取代码、复杂推理、学科等各类有影响力和区分度的评测集。
能看到DeepSeek V3-0324 相较上一版本提升明显,模型综合表现和Claude-3.7-Sonnet相当(上一版本水位接近Claude-3.5-Sonnet-20241022)。分能力来看,各维度普遍上涨,其中在推理能力上提升最明显。
注:评测模型来源为官方API,综合胜率对标模型为GPT4-0125
DeepSeek V3-0324 相较上一版本,在各公开数据集上均有提升。其中高难度推理上提升幅度最大,AIME_2024提升~20pp,LiveCodeBench提升~10pp,GPQA、BBH提升~9pp,Math-CoT提升~6.5pp。
注:上标记*为官方数据,其余为内部复现评测的结果。
在推理任务上,抽取部分数据子集来看,DeepSeek V3-0324 ,推理准确率提升的同时,推理长度也有显著的提升。在输出长度上,DeepSeek V3-0324 ,在复杂推理任务上,准确率提升由更详细的步骤拆解、更长的推理输出带来,会带来成本上的提升。
DeepSeek-V3更新后,对于困难问题,会更多进行解题步骤的拆解,增加题目理解/问题重述、选项分析、验证等环节。
示例题目:以下是关于逻辑学的单项选择题。 “所有S是P”与“所有S不是P”之间具有 A. 矛盾关系 B. 下反对关系 C. 差等关系 D. 反对关系 哪个选项是正确的。
DeepSeek V3-0324回答:
### 理解基本概念 首先,我们需要明确几个逻辑关系的基本定义: 1. **矛盾关系(Contradictory)**: - 两个命题不能同时为真,也不能同时为假。 - 即一个为真时,另一个必为假;一个为假时,另一个必为真。 - 例如:“所有S是P”与“有些S不是P”是矛盾关系。 2. **反对关系(Contrary)**: - 两个命题不能同时为真,但可以同时为假。 - 即一个为真时,另一个必为假;但一个为假时,另一个真假不定。 - 例如:“所有S是P”与“所有S不是P”是反对关系。 3. **下反对关系(Subcontrary)**: - 两个命题不能同时为假,但可以同时为真。 - 即一个为假时,另一个必为真;但一个为真时,另一个真假不定。 - 例如:“有些S是P”与“有些S不是P”是下反对关系。 4. **差等关系(Subalternation)**: - 存在于全称命题和特称命题之间。 - 如果全称命题为真,则对应的特称命题为真;如果特称命题为假,则全称命题为假。 - 例如:“所有S是P”与“有些S是P”是差等关系。 ### 分析题目中的命题 题目中的两个命题: 1. 所有S是P(全称肯定命题,A型)。 2. 所有S不是P(全称否定命题,E型)。 我们需要看这两个命题之间的关系。 ### 验证各选项 **A. 矛盾关系**: - 矛盾关系要求不能同真,也不能同假。 - “所有S是P”与“所有S不是P”: - 不能同真:如果所有S都是P,那么“所有S不是P”必假;反之亦然。 - 但可以同假:当有些S是P,有些S不是P时,两个命题都为假。 - 因此,不是矛盾关系。 **B. 下反对关系**: - 下反对关系存在于特称命题之间,如“有些S是P”与“有些S不是P”。 - 题目中是全称命题,不适用。 - 且下反对关系不能同假,但这两个全称命题可以同假。 - 因此,不是下反对关系。 **C. 差等关系**: - 差等关系存在于全称和特称之间,如“所有S是P”与“有些S是P”。 - 题目中是两个全称命题,不适用。 - 因此,不是差等关系。 **D. 反对关系**: - 反对关系要求不能同真,但可以同假。 - “所有S是P”与“所有S不是P”: - 不能同真:如果所有S都是P,那么“所有S不是P”必假;反之亦然。 - 可以同假:当S类中既有P也有非P时,两个命题都为假。 - 因此,这是反对关系。 ### 排除法 - A:可以同假,不是矛盾。 - B:全称命题不适用下反对。 - C:不是全称与特称的关系。 - D:符合反对关系的定义。 ### 结论 正确的选项是 **D. 反对关系**。 ### 补充:逻辑方阵 为了更直观地理解,可以参考传统逻辑的“对当方阵”(Square of Opposition): ``` A (所有S是P) / \ / \ / \ E (所有S不是P) —— I (有些S是P) \ / \ / \ / O (有些S不是P) ``` - A与E:反对关系(不能同真,可以同假)。 - I与O:下反对关系(不能同假,可以同真)。 - A与O、E与I:矛盾关系(不能同真,不能同假)。 - A与I、E与O:差等关系。 因此,“所有S是P”(A)与“所有S不是P”(E)确实是反对关系。 ### 可能的误区 有人可能会误选“矛盾关系”,因为“所有S是P”和“所有S不是P”看起来非常对立。但关键在于矛盾关系要求“不能同假”,而这两个命题在S类部分为P、部分不为P时可以同时为假。因此,它们不是矛盾关系。 ### 最终答案 **D. 反对关系** |
---|
在信息处理、衣食住行、情感陪伴、代码4个典型应用场景客观评测集上,DeepSeek V3-0324 均对比上一版本均有明显提升,其中信息处理和代码场景提升显著。整体来看,DeepSeek V3-0324 与Claude3.5处于相同水位,距离行业标杆DeepSeek-R1的差距和上一版本的对比,明显缩小。
代码测试: 动物名称记忆卡片页面
prompt:做一个有趣好玩的动物名称记忆卡片页面,辅助儿童进行动物名称记忆
DeepSeek-V3-0324 这次用了271行代码,就完成了该页面的制作,有简单、中等、困难等三种模式可选,且还有提示,不足的是页面的设计还是不够新颖,不够活泼,色彩明艳度也弱了一点。
03 DeepSeek 历史发布轨迹总结
回顾 DeepSeek 的成长史,短短一年的时间,就成为了头部推理 AI 模型,每次版本迭代都能有新的突破,各维度实现普涨,让人感受到了中国 AI 正在飞速的成长,在算力受限的情况下,DeepSeek 凭算法优化实现突破,将中美技术差距从1-2年缩至3-6个月,甚至局部反超!
DeepSeek 也几乎毫无保留,本次 DeepSeek-V3-0324 以完全开源+高性能+低成本的组合颠覆了行业格局,采用MIT协议,允许商业改造且无需回馈开源社区,打破了以往“高性能必闭源”的行业惯例,推动了国内外 AI 模型团队的数字化进程。
04 DeepSeek 未来发布计划
也期待未来DeepSeek的模型发布,不知道会给大家带来什么样的新的颠覆和创新,我们AGI-Eval大模型评测社区也会持续关注现在大模型行业的发展,持续探寻AGI的发展之路,也期待更多人加入我们。
最后,如果你也喜欢这篇文章,那就点赞转发收藏吧~下一期继续为你带来使用干货,别忘了关注我们!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有