今天,DeepSeek V3.1 正式发布。相比此前的 V3 与 R1,本次升级带来了三大亮点:
如果说 R1 是“探索思考链路”的起点,那么 V3.1 则更像是“实用型”进化。官方微信公众号DeepSeek-V3.1 发布,迈向 Agent 时代的第一步只给出了与上一代 R1 和 V3 的比较,为什么没有给出和其他模型的比较呢?这次我们尝试将 DeepSeek V3.1 放在全球大模型第一梯队中横向对比。
我写这篇文章的时候,制表看完之后一片悲观,但是越写越觉得有意思,是的,我明白了 DeepSeek 这次的更新重点在哪里,且与我一同探索吧!
数据来源全部来自官方公布的公开评测结果(非媒体二手汇编),主要参考了:
我们也“古法制表”,手工整理了一张横向对比榜单:
可以看出:
注意注意!!!
如果只是盯着 GPT-5,你可能很难看出 DeepSeek 到底有什么进步,或者说你如果看它和 DeepSeek R1 的比较,其实是看不出 V3.1 的更新在哪里,强在哪里,可以肯定的是 DeepSeek 这次在裸模型上,它在版单上的性能是没有太多的提升。也就是说,你如果让他写作可能没有太多的惊喜呢!
但是你换个角度,为什么官方发文标题叫DeepSeek-V3.1 发布,迈向 Agent 时代的第一步???
我们去看那两个 Agent 榜单,相较于 R1 提升非常巨大,在Terminal-bench
上从 5.7 提升到 31.3 提升了足足 6 倍,这还是 Non-Thinking,而这已经超越了 Gemini 了。在 SWE-bench 上,相较于 R1 提升了 50%,直逼 Gemini!!!
这还是 Non-Thinking 模式,什么时候放出 Thinking 模式数据啊!!!
所以,我这次要大声的说,DeepSeek 3.1 在 Agent 上走出了一条新的道路,可以说是摸着 Google Gemini 过河!!!Google Gemini:让你模仿,没让你超越啊!!!(骂骂咧咧地走了)
另外一个好消息是,除了模型能力本身,另一个耐人寻味的细节是:DeepSeek V3.1 官宣正在适配下一代国产 GPU 芯片。
wechat_2025-08-21_160157_383
坊间消息说:
U 代表 unsigned 表示无符号位,E8 表示用 8 位表示指数位,M0 表示不存储尾数。那么他的表示范围是多少呢?符号位 S 不存在,为 0。指数位有 8 位,范围是 0 到 255。尾数不存在,默认 1。这样一来 UE8M0 的表示范围为 2^-127 到 2^127
这意味着,未来国产大模型的算力依赖可能逐步走向 自主可控 —— 这不仅是技术路线上的重要信号,也是产业层面值得关注的“长远伏笔”,不愧是国产之光!
如果说 2023–2024 年,中国大模型的关键词是“追赶”,那么 2025 年的 DeepSeek V3.1 给出了一个更值得期待的答案:
一句话:DeepSeek V3.1 不是终点,而是国产大模型进入第一梯队的起点。