DeepSeekV3.1静态榜单对比，谷歌Gemini：让你模仿，没让你超越啊！

AgenticAI

发布于 2025-08-25 09:56:09

5040

文章被收录于专栏：AgenticAIAgenticAI

今天，DeepSeek V3.1 正式发布。相比此前的 V3 与 R1，本次升级带来了三大亮点：

🚀 混合推理架构：一个模型即可同时支持“思考模式”与“非思考模式”；
⚡ 更高的思考效率：DeepSeek-V3.1-Think 在多数任务中能在更短时间内产出高质量答案；
🤖 更强的 Agent 能力：通过后训练优化，在工具调用、任务编排与智能体执行等方面表现显著提升。

如果说 R1 是“探索思考链路”的起点，那么 V3.1 则更像是“实用型”进化。官方微信公众号DeepSeek-V3.1 发布，迈向 Agent 时代的第一步只给出了与上一代 R1 和 V3 的比较，为什么没有给出和其他模型的比较呢？这次我们尝试将 DeepSeek V3.1 放在全球大模型第一梯队中横向对比。

我写这篇文章的时候，制表看完之后一片悲观，但是越写越觉得有意思，是的，我明白了 DeepSeek 这次的更新重点在哪里，且与我一同探索吧！

数据来源全部来自官方公布的公开评测结果（非媒体二手汇编），主要参考了：

Google Gemini: https://deepmind.google/models/gemini/pro/
Anthropic Claude 4.1: https://www.anthropic.com/news/claude-opus-4-1
OpenAI GPT-5: https://openai.com/index/introducing-gpt-5/
DeepSeek 官方公众号

我们也“古法制表”，手工整理了一张横向对比榜单：

可以看出：

在数学 & 推理类任务上，V3.1 已经逐步逼近 Claude 4.1 与 GPT-5 的表现，在部分 benchmark 上甚至超过了 Gemini。(指 General 和 Math)
在编码能力上，DeepSeek V3.1 依旧保持强项，和 GPT-5 之间的差距被进一步压缩。（指 Code Agent 中的 SWE Verified 和 Terminal-bench）
在综合 Agent 任务（工具使用/多步骤执行） 上，V3.1 明显较 R1 有质的飞跃，初步具备了进入“多智能体应用生态”的底气。

注意注意！！！

如果只是盯着 GPT-5，你可能很难看出 DeepSeek 到底有什么进步，或者说你如果看它和 DeepSeek R1 的比较，其实是看不出 V3.1 的更新在哪里，强在哪里，可以肯定的是 DeepSeek 这次在裸模型上，它在版单上的性能是没有太多的提升。也就是说，你如果让他写作可能没有太多的惊喜呢！

但是你换个角度，为什么官方发文标题叫DeepSeek-V3.1 发布，迈向 Agent 时代的第一步？？？

我们去看那两个 Agent 榜单，相较于 R1 提升非常巨大，在Terminal-bench上从 5.7 提升到 31.3 提升了足足 6 倍，这还是 Non-Thinking，而这已经超越了 Gemini 了。在 SWE-bench 上，相较于 R1 提升了 50%，直逼 Gemini！！！