首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSeekV3.1静态榜单对比,谷歌Gemini:让你模仿,没让你超越啊!

DeepSeekV3.1静态榜单对比,谷歌Gemini:让你模仿,没让你超越啊!

作者头像
AgenticAI
发布2025-08-25 09:56:09
发布2025-08-25 09:56:09
5040
举报
文章被收录于专栏:AgenticAIAgenticAI

今天,DeepSeek V3.1 正式发布。相比此前的 V3 与 R1,本次升级带来了三大亮点:

  • 🚀 混合推理架构:一个模型即可同时支持“思考模式”与“非思考模式”;
  • 更高的思考效率:DeepSeek-V3.1-Think 在多数任务中能在更短时间内产出高质量答案;
  • 🤖 更强的 Agent 能力:通过后训练优化,在工具调用、任务编排与智能体执行等方面表现显著提升。

如果说 R1 是“探索思考链路”的起点,那么 V3.1 则更像是“实用型”进化。官方微信公众号DeepSeek-V3.1 发布,迈向 Agent 时代的第一步只给出了与上一代 R1 和 V3 的比较,为什么没有给出和其他模型的比较呢?这次我们尝试将 DeepSeek V3.1 放在全球大模型第一梯队中横向对比

我写这篇文章的时候,制表看完之后一片悲观,但是越写越觉得有意思,是的,我明白了 DeepSeek 这次的更新重点在哪里,且与我一同探索吧!

图片
图片

数据来源全部来自官方公布的公开评测结果(非媒体二手汇编),主要参考了:

  • Google Gemini: https://deepmind.google/models/gemini/pro/
  • Anthropic Claude 4.1: https://www.anthropic.com/news/claude-opus-4-1
  • OpenAI GPT-5: https://openai.com/index/introducing-gpt-5/
  • DeepSeek 官方公众号

我们也“古法制表”,手工整理了一张横向对比榜单:

可以看出:

  1. 在数学 & 推理类任务上,V3.1 已经逐步逼近 Claude 4.1 与 GPT-5 的表现,在部分 benchmark 上甚至超过了 Gemini。(指 General 和 Math)
  2. 在编码能力上,DeepSeek V3.1 依旧保持强项,和 GPT-5 之间的差距被进一步压缩。(指 Code Agent 中的 SWE Verified 和 Terminal-bench)
  3. 在综合 Agent 任务(工具使用/多步骤执行) 上,V3.1 明显较 R1 有质的飞跃,初步具备了进入“多智能体应用生态”的底气。

注意注意!!!

如果只是盯着 GPT-5,你可能很难看出 DeepSeek 到底有什么进步,或者说你如果看它和 DeepSeek R1 的比较,其实是看不出 V3.1 的更新在哪里,强在哪里,可以肯定的是 DeepSeek 这次在裸模型上,它在版单上的性能是没有太多的提升。也就是说,你如果让他写作可能没有太多的惊喜呢!

但是你换个角度,为什么官方发文标题叫DeepSeek-V3.1 发布,迈向 Agent 时代的第一步???

我们去看那两个 Agent 榜单,相较于 R1 提升非常巨大,在Terminal-bench上从 5.7 提升到 31.3 提升了足足 6 倍,这还是 Non-Thinking,而这已经超越了 Gemini 了。在 SWE-bench 上,相较于 R1 提升了 50%,直逼 Gemini!!!

这还是 Non-Thinking 模式,什么时候放出 Thinking 模式数据啊!!!

所以,我这次要大声的说,DeepSeek 3.1 在 Agent 上走出了一条新的道路,可以说是摸着 Google Gemini 过河!!!Google Gemini:让你模仿,没让你超越啊!!!(骂骂咧咧地走了)

另外一个好消息是,除了模型能力本身,另一个耐人寻味的细节是:DeepSeek V3.1 官宣正在适配下一代国产 GPU 芯片。

wechat_2025-08-21_160157_383
wechat_2025-08-21_160157_383

wechat_2025-08-21_160157_383

坊间消息说:

U 代表 unsigned 表示无符号位,E8 表示用 8 位表示指数位,M0 表示不存储尾数。那么他的表示范围是多少呢?符号位 S 不存在,为 0。指数位有 8 位,范围是 0 到 255。尾数不存在,默认 1。这样一来 UE8M0 的表示范围为 2^-127 到 2^127

这意味着,未来国产大模型的算力依赖可能逐步走向 自主可控 —— 这不仅是技术路线上的重要信号,也是产业层面值得关注的“长远伏笔”,不愧是国产之光!

总结

如果说 2023–2024 年,中国大模型的关键词是“追赶”,那么 2025 年的 DeepSeek V3.1 给出了一个更值得期待的答案:

  • 技术上:缩小差距,部分维度实现反超;
  • 应用上:强化智能体生态能力,迈向多模态与工具化;
  • 产业上:拥抱国产 GPU,探索长远可持续路线。

一句话:DeepSeek V3.1 不是终点,而是国产大模型进入第一梯队的起点。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档