刚刚，Gemini 2.5 Pro 再度进化！SOTA 性能炸裂，编程能力反超 Claude 4，谷歌 CEO 畅谈 AI 未来

不二小段

发布于 2026-04-09 15:36:28

2680

文章被收录于专栏：不二小段不二小段

就在刚刚的 AI Engineer 大会上，来自谷歌 AI Studio 的产品负责人 Logan Kilpatrick 现场发布了一条推特，宣布Gemini 2.5 Pro 迎来了最新升级 (06-05 版本)！

简单概括这次的更新：

在 HLE、Aider 和 GPQA 等多个高难度基准测试中取得 SOTA 成绩。
引入「thinking budgets」功能，让开发者能更好地控制成本和延迟。
保持原有成本，性能却大幅提升，堪称帕累托最优。
修复了 03-25 版本中用户反馈的一些问题。

距离 Google I/O 大会上 5 月份发布的版本才过去多久？Gemini 2.5 Pro 就又进化了！Logan 透露，这可能是 2.5 Pro 的「最终更新版本」。

模型性能再攀新高，横扫各大基准测试🏆

根据官方数据，这次 Gemini 2.5 Pro 的升级带来了肉眼可见的性能飞跃，打败 Gemini 2.5 Pro-0506 的，只有 Gemini 2.5 Pro-0605！

在 LMArena 排行榜上，最新的 Gemini 2.5 Pro 实现了 24 点的 Elo 得分跃升，以 1470 分继续霸榜，稳坐头把交椅。而在 WebDevArena 上，更是飙升了 35 点 Elo 分数，以 1443 分反超 Claude 4，重回榜首！

除了在综合竞技场上的亮眼表现，Gemini 2.5 Pro 在专项能力上也持续精进：

编码能力 🖥️：在像 Aider Polyglot 这样的高难度多语言编码基准测试中，继续保持领先地位。
推理与知识 💡：在极具挑战性的 GPQA（覆盖科学和数学领域）以及 Humanity’s Last Exam (HLE)（全面评估模型的数学、科学、知识和推理能力）等基准测试中，均展现出业界顶尖的 SOTA 水平。
创作能力 ✍️：官方强调，新版本在创意写作方面也有显著提升。

谷歌还表示，他们听取了先前 2.5 Pro 版本发布后的反馈，改进了模型的风格和结构——现在它可以生成更具创意、格式更优的回复。

开发者们已经可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API 开始使用升级后的 2.5 Pro 预览版。值得一提的是，Vertex AI 中新增的「thinking budgets」功能，无疑为开发者在成本和延迟控制上提供了更大灵活性。同时，新模型也已在 Gemini app 中陆续推送。

Logan Kilpatrick 解读 Gemini 的「进化论」

在大会发言时，Logan 首先官宣了 Gemini 2.5 Pro 的更新。他表示：「Gemini 2.5 Pro 非常强大，在人们关心的各种基准测试中都有显著提升。它在 Aider、HELM 等基准测试中都是 SOTA 水平，并且解决了之前版本用户反馈的很多问题，希望它能在各个方面都有出色表现。」

Logan 认为，Gemini 2.5 Pro 对内对外都是一个「转折点」，标志着 Gemini 发展势头强劲。

回顾过去一年，Logan 感叹 Gemini 的进展「堪称疯狂」。他提到 Sundar Pichai 在 Google I/O 上展示的一张幻灯片，内容显示过去 12 个月 Gemini 的进展仿佛是「十年的浓缩」。

这背后，是 DeepMind 在科学、Gemini、机器人等多个领域广泛研究成果的汇聚，这些成果最终都融入了主线 Gemini 模型中。例如 AlphaFold 和 AlphaGeometry 等在特定领域定制模型的成功，也反过来提升了 Gemini 在这些领域的性能。

这种快速创新也带来了快速普及。数据显示，通过谷歌服务器处理的 AI 推理量，在过去一年到上个月之间，增长了惊人的 50 倍。

Logan 还揭示了促成这一点的关键因素之一：组织架构的调整。2023 年初，谷歌将多个 AI 研究团队整合，赋予 DeepMind 新方向——不仅进行理论基础研究，还要构建模型并交付给谷歌其他部门及外部世界。

今年初，产品团队也被并入 DeepMind，形成了从研究到产品（如 Gemini app 和 Gemini API）的完整闭环。Logan 认为这种「研究与产品紧密协作的模式非常有效」。

谈及未来，Logan 描绘了一幅激动人心的蓝图：

Gemini app 的目标是成为一个「通用助手」，成为贯穿所有谷歌产品的线索。他特别强调了 AI 系统的「主动性」，认为这是 AI 产品下一阶段的重要特征。

在模型层面：

走向全能模型 (Omnimodal)：Gemini 最初就被设计为能够处理音频、图像、视频等的单一多模态模型。目前已在 Gemini 中实现原生音频功能（TTS、语音对话，已应用于 Astra 和 Gemini Live），未来还将整合 Veo 的视频能力。
原生智能体 (Agentic-by-default)：模型本身将变得更具系统性，推理步骤将集成更多过去需要外部脚手架才能实现的功能。
更多大小模型：满足不同场景需求。
无限上下文：探索超越现有注意力机制的新方法，以支持更长的上下文输入。

至于开发者平台 (AI Studio)：

Embeddings：SOTA 级别的 Gemini embeddings 模型将在未来几周向开发者更广泛地推出。
Deep Research API：整合谷歌内部强大的研究能力，提供专门的 API。
Veo 和 Imagen 3 API：很快将与开发者见面。
AI Studio 的定位将更加明确——一个为开发者打造的平台，而非带有消费级产品感觉的工具，未来会内置 Agents，甚至可能集成 Jules 等开发者编程助手。

谷歌 CEO Sundar Pichai 展望：AI 时代的机遇与挑战

在 Gemini 模型高歌猛进的同时，谷歌 CEO Sundar Pichai 最近在彭博科技峰会上接受 Emily Chang 采访时，也分享了他对 AI 时代更宏观的思考。

当被问及 Google I/O 后谷歌的氛围时，Sundar 表示，谷歌内部对正在发生的一切早有认知，并已将 Gemini 的能力融入谷歌的全套产品中，这使得整个故事变得生动起来。

对于「聊天机器人是否会取代搜索」的疑问，Sundar 认为这远非零和游戏。他以 TikTok 和 YouTube 为例，指出即使新的应用崛起，原有优质服务的使用量依然在增长。他强调：「搜索在它所做的事情上非常出色，用户通过更多地使用它来证明其价值。」

谈到 AI 投入与产出，Sundar 透露，2025 年谷歌的资本支出将达到 750 亿美元，这是一项为搜索、YouTube、Cloud、Workspace、Android、Play、Waymo 等所有业务提供动力的长期投资。他提到，Vertex AI 的使用量在过去 12 个月内按 token 计算增长了 40 倍，谷歌在 AI 基础设施、AI 解决方案和 AI 订阅服务（如 Google AI Pro 和 Ultra）方面已拥有数十亿美元的业务。

关于 AI 生成内容对网络生态的影响，Sundar 承认这是一个「猫鼠游戏」。但他相信，谷歌擅长「去伪存真」，利用 Gemini 等 AI 技术改进 YouTube 的推荐算法，提升优质内容的分发。他指出，网络上索引的网页数量在过去两年增长了 45%，内容创作正在爆炸式增长。

针对 AI Overviews 是否损害出版商利益的质疑，Sundar 回应称，谷歌花了很长时间测试 AI Overviews，并优先考虑能带来高质量外部流量的方法。他观察到，用户点击进入了更多样化的网站，并且平均每次点击的停留时间更长。

在谈到 AI 与就业时，Sundar 认为，AI 将大幅提高工程师的生产力，使他们能够专注于更高价值的任务，从而加速创新，公司反而可能需要更多人来开发新产品。他承认工作岗位可能会被取代，并强调社会需要思考如何对人们进行再培训以及建立新的社会安全网。但他同时指出，过去 20 年对技术和自动化取代工作的预测并未完全实现，AI 带来的扩展性机遇或许被低估了。

对于 AI 是否会进一步集中科技巨头的权力，Sundar 相信，就像互联网时代诞生了谷歌一样，AI 时代也必将催生出今天我们尚不知晓的、占据主导地位的新公司。

当被问及用户隐私和信任时，Sundar 表示，谷歌通过多年来负责任地处理用户数据（如 Gmail 邮件）赢得了信任，并会根据用户反馈来改进产品。例如，用户希望 Gemini 在 Gmail 中能「更像我一样写作」，谷歌正在为此努力。

关于 AI 在儿童教育中的应用，Sundar 认为，就像 YouTube Kids 一样，针对儿童的 AI 产品会设计不同的安全护栏和适龄体验。

对于 Veo 生成的逼真视频可能引发的「真实性危机」，Sundar 提到谷歌正在通过 SynthID 等技术为 AI 生成内容添加水印，并为研究人员和记者提供检测工具。他认为，未来可能需要法规来规范深度伪造等问题。

在领导风格方面，Sundar 表示，他致力于让谷歌处于 AI 的最前沿，通过重组（成立 Google DeepMind）、扩大基础设施投入（资本支出从几年前的 200 亿美元增至 750 亿美元）等方式加速公司的发展。他仍然深度参与产品决策，并庆幸有 Sergey Brin 这样的人深度参与 Gemini 模型的研发。

展望谷歌 50 年的未来，Sundar 希望谷歌保持敏捷和创新，拥有以创新为核心、着眼长远、从事深度技术研发并将其转化为影响数十亿人产品的文化。他风趣地表示，未来执掌谷歌的人，身边一定会有一个「非凡的 AI 伙伴」来协助。

Gemini 2.5 Pro 的再度进化，无疑是谷歌 AI 战略加速落地的又一力证。从模型本身的持续打磨，到开发者生态的精心构建，再到公司最高层对 AI 时代机遇与挑战的深刻洞察，谷歌正全方位拥抱这场由 AI 引领的科技浪潮。未来已来，好戏还在后头。

参考来源：

https://blog.google/products/gemini/gemini-2-5-pro-latest-preview/

https://www.youtube.com/watch?v=U-fMsbY-kHY

https://www.youtube.com/watch?v=wvA17ynhR5Y

关注我，跟踪最新 AI 产业动态：

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-06，如有侵权请联系 cloudcommunity@tencent.com 删除

性能