2025年6月11日北京时间凌晨,OpenAI 再次搅动了AI江湖,正式推出了其 o3 系列的旗舰推理模型——o3-pro。这不仅仅是一次常规的产品迭代,更像是 OpenAI 对高端市场的一次精准打击。官方将其定位为“迄今为止能力最强的模型”,专为那些对可靠性要求极高的复杂任务而生,在科研、编程和数学等硬核领域大秀肌肉。
一个值得玩味的亮点是其内部的“4/4 可靠性”基准测试——一个要求模型连续四次独立尝试均能答对同一难题的严苛考验。o3-pro 的通过,无疑是 OpenAI 在为其“Pro”之名进行的最有力背书。
然而,好戏还在后头。在发布 o3-pro 的同时,OpenAI 挥出了一记组合拳:对基础版 o3 模型进行“史诗级”降价,同时将 o3-pro 的价格定得远低于其前代 o1-pro。这一系列操作清晰地亮出了 OpenAI 的市场野心:
这使得 o3-pro 在能力和成本效益上,对所有竞争对手都构成了直接挑战。当然,天下没有免费的午餐。o3-pro 的高可靠性是以响应速度较慢为代价的,这是一种深思熟虑后的权衡。此外,它在 ChatGPT 界面中目前还存在一些功能限制(比如不能直接画图)。
总而言之,对于那些在关键应用中,将准确性和可靠性置于速度之上的用户来说,o3-pro 提供了一个极其强大的新选择。
OpenAI 在 2025 年 6月 10 日正式官宣 o3-pro,并迅速向 ChatGPT Pro、Team 用户以及 API 开发者开放。企业版和教育版用户也将在随后一周内获得访问权限。在模型选择器中,它毫不留情地取代了前代 o1-pro 的位置。
o3-pro 是 o1 模型的继任者,也是基础版 o3 的“火力加强版”。官方的描述很直白:“我们最智能模型 o3 的一个版本,旨在进行更长时间的思考并提供最可靠的响应。” 这句话精准地概括了它的核心价值——为那些“值得等待几分钟”的挑战性难题而生。
一个有趣的花絮:o3 系列跳过了“o2”这个命名,据说是为了避免与移动运营商 O2 的商标冲突,这个细节也揭示了该系列项目的早期历史。
推出 o3-pro 的核心目标,就是为复杂任务注入前所未有的可靠性和准确性。从科学计算到商业分析,从代码生成到学术写作,只要是对精度要求苛刻的场景,都是它的主战场。
OpenAI CEO Sam Altman 对其性能表现出了极大的信心:“它真的非常聪明!我第一次看到它相对于 o3 的胜率时,简直不敢相信。”
这延续了 OpenAI 的一种产品发布模式:先推出一个先进的基础模型(如 o1, o3),随后再发布一个“Pro”版本(如 o1-pro, o3-pro)。这些“Pro”版本通常通过投入更多的算力,来实现更强的性能和更高的可靠性,目标用户是那些愿意为顶级性能付费或接受更长等待时间的专业人士。
值得注意的是,o3-pro 取代 o1-pro 的速度非常快(o3 在4月发布,o3-pro 在6月发布),这反映了 OpenAI 顶级模型极快的迭代周期。这对于追求前沿技术的用户是好消息,但对于需要长期稳定性的企业开发者而言,也可能意味着需要更频繁地更新工作流和 API 集成,带来一定的适应挑战。
o3-pro 的秘密武器之一,是其内在的“私有思维链” (private chain of thought) 机制。简单来说,模型在给出答案前,会先在内部进行一系列的规划和推理。这种“三思而后行”的审议式推理过程,是其解决复杂问题并提高准确性的关键。所谓“更长时间的思考”,正是这一过程的体现。
在数学、科学、编程、数据分析和写作等领域,o3-pro 展现了压倒性的优势。第三方的专家评审几乎一致地更偏爱 o3-pro,而非 o3 或 o1-pro,并称赞其在清晰度、全面性、指令遵循和准确性方面的显著改进。
o3-pro 继承并强化了 o3 系列强大的工具集,使其成为一个多才多艺的“瑞士军刀”:
这意味着 o3-pro 不仅能“思考”,还能“动手”——上网查资料、运行代码分析数据、看懂图片内容。这种模型与工具的深度融合是其强大能力的核心。
注意:API 文档中提到,网络搜索和代码解释器在 Responses API 中“不受此模型直接支持”,这可能意味着它们的调用方式与 ChatGPT 界面有所不同,或者需要通过更复杂的工具调用框架来实现。
这是 o3-pro 的“毕业考试”。模型必须在连续四次尝试中都正确回答同一个问题才算通过。这项测试旨在衡量输出的一致性,而非单次表现。OpenAI 称,o3-pro 在此测试中持续优于 o1-pro 和 o3,这似乎是 OpenAI 证明“Pro”版本值得更高成本和更慢速度的核心论据。
在各大公开基准测试中,o3-pro(及其基础版 o3)与 Google 的 Gemini 2.5 Pro、Anthropic 的 Claude 4 Opus 等顶级模型展开了激烈角逐。
结论:基准测试的结果描绘了一幅“参差不齐的前沿” (jagged frontier) 图景。没有一个模型能在所有测试中完胜。o3-pro 在数学等领域表现卓越,而 Claude 在编程上可能更胜一筹,Gemini 则在某些推理基准上领先。这意味着,用户必须根据自己的具体应用场景来考察一系列相关基准,而不是迷信单一的“冠军”头衔。“最佳”模型是与任务相关的。
这一点 OpenAI 毫不讳言:由于需要更深度的推理和调用工具,o3-pro 的响应速度明确慢于 o1-pro 和基础 o3。官方建议在“等待几分钟也值得”的场景下使用。API 文档甚至指出,某些请求可能需要“几分钟才能完成”,并建议使用后台模式以避免超时。此外,不支持流式输出。
这种延迟是其强大能力的直接结果。模型不仅要思考“做什么”,还要思考“用什么工具”、“如何用”、“用了之后结果怎么整合”。这个过程大大扩展了其能力边界,但也引入了新的复杂性和时间成本。
o3-pro 建立在与 o3 模型相同的基础之上,是一个通过“增加计算量来获得更好响应”的特殊版本。其核心依然是生成式预训练 Transformer (GPT) 模型,并通过强化学习对思维链推理进行了深度训练。
解读:
特性 | 详情 |
---|---|
模型名称 (版本) | o3-pro (例如, o3-pro-2025-06-10) |
底层基础模型 | o3 |
上下文窗口 | 200,000 令牌 |
最大输出令牌 | 100,000 令牌 |
知识截止日期 | 2024 年 5 月 31 日 |
API 可用性 | 仅限 Responses API |
支持的输入模态 (API) | 文本, 图像 |
支持的输出模态 (API) | 文本 |
流式输出支持 (API) | 不支持 |
微调支持 (API) | 不支持 |
关键支持工具 (API) | 文件搜索, 图像生成 (通过工具调用)。网络搜索和代码解释器在 Responses API 中列为“不受此模型直接支持”。 |
推理令牌计费 | 作为输出令牌计费 |
Export to Sheets
这比其前代 o1-pro 便宜了 87%,对于顶级模型而言,降价幅度堪称“革命性”。输出价格是输入的 4 倍,也反映了生成和推理所需的高昂计算成本。
当然可以。以下是更为精简、中立的 OpenAI o3 系列模型 API Key 获取与激活流程,去除推广色彩,仅保留必要操作说明:
https://sg.uiuiapi.com/v1/chat/completions
**)</span>,支持 o3、o3-mini、o4-mini 等模型。OpenAI 的定价策略极其清晰:
一个不容忽视的隐性成本:由于“推理令牌”按昂贵的输出令牌计费($80/百万),一个看似简短的答案背后,可能隐藏着数万个推理令牌的高昂“思考成本”。max_output_tokens 参数因此成为一个关键的成本控制工具,但设置过低又可能导致推理不完整。
模型 | 每百万输入令牌价格 ($) \$ | 每百万输出令牌价格 () | 备注 |
---|---|---|---|
OpenAI o3-pro | 20.00 | 80.00 | 推理令牌按输出计费 |
OpenAI o3 (基础版) | 2.00 | 8.00 | - |
Google Gemini 2.5 Pro | 1.25 - 2.50 | 最高 15.00 | 取决于提示大小 |
Anthropic Claude 4 Opus | ~22.50 | ~112.50 | 不同来源数据有差异;通常价格较高 |
OpenAI o3-mini | 1.10 | 4.40 | - |
o3 的系统卡片指出,基础 o3 模型虽然更准确,但倾向于做出更多整体性陈述,这可能导致其在某些基准(如 PersonQA)上的幻觉率高于 o1。由于 o3-pro 基于相同的底层模型,它可能继承了这种倾向,尽管其针对可靠性的优化旨在缓解此问题。一些社区讨论也提到基础 o3 比之前的模型更容易产生幻觉。
o3-pro 的慢响应是其设计哲学的一部分,用户必须接受这一点。
核心考量:
解读:这暴露了基准驱动的改进与主观用户满意度之间的潜在鸿沟。“更好”是一个主观概念。o3-pro 在可靠性(基准分数、工具使用)上取得了进步,但在另一个维度(写作风格、洞察深度)上,却让一部分用户感到了退步。这可能是所谓的“对齐税” (alignment tax) 的体现——为了安全和一致性,牺牲了一部分模型的“个性”和创造力。
基准测试 | o3-pro / o3 表现 | Gemini 2.5 Pro 表现 | Claude 4 Opus 表现 |
---|---|---|---|
GPQA Diamond (推理) | 强劲 (o3-pro 据称优于 Opus) | 强劲 | 强劲 |
SWE-bench (编程) | 良好 | 中等 | 领先 |
AIME (数学) | 领先 (o3-pro 据称优于 Gemini) | 良好 | 强劲 |
MMLU (综合) | 领先 (与 Opus 并列) | - | 领先 (与 o3 并列) |
AA 智能指数 | 71 (o3-pro) / 70 (o3) | 70 (Jun '25) | 64 (Opus Thinking) |
Export to Sheets
注:基准测试结果因各种因素而异,此表为简要总结。
o3-pro 将“思维链”(CoT)从一种提示技巧,内化为了模型的核心操作方式。它不仅能思考,还能主动调用工具(网络、代码、文件)来辅助思考。这标志着模型正在从一个纯粹的“语言生成器”进化为一个更复杂的“AI 智能体”(Agent)。
这带来的影响是深远的:
LLM 本质上是随机的,对同一输入可能产生不同输出,这对于需要稳定结果的企业应用是个噩梦。“4/4 可靠性”指标正是为了解决这一痛点。它强迫模型达到一种伪确定性状态——对于它擅长的问题,能够持续地、稳定地给出正确答案。
这与其说是衡量峰值能力,不如说是衡量能力的可靠性。虽然该基准的具体问题集不公开,使其更像一个内部标准和营销亮点,但它所代表的理念——在商业应用中建立对 AI 的信任——是极其务实的。
用户抱怨 o3-pro 输出“惰性”,可能正是“对齐税”的体现。为了让模型更安全、更听话、更可靠(即“对齐”),训练过程可能会无意中削弱其输出的多样性和创造性,使其趋向于更保守、更可预测、但也可能更“无聊”的回答。这是当前 LLM 发展中一个核心的权衡。
OpenAI 如今拥有 o3-mini、o3、o3-pro,并正在开发 o4-mini。这种分层策略,与 Gartner 预测的企业将更多使用小型、特定任务模型的趋势不谋而合。它允许用户根据能力、速度、成本的平衡,为自己的应用场景找到最合适的工具。这标志着 AI 市场正在从“一个模型打天下”的时代,走向更加细分和成熟的阶段。
o3-pro 的发布,清晰地表明了最前沿的 AI 模型正在走向专业化和工具化。它不再是一个试图取悦所有人的通用聊天机器人,而是一款为解决特定高难度问题而生的高精度工具。
更具成本效益的基础模型(如 o3)将承担起日常主力军的角色,而像 o3-pro 这样的“专家”模型,则会在金字塔的顶端,解锁那些过去因风险过高而无法应用 LLM 的新场景。
这场 AI 的竞赛,已经从单纯比拼谁更“聪明”,演变为一场关于可靠性、工具化、成本效益和市场策略的立体战争。而 o3-pro,正是 OpenAI 在这场新战役中投下的一枚重磅棋子。
版权信息: 本文由UIUIAPI团队编写,保留所有权利。未经授权,不得转载或用于商业用途。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有