Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?

OpenAI 王炸 o3/o4-mini!打通自主工具+视觉思考,大佬赞“天才级”!AI 终获“十八般武艺”全家桶?

作者头像
AI进修生
发布于 2025-04-18 04:59:50
发布于 2025-04-18 04:59:50
1370
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。

之前传闻的 OpenAI 新“推理模型”正式落地,o3o4-mini 来了,官方自称“迄今为止最聪明、最强大”。直接拉高了 ChatGPT 的能力上限。

这次最大的杀手锏:首次实现 Agent 主动调用并组合 ChatGPT 内部所有工具 —— 网页搜索、Python 数据分析、深度视觉理解、甚至图像生成,全都能串起来用。

关键是,这些模型被训练得懂得何时、如何使用工具,能在通常一分钟内,针对复杂问题给出细致、周到的答案,格式还很对路。

这是向更自主的 Agentic ChatGPT 迈出的一大步,能独立帮你干活了。

有啥不一样?

  • o3 (全能打手): OpenAI 最强的推理模型,在编码、数学、科学、视觉感知等领域全面突破,刷新了 Codeforces, SWE-bench (还不用专门定制脚手架), MMMU 等多个榜单的 SOTA。特别擅长处理需要多方面分析、答案不明显的复杂查询,视觉分析能力尤其突出 (图像、图表)。外部专家评估显示,在困难的真实世界任务中,o3 比 o1 少犯 20% 的严重错误,尤其在编程、商业咨询、创意构思方面表现出色。早期测试者称赞它作为“思考伙伴”的分析严谨性,以及生成和批判性评估新假设的能力 (尤其在生物、数学、工程领域)。
  • o4-mini (性价比之王): 更小巧的模型,专为速度和成本优化。性能远超其规模和成本应有的水平,特别是在数学、编码和视觉任务上。在 AIME 2024 和 2025 数学竞赛基准上表现最佳。专家评估也显示,它在非 STEM 任务和数据科学等领域也优于前代 o3-mini。因为效率高,o4-mini 的调用额度比 o3 高得多,适合需要大量推理的高并发场景。

外部专家还评价说,这两款模型指令遵循能力更强,回答更有用、更可验证 (部分归功于网页搜索的引入)。而且,它们对话起来感觉更自然,会参考记忆和之前的对话,让回复更个性化、更贴切。

直接上数据看实力

  • AIME 竞赛数学: o4-mini (92.7%) > o3 (91.6%) > o3-mini (87.3%) > o1 (74.3%) (不使用工具)
  • Codeforces 竞赛编程: o4-mini (ELO 2719) ≈ o3 (ELO 2706) >> o3-mini (2073) > o1 (1891) (带终端)
  • GPQA Diamond (博士级科学问题): o3 (83.3%) > o4-mini (81.4%) > o1 (78.0%) > o3-mini (77.0%) (不使用工具)
  • Humanity’s Last Exam (跨学科专家级问题): o3 (带工具 24.9%) > o3 (无工具 20.3%) > o4-mini (带工具 17.7%) > o4-mini (无工具 14.28%)
  • MMMU (大学级视觉解题): o3 (82.9%) > o4-mini (81.6%) > o1 (77.6%)
  • MathVista (视觉数学推理): o3 (86.8%) > o4-mini (84.3%) > o1 (71.8%)
  • SWE-Bench Verified (软件工程): o3 (69.1%) ≈ o4-mini (68.1%) >> o3-mini (49.3%) ≈ o1 (48.9%)
  • BrowseComp (Agentic 网页浏览): o3 (带工具 49.7%) >> o4-mini (带工具 28.3%) (这里 o3 优势明显)

(注意:所有模型都是在高“推理努力”设置下评估的,类似 ChatGPT 里的 'o4-mini-high' 版本)

模型能力提升的背后:继续死磕强化学习 (RL)

OpenAI 发现,大规模强化学习和 GPT 预训练一样,遵循“砸更多计算 = 性能更好”的规律。通过在 RL 上投入更多训练计算和推理时间,模型的性能持续提升。

即使在与 o1 相同的延迟和成本下,o3 在 ChatGPT 中表现也更好;如果让它思考更久,性能还会继续爬升。

工具使用也是通过 RL 训练的——不光教模型怎么用工具,更教它们判断何时该用。这让它们在开放式场景下 (尤其涉及视觉推理和多步骤工作流) 更强。

医学大佬狂欢 OpenAI o3:接近天才水平,永不幻觉,将彻底改变科学和医学。

医学教授 Derya Unutmaz 博士极度看好。

他的评价:

  • 智力水平堪比天才: “我感觉 o3 的智能水平达到或接近天才级别!”
  • “永不幻觉”: 这是个非常大胆的断言,当被问及如何验证时,他表示这是基于他大量高难度复杂问题的测试经验。
  • Agent 能力强悍: 新的 Agent 工具能轻松处理多步骤任务,推理和精度惊人,还能按需生成复杂、深刻、基于科学的假设。
  • 医学问答堪比顶级专家: 扔给 o3 挑战性的临床或医学问题,回答精准、全面、有理有据、非常专业,就像直接跟该领域的顶级专家对话。
  • 明确优于 Gemini 2.5 Pro: 他认为在这些方面,o3 明显比当前的 SOTA 模型 Gemini 2.5 Pro 更强、更智能。
  • “Total game-changer”: 毫不犹豫地断言,这对科学、医学乃至其他许多领域都是“彻底的游戏规则改变者”。

对于o4-mini-high: 虽然比 o3 略显“谦虚”、细节少点,但在很多方面也很出色,有时甚至更“优雅”,甚至有点“情绪化”(他表示很难描述,会提供例子)。

▼ o4-mini-high解决另外一个艰难问题。

社区反应 & 延伸讨论:

  • o3 vs o1 Pro? 有人直接问 o3 是否比之前的 o1 Pro 更好,Derya 教授斩钉截铁地回答:“是!”
  • 对医学界的颠覆? 有人评论说,那些主要依赖知识和智力的医学领域 (如初级保健、非介入性专科) 几年内将彻底改变,Derya 教授也表示同意。
  • “永不幻觉”引发质疑: 这个说法过于绝对,引来了不少质疑,希望看到更硬核的证据。

提醒: 目前推出的 o3 在 ARC-AGI 上的得分已超过 87.5% 人类的表现为 85%;;AI 已经“解决”数学了?大佬断言 OpenAI o4 完成壮举,影响远超想象:

AI 领域知名 KOL David Shapiro 断言:AI 已经 解决了 数学。就是 OpenAI 用 o4 干的。

他强调,不是“接近解决”,不是“有竞争力”,是 *解决*。这事儿的影响,比所有人意识到的都要大。

为啥这么说?逻辑链条是这样的:

AI 发展规律: 通常 AI 搞定一个问题 70-80% 的时候,就说明快要完全泛化了。但从 80% 到 99% 这最后一公里往往极其困难。

OpenAI 的惊人速度: 从去年 9 月 o1/o3 发布到现在,才 8 个月,OpenAI 就跨越了这“最后一公里”。这研发速度太吓人了。

超越 Benchmark 的意义: 这不只是刷榜。这意味着每个人的口袋里、每个团队里,都塞进了一个世界级的数学家。

数学是万物基石: 这玩意的直接后果很明显——任何需要数学的领域,这个半自主的 AI 系统都能搞定,或者只需要一点点指导。

他举了个朋友搞计算流体力学 (CFD) 的例子,以前用推理模型还得专家指导,现在可能直接被 o4 "核平 (nuke)"。

二阶及后续影响难以估量:

加速 AI 自身研究: AI 研究本身就依赖数学和代码,而 o4 恰好在这两方面都强到逆天。加上它更强的自主性 (需要更少人类指导、监督和纠错),能处理更大更长的问题,AI 发展将自我加速。

颠覆所有数学密集型领域: 生物化学、机器人、航天、密码学、核物理、区块链…… 全都要被改写。

工具简单到离谱: 更牛逼的是,o4 搞定这些,主要就靠一个工具:Python。不是一堆复杂工具,不是 MatLab,不是超算。

未来已来: 这意味着你的智能手机很快就会变成数学、编程、语言学…… 等等等等领域的天才。后续的三阶、四阶、五阶影响,怎么高估都不过分。

科幻照进现实: 钢铁侠在厨房里搞定时间旅行?这就是 o4 再迭代一两代就能达到的 AI 数学水平。曲速引擎如果可行,这些机器会帮我们搞定它。

这次升级的重头戏:带着图思考

模型首次能把图像直接整合进思考链。它们不光是“看”图,更能“带着图一起思考”。用户可以扔白板照片、教科书图表、手绘草图,模型都能解读,就算图片模糊、颠倒、质量差也行。模型还能在推理过程中动态处理图像 (旋转、缩放等)。

这有啥用?简单说,就是能帮你解决更棘手的图像问题:

  • 分析更透彻、准确、靠谱。
  • 无缝融合高级推理和各种工具 (网页搜索、图像处理)。
  • 自动处理不完美的图片, 提取关键信息。

比如,你可以直接扔张经济学题目的照片,让它给你分步解释;或者截个代码构建失败的图,让它快速分析根本原因。

这种新能力让视觉和文本推理无缝结合,直接体现在了多模态基准测试的 SOTA 成绩上,算是向通用多模态推理迈出了一大步。

“带着图思考”实战演示 (o3 出马):

看图说话,感受一下:

  • 读手写笔记: 就算图片是倒过来的,也能识别出内容 (“4th February – finish roadmap.”)。
  • 解物理难题: 搞定复杂的 QED (量子电动力学) 费曼图问题,给出详细的 Møller 散射振幅计算过程。
  • 识别路牌文字: 从有点模糊的图片中准确读出路牌信息 (“Ochsner URGENT CARE.”)。
  • 查公交信息: 根据站牌照片,结合网络搜索,确定是日本箱根的“成川美术馆前”站,并给出大致的发车频率 (白天约 15-20 分钟一班)。

Aitrainee

  • 走迷宫: 分析迷宫图片 (黑色线条,透明背景),找出通路,并用红线标出解法。
  • 推断活动日期: 根据 MIT 毕业典礼照片中的细节 (如学位帽颜色),结合搜索,推断出是工程学院 & 计算学院的高级学位典礼,日期是 5 月 29 日。
  • 识别电影取景地: 通过窗外的海景和室内独特的红色栏杆,判断出是法国里维埃拉的 Kérylos 希腊别墅,并列出一系列在此取景拍摄的电影和电视剧 (如《绅士与淑女》、《动物园帮》、《好贼》等)。
  • 解数字谜题: 破解那个经典的“手动挡”数字逻辑题 (135/24?),指出缺失的是 R (倒挡),而不是 6。

Benchmark 成绩直接起飞:

跟之前的模型 (GPT-4o, o1) 比,o3 和 o4-mini 在各种多模态任务上提升显著:

  • MMMU (大学水平视觉解题): o3 82.9% (o1 77.6%)
  • MathVista (视觉数学推理): o3 86.8% (o1 71.8%)
  • VLMs are Blind (视觉基础感知): o3 90.1% (o1 57%)
  • CharXiv-descriptive (科学图表描述): o3 95% (o1 88.9%)
  • CharXiv-reasoning (科学图表推理): o3 78.6% (o1 55.1%)
  • V* (视觉搜索基准): o3 95.7% (o1 69.7%) —— 基本算把这个 benchmark 给“通关”了。

一些实际测试:

o3 这次真的秀到了,看图找餐馆,绝了。

Deedy Das 直接被惊到 ("blew my mind"):他喂给 o3 一张菜单照片,没店名没地址,o3 竟然上网搜菜名,直接找到了是旧金山哪家店。

底下评论也挺热闹:

  • 有人说:“Gemini 也能干这个。” (@thekathanpatel)
  • 有人脑洞大开:“得搞个 Geoguessr 测试,看 AI 猜地名多准。” (@DannyRaede)

当然,还不是完美:

目前“带着图思考”还有些局限:

  • 思考链有时太长、太啰嗦: 模型可能会执行多余的工具调用或图像处理步骤。
  • 偶尔还是会看错图: 基础的感知错误依然存在,可能导致最终答案错误。
  • 稳定性有待提高: 对于同一个问题,多次尝试可能会走不同的视觉推理路径,导致结果不一致。

但总的来说,o3 和 o4-mini 在视觉推理上是重大进步,向着更强的多模态推理迈了一大步。OpenAI 还在持续优化,让它们思考更简洁、更靠谱。期待看到这些新能力如何改变我们的工作。

怎么用上新模型?

  • ChatGPT 用户: Plus, Pro, Team 今天就能用 o3, o4-mini, o4-mini-high (替换旧模型)。Enterprise, Edu 下周。免费用户可以在提问前选 'Think' 来试用 o4-mini。速率限制不变。o3-pro 几周后发布 (带完整工具支持),目前 Pro 用户仍可访问 o1-pro。
  • 开发者: 今天就能通过 Chat Completions API 和 Responses API 调用 o3/o4-mini (部分需验证组织)。Responses API 支持推理摘要、保留函数调用 token 等功能,后续会内置网页搜索、文件搜索、代码解释器
  • 根据社区反馈,实际限制可能如下: 使用 ChatGPT Plus、团队或企业帐户,您每周可以使用 o3 访问 50 条消息,每天可以使用 o4-mini 访问 150 条消息,每天可以使用 o4-mini-high 访问 50 条消息。

走向 Agentic 工具使用

o3 和 o4-mini 能完全访问 ChatGPT 内的工具,也能通过 API 调用你自定义的工具。模型被训练来思考如何解决问题,选择何时、如何使用工具,快速生成详细周到的答案。

比如你问:“加州今年夏天的能源使用量跟去年比怎么样?” 模型可以自己去搜公共数据,写 Python 代码建个预测模型,生成图表,再解释预测背后的关键因素,把多个工具调用串起来。它们还能根据遇到的信息灵活调整策略,比如多次搜索网页,看到结果不满意就换个关键词再搜。

  • “工具调用看来是下一代 AI 系统的标配了。”
  • 有人觉得 o3 定价“非常合理”,称赞这是“第一个 all-in-one 的 ChatGPT 模型”。

安全这块也升级了。

OpenAI 重建了安全训练数据,增加了生物风险、恶意软件生成、越狱等领域的拒绝提示。o3/o4-mini 在内部拒绝基准上表现强劲。

同时开发了系统级防护措施来标记危险提示,比如用一个推理 LLM 监控器来执行人类编写的安全规范,在生物风险方面成功标记了约 99% 的红队测试对话。

根据最新的《准备框架》,o3/o4-mini 在生物化学、网络安全、AI 自我改进这三个领域的能力评估都低于“高”风险阈值。

顺手还发了个新玩具:Codex CLI

一个轻量级的编码 Agent,直接在你的命令行里跑。它充分利用 o3/o4-mini 的推理能力 (后续会支持 GPT-4.1 等更多 API 模型),可以直接处理本地代码,甚至能结合截图或草图进行多模态推理。

Sam Altman 亲自下场带货:Codex CLI 来了,把 o3/o4-mini 塞进你的命令行。

OpenAI CEO Sam Altman 亲自发推,宣布推出一个新产品:Codex CLI

Codex CLI 完全开源 (github.com/openai/codex)。OpenAI 还启动了 100 万美元的资助计划,支持使用 Codex CLI 和 OpenAI 模型的项目 (以 API Credits 形式发放,每次 2.5 万美元)。

  • 本地运行的编码 Agent: 直接在你电脑的命令行 (terminal) 里跑。
  • 专为 o3/o4-mini 打造: 因为这两款新模型在编码上“超级棒 (super good)”,所以搞了这个工具让大家更容易用。
  • 完全开源: 代码今天就放出来了 (GitHub 链接),摆明了要让社区一起快速迭代改进。

简单说,就是 OpenAI 把他们的 AI 编程能力,打包成了一个你可以直接在命令行里调用的工具。

社区反应 & 初步评测:

  • 看好方向: 有人认为这是“设备端编码 Agent”的重要一步,也是基础设施方面的大动作。
  • 开始动手: 有人已经计划用 Codex CLI + o3 来复活老项目,做成强大的 XR 数学工具。

下一步棋怎么走?

OpenAI 的方向很明确:融合 O 系列的专业推理能力和 GPT 系列的自然对话、工具使用能力。 未来的模型将支持无缝自然的对话,同时具备主动的工具使用和高级问题解决能力。

总而言之,o3 和 o4-mini 的发布,标志着 OpenAI 在模型智能和 Agent 能力上的又一次重要迭代,特别是赋予了 AI 灵活组合使用多种工具和“带着图像思考”的能力。这让 ChatGPT 向着更强大、更自主的 AI 助手迈进了一大步。

与此同时,你的ChatGPT面板。。。

以及谷歌的一个新模型。4月22号可能要来了,还有Openai 今天的模型你可以去Cursor、Windsurf等IDE中使用了。

以上。

One More Thing

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
刚刚,OpenAI联创Greg Brockman和首席研究官Mark Chen带队,开启了20分钟线上直播。
新智元
2025/04/18
970
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
但是奥特曼这个老骗子,之前明明说o3不打算单独发布要融到GPT-5里面一起发,结果今天又发了。。。
数字生命卡兹克
2025/04/18
720
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高
北京时间4月17日凌晨一点,OpenAI 开启了20分钟线上直播,上线了满血版 o3,还有下一代推理模型 o4-mini,官方称是 OpenAI 迄今为止最智能、功能最强大的模型。
AGI-Eval评测社区
2025/05/07
970
【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
① o3 毫无悬念的登顶,在交互能力、推理能力、指令遵循和初等数学四个方面全面领先;
AGI-Eval评测社区
2025/05/08
1070
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
实测OpenAI发布的o3和o4-mini模型
在4月16日晚,OpenAI 发布了两款全新推理模型——o3 和 o4‑mini。o3 被定位为公司迄今最强大的推理系统,拥有前所未有的多模态理解和图像推理能力;而 o4‑mini 则是一款轻量化、高效、低成本的推理模型,专为数学、编码和视觉分析等任务优化设计。
算法一只狗
2025/04/21
2320
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
2025年4月17日,OpenAI以一场30分钟的极简发布会,向世界投下一枚“重磅炸弹”——新一代推理模型o3及其轻量版o4-mini。这款被称为“迄今最智能的模型”不仅以87.5%的ARC-AGI基准得分刷新人类对AI推理能力的认知,更首次实现图像深度融入思维链,让机器真正“用图片思考”。从科研到商业,从教育到创意,o3正以“天才级”的推理能力重构生产力边界。本文将深度拆解其技术内核,并揭示这场推理革命如何加速AGI(通用人工智能)的到来。
疯狂的KK
2025/04/24
2050
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
即便是AI圈的资深团队,在面对同时发布的o3、o4-mini、GPT-4.1、GPT-4.1 mini和GPT-4.1 nano时,也是蒙圈的。
新智元
2025/04/22
1030
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。
新智元
2025/02/04
1160
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
o3满血版体验?!Deep Research 远超 R1 ,开启深度研究(推理)完美解析癌症病历,堪比PhD研究员!
OpenAI 刚刚投下了一颗重磅炸弹。持续思考30分钟输出1万字,什么?人类的最后一次考试 26.6 ? 📷 今早8点,OpenAI紧急技术直播,Opena
AI进修生
2025/02/03
5320
o3满血版体验?!Deep Research 远超 R1 ,开启深度研究(推理)完美解析癌症病历,堪比PhD研究员!
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。
新智元
2025/02/04
1740
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
OpenAI技术报告称,o3和o4-mini「幻觉率」远高于此前的推理模型,甚至超过了传统模型GPT-4o。
新智元
2025/04/22
670
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
OpenAI首个免费推理模型o3-mini发布!奥特曼反思不开源的错误
DeepSeek为大模型领域带来了新的速度提升——就在昨天,OpenAI深夜紧急发布了其最新的推理模型:o3-mini系列,包含low、medium和high三个版本。
用户11203141
2025/03/06
1040
OpenAI首个免费推理模型o3-mini发布!奥特曼反思不开源的错误
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
新智元
2025/02/15
710
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
OpenAI新发布的o3-mini与DeepSeek R1全面对比
OpenAI 发布了最新的推理模型——o3-mini,它专为科学、数学、编程等领域优化,提供更快的响应、更高的准确度和更低的成本。与前代 o1-mini 相比,o3-mini 在推理能力上有了显著提升,尤其在复杂问题解决上,测试者偏爱 o3-mini 的答案达 56%,错误率减少了 39%。从今天起,ChatGPT Plus、Team和Pro用户可使用 o3-mini,免费用户也能体验其部分功能。
AgenticAI
2025/03/18
840
OpenAI新发布的o3-mini与DeepSeek R1全面对比
突破极限!R2模型如何比肩o3 mini?这3大关键点决定成败!
我最期待的就是,能够和OpenAI发布的o3 mini模型掰掰手腕,我感觉这就很炸裂了。毕竟o3 mini代表的是目前OpenAI能够提供给用户使用的最强大模型。
算法一只狗
2025/03/19
1310
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
左边的是软件工程考试(SWE-Bench Verified),这就像是一个考写程序的考试,比如你写一个软件要它快速、准确,还不能有 bug(小错误)。这是考察 o3 是否能像一流的软件工程师一样写出完美的代码。
数字生命卡兹克
2025/04/14
1130
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
普通用户也获得 o3-mini,plus用户能用上o3-mini (high),o3-mini (high) 在Codeforce上比o1高约200分,比o1更快、编码和数学表现更佳,成本却还是o1-mini的水平。
AI进修生
2025/02/03
7320
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
为期12天的OpenAI发布会,本来以为会被谷歌抢去风头。不过最后这一天不负众望,宣布了一个令人兴奋的最新推理大模型o3,它的能力直线上升,超越了目前所有的大模型。是否是真的迈向了通用人工智能AGI,我只能说看到了一定的希望。
算法一只狗
2024/12/22
4060
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。
AI进修生
2025/02/28
3370
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
刚刚,OpenAI 为期 12 天的发布迎来尾声。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成为这次发布的收官之作。
机器之心
2025/02/15
850
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
推荐阅读
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
970
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
720
【AGI-Eval 实测速报】OpenAI o3/o4-mini视觉推理封神?实测翻车率略高
970
【AGI-Eval评测报告 NO.6】o3 / o4-mini 文本权威评测:o3 强势登顶
1070
实测OpenAI发布的o3和o4-mini模型
2320
OpenAI o3:开启“图像思考”的推理革命,AGI之路再进一步
2050
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?
1030
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
1160
o3满血版体验?!Deep Research 远超 R1 ,开启深度研究(推理)完美解析癌症病历,堪比PhD研究员!
5320
o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭
1740
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙
670
OpenAI首个免费推理模型o3-mini发布!奥特曼反思不开源的错误
1040
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
710
OpenAI新发布的o3-mini与DeepSeek R1全面对比
840
突破极限!R2模型如何比肩o3 mini?这3大关键点决定成败!
1310
OpenAI正式发布o3 - 通往AGI的路上,已经没有了任何阻碍。
1130
突发消息!OpenAI 今天发布 2 个新的推理模型:o3-mini 和 o3-mini-high。
7320
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
4060
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
3370
刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元
850
相关推荐
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档