🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
OpenAI 正式官宣 o3 & o4-mini:迄今最强模型,AI 终于学会“十八般武艺”全家桶了。
之前传闻的 OpenAI 新“推理模型”正式落地,o3 和 o4-mini 来了,官方自称“迄今为止最聪明、最强大”。直接拉高了 ChatGPT 的能力上限。
这次最大的杀手锏:首次实现 Agent 主动调用并组合 ChatGPT 内部所有工具 —— 网页搜索、Python 数据分析、深度视觉理解、甚至图像生成,全都能串起来用。
关键是,这些模型被训练得懂得何时、如何使用工具,能在通常一分钟内,针对复杂问题给出细致、周到的答案,格式还很对路。
这是向更自主的 Agentic ChatGPT 迈出的一大步,能独立帮你干活了。
有啥不一样?
外部专家还评价说,这两款模型指令遵循能力更强,回答更有用、更可验证 (部分归功于网页搜索的引入)。而且,它们对话起来感觉更自然,会参考记忆和之前的对话,让回复更个性化、更贴切。
直接上数据看实力
(注意:所有模型都是在高“推理努力”设置下评估的,类似 ChatGPT 里的 'o4-mini-high' 版本)
模型能力提升的背后:继续死磕强化学习 (RL)
OpenAI 发现,大规模强化学习和 GPT 预训练一样,遵循“砸更多计算 = 性能更好”的规律。通过在 RL 上投入更多训练计算和推理时间,模型的性能持续提升。
即使在与 o1 相同的延迟和成本下,o3 在 ChatGPT 中表现也更好;如果让它思考更久,性能还会继续爬升。
工具使用也是通过 RL 训练的——不光教模型怎么用工具,更教它们判断何时该用。这让它们在开放式场景下 (尤其涉及视觉推理和多步骤工作流) 更强。
医学大佬狂欢 OpenAI o3:接近天才水平,永不幻觉,将彻底改变科学和医学。
医学教授 Derya Unutmaz 博士极度看好。
他的评价:
对于o4-mini-high: 虽然比 o3 略显“谦虚”、细节少点,但在很多方面也很出色,有时甚至更“优雅”,甚至有点“情绪化”(他表示很难描述,会提供例子)。
▼ o4-mini-high解决另外一个艰难问题。
社区反应 & 延伸讨论:
提醒: 目前推出的 o3 在 ARC-AGI 上的得分已超过 87.5% 人类的表现为 85%;;AI 已经“解决”数学了?大佬断言 OpenAI o4 完成壮举,影响远超想象:
AI 领域知名 KOL David Shapiro 断言:AI 已经 解决了 数学。就是 OpenAI 用 o4 干的。
他强调,不是“接近解决”,不是“有竞争力”,是 *解决*。这事儿的影响,比所有人意识到的都要大。
为啥这么说?逻辑链条是这样的:
AI 发展规律: 通常 AI 搞定一个问题 70-80% 的时候,就说明快要完全泛化了。但从 80% 到 99% 这最后一公里往往极其困难。
OpenAI 的惊人速度: 从去年 9 月 o1/o3 发布到现在,才 8 个月,OpenAI 就跨越了这“最后一公里”。这研发速度太吓人了。
超越 Benchmark 的意义: 这不只是刷榜。这意味着每个人的口袋里、每个团队里,都塞进了一个世界级的数学家。
数学是万物基石: 这玩意的直接后果很明显——任何需要数学的领域,这个半自主的 AI 系统都能搞定,或者只需要一点点指导。
他举了个朋友搞计算流体力学 (CFD) 的例子,以前用推理模型还得专家指导,现在可能直接被 o4 "核平 (nuke)"。
二阶及后续影响难以估量:
加速 AI 自身研究: AI 研究本身就依赖数学和代码,而 o4 恰好在这两方面都强到逆天。加上它更强的自主性 (需要更少人类指导、监督和纠错),能处理更大更长的问题,AI 发展将自我加速。
颠覆所有数学密集型领域: 生物化学、机器人、航天、密码学、核物理、区块链…… 全都要被改写。
工具简单到离谱: 更牛逼的是,o4 搞定这些,主要就靠一个工具:Python。不是一堆复杂工具,不是 MatLab,不是超算。
未来已来: 这意味着你的智能手机很快就会变成数学、编程、语言学…… 等等等等领域的天才。后续的三阶、四阶、五阶影响,怎么高估都不过分。
科幻照进现实: 钢铁侠在厨房里搞定时间旅行?这就是 o4 再迭代一两代就能达到的 AI 数学水平。曲速引擎如果可行,这些机器会帮我们搞定它。
这次升级的重头戏:带着图思考
模型首次能把图像直接整合进思考链。它们不光是“看”图,更能“带着图一起思考”。用户可以扔白板照片、教科书图表、手绘草图,模型都能解读,就算图片模糊、颠倒、质量差也行。模型还能在推理过程中动态处理图像 (旋转、缩放等)。
这有啥用?简单说,就是能帮你解决更棘手的图像问题:
比如,你可以直接扔张经济学题目的照片,让它给你分步解释;或者截个代码构建失败的图,让它快速分析根本原因。
这种新能力让视觉和文本推理无缝结合,直接体现在了多模态基准测试的 SOTA 成绩上,算是向通用多模态推理迈出了一大步。
“带着图思考”实战演示 (o3 出马):
看图说话,感受一下:
Aitrainee
Benchmark 成绩直接起飞:
跟之前的模型 (GPT-4o, o1) 比,o3 和 o4-mini 在各种多模态任务上提升显著:
一些实际测试:
o3 这次真的秀到了,看图找餐馆,绝了。
Deedy Das 直接被惊到 ("blew my mind"):他喂给 o3 一张菜单照片,没店名没地址,o3 竟然上网搜菜名,直接找到了是旧金山哪家店。
底下评论也挺热闹:
当然,还不是完美:
目前“带着图思考”还有些局限:
但总的来说,o3 和 o4-mini 在视觉推理上是重大进步,向着更强的多模态推理迈了一大步。OpenAI 还在持续优化,让它们思考更简洁、更靠谱。期待看到这些新能力如何改变我们的工作。
怎么用上新模型?
走向 Agentic 工具使用
o3 和 o4-mini 能完全访问 ChatGPT 内的工具,也能通过 API 调用你自定义的工具。模型被训练来思考如何解决问题,选择何时、如何使用工具,快速生成详细周到的答案。
比如你问:“加州今年夏天的能源使用量跟去年比怎么样?” 模型可以自己去搜公共数据,写 Python 代码建个预测模型,生成图表,再解释预测背后的关键因素,把多个工具调用串起来。它们还能根据遇到的信息灵活调整策略,比如多次搜索网页,看到结果不满意就换个关键词再搜。
安全这块也升级了。
OpenAI 重建了安全训练数据,增加了生物风险、恶意软件生成、越狱等领域的拒绝提示。o3/o4-mini 在内部拒绝基准上表现强劲。
同时开发了系统级防护措施来标记危险提示,比如用一个推理 LLM 监控器来执行人类编写的安全规范,在生物风险方面成功标记了约 99% 的红队测试对话。
根据最新的《准备框架》,o3/o4-mini 在生物化学、网络安全、AI 自我改进这三个领域的能力评估都低于“高”风险阈值。
顺手还发了个新玩具:Codex CLI
一个轻量级的编码 Agent,直接在你的命令行里跑。它充分利用 o3/o4-mini 的推理能力 (后续会支持 GPT-4.1 等更多 API 模型),可以直接处理本地代码,甚至能结合截图或草图进行多模态推理。
Sam Altman 亲自下场带货:Codex CLI 来了,把 o3/o4-mini 塞进你的命令行。
OpenAI CEO Sam Altman 亲自发推,宣布推出一个新产品:Codex CLI。
Codex CLI 完全开源 (github.com/openai/codex)。OpenAI 还启动了 100 万美元的资助计划,支持使用 Codex CLI 和 OpenAI 模型的项目 (以 API Credits 形式发放,每次 2.5 万美元)。
简单说,就是 OpenAI 把他们的 AI 编程能力,打包成了一个你可以直接在命令行里调用的工具。
社区反应 & 初步评测:
下一步棋怎么走?
OpenAI 的方向很明确:融合 O 系列的专业推理能力和 GPT 系列的自然对话、工具使用能力。 未来的模型将支持无缝自然的对话,同时具备主动的工具使用和高级问题解决能力。
总而言之,o3 和 o4-mini 的发布,标志着 OpenAI 在模型智能和 Agent 能力上的又一次重要迭代,特别是赋予了 AI 灵活组合使用多种工具和“带着图像思考”的能力。这让 ChatGPT 向着更强大、更自主的 AI 助手迈进了一大步。
与此同时,你的ChatGPT面板。。。
以及谷歌的一个新模型。4月22号可能要来了,还有Openai 今天的模型你可以去Cursor、Windsurf等IDE中使用了。
以上。
One More Thing
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有