当你以为OpenAI要跌落神坛时，他们发布了最强推理大模型o3

原创

算法一只狗

发布于 2024-12-22 23:14:13

4380

文章被收录于专栏：算法一只狗算法一只狗

为期12天的OpenAI发布会，本来以为会被谷歌抢去风头。不过最后这一天不负众望，宣布了一个令人兴奋的最新推理大模型o3，它的能力直线上升，超越了目前所有的大模型。是否是真的迈向了通用人工智能AGI，我只能说看到了一定的希望。

这次，OpenAI宣布o3系列有两个模型，一个是o3满血版，另一个是o3 mini版本。OpenAI 正在向安全研究人员开放 o3 和 o3-mini 的早期访问权限，预计 o3-mini 会在1月底左右发布，o3则会晚一些。

根据其内部研究员所提到的，o3应该是在o1大模型的基础上，进一步加强“强化学习”来提升模型的整体能力。

可以看到，o3在各项的测试当中都取得了比较好的效果，下面是一些主要测试的分数统计：

惊为天人的测试分数

1.编程能力

在编程能力上，对于推理大模型来说会有明显的优势。（我们这些程序员看来真的要失业了～）。

在CodeForces这个全球的编程比赛平台上，o3系列模型显示出了它最强大的编程能力。目前o3推理模型得分有2727分，比大多数人类程序员都要高。

这个得分在全球排名中名列第175位，要知道，2700分以上几乎可以超越网站中99.9%的人类选手了。

在另一个编程比赛SWE-bench Verified中，o3以 71.7%的准确率刷新记录，相比前代模型o1提升超过20%；

目前按照这个未来趋势，OpenAI的o系列大模型可能真的要奔着把所有程序员干到失业才罢休？

2.数学能力

o3在美国数学奥林匹克考试（AIME）中取得了前所未有的96.7%的正确率，在博士级科学问题测试（GPQA Diamond）上的正确率高达87.7%，要知道人类专家在GPQA上的平均得分只有70%。

同时对比上一代的o1模型，在AIME上，o3比o1高了13%准确率，在GPQA上高了9%。这只能说o1大模型还是有点弱了噢。

我们先来对比国内的推理大模型，比如Kimi最新推出的k0-math，可以发现它在AIME考试上也仅仅得分50，o3已经把它干到了96.7，接近满分的状态了。

那么再来看看最近谷歌发布的推理大模型Gemini 2.0 Flash，它在GPQA数学测试集的准确率只有62%。这不由得让人怀疑是，o3这时候放出来是不是就是为了狙击Gemini 2.0 Flash的。这里只有一句话：o3遥遥领先了

另一个数学基准测试叫EpochAI Frontier Math，它被认为是现在最有挑战性的数学测试之一，包括了最新的前沿数学难题。著名数学家陶哲轩（Terence Tao）说：“这个测试可能会让AI头疼好几年。”

其他模型在这个测试中，仅得分在2%，而o3生生把它干到了25.2%，也就是解决了大概25.2%的问题。那么以后有没有可能，这个测试集会被o系列模型攻破呢？我觉得机会很大，这也充分说明o3模型在处理高度复杂问题的强大能力。

Box公司的CEO亚伦·列维在X上夸赞说：“OpenAI最近推出了他们的新推理模型o3，这个模型在基准测试里表现得特别棒，现在看，人工智能的发展一点都没有慢下来的意思。”

3.人工通用智能评估能力

这次还有一个叫ARC-AGI的测试，这个测试是由一个非盈利组织ARC Prize Foundation所发布。它主要的目的其实就是测试目前AI的通用能力，也就是测试他们在新任务上的泛化能力。毕竟如果人工智能真的可以达到AGI，就应该能够像人类一样可以自我学习，自我进化。

ARC-AGI任务不依赖特定的世界知识，比如历史事实，也不需要语言来解决。它只需要一些基础的“核心知识”，像物体的存在、基本的形状关系和简单的数学计算等。这些核心知识是人类在很小的时候，通常是四岁前就能掌握的，并且是所有人共有的。ARC-AGI的公开训练任务就是为了帮助测试者了解和掌握解决这类任务需要哪些基本的知识。

其实这个任务就是通过给定一些例子，先让模型进行自我学习，然后根据新的输入来得出答案。

AI 需要根据配对的「输入 - 输出」示例寻找规律，然后再基于一个输入预测输出，下图展示了一些例子。是不是有点像图形推理问题，参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。

OpenAI的o3模型在ARC-AGI-1公共训练集上训练后，在1万美元计算限制的半私有测试集上取得了惊人的75.7%的成绩，登上了公共排行榜首位。而在高性能计算配置下，o3的得分更是高达87.5%。

可以看到上面这个得分图，基本把o1模型逼到了左下角的区间，而o3模型效果可以说是惊人的。这个分数完全就是逼近于一个线性曲线，这才经过了短短几个月的时间，o3模型就这么强了，那些说大模型已经到瓶颈的人应该好好看看这个图了～

不过要让o3达到87.5%的性能，计算成本可是相当高。但这确实说明，随着计算量增加，新任务的性能也会提高（至少能达到这个水平）。以前很多的技术都是一开始具有很高的成本，但慢慢的随着技术的不断进步和优化，这些高成本的障碍逐渐被克服。就像计算机的发明一样，虽然初始的造价成本高昂，但随着时间的推移和技术的深入研究，还是有望找到更高效的方法来降低成本，同时保持甚至提升其性能。这正是科技发展的魅力所在，不断挑战极限，实现更高的目标。

o3 模型 能取得显著进步的原因在于其解决了 LLM 范式的根本限制：传统 LLM 无法在测试时重新组合知识。LLM 的工作机制类似于矢量程序的存储库，通过“记忆、检索、应用”来存储和调用大量小程序，虽能实现高水平任务但无法适应新奇任务或即时学习新技能，这在 ARC-AGI 测试中的表现不佳是佐证。

o3 模型的创新在于其引入了“知识合成”的能力。它可以在面对新任务时，将已有函数或程序重新组合成一个全新的程序，模拟任务需求。这种能力可能通过以下核心机制实现：

自然语言程序搜索与执行：o3 能在测试时于可能的思考链（CoTs）空间中搜索，生成并描述解决任务的步骤。
评估模型引导搜索：其搜索方式可能类似于 AlphaZero 的蒙特卡洛树搜索，由某种评估模型指导生成最优解决路径。

这种方法让程序（CoT）成为知识重组的产物，从而克服传统 LLM 在新奇性任务中的局限性，代表当前最先进的技术，尤其是在 ARC-AGI 等评测中的表现显著优于传统方法。

o3 mini更适合用来进行编程

此外，这次OpenAI还公布他们也将会发布o3 mini版本，这个模型具有更快的速度，同时其推理成本会显著降低。

在实时演示中，直接要求模型使用python实现代码生成器。

启动后，就像跑Python脚本那样，模型会在本地开个服务器，带个有文本框的界面。然后咱们就能在这儿发编码请求啦，它会去调用o3-mini API，把任务解决了，返回一段代码。这代码会保存在本地桌面上，接着打开终端自动运行代码。

从实时演示中可以看到，o3 mini生成代码只需要30几秒，确实速度快了很多。

最后运行代码可以得到一个文本输入编码框。我们可以在其中输入代码，比如打出OpenAI和一个随机数，它就会将请求发送到o3-mini（medium）。

最后模型能够按照要求直接输出结果和答案

上面整体的过程都很丝滑。直接我自己调试一个agent都很麻烦，现在直接就可以让o3 mini模型帮你去实现一个过程，全程都没有bug。只能说，我的程序员这份工作真的要被替代了～

写在最后

为期12天的OpenAI发布会终于结束了，最后一天的宣布的o3大模型确实是一个重量级炸弹。当你以为，大模型已经开始停滞不前的时候，o3模型则告诉你，这条路远远还没有尽头。

今年2024年，人工智能领域掀起了一场前所未有的激烈竞争。这一年不仅技术飞速发展，各大公司在战略布局和创新能力上的较量也异常激烈。每一次新产品的发布都让整个行业高度关注，竞争格局瞬息万变。年底，OpenAI凭借o3系列的卓越表现强势回归巅峰，再次将通用人工智能的发展推向了新的高度，为行业带来新的突破和可能性。

好了，以上就是本期的所有内容了，我是leo，我们下期再见～

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S11#重启人生