OpenAI 发布了最新的推理模型——o3-mini,它专为科学、数学、编程等领域优化,提供更快的响应、更高的准确度和更低的成本。与前代 o1-mini 相比,o3-mini 在推理能力上有了显著提升,尤其在复杂问题解决上,测试者偏爱 o3-mini 的答案达 56%,错误率减少了 39%。从今天起,ChatGPT Plus、Team和Pro用户可使用 o3-mini,免费用户也能体验其部分功能。
与同为推理模型DeepSeek-R1[1]相比,OpenAI o3-mini[2]到底比 R1 好多少呢?本文先大致过一下 o3-mini 的亮点,然后我们把双方在各个 benchmark 上的数据提取出来做个图直观比较一下。此外,我们还会比较一下 o3-mini 的价格。
1.STEM 优化:数学、编程、科学等领域表现优异,尤其在高推理努力模式下超越 o1-mini。
2.开发者功能:支持函数调用、结构化输出、开发者消息等功能,满足生产环境需求。
3.快速响应:比 o1-mini 快 24%,每个请求响应时间缩短至 7.7 秒。
4.安全性提升:通过深度对齐技术确保安全、可靠的输出。
5.低成本高效益:推理能力与成本优化并行,极大降低了 AI 使用门槛。
Open AI 为了凸显逼格,其官方发布博客[3]中只给出与自己家的模型比较。因此本文是从 DeepSeek R1 的论文和 OpenAI 官方博客的数据中提取出来做的表格。
OpenAI 官方把 o3-mini 在版单中的对比,拆了 low,medium 和 high 三个版本,表示推理强度。由于 DeepSeek 采用的是 Math-500,而 OpenAI 是 Math 数据集,因此这里去掉了该项比较。
更为直观的是图表,其中去掉了 Codeforces,因为数值较大,无法直观显示。但是 Codeforces 上的比较,o3-mini 高推理强度也没有领先多少。
从图表上来看,共 4 项比较,O3-mini(high)总体上领先,领先的优势很小。
随着 DeepSeek R1 在美国引发 DeepSeek Panic,而最先感受到威胁的就是 OpenAI,这从其发布的新模型 o3-mini 的定价上体现的尤其明显。从 o1 和 R1 相差 30 倍的价格,到 o3-mini 最终定价在 DeepSeek R1 价格的 2 倍,可见 DeepSeek R1 的威力。但 ChatGPT 的免费用户依然只能受限体验 o3-mini,而 DeepSeek 的深度思考目前是所有用户都能使用。从博主个人使用 R1 的感受来说,我想说 R1 的深度思考总能给我打开思路。推荐大家多多用来思考问题~
[1]
DeepSeek-R1: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
[2]
OpenAI o3-mini: https://openai.com/index/openai-o3-mini/
[3]
官方发布博客: https://openai.com/index/openai-o3-mini/