部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >OpenAI新发布的o3-mini与DeepSeek R1全面对比

OpenAI新发布的o3-mini与DeepSeek R1全面对比

作者头像
AgenticAI
发布2025-03-18 16:35:04
发布2025-03-18 16:35:04
390
举报
文章被收录于专栏:AgenticAIAgenticAI

OpenAI 发布了最新的推理模型——o3-mini,它专为科学、数学、编程等领域优化,提供更快的响应、更高的准确度和更低的成本。与前代 o1-mini 相比,o3-mini 在推理能力上有了显著提升,尤其在复杂问题解决上,测试者偏爱 o3-mini 的答案达 56%,错误率减少了 39%。从今天起,ChatGPT Plus、TeamPro用户可使用 o3-mini,免费用户也能体验其部分功能。

与同为推理模型DeepSeek-R1[1]相比,OpenAI o3-mini[2]到底比 R1 好多少呢?本文先大致过一下 o3-mini 的亮点,然后我们把双方在各个 benchmark 上的数据提取出来做个图直观比较一下。此外,我们还会比较一下 o3-mini 的价格。

1. 核心亮点:

1.STEM 优化:数学、编程、科学等领域表现优异,尤其在高推理努力模式下超越 o1-mini。

2.开发者功能:支持函数调用、结构化输出、开发者消息等功能,满足生产环境需求。

3.快速响应:比 o1-mini 快 24%,每个请求响应时间缩短至 7.7 秒。

4.安全性提升:通过深度对齐技术确保安全、可靠的输出。

5.低成本高效益:推理能力与成本优化并行,极大降低了 AI 使用门槛。

2. 比比看

Open AI 为了凸显逼格,其官方发布博客[3]中只给出与自己家的模型比较。因此本文是从 DeepSeek R1 的论文和 OpenAI 官方博客的数据中提取出来做的表格。

OpenAI 官方把 o3-mini 在版单中的对比,拆了 low,medium 和 high 三个版本,表示推理强度。由于 DeepSeek 采用的是 Math-500,而 OpenAI 是 Math 数据集,因此这里去掉了该项比较。

更为直观的是图表,其中去掉了 Codeforces,因为数值较大,无法直观显示。但是 Codeforces 上的比较,o3-mini 高推理强度也没有领先多少。

从图表上来看,共 4 项比较,O3-mini(high)总体上领先,领先的优势很小。

3. 价格

4.总结

随着 DeepSeek R1 在美国引发 DeepSeek Panic,而最先感受到威胁的就是 OpenAI,这从其发布的新模型 o3-mini 的定价上体现的尤其明显。从 o1 和 R1 相差 30 倍的价格,到 o3-mini 最终定价在 DeepSeek R1 价格的 2 倍,可见 DeepSeek R1 的威力。但 ChatGPT 的免费用户依然只能受限体验 o3-mini,而 DeepSeek 的深度思考目前是所有用户都能使用。从博主个人使用 R1 的感受来说,我想说 R1 的深度思考总能给我打开思路。推荐大家多多用来思考问题~

参考资料

[1]

DeepSeek-R1: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

[2]

OpenAI o3-mini: https://openai.com/index/openai-o3-mini/

[3]

官方发布博客: https://openai.com/index/openai-o3-mini/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 核心亮点:
  • 2. 比比看
  • 3. 价格
  • 4.总结
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档