部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >o3-mini和DeepSeek-R1模型对比

o3-mini和DeepSeek-R1模型对比

原创
作者头像
算法一只狗
修改2025-02-05 21:48:57
修改2025-02-05 21:48:57
2.2K0
举报
文章被收录于专栏:算法一只狗算法一只狗

o3-mini突然之间免费开放给普通用户,这次OpenAI宣布共有三个不同的版本:分别是o3-mini(low)、o3-mini(medium)和o3-mini(high)。

而在chatgpt官网上,已经可以看到o3-mini上线了,也就是目前就可以开放给用户进行体验。

在具体效果中,o3-mini 在数学、编程和科学方面的表现和o1 相当,但它比o1推理模型提供更快的响应速度。专家测试评估表明,相较于 OpenAI o1-mini,o3-mini 能够生成更准确、表达更清晰的答案,并展现出更强的推理能力。测试人员在 56% 的情况下更偏好 o3-mini 的回答,并观察到在复杂的现实世界问题上,其重大错误率减少了 39%。在中等推理强度下,o3-mini 在 AIME 和 GPQA 等最具挑战性的推理与智能评测中表现可与 o1 相媲美。

在代码能力上也取得了比o1模型要好的成绩。在 Codeforces 竞赛编程中,OpenAI o3-mini 随着推理强度的增加,Elo 评分逐步提高,且在所有推理强度下均优于 o1-mini。在中等推理强度下,其表现可与 o1 相匹配。

这次最重要的一点是,o3-mini在更强的效果下,推理速度比o1模型要快。o3-mini 在中等推理强度下展现出更优异的表现。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

那么这次OpenAI这么快推出o3-mini,主要就是为了应对DeepSeek-R1推理模型。 那么这两个模型的能力到底怎么样呢?在Artificial Analysis给出了具体的评测结果。

在整体的评分上来看,o3-mini和DeepSeek R1评分一样,出于不相上下阶段

而o3-mini模型应该更小,主打的是低延迟,在推理速度上比DeepSeek R1有明显优势,大约输出tokens的速度快3倍。

从整体价格上,o3-mini的价格已经和DeepSeek-R1价格相当了,同时比o1模型的价格便宜了13倍以上,确实优化得还不错。

从上面三个维度来看,这两个模型其实能力差不多。但是DeepSeek能够一下子追上大模型的天花板,确实令人惊讶。希望下一个推理大模型,DeepSeek能够正式追上并超越o3模型,做到行业的天花板~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档