o3-mini突然之间免费开放给普通用户,这次OpenAI宣布共有三个不同的版本:分别是o3-mini(low)、o3-mini(medium)和o3-mini(high)。
而在chatgpt官网上,已经可以看到o3-mini上线了,也就是目前就可以开放给用户进行体验。
在具体效果中,o3-mini 在数学、编程和科学方面的表现和o1 相当,但它比o1推理模型提供更快的响应速度。专家测试评估表明,相较于 OpenAI o1-mini,o3-mini 能够生成更准确、表达更清晰的答案,并展现出更强的推理能力。测试人员在 56% 的情况下更偏好 o3-mini 的回答,并观察到在复杂的现实世界问题上,其重大错误率减少了 39%。在中等推理强度下,o3-mini 在 AIME 和 GPQA 等最具挑战性的推理与智能评测中表现可与 o1 相媲美。
在代码能力上也取得了比o1模型要好的成绩。在 Codeforces 竞赛编程中,OpenAI o3-mini 随着推理强度的增加,Elo 评分逐步提高,且在所有推理强度下均优于 o1-mini。在中等推理强度下,其表现可与 o1 相匹配。
这次最重要的一点是,o3-mini在更强的效果下,推理速度比o1模型要快。o3-mini 在中等推理强度下展现出更优异的表现。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。
那么这次OpenAI这么快推出o3-mini,主要就是为了应对DeepSeek-R1推理模型。 那么这两个模型的能力到底怎么样呢?在Artificial Analysis给出了具体的评测结果。
在整体的评分上来看,o3-mini和DeepSeek R1评分一样,出于不相上下阶段
而o3-mini模型应该更小,主打的是低延迟,在推理速度上比DeepSeek R1有明显优势,大约输出tokens的速度快3倍。
从整体价格上,o3-mini的价格已经和DeepSeek-R1价格相当了,同时比o1模型的价格便宜了13倍以上,确实优化得还不错。
从上面三个维度来看,这两个模型其实能力差不多。但是DeepSeek能够一下子追上大模型的天花板,确实令人惊讶。希望下一个推理大模型,DeepSeek能够正式追上并超越o3模型,做到行业的天花板~
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。