又又又史上最强？OpenAI的草莓：OpenAI-o1，推理更难的科学、编码和数学模型

技术人生黄勇

发布于 2024-09-17 15:54:20

1830

文章被收录于专栏：技术人生黄勇技术人生黄勇

“ OpenAI的o1模型的发布带来了超凡的推理能力，但它在实际使用中表现如何？从一个用户角度出发，我们来看看“草莓” o1的实际应用效果。看看它不同推理任务中的表现，包括语言理解、问题解答等，实现原理等等。”

01—简介

网上传了很久OpenAI的代号为“草莓”🍓的新模型，今天终于在正式官网发布了 o1 系列模型，包括 o1-preview 和 o1-mini。‍‍‍‍‍‍‍‍‍

“训练这些模型花更多时间思考问题，然后再做出反应，就像人类一样。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将该系列命名为 OpenAI o1。

在一系列不同的人工考试和 ML 基准上测试了模型。结果表明，在绝大多数推理能力较强的任务中，o1 的表现明显优于 GPT-4o。”

“与人类在回答难题之前会长时间思考的方式类似，o1 在尝试解决问题时会使用思路链。通过强化学习，o1 学会磨练其思路链并改进其使用的策略。

它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。”

在 2024 年的 AIME 考试中，GPT-4o 的平均成绩只有 12%（1.8/15），而 o1 的平均得分却达到了 74%（11.1/15）。在只用一个答案的情况下，o1 在 64 个样本上的平均正确率达到了 83%（12.5/15）。当使用学习算法对 1000 个样本进行优化排序后，o1 的得分进一步提高到 93%（13.9/15）。这个成绩相当于进入全国前 500 名学生的水平，甚至超过了美国数学奥林匹克的入围标准。

上面这个评测结果确实对比很明显，也令人印象深刻。也怪不得一些新闻稿用了“引领AI推理新时代”之类的词藻。‍‍

o1的其他主要特色应用功能包括，可以直接翻译一个不健全的句子，自动补全缺失内容；可根据提示自动编写复杂的视频小游戏；擅长解决超复杂、冗长的推理问题。

安全方面，o1也有了大幅的提升。OpenAI采用了全新的安全训练方法，利用模型的推理能力使其遵守安全和对齐指南。通过在上下文中推理安全规则，模型能够更有效地应用这些规则。‍‍

在一项针对模型“越狱”（绕过安全规则）的测试中，GPT-4o得分为22（满分100），而o1-preview模型的得分高达84。

02—如何使用

o1-preview：旨在解决各个领域复杂问题的推理模型，128k 上下文，32k 最大输出。训练数据截止于 23 年 10 月

o1-mini：一种更快速、更经济的推理模型，特别擅长编程、数学和科学。128k 上下文，64k 最大输出。训练数据截止于 23 年 10 月

ChatGPT用户：ChatGPT Plus和团队用户可以在模型选择器中手动选择o1-preview和o1-mini模型。初始阶段，o1-preview每周限额为30条消息，o1-mini为50条。

开发者：符合API使用等级5的开发者可以在API中试用这两个模型，速率限制为每分钟20次请求。

免费用户：正计划向所有ChatGPT免费用户提供o1-mini的访问权限。

从价格上看，o1 的价格是 4o 的 6 倍，每百万tokens输入15美元，每百万输出 tokens 60美元，。

但是由于o1 是个推理模型，其中间思考过程所消耗的 token也会被计入费用，并被视作输出 tokens，这意味着 100 tokens 的内容输出，可能会被按数倍或者数10倍的tokens 计费。‍

按前一阵子国内厂家降价的降价，免费的免费，估计等到国内大模型能力提升后，也会打成白菜价吧。‍‍‍‍‍‍

根据一些网上测试的内容显示，o1模型的最终输出并不能达到标示的长度。‍‍‍‍‍‍‍‍‍‍‍‍‍

例如：让 o1 写一部不少于2万字的小说，返回的内容只有1000多字。‍‍‍‍

网上的API调用测试表明：

system 字段：400 报错
tools 字段：400 报错
图片输入：400 报错
json_object 输出：500 报错
structured 输出：400 报错
logprobs 输出：403 报错
stream 输出：400 报错
o1系列：20 RPM，150,000,000 TPM，很低，随时429报错
其他：temperature, top_p and n 被固定为1；presence_penalty 和 frequency_penalty 被固定为 0.

03—表现‍‍

新模型出来后，它通过了一系列大模型翻车的问题测试。例如：‍

9.9和9.1哪个大？‍‍

Strawberry有几个字母r？

同学们在户外探险中发现了一个百宝箱，箱子上写着：“从4957283980中划去三个数字，使剩下的七个数字重新排列后组成一个最小的七位数，这个七位数就是开锁的密码。”这个密码是？（正确答案：2034578）

有兴趣有账号的朋友可以试试。‍‍‍‍

04—实现原理‍

思维链的推理模式是这个版本的大模型 o1的特点，与之前chat-gpt系列不同，它在回答问题之前会进行深入的思考，生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质，分析问题的各个方面，从而给出更准确和合理的答案。

o1使用了谷歌训练时计算类似的技术，随着训练时计算资源的增加和测试时思考时间的延长，o1 的性能会不断提升。这表明，通过增加计算资源的投入，可以进一步挖掘 o1 的潜力，使其在各种任务中表现得更加出色。

这个技术便是谷歌DeepMind很早之前便进行过解读称为——训练时计算（Test-time computation）。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索，以及自适应地更新模型对响应的概率分布两种方法。

这个也是很有意思的事，谷歌自家的大模型核心技术，例如多头注意力机制，大模型的架构transformer，没有在这一轮科技浪潮中领先，反而在墙外开花结果。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

前一段时间谷歌CEO还在一次大学分享中吐槽谷歌员工没有OpenAI的员工那么卷。这位CEO不是应该反思一下自己的工作是不是有什么做得不对的地方么：

本来都是自家技术，自己员工，出去搞了一个新公司，新公司的产品比自己家的产品还能打。难道不是公司的管理出了问题，CEO还在访谈中吐槽员工不够卷。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

至于OpenAI新推出的新模型o1，也不是什么划时代，里程碑的东西。早在7月份，开源模型 Llama3.1 就采用了名为"Reflection-Tuning"的创新训练技术。

这种技术使模型能够自主检测推理过程中的错误并及时纠正，从而在多项基准测试中创下了优异成绩。该模型不仅能够主动纠正自己的错误，避免幻觉问题，还在多个数据集中进行了测试，与业界最好的闭源模型如GPT-4、GPT-4o和Claude 3.5 Sonnet性能不相上下。‍‍‍‍‍‍

llama 的开源推理系统：https://github.com/meta-llama/llama-stack-apps。在这里，大胆推测一下：也许，大概，可能，o1参考借鉴了这个推理系统？

国内最早的大模型 MOSS 团队也在MOSS 2的训练方案中有类似的技术方向：探索在实用、多元、复杂场景下，研发工具增强、跨模态融合的智能体。‍‍‍‍‍‍‍‍‍

有观点认为：这次的「草莓」，与其说是模型优化，不如说是工程优化。‍‍

证据之一：从训练数据，以及训练时间来看，o1-preview，o1-mini，4o，4o-mini 的训练数据，都是截止到 2023 年 10 月（而更早的 gpt-4-0125 和 gpt-4-turbo 则是截止到 2023 年 12 月）

并且推测：这个其实是大模型的一个推理智能体 Agent，而且是一个匆忙上线，不够完善的版本。因为在博主的一些问题测试中：无论是语言识别、意图识别还是指令遵循，都非常的不尽如人意。

官方的介绍文字中，下面两小段，也侧面证实了上面的推测：

“由于 o1-mini 专注于 STEM 推理能力，其关于日期、传记和琐事等非 STEM 主题的事实知识可与 GPT-4o mini 等小型 LLM 相媲美。”‍‍‍‍‍

“因此，在权衡了用户体验、竞争优势以及是否要继续进行思路链监控等多种因素后，我们决定不向用户展示原始思路链。”

完

参考

https://mp.weixin.qq.com/s/-DeHD6vjf0Tt5bwmeeQuXA

https://mp.weixin.qq.com/s/SbLbPvTv1gdXc1MViezxSw

https://mp.weixin.qq.com/s/YNgJh6BfcmMMUf1881djeA

https://openai.com/index/introducing-openai-o1-preview/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-09-13，如有侵权请联系 cloudcommunity@tencent.com 删除

测试

本文分享自技术人生黄勇微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

又又又史上最强？OpenAI的草莓：OpenAI-o1，推理更难的科学、编码和数学模型

又又又史上最强？OpenAI的草莓：OpenAI-o1，推理更难的科学、编码和数学模型

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐