“ OpenAI的o1模型的发布带来了超凡的推理能力,但它在实际使用中表现如何?从一个用户角度出发,我们来看看“草莓” o1的实际应用效果。看看它不同推理任务中的表现,包括语言理解、问题解答等,实现原理等等。”
01—简介
网上传了很久OpenAI的代号为“草莓”🍓的新模型,今天终于在正式官网发布了 o1 系列模型,包括 o1-preview 和 o1-mini。
“训练这些模型花更多时间思考问题,然后再做出反应,就像人类一样。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将该系列命名为 OpenAI o1。
在一系列不同的人工考试和 ML 基准上测试了模型。结果表明,在绝大多数推理能力较强的任务中,o1 的表现明显优于 GPT-4o。”
“与人类在回答难题之前会长时间思考的方式类似,o1 在尝试解决问题时会使用思路链。通过强化学习,o1 学会磨练其思路链并改进其使用的策略。
它学会识别和纠正错误。它学会将棘手的步骤分解为更简单的步骤。它学会在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。”
在 2024 年的 AIME 考试中,GPT-4o 的平均成绩只有 12%(1.8/15),而 o1 的平均得分却达到了 74%(11.1/15)。在只用一个答案的情况下,o1 在 64 个样本上的平均正确率达到了 83%(12.5/15)。当使用学习算法对 1000 个样本进行优化排序后,o1 的得分进一步提高到 93%(13.9/15)。这个成绩相当于进入全国前 500 名学生的水平,甚至超过了美国数学奥林匹克的入围标准。
上面这个评测结果确实对比很明显,也令人印象深刻。也怪不得一些新闻稿用了“引领AI推理新时代”之类的词藻。
o1的其他主要特色应用功能包括,可以直接翻译一个不健全的句子,自动补全缺失内容;可根据提示自动编写复杂的视频小游戏;擅长解决超复杂、冗长的推理问题。
安全方面,o1也有了大幅的提升。OpenAI采用了全新的安全训练方法,利用模型的推理能力使其遵守安全和对齐指南。通过在上下文中推理安全规则,模型能够更有效地应用这些规则。
在一项针对模型“越狱”(绕过安全规则)的测试中,GPT-4o得分为22(满分100),而o1-preview模型的得分高达84。
02—如何使用
o1-preview:旨在解决各个领域复杂问题的推理模型,128k 上下文,32k 最大输出。训练数据截止于 23 年 10 月
o1-mini:一种更快速、更经济的推理模型,特别擅长编程、数学和科学。128k 上下文,64k 最大输出。训练数据截止于 23 年 10 月
ChatGPT用户:ChatGPT Plus和团队用户可以在模型选择器中手动选择o1-preview和o1-mini模型。初始阶段,o1-preview每周限额为30条消息,o1-mini为50条。
开发者:符合API使用等级5的开发者可以在API中试用这两个模型,速率限制为每分钟20次请求。
免费用户:正计划向所有ChatGPT免费用户提供o1-mini的访问权限。
从价格上看,o1 的价格是 4o 的 6 倍,每百万tokens输入15美元,每百万输出 tokens 60美元,。
但是由于o1 是个推理模型,其中间思考过程所消耗的 token也会被计入费用,并被视作输出 tokens,这意味着 100 tokens 的内容输出,可能会被按数倍或者数10倍的tokens 计费。
按前一阵子国内厂家降价的降价,免费的免费,估计等到国内大模型能力提升后,也会打成白菜价吧。
根据一些网上测试的内容显示,o1模型的最终输出并不能达到标示的长度。
例如:让 o1 写一部不少于2万字的小说,返回的内容只有1000多字。
网上的API调用测试表明:
03—表现
新模型出来后,它通过了一系列大模型翻车的问题测试。例如:
9.9和9.1哪个大?
Strawberry有几个字母r?
同学们在户外探险中发现了一个百宝箱,箱子上写着:“从4957283980中划去三个数字,使剩下的七个数字重新排列后组成一个最小的七位数,这个七位数就是开锁的密码。”这个密码是?(正确答案:2034578)
有兴趣有账号的朋友可以试试。
04—实现原理
思维链的推理模式是这个版本的大模型 o1的特点,与之前chat-gpt系列不同,它在回答问题之前会进行深入的思考,生成一个较长的内部思维链。这种思维链的产生使得 o1 能够更好地理解问题的本质,分析问题的各个方面,从而给出更准确和合理的答案。
o1使用了谷歌训练时计算类似的技术,随着训练时计算资源的增加和测试时思考时间的延长,o1 的性能会不断提升。这表明,通过增加计算资源的投入,可以进一步挖掘 o1 的潜力,使其在各种任务中表现得更加出色。
这个技术便是谷歌DeepMind很早之前便进行过解读称为——训练时计算(Test-time computation)。其核心技术主要使用了密集型、流程导向的验证奖励模型搜索,以及自适应地更新模型对响应的概率分布两种方法。
这个也是很有意思的事,谷歌自家的大模型核心技术,例如多头注意力机制,大模型的架构transformer,没有在这一轮科技浪潮中领先,反而在墙外开花结果。
前一段时间谷歌CEO还在一次大学分享中吐槽谷歌员工没有OpenAI的员工那么卷。这位CEO不是应该反思一下自己的工作是不是有什么做得不对的地方么:
本来都是自家技术,自己员工,出去搞了一个新公司,新公司的产品比自己家的产品还能打。难道不是公司的管理出了问题,CEO还在访谈中吐槽员工不够卷。
至于OpenAI新推出的新模型o1,也不是什么划时代,里程碑的东西。早在7月份,开源模型 Llama3.1 就采用了名为"Reflection-Tuning"的创新训练技术。
这种技术使模型能够自主检测推理过程中的错误并及时纠正,从而在多项基准测试中创下了优异成绩。该模型不仅能够主动纠正自己的错误,避免幻觉问题,还在多个数据集中进行了测试,与业界最好的闭源模型如GPT-4、GPT-4o和Claude 3.5 Sonnet性能不相上下。
llama 的开源推理系统:https://github.com/meta-llama/llama-stack-apps。在这里,大胆推测一下:也许,大概,可能,o1参考借鉴了这个推理系统?
国内最早的大模型 MOSS 团队也在MOSS 2的训练方案中有类似的技术方向:探索在实用、多元、复杂场景下,研发工具增强、跨模态融合的智能体。
有观点认为:这次的「草莓」,与其说是模型优化,不如说是工程优化。
证据之一:从训练数据,以及训练时间来看,o1-preview,o1-mini,4o,4o-mini 的训练数据,都是截止到 2023 年 10 月(而更早的 gpt-4-0125 和 gpt-4-turbo 则是截止到 2023 年 12 月)
并且推测:这个其实是大模型的一个推理智能体 Agent,而且是一个匆忙上线,不够完善的版本。因为在博主的一些问题测试中:无论是语言识别、意图识别还是指令遵循,都非常的不尽如人意。
官方的介绍文字中,下面两小段,也侧面证实了上面的推测:
“由于 o1-mini 专注于 STEM 推理能力,其关于日期、传记和琐事等非 STEM 主题的事实知识可与 GPT-4o mini 等小型 LLM 相媲美。”
“因此,在权衡了用户体验、竞争优势以及是否要继续进行思路链监控等多种因素后,我们决定不向用户展示原始思路链。”
完
参考
https://mp.weixin.qq.com/s/-DeHD6vjf0Tt5bwmeeQuXA
https://mp.weixin.qq.com/s/SbLbPvTv1gdXc1MViezxSw
https://mp.weixin.qq.com/s/YNgJh6BfcmMMUf1881djeA
https://openai.com/index/introducing-openai-o1-preview/