Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI发布的o1大模型原理初探

OpenAI发布的o1大模型原理初探

原创
作者头像
算法一只狗
修改于 2024-09-22 03:51:17
修改于 2024-09-22 03:51:17
1.5K2
举报
文章被收录于专栏:算法一只狗算法一只狗

OpenAI终于发布新的模型,这个模型被称为o1。ChatGPT官网已经可以看到有两个模型,一个是o1-preview,另一个是o1-mini。

从官方发布的模型效果来看,这个模型的推理能力简直逆天(现在还有谁敢说OpenAI已经不行了?),那么o1模型其背后的原理是怎么样的呢?这篇文章带你初步探究一下其o1模型的一些亮点。

o1模型效果惊人

首先我们来思考一下,人类在解决逻辑问题的时候,往往会有一系列的慢思考环节。比如我们会把一个比较难的题目进行拆解,得到多个小问题之后,再用自己的现有知识去解决每一个小问题,最后就可以对这个问题推理得到正确的答案。

但是在以往大模型遇到难的推理问题的时候,就没有这种思考环节,导致对于这类问题解决程度不足。

那么如何让大模型也能够像人一样具有逻辑推理能力呢?这里研究者会引入COT(思维链)的方式,让大模型去拆解问题,然后思考。所以o1模型其实本质就是这样,在给出答案的时候,会首先在内部生成思维链,把问题拆解后再解答。

而这使得o1模型在数学推理能力和其coding能力上取得的成绩令人惊讶。

  • 数学能力大幅提升:在国际数学奥林匹克(IMO)资格考试中,GPT-4o只正确解决了 13% 的问题,而o1推理模型的得分为 83%。
  • Coding能力相比于gpt4o也有明显提升

但是由于引入了模型的反思机制,整体的推理速度明显比之前的所有模型要慢得多:

对于同样一个问题,虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都正确回答,并且 o1-mini 达到答案的速度大约是 3-5 倍。

o1模型的原理是什么

  • 原理1:主要来自于“自动化COT”来优化prompt输入

在以前我们可以利用COT(思维链)技术,来让模型举一反三。在大模型的应用中,COT的方法能够激发大模型预训练过程中的先验知识,更好的帮助模型理解人类输入的问题。举个例子,在下面的例子中,大模型基于问题是不能够给出正确的答案,它的效果往往会比较差

但是如果你把人类的思维方式给到大模型,那么他就会通过你给出的推导例子,正确回答出你提到的问题。

上述过程存在一个主要缺陷,即需要人工大量编写COT规则。对于一类问题尚可,但若需为每个问题编写推导逻辑,这显然不可行。因此,OpenAI借鉴AlphaGo的MCTS(蒙特卡洛树搜索)和强化学习方法,使LLM能快速找到CoT路径,而且这个过程不需要人工进行干预,模型即可自动生成。

科罗拉多大学博尔德分校计算机教授Tom Yeh制作了一个动画,展示了OpenAI是如何训练o1模型的。

在训练阶段,不仅仅只考虑输入prompt和answer,而是利用强化学习把COT来考虑进来,更新大模型的参数。这样做的目的是让大模型能够自己学会自动生成COT逻辑思维链。

在推理阶段,则先让大模型自动化生成COT token,这样能够显著提高模型的推理能力,缺点就是这个过程往往会耗费大量的时间。

  • 原理2:“过程监督”中的优化替代了“结果监督”

OpenAI在上一年5月份发布的一项技术,该技术通过“过程监督”而非“结果监督”来解决数学问题。

OpenAI通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。

它主要是使用MATH测试集里面的问题来评估“过程监督”和“结果监督”奖励模型,并为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。(上图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。)

除了提高与结果监督相关的性能外,过程监督还有一个重要的对齐好处:它直接训练模型以产生人类认可的思维链。

从之前OpenAI发布的论文来看,使用过程监督有以下优点:

1.过程监督更有效,从具有挑战性的 MATH 数据集的一个子集中解决了 78% 的问题。 2.主动学习提高了流程监督的有效性,数据效率提升了2.6倍。

  • 原理3:OpenAI提出的新的Post-Training Scaling Laws原理

从目前来看,可能模型在预训练阶段pre-training的scaling laws真正慢慢的失效,也就是说在预训练阶段增加训练时间和扩大模型规模,最后的收益是不大的。

而这次OpenAI则主要尝试提升后训练Post-Training和推理阶段中的算力,发现整体模型的准确率有明显的提升效果。

这里的OpenAI的后训练Post-Training Scaling law 与 预训练 Pre-training Scaling law 不同。它们分别在模型训练和推理过程的不同阶段。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且目前Post-Training Scaling Laws还远没有到瓶颈。

这里总结一下三个主要的原理:

  1. “自动化COT”:让模型在训练阶段就可以自动学习推到思维链,不需要人工进行干预,从而把大问题进行拆解和解答,提升模型回复的准确率。
  2. “过程监督”:则让模型不再局限于学习结果数据,想人类一样学习每个步骤的思考过程。
  3. Post-Training Scaling Laws:意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。

通过这三个步骤,最后使得o1模型的推理能力大幅上涨,并能够提升对于未见过的复杂问题的解决能力。

o1模型有自我意识了吗?

这可能是大部分人都关注的问题,一直以来,人类都想通过打造一个超级大模型来创造一个有自我意识的AI。那么这次o1模型它的推理能力有这么明显的提升,它的智力水平怎么样?

从下图可以看到,在门萨会员的离线智商测试中,o1模型拿到了第一名。

越来越多的人都相信现在的AI可能已经初步具备了人类的意识。比如,OpenAI研究副总裁Mark Chen在o1发布后表示:“现在的大模型可能已经出现了一些意识”

OpenAI目前把人工智能划分成5个等级,认为这次的o1大模型其实已经处于第二个阶段,因为它本身具备了较强的推理能力,而且是一个飞跃式的超越之前的大模型的效果。

  • 第一级别是chatbots,就是现有生成式大模型处于的阶段,能够与人类进行对话解决问题
  • 第二级别是推理者 Reasoners,具有一定的推理能力,能够解决人类水平的一些问题
  • 第三级别是智能体Agents,表明人工智能达到了一个整体系统,在系统中自主采取行为解决问题
  • 第四级别是创新者 Innovators。不依赖于人工,而是自身有创新思维
  • 第五级别是组织 Organizations,这已经达到或者超越人类水平,能够提升工作中的效率。

对o1模型的一些实测案例

coding测试

coding能力测试,这里拿了leetcode中“第4151场周赛”题目进行测试,选择了最困难的题目:

https://leetcode.cn/problems/minimum-number-of-valid-strings-to-form-target-ii/

o1模型给出的代码,其运行结果通过了799个测试用例(共807个)

而对于Claude 3.5 Sonnet模型来看,其运行结果则通过了798个测试用例:

好像两个模型差距并不大。

再来一道困难题目,是第414场周赛的困难题目:

这次o1模型能够一遍就可以成功,而且其执行效率还算可以:

而对于Claude 3.5 Sonnet并没有给出正确的答案。对于GPT4来说,再23年3月份的时候,对于困难的题目只有3/45的准确率,这也是在一定程度上说明了o1模型推理能力确实提升了不少。

数学能力测试

Reddit用户@FitAirline8359用高中的数学期末考试题去测试o1模型的效果,结果还是很不错的。

他利用图像转文字工具将试卷转化为文本,再让OpenAI o1解答。结果,短短20分钟内,OpenAI o1就准确解答了所有题目。

这证明了OpenAI o1在处理数学问题上具有优秀能力,可能成为未来教育学习的有力工具。

而有人也拿高考题对o1大模型进行测试,其做高考题的水平确实取得了比较长足的进步。

总结

o1模型的发布,预示着隐式化的COT生成和Post-training Scaling Laws能够有效提升大模型的能力,相信国内外的各个公司应该会在短期内跟进这一技术,毕竟OpenAI已经证明了这条路的可行性。不得不说,OpenAI每次发布的新模型确实能够让人眼前一亮,尽管它的技术不一定是最新(很多技术都是之前已有的),但是它把各个技术的融合在一起的能力确认没得说。

目前发布的这个o1虽然在全面性上肯定比不上GPT-4o,但是其强大的推理能力说明它具有其他模型比不了的地方。何况现在各家大模型同质化这么严重,此时推出o1模型能够重新稳固OpenAI在大模型的领先地位。这一次,可能一个新的时代要到来。

参考:

1.https://www.zhihu.com/question/666992879/answer/3625268162

2.https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652522576&idx=1&sn=769ffe0dc30ec80750e918cb51009f9c&scene=21#wechat_redirect

3.https://www.zhihu.com/question/666991594/answer/3624060495

4.https://www.thepaper.cn/newsDetail_forward_28757891

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
2 条评论
热度
最新
文章内容不错
文章内容不错
111举报
哈哈哈,感谢感谢
哈哈哈,感谢感谢
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。
机器之心
2025/05/04
1280
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
OpenAI的o1大模型满血版终于发布,其效果如何?
推荐文章:https://cloud.tencent.com/developer/article/2470928?shareByChannel=link
算法一只狗
2024/12/06
2380
OpenAI的o1大模型满血版终于发布,其效果如何?
OpenAI发布的o1模型背后原理
OpenAI这次发布的o1模型,毫不夸张的说应该是在推理方面超越了目前所有的大模型。
算法一只狗
2024/09/18
8040
OpenAI发布的o1模型背后原理
GPT-5竟被雪藏?OpenAI葫芦里到底卖的什么药!
这个风向怎么就一下子就转变了呢?在上几个月的时候,OpenAI还曾经被爆出其下一代大模型训练效果不佳,设置模型能力还没有GPT-4o的强。
算法一只狗
2025/01/19
1350
GPT-5竟被雪藏?OpenAI葫芦里到底卖的什么药!
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
考两张卷子:一张是有可能提前背题的,另一张是不太可能提前背题的,两张卷子难度一致。
新智元
2025/02/15
600
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
王小川评OpenAI o1: 找到一条从快思考走向慢思考的路
2024年9月,OpenAI预热已久的“Strawberry”(草莓)项目终于问世,它重置命名模式,没有沿用原有的GPT命名,而是取名为o1模型——业界认为,o1代表了AGI范式的一次大转移或者大升级。
小腾资讯君
2024/10/09
3770
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。
机器之心
2025/02/14
920
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
OpenAI o1 系列简介
2024年9月,OpenAI推出了一个全新的大型语言模型(LLM)系列——o1,标志着在自然语言处理(NLP)领域的重要进步。与之前的模型相比,o1系列特别强调推理能力的提升,旨在通过强化学习训练来执行复杂的推理任务。这一系列模型不仅能够理解和生成高质量的文本,还能解决比以往更复杂的问题,特别是在科学、编码和数学等领域。
jack.yang
2025/04/05
1060
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
团队介绍:本项目的核心开发团队主要由上海交通大学GAIR研究组,研究团队早在一个多月前发布o1复现进展报告。
机器之心
2025/02/14
1060
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
不仅如此,SLM在美国数学奥林匹克(AIME)上,拿下了53.3%的亮眼成绩,直逼全美20%顶尖高中生!
新智元
2025/02/15
1040
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
1880
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。
新智元
2025/02/15
1070
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
团队介绍:北京交通大学 ADaM 团队此前发布了相关的 o1 复现项目 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首个强化微调开源技术方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。
机器之心
2025/02/03
930
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
草莓现世,大模型达到博士水平了吗?| AGI路线图
中秋之前,OpenAI发布了造势已久的“草莓”项目,这次Open AI没有用GPT,而是用了一个全新系列的名字:o1。就像人类在发言之前会进行更深入的思考,o1通过优化推理过程,获得了更深入的思考能力。在国际数学奥林匹克(IMO)资格考试中,o1的得分高达83%,远超其前版本GPT-4o的13%。此外,o1也显示了更高的编程能力。
小腾资讯君
2024/09/25
1610
DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
学无止尽5
2025/02/17
1640
DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
国内热门推理大模型指南
自从OpenAI o1大模型出现之后,把大模型数学推理能力和代码编程能力推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理大模型。因此这篇文章主要介绍三个最近比较热门的推理大模型。
算法一只狗
2024/12/24
2760
国内热门推理大模型指南
o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!
一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。
新智元
2025/02/15
340
o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!
昆仑万维「天工4.0」携超强o1/4o霸气上线!强推理+实时语音,免费无限体验
2024 年 12 月中旬,前 OpenAI 首席科学家 Ilya Sutskever 在 NeurIPS 大会上发表了一个惊人的观点:Scaling law 正在放缓,预训练时代即将结束,未来的研究方向将更加注重推理能力的提升。
机器之心
2025/02/03
760
昆仑万维「天工4.0」携超强o1/4o霸气上线!强推理+实时语音,免费无限体验
OpenAI下一代大模型Orion被爆出提升有限,大模型之路还有机会吗?
这里推荐一篇实用的文章:https://cloud.tencent.com/developer/article/2466030?shareByChannel=link
算法一只狗
2024/11/18
1400
OpenAI下一代大模型Orion被爆出提升有限,大模型之路还有机会吗?
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
奥特曼、Mark Chen、任泓宇和ARC Prize基金会主席Greg Kamradt为我们做了介绍
新智元
2025/02/15
710
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
推荐阅读
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
1280
OpenAI的o1大模型满血版终于发布,其效果如何?
2380
OpenAI发布的o1模型背后原理
8040
GPT-5竟被雪藏?OpenAI葫芦里到底卖的什么药!
1350
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
600
王小川评OpenAI o1: 找到一条从快思考走向慢思考的路
3770
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
920
OpenAI o1 系列简介
1060
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
1060
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
1040
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
1880
万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?
1070
用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐
930
草莓现世,大模型达到博士水平了吗?| AGI路线图
1610
DeepSeek R1 与 OpenAI O1:机器学习模型的巅峰对决
1640
国内热门推理大模型指南
2760
o1 pro挑战美国本科生最难数学竞赛,30分钟交卷却被「大佬」现场打脸!
340
昆仑万维「天工4.0」携超强o1/4o霸气上线!强推理+实时语音,免费无限体验
760
OpenAI下一代大模型Orion被爆出提升有限,大模型之路还有机会吗?
1400
OpenAI o3震撼觉醒,AGI今夜降临?血洗o1,破解陶哲轩最难数学题
710
相关推荐
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档