好事发生
推荐文章:https://cloud.tencent.com/developer/article/2470928?shareByChannel=link
这篇文章详细介绍了如何在 Linux Ubuntu 系统中使用 Docker 部署 Paint Board,并结合 cpolar 内网穿透工具实现远程访问。以下是推荐理由:
总而言之,这篇文章为希望在 Linux 环境下部署并远程访问 Paint Board 的用户提供了清晰、实用的指导,值得推荐。
o1满血版本终于出来了,这次直接在Chatgpt界面上就可以看到新增的按钮,原来的o1-preview已经不见了~

这次更新之后,加入了多模态的功能,而且看网页搜索按钮也出现了,不过目前还是灰度状态,但这说明之后可能还会有基于o1版本的网页搜索功能的出现

我还是用高考题测试一下o1满血版的能力:
编号为1,2,3,4,5,6的六个小球,不放回的抽三次,m表示前两次号码的平均值,n表示前三次号码的平均值,则m和n的差值不超过0.5的概率是多少
先来看看正确的答案是:7/15

这道题目,其实我测试过很多推理大模型,比如KIMI最新的K0-math数学推理大模型:
一开始的解答过程基本没有什么问题:它先定义了a,b,c三个作为前三次抽到的号码,然后可以得到 𝑚=(𝑎+𝑏)/2 和 𝑛=(𝑎+𝑏+𝑐)/3 ,然后由于题目要求m和n两个数的差值不超过0.5,因此可以得到|(𝑎+𝑏)/2−(𝑎+𝑏+𝑐)/3|<=0.5 ,接下来化简就可以得到 |𝑎+𝑏−2𝑐|<=3

但是很遗憾的是,在穷举法的时候其他c的取值是错的,导致最后得出了错误的答案~

然后我还测试过Qwen的QWQ推理模型,效果还是不尽人意,也是在穷举法的阶段给出了错误的答案:

就连之前的o1-preview版本,对于这道题目也做不出来

但是对于o1满血版本,发现它确实理解了题目,而且给出了正确的答案:

果然,还是满血版强很多呀,并且从官方给出的效果看,秒杀之前的o1-preview

在以前我们可以利用COT(思维链)技术,来让模型举一反三。在大模型的应用中,COT的方法能够激发大模型预训练过程中的先验知识,更好的帮助模型理解人类输入的问题。举个例子,在下面的例子中,大模型基于问题是不能够给出正确的答案,它的效果往往会比较差

但是如果你把人类的思维方式给到大模型,那么他就会通过你给出的推导例子,正确回答出你提到的问题。

上述过程存在一个主要缺陷,即需要人工大量编写COT规则。对于一类问题尚可,但若需为每个问题编写推导逻辑,这显然不可行。因此,OpenAI借鉴AlphaGo的MCTS(蒙特卡洛树搜索)和强化学习方法,使LLM能快速找到CoT路径,而且这个过程不需要人工进行干预,模型即可自动生成。
科罗拉多大学博尔德分校计算机教授Tom Yeh制作了一个动画,展示了OpenAI是如何训练o1模型的。

在训练阶段,不仅仅只考虑输入prompt和answer,而是利用强化学习把COT来考虑进来,更新大模型的参数。这样做的目的是让大模型能够自己学会自动生成COT逻辑思维链。
在推理阶段,则先让大模型自动化生成COT token,这样能够显著提高模型的推理能力,缺点就是这个过程往往会耗费大量的时间。

OpenAI在上一年5月份发布的一项技术,该技术通过“过程监督”而非“结果监督”来解决数学问题。
OpenAI通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。
它主要是使用MATH测试集里面的问题来评估“过程监督”和“结果监督”奖励模型,并为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。(上图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。)
除了提高与结果监督相关的性能外,过程监督还有一个重要的对齐好处:它直接训练模型以产生人类认可的思维链。
从之前OpenAI发布的论文来看,使用过程监督有以下优点:
1.过程监督更有效,从具有挑战性的 MATH 数据集的一个子集中解决了 78% 的问题。
2.主动学习提高了流程监督的有效性,数据效率提升了2.6倍。
从目前来看,可能模型在预训练阶段pre-training的scaling laws真正慢慢的失效,也就是说在预训练阶段增加训练时间和扩大模型规模,最后的收益是不大的。
而这次OpenAI则主要尝试提升后训练Post-Training和推理阶段中的算力,发现整体模型的准确率有明显的提升效果。

这里的OpenAI的后训练Post-Training Scaling law 与 预训练 Pre-training Scaling law 不同。它们分别在模型训练和推理过程的不同阶段。随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算), o1 的性能也在不断提升,并且目前Post-Training Scaling Laws还远没有到瓶颈。
这里总结一下三个主要的原理:
“自动化COT”让模型在训练阶段就可以自动学习推到思维链,不需要人工进行干预,从而把大问题进行拆解和解答,提升模型回复的准确率。
“过程监督”:则让模型不再局限于学习结果数据,想人类一样学习每个步骤的思考过程。
Post-Training Scaling Laws:意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。
通过这三个步骤,最后使得o1模型的推理能力大幅上涨,并能够提升对于未见过的复杂问题的解决能力。
整个发布会只有不到20分钟的时间,OpenAI甚至o1还推出了一个pro版本,但是价格太贵了~
作为每个月缴费20¥的chatgpt用户,感觉暂时应该还是用不上太贵的o1-pro版本,毕竟在日常使用中其实GPT-4o就已经满足日常的工作需求。接下来OpenAI还会推出什么新产品,让我们拭目以待。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。