00:00
第一位讲者呃,邱启鹏,呃,我首先来介绍一下西鹏,他是复旦大学计算机学院的教授,呃,研究方向呢为自然语言处理大模型呃,大语言模型等等,那么他呢,在这个计算机领域的顶会顶刊上呢,发表了多篇著作,那么也是主持开发了国内首个对话式的大型的语言模型Mo,那么它开开源的一系列的自然语言处理工具,呃复旦NLP还有fast NLP等等,那么均获得了学术界和产业界的广泛使用,那么系鹏也获得了2024年度的CCF青年科技奖,那么以及中国中呃中国中文信息学学会汉王青年创新奖等等奖项,那么下面呢,我们就有请西鹏给我们第一个分享。哎呀,嗯,谢谢金英的介绍那。由我来那个先抛砖引玉给大家啊,分享一下关于这个deepic的一些思考和启发,那我们知道像这个open它啊发布了O万啊,因为最溯到就是就大的这个推理模型啊,这O万其实也是一个啊,非常有现象级的这样一个模型,它在这个竞赛题目上达到了人类专家水平,并且OKR推出了他们的一个AGA的一个规划,就是就是推理在其中是个非常重要的一步。
01:19
那么呃,在去年呢,就是一二呀,也曾经啊说过,就是说我们的预训练可能时代可能即将结束啊,它其中一个非常重要的原因就是啊,这个数据其实是没有在进行增长的,那O1呢,可能会啊打破这种范啊,这种啊数据不增长的一个范式继续去啊进行啊推动这个规0LAW的向前发展,不过呢,因为没有数据,所以它的目标可能就转向到比如说像强化学习以及啊推理是计算这种SC,就是说大家在推理是随于于它的推理的,这个长度越长,它的性能可以继续啊得以啊改进。
02:07
那这就这就使得那个大家对这个下一代的这个大模型的发展啊,报以新的这种期望,所以我们可以看到就O1的这种各种副线就层出不穷,然后大家都在往这个方向进行探索。那其中在这个OE的副线里面呢,业界非常多的啊,副线可能基于这个,那比如说SFT,或者基于征馏O万的这样的路线,但是呢,就是其实O万的核心应该是还是从这个R开始,我们在呃去年呢,也刚好写了一篇这个欧万的综述,所以我简单以以此为啊。概括来看一下,这个O2的四个核心的东西就是呃,它其实需要的在强化学习的框架下,就是大圆模型就充当了一个a agents, 然后呢,它每个动作呢,其实就是predict nexts的这种ton的生成,或者step或者solution啊,它不同颗粒度,那怎么来定义这种颗粒度的啊。
03:09
这种生成作为它的action,当然还有就是说它的state对吧?啊还有它的policy policy就是给定当前的这个步骤,或者talk或者solution来生成下一阶段的这个这个action,那它基本上就是啊这样的一个路线。那么如果我们在这个R的框架下去重新去看这个。这种大的推理模型,那么其实他核心就分成两,呃,分成有4个啊,4个其实非常重要的因素,一个呢,就是我们的这个策略的初始化,并一开始应该有一个啊,就是能够去解题的类人的解题的这样一种啊初始的策略啊,然后呢,呃,以及呢,对于环境来讲,应该有个reward对吧,就是所以呢,就是,但是reward从哪里来,怎么来设计啊,就是这里面的另外一个非常重要的因素,当然里面在具体IL的过程当中有两个非常重要的啊。
04:10
1呃,因素就一个就是搜索啊,就是如何去啊explore出更多的更好的更更更有潜力的答案,还有一个就是学习如何去更稳定的去调整模型的参数,所以基本上就是啊,大家所有的复现这个O万的这种大推力模型的,基本上都要从这四个方面去下功夫。那么我简要的就说一下这四个,一个就是初始化的话,它其实就是说,呃,传统的做法,或者对O万的啊一些做法,就是它先要能够让模型具有初始的这种类人的推理行为啊,包括比如问题理解,任务分解,还有一些这个验证对吧,修正错误等等,就像我们人一样,人类符合人类行为的这种啊,这种解题的一些策略,然后第二步呢,就是我们要啊设计这个reward,那么reward其实就啊在传统的方法里,主要分成两大块,一个是直直接从环境获得奖励信号啊,就像比如说解题的时候的对错,那另外如果没有环境的reward的话,我们可以从过专家啊或者偏好数据中来去啊,训练一个reward的model啊,基本上就这两大种策略,那么在O腕的过程当中呢,啊,就是它应该是混合了这种多种的这个如果的设计的方法,然后如果比如说油管的处置,我们就。
05:34
用它ground的猝死,但其中有一个非常重要的叫我的shipping,就是说我们能不能从结果监督变成一个过程监督,就在中间过程有一个打分,那没有关的初始的话,我们就用这个偏好数据来进行奖励。然后呢,在大量的数据上进行啊训练旅游的摸到提升的泛化性。第三个重要的一个因素就是搜索,那传传统的就大家在呃研究上,或者特别是学术界非常多的就放在了这个如何去进行更高效的这种搜索,它基本上分成两大类,就是比如说基于数的这种搜索和这个基于顺序的这种修改的这种搜索,那么啊,这两种可能对我们啊腹泻O都是非常有大的帮助,然后第4个因素就是这个学习啊,那么。
06:26
学习基本上就是一个是用强化学习的PRO规定的,还有一个就是cing,那么这两种呢啊,基本上我们可以把它用在两个阶段,比如说一个w map阶段,我们就可以用一些这个行为克隆的方法,第二阶段再用强化学习来提升它向上限,所以这就是啊,我们知道这个我们如果你要去。复现O万,或者就实现一个大的推理模型的话,就是这基本上在强化学框架下这四个非常重要的点啊,那么我们回到这个阿万,阿万的话,它其实啊发布的有两个模型,那么一个是r one zero, 阿万zero呢,就是说我从一个基模型开始,它纯R驱动啊,不经过刚才的比如说。
07:15
这个w map阶段,那么它有了一个,但它有reward reward就是说我们先要啊,让模型呢,啊也是类似于具有一个类人的这种回复,比如说啊一些给先给一些promp PRO就是要求,就是你的思考要在比如说两个thinking之间,答案要在两个answer的answer的T之间啊,然后用这个最终结果的正确性和是不是符合这种格式来去作为reward,然后对模型进行奖励,并且在R旺的训练过程中,我们可以看到,随着训练的这个步骤的增加,它逐渐的涌现出这种长文,就是这种。长的cot能力啊,就是他的推理的这个路径会越来越长啊,另外呢,就是他也会就是发现了一些啊哈moment啊,就是啊模型在训练过程中能够去自我的发现啊,我可以能够去尝试去修复啊一些以前的答案,那以前的这个推理,但是在纯强化学习的这个训练当中,它的性能是可以在不断的提升,但是它有一些不足,比如说主要的两点就是啊,它的可读性比较差,还有就是有language的mixing问题,就是比如说啊经常会啊中英文可能会呃混杂的输出。
08:39
那么这两点也是呃,下一步就是真正的这个R万它要解决的两个问题,那那对于阿万模型来讲呢,呃,就是它和zero不同的是,它分为四个阶段来进行啊,左边这个图是我参考了这个知乎上面的一个问答的路线图啊,画的非常清楚,我就呃直接放在左边给大家参考,那分为四个阶段,一个就是能启动,能启动阶段就是一开始要收集少量的这个long CT的数据来微调模型,这个两个目的,一个就是防止啊它早期训练的不稳定,还有就是可可读性差的问题,就是我们一开始讲O副线里面的一个最。
09:20
前提的因素就是让模型先具有一个类人的思考的这种能力,第二步呢,就是推理导向的强化学习,啊,就是在这一阶段推理强,呃,它是以这个deepb v3为基础,针对这个推理任务,然后啊用和R1ZERO相同的这种大规模skill来进行训训练,那同时他为了解决这个语言混杂问题,引入了一个语言一致性的奖励。第三步就是拒绝抽样啊,和这个监督微调啊,他因为第三步要真正训练这个2万,那么所以呢,他将第一步的这个模型加上一些抽样,以及呢,还有就是其他领域的SFT数据增强模型,在其他方面通用能力,比如说写作,角色扮演啊,其他通用人物中的能力,然后这这个数据准备好之后,然后。
10:13
啊,进行微调之后,然后再以这个,呃,就是。VV3为基础,先是这个SFT,然后完了之后啊就进行啊所有场景的RL,那么这里面就分就是说对于推理任务就用这种啊规这个规则的奖励来指导,如果对于一般任务就用啊这个RRLHF这种啊方式来进行,所以这基本上就是阿万的一个啊技术线,那么啊这里呢,我简单列一点,就是关于一些这个阿万的一些思考吧,啊当然我这里因为时间关系,我就啊比较快的来。啊简述一下,一个呢,就是阿万它或者阿万zero,它与整个的,比如说我们之前社区对O万的副现的啊,它有很大的不同,就是之前的O万都会涉及到蒸馏和搜索啊,比如说阿万zero,它没有SFTT,没有过程监督,没有设取,但也能给出类似O万的结果,然后呢,嗯,阿万他虽然没有这个,比如说强调MCTS的这种能力,或者说他强调他没有效果,但是从他最终的报告,他也说这个督促投票能够大幅提供I的效果,说明这个搜索其实在这个啊,整个的IL的skill中中,其实还是能够去提升他的能力的,然后对于这个初始化策略来讲的话,呃,就是有这个SFTT的啊,就是这种能启动会让模型后面更快速的收敛,但是未来可能它后续量的重心可能会放在这个R阶段啊,少量的这个SFT也。
11:53
这是必须的。那么还有关于这个奖励模型,因为阿湾的奖励模型其实跟其他的一些后续类,包括像千万啊等等,其实啊没有太大的区别,并且他的报告中,呃,其实关于这一部分描述呢,也比较模糊,所以呃,这里面可能是一些猜测,应该它里面还做了非常大的关于啊,比如说数内部数据的这种啊偏好标注,然后呢,关于这个奖励设计,在比如说我们少量样本上的强化学习,应该应该还是会起到啊非常显著的作用,然后关于这个,比如说原来大家在。
12:34
这个大推力模型当中啊,比较强调的像过程监督或者搜索啊,那么呃,但是呢。在这次这个R1里面,他其实并没有啊做这样的尝试,那一个就是说啊。嗯,就是阿姨的paper里也给出他们的理由是因为他啊比较难以scale,特别对于比如说我们如用一个很大的模型来讲,如果加上搜索,会导致它的这个推理效率变得非常低啊,阿一呢,给出一个非常简单的,并且能够可规模化的一个可行解,但也这样做,它达到呃,就是取得了成功,但不一定是最优解,然后基于阿一的这个test他们的设计。
13:17
呃,我个人认为还是能够继续去优化它的效果,然后RPM呢,应该还是一个非常值得研究的啊一种路线。或者一种技术,然后还有一个观察,就是说他的写作能力也也提升了,然后O1其实比4O在写作任务上提升非常小,但是R1的这个创作,呃,它会更让人眼前一亮,那么呃,可能也是说如果一个非常强的技术模型,在这个skill之后,他涌现的一种能力,然后也有人猜测,就是他这个安全对齐做的比较少,嗯,从来没有束缚他的这个创作能力。另外一个就是过度优化,阿姨经常会用一些非常高端的词汇啊,可能是某种的reward的hiking啊,另外就是阿姨在这个通用任务上啊。
14:09
就是它的推理效果还不太理想,就是说强化学习它的这个泛化性啊,还需要进一步去研究,呃,以及呢,关于就是还有两点,就是一个就是这个test time sc, 就是OE出来之后,大家讨论比较多,但其实非常重要的就它其实还更重要,它还是要伴随着training定time们的这个scing,包括数据和确定step,然后RL还是其中的关键,因为它可以保证有足够的数据和足够的这个训练步骤,然后另外根据这个OPI的这个,比如说它的下一步,比如如果我们有推理模型的话,下一步就是往这个A进的方向去去走,那阿一目前是唯一具有这种啊强推力能力和联网搜索的这种产品,它效果非常好,就是特别你很多啊,你只有联网搜索之后,它才啊能够体现出阿一的这种非常强的推理能力。所以。
15:08
啊,我觉得下一步发展其实很大啊概率就是我们可以进一步推出更加强大的agent,那么如何用强推力模型帮助agent更好更鲁棒,就是变成一个非常重要的问题啊好,那我先这个抛砖引玉,先给大家做一个。关于R1的一个简单的分享,好,谢谢。
我来说两句