作者:Asukka,北京邮电大学 AI院在读研究生 原文:https://zhuanlan.zhihu.com/p/673853716 编辑:青稞AI
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。
目前,大模型的对齐工作中,RLHF算法是能够达到最优的结果,RLHF通过人类反馈和PPO算法,能够有效的将模型和人类偏好进行对齐。但是RLHF也存在难以训练,训练显存占用较大的缺点。基于此,相关研究工作(RRHF, DPO)等也逐渐被提出,希望能够在较小的显存占用的情况下,实现对齐的工作。本文主要总结RLHF,RRHF,DPO,Flan的相关对齐工作。
RLHF是InstructGPT和ChatGPT的训练方法,关于RLHF的介绍,主要参考InstructGPT和huggingface的博客。
https://arxiv.org/abs/2203.02155
在RLHF出现之前,LLM存在着各种依赖输入提示prompt生成多样化文本,但是对于生成结果的难以进行评估。比如模型生成故事,文本,或者代码片段,这些生成结果难以通过现有的基于规则的文本生成指标(BLEU和ROUGE指标)来进行衡量。除了上述的评估指标,现在的模型通常通过预测下一个token的形式和简单的损失函数比如交叉熵损失函数来进行建模,没有显示的引入人的偏好和主观意见。
因此OpenAI提出使用生成文本的人工反馈作为性能衡量指标,或者进一步用该损失来优化模型,也即RLHF的思想:使用强化学习的方式直接优化带有人类反馈的语言模型。
RLHF的三个阶段
图源为Deepspeed-Chat的工作,相比于huggingface的图,能够清晰的看到PPO算法中的四个模型以及训练情况,缺点就是为了简化图片,缺少了损失函数部分。
使用经典的预测下一个token的自回归方式预训练一个语言模型。OpenAI选择InstructGPT。基于预训练得到的LM,生成训练奖励模型(RM,也叫偏好模型)的数据。
RM模型接受一系列文本并返回一个标量奖励,数值上对应人的偏好。可以直接使用端到端的方式进行建模(直接让RM输出分数),也可以进行模块化的建模(对输出进行排名,再将排名转化为奖励)。
对于RM模型的选择方面,RM可以是另一个经过微调的LM,也可是根据偏好数据从头开始训练的LM。比如Anthropic提出的偏好模型预训练(Preference Model Pretraining, PMP)来替换一般预训练后的微调过程。因为前者被认为对样本数据的利用率更高。
对于训练文本方面,RM的提示-生成对 文本是从预定义的数据集中采样生成的,并用初始的LM对这些提示生成文本。OpenAI采用用户提交给GPT API的prompt。
对于训练奖励数值方面,这里需要人工对LM生成的回答进行排名。对文本直接标注分数会很容易受到主观因素的影响,通过排名可以比较多个模型的输出并构建更好的规范数据集。
对于具体的排名方式,使用Elo系统建立一个完整的排名。这些不同的排名结果将被归一化为用于训练的标量奖励值。
RM模型和生成模型的规模不一定一样,比如OpenAI就采用了6B的RM和175B的LM。不过一种广泛认可的直觉就是,偏好模型和生成模型需要具有类似的能力来理解提供给他们的文本。
之前由于工程和算法原因,人们认为使用强化学习训练LM是不可能的。而目前的可行方案是使用策略梯度强化学习(Policy Gradient RL)算法,近端策略梯度优化(Proximal Policy Optimization, PPO)微调初始的LM的部分或者全部参数。
将微调任务表述为RL问题。该策略(policy)是一个接受提示并返回一系列文本或者文本的概率分布的LM。策略的行动空间(action space)是LM的词表对应的所有词元(一般在50k的数量级),观察空间(observation space)是可能的输入词元序列(词汇量^输入token的数量),奖励函数是偏好模型哦那个i和策略转变约束(Policy shift constraint)的结合。
PPO算法的奖励函数计算如下:将提示x输入到初始LM和当前微调的LM,分别得到输出文本y1和y2。将来自当前策略的文本传递给RM得到一个标量的奖励 rθ。将两个模型的生成文本进行比较计算差异的惩罚项(输出词分布序列之间的KL散度的缩放), r=rθ−λrKL 。这一项被用于惩罚RL策略在每个训练批次中生成大幅偏离初始模型,以确保模型输出合理连贯的文本。如果去掉这一个惩罚项可能导致模型在优化中生成乱码文本来愚弄模型提供高奖励值。
PPO中的损失函数如上所示,对于第一个RL分布,计算奖励分数和KL损失约束,KL损失约束可以防止actor model偏离原始的ref model太远,保证生成的多样性,并防止模型崩溃到单个高奖励答案。其中对于第二个预训练分布,将预训练的时候梯度和RL的梯度混合。
https://arxiv.org/abs/2210.11416
RLHF需要三阶段的训练:SFT,RM,PPO。但PPO对超参数比较敏感,并且RLHF在训练阶段需要四个模型,因此RLHF的方法难以训练。因此本文作者提出RRHF,通过对来自不同来源的响应(自身的模型响应,其他大型语言模型响应和人类专家响应)进行打分,并通过排序损失函数使得这些概率和人类偏好保持一致。RRHF只需要1-2个模型,并且不需要复杂的调优,可以看作是SFT和RM模型训练的一个扩展。RRHF在helpful和harmless数据集上进行测试,表明和PPO一致的性能。
RRHF的优化目标是基于响应概率的对数损失。
RRHF首先搜集到各种响应信息(模型自身产生,GPT产生,已经存在的人类标注)。RRHF随后在各种相应上进行训练,输出响应概率,并进行排序,随后利用rank loss进行排序优化。
与RLHF相比,PPO采用advantage function来估计状态-动作对与基线相比是更好还是更差,并提供优化信号,RRHF不需要和基线进行对比,只需要依照排序信息进行优化。PPO需要采用KL散度来保证actor model和ref model不会差的太远,而RRHF在训练之前只使用模型本身进行采样,因此RRHF只需要1-2个模型。RRHF的损失函数主要有两个,一个是针对RM的得分排名损失函数,一个是针对得分最高的分数,计算对数损失函数,因此RRHF本质上是一个选择best-of-n的过程。
RRHF和之前工作的联系
https://arxiv.org/abs/2210.11416
这篇论文是ChatGPT之前做的比较好的对齐工作,其核心思想就是探究增加数据集的规模,增加模型的大小,增加COT的数据对于模型的性能和泛化能力的影响。
其实验结果从下面两张图可以看出
下面一张图是探究CoT数据对于LM在推理任务和其他任务上的性能变化。
https://arxiv.org/abs/2305.18290
与RRHF中所提到的一样,RLHF需要超参数以及四个模型,本文提出新的范式,支持以封闭的形式提取响应的最优策略,只需要简单的分类损失就可以解决标准的RLHF问题。DPO的流程如下所示,左边的是RLHF的流程,通过显式的构建RM来让模型学习到人类偏好,而DPO则是隐式的拟合RM模型。
DPO的损失函数如下所示
和RLHF的损失函数相比,省去了RM模型的显式打分,而是将打分的分值间接的通过差值表现出来,同时也将KL散度约束写到同一个损失当中。
DPO的整个流程线如下所示:
然后就是DPO相比于RLHF的效果,作者在这里做了两个实验。
左边的图展示了预期奖励和参考策略的KL边界。DPO在所有的KL约束值下都能拥有更高的奖励期望。
作者在摘要任务和单论对话任务上进行评估。上一个图的右侧展示在不同温度系数下,DPO和PPO在摘要任务上的胜率对比,DPO对温度系数更加鲁棒,并且效果更好。在单轮对话上,在Anthropic HH数据集上进行评估。DPO是唯一在Anthropic HH数据集上能够改善最优回答的高效方法,并且提供了与超高计算代价Best of 128基准相似或者更好的性能。