[State of GPT] OpenAI讲座随笔记

悟乙己

发布于 2023-07-09 15:44:48

3510

1 GPT Training Pipeline图解

记录一下对这个图的理解：

大模型训练的四个阶段：

Pretraining 阶段，数据：低质量的大量文本，模型任务：Predict Next Token任务；这个阶段的模型更多是模型补全，不等于问答；最漫长的训练步骤，需要个把月，底层模型的选择与训练代价非常大了
SFT监督学习，Prompt问答对的数据，训练集采集的难度较大
Reward Modeling反馈式模型，判别式模型
RL learning 强化学习，在RM基础上继续强化

预训练阶段的模型目标是预测下一步，

虽然不能跟问答一样，当然可以给一些提示，达到类似回答的效果：

supervised finetuning

prompt 是人类指令，response 是标注员写得针对人类指令的示例回复；高质量问答：

这个数据集整理难度蛮高，对于标注员来说需要高质量的回答

模型采用的是分类判别式模型，写一个判断字符串是否是回文字符串的 python 程序，基于 SFT 模型生成多个回复，比如下面生成了三个回复后让标注员来对生成结果进行排名（排名难度较大，一个 prompt 的答案甚至可能需要几个小时来标注）

基于上一步的 RM 模型进行强化学习训练，对于prompt之后补齐的文章进行给分，不太好的就负分，好的给高分

RLHF强化学习相关：

【阶段三 RM】与【阶段四 RL】都是对结果进行特定的“强化”，不过RLHF 模型效果比较好，所以需要加上
karpathy 认为 RLHF 有用的原因是判别比生成更容易，让标注员去写一些 SFT 的 QA 数据对是比较难的，如果有一个 SFT 模型生成一些数据让标注员判断哪个更好就简单很多
RLHF 模型降低了熵，对输出文本的确定性更强，SFT 模型更善于给出有区分度的回答