Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >解读ChatGPT中的RLHF

解读ChatGPT中的RLHF

作者头像
半吊子全栈工匠
发布于 2023-09-02 05:56:42
发布于 2023-09-02 05:56:42
1.6K0
举报
文章被收录于专栏:喔家ArchiSelf喔家ArchiSelf

无论是 ChatGPT 还是 GPT-4,它们的核心技术机制之一都是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。这是大型语言模型生成领域的新训练范式,即以强化学习方式依据人类反馈优化语言模型。那么,什么是 RLHF 呢?

RLHF 背后的基本思想是采用预先训练好的语言模型,并让人们对其输出的结果进行排序。这个输出的排名作为一个信号,引导模型“更喜欢”某些结果,从而诱导响应,使其更安全可信。

RLHF 可以利用人工反馈优化语言模型。通过将RL算法与人工输入结合,帮助模型学习并提高其性能。结合人工反馈,RLHF 可以帮助语言模型更好地理解和生成自然语言,并提高它们执行特定任务的能力,如文本分类或语言翻译。此外,RLHF 还可以帮助缓解语言模型中的偏差问题,允许人类纠正并引导模型朝着更公平和包容性的语言使用方向发展。然而,另一方面,它也引入了一种途径,用于将人类偏见嵌入模型中。

1. 关于强化学习

强化学习在数学方面有其基础知识,其中通过代理与环境进行交互,如下图所示:

代理人通过采取一个行动与环境进行交互,环境返回一个状态和一个奖励。奖励就是我们想要优化的目标,状态是当前时间索引中环境/世界的表示,策略用于从该状态映射到操作。作为对代理执行的操作的回报,环境返回相应的奖励和下一个状态。

当利用大语音模型完成 NLP 任务时,如何为一个语言模型编码幽默、道德或者安全呢?这些都有一些人类自己能够理解的微妙之处,但是我们不能通过创建定制的损失函数来训练模型。这就是人类反馈强化学习的用武之地。

下图显示了 RLHF 模型如何从大模型和人工标注中获取输入,并创建一个比单独使用这两者更好的响应。

2. RLHF之模型训练

让我们先从一个高层次的 RLHF 开始,并首先收集所有的背景和事实。

RLHF 可能相当复杂,需要训练多个模型和不同的部署阶段。由于 GPT-4、 ChatGPT 和 DirectGPT 都用 RLHF (由 OpenAI 提供)进行了微调,因此让我们通过查看训练步骤来更深入地了解它。

RLHF 的设计是为了使模型更安全、更准确,并确保模型生成的输出文本是安全的,更符合用户的需要。人工智能代理首先在环境中随机作出决策。人工排名者会周期性地接收多个数据样本,甚至可能是模型的输出 ,根据人类偏好进行排名,例如,给定两个视频,人工排名者决定哪个视频更适合当前任务。

Agent将同时建立一个基于任务目标的模型,并通过使用 RL 对其进行细化。Agent将开始只需要人类对视频的反馈,并进一步完善其理解。

这种循环行为可以从 OpenAI 的下图中直观地看到:

OpenAI 使用客户通过 ChatGPT API 向模型提交的提示,并通过手动对模型的几个期望输出排序来微调语言模型,从而获得人工反馈。这丰富了模型产出的质量,从而引导模型朝着信任和安全的方向发展。

这个过程被称为监督式学习,模型通过使用标记数据进行训练,以提高其准确性和性能。通过使用客户提示对模型进行微调,OpenAI 旨在使 ChatGPT在响应给定提示时更有效地生成相关且连贯的文本。

为什么我们不总是使用 RLHF呢?由于依赖人工标注,它的扩展性很差。手工标记数据既缓慢又昂贵,这就是为什么非监督式学习一直是机器学习研究人员长期追求的目标。

3. RLHF之预训练语言模型

大模型是使用不同参数的各种模型进行预训练的,并且可以针对特定任务进行微调。这又如何与 RLHF 相关呢?

生成数据以训练奖励模型是将人类偏好整合到系统中所必需的。然而,由于 RLHF 训练中各种选择的设计空间没有得到充分的探索,对于哪种模式最适合开始 RLHF 训练还没有明确的答案。下图像显示了预训练语言模型的内部工作原理以及用 RLHF 进一步进行微调的可选路径。

大模型的参数范围从100亿到2800亿不等,但目前还没有关于大模型最佳尺寸的答案。可以付钱让人撰写对现有提示的回应,然后这些数据可以用于训练,但会变得成本昂贵。

4. RLHF之训练奖励模型

RLHF 的最重要任务是生成一个奖励模型 (RM),它可以根据人的偏好为输入文本分配一个标量奖励。奖励模型可以是端到端的语言模型或模块化系统,并使用提示对数据集进行训练。下图展示了奖励模型是如何工作的:

可以看到,目标是希望得到一个模型,它可以将某个输入文本序列映射到标量奖励值。众所周知,增强学习采用单个标量值,并通过其环境随着时间的推移对其进行优化。

奖励模型的训练也是从一个数据集开始的,但要注意它与用于大型模型预训练的数据集不同。这里的数据集侧重于特定的首选项,是一个提示输入数据集。它包含模型将用于的特定用例的提示,以及与提示示例相关联的预期奖励,例如 (prompt,reward) pairs。数据集通常比预先训练的数据集小得多。因此,输出是文本示例的排名/奖励。

通常情况下,可以使用一个大型的“teacher”模型集合来减轻偏见,增加排名的多样性,或让人工对排名参与这些模型的循环。例如,当使用 ChatGPT 时,它有一个向上或向下的图标。这允许模型通过众包学习它的排名输出。

5. 用增强学习对大模型进行微调

下图解释了奖励模型微调的工作原理。

首先,获取提示数据集,即用户所说的内容或者我们希望模型能够很好生成的内容。然后,它被发送到增强学习的策略中,这是一个调优的语言模型,以根据提示生成适当的输出。随着初始大语言模型的输出,这被传递到生成标量奖励值的奖励模型中。

这是在一个反馈循环中完成的,基于它接受训练的人工标注,奖励模型可以分配奖励,在资源允许的情况下尽可能多地使用样本,因此,它会随着时间的推移而更新。

Kullback-Leibler(KL)是两个概率分布之间差异的度量,可以用来度量初始大模型输出与调优后的大模型输出。因此,使用 RLHF,KL 可以用来比较当前策略的概率分布和代表期望行为的参考分布。

此外,RLHF 可以对最近的政策优化微调。近似策略优化(PPO)是一种流行的强化学习算法,由于其能够在具有高维状态和行为空间的复杂环境中有效地优化策略,因此经常用于RLHF的微调过程中。PPO 有效地平衡了训练过程中的探索和开发,这对于必须从人类反馈和试错探索中学习的 RLHF Agent来说非常重要。在 RLHF 中使用 PPO 可以导致更快和更强大的学习,因为智能 Agent 能够从人类反馈和强化学习中学习。

在一定程度上,这个过程阻止了语言模型产生胡言乱语。换句话说,它驱使模型专注于高回报,从而最终导致它产生一个准确的文本结果。

6. RLHF之偏差考量及缓解策略

大型模型已经被部署在各种应用程序中,从搜索引擎(Bing Chat,Google’s Bard)到文本文档(Microsoft Office co-Pilot、Google Docs、Notion)等。那么,RLHF 能否给模型增加偏差呢?

答案是肯定的。就像任何有人工输入的机器学习方法一样,RLHF 有可能引入偏差。RLHF 可能引入不同形式的偏差如下:

  • 选择偏差:RLHF 依赖于人类评估者的反馈,他们可能有自己的偏见和偏好,可以限制他们的反馈到他们可以涉及的主题或情况。因此,Agent 可能不会接触到它在现实世界中将会遇到的真实行为和结果的范围。
  • 确认偏差:人类评估者可能更有可能提供反馈,确认他们现有的信念或期望,而不是提供客观的反馈。这可能导致代理因为某些行为或结果而得到加强,而这些行为或结果在长期来看可能不是最理想的结果。
  • 评分者之间的差异:不同的人类评价者可能对 Agent 的响应质量有不同的意见或判断,从而导致 Agent 收到的反馈不一致。这可能使得有效训练 Agent 变得困难,并且可能导致性能不理想。
  • 有限的反馈:人工评估者可能无法提供关于 Agent 所有方面的反馈,从而导致 Agent 的学习差距和在某些情况下潜在的次优结果。

针对RLHF可能存在的不同类型偏差,缓解策略如下:

  • 选择不同的评估者:选择具有不同背景和观点的评估者可以帮助减少反馈中的偏见。可以通过招募来自不同人口群体、地区或行业的评估人员来实现。
  • 共识评价:使用共识评价,即多个评价者就同一项任务提供反馈,有助于减少个别偏见的影响,并提高反馈的可靠性。这几乎就像是评估中的“规范化”。
  • 校正评估者:通过向评价者提供关于如何提供反馈的培训和指导来校准评价者,可有助于提高反馈的质量和一致性。
  • 评价反馈过程:定期评价反馈过程,包括反馈的质量和训练过程的有效性,可有助于查明和解决可能存在的偏差。
  • 评估Agent的表现:定期评估Agent在各种任务和不同环境中的表现,可以帮助确保它不会过于适合特定的示例,并能够推广到新的情况。
  • 平衡反馈:在人工评价者的反馈与其他反馈来源(如专家反馈)之间取得平衡,有助于减少反馈中偏差的影响,并提高训练数据的整体质量。

7. 强化学习与监督式学习中微调的对比

下图描述了强化学习与监督式学习中微调的主要区别:

既然增强学习需要人工反馈提供的标签,那为什么我们不只是把这些标签和监督式学习本身一起使用呢?

监督式学习的重点是缩小真实标签和模型输出之间的差距。在这里,它意味着模型只是记住等级,并可能产生胡言乱语的输出,因为它的重点是最大限度地提高它的等级。这就是 RL 中奖励模型所做的,是 KL 差异可以提供帮助的地方。在这种情况下,如果联合训练两个损失函数,一个用于排名,一个用于输出。那么,这个场景就只适用于问答任务,而不适用于 ChatGPT 或其他会话模型的每种会话模式。

GPT 使用交叉熵损失函数对下一个词进行预测。然而,RLHF 不使用标准损失函数,而是使用客观函数来帮助模型更好地服务于使用 RLHF 的任务,例如信任和安全。此外,因为否定一个词可以完全改变文本的意思,它在这里不是用武之地。根据经验,RLHF 的性能往往优于监督式学习。监督式学习使用标注级损失,例如可以在文本段落中求和或取平均值,而 RL 将整个文本段落作为一个整体来考虑。

最后,二者不是互斥的,可以首先使用 SL 进行微调,然后使用 RLHF 进行更新。

8. RHLF之潜在演进方向——RLAIF

Anthroic 的对话助手 Claude 采用了一种不同的方法来处理 RLHF,即从人工智能反馈 (RLAIF) 中创建 RLHF V2,并去掉了人工反馈。

RLAIF 利用人工智能系统协助监管其他人工智能的可能性,以及提高监管的可扩展性。通过减少回避式响应,减少有益和无害之间的紧张关系,并鼓励 AI 解释对有害请求的反对意见,从而改进对无害 AI 助手的训练,使控制人工智能行为的原则及其实现更加透明。通过消除在改变目标时收集新的人工反馈标签的需要,来减少迭代时间。

RLAIF 允许模型解释为什么它拒绝提供一个答案,这是基于它的思维链推理能力。这使我们能够洞察模型的推理过程。使用 RLAIF,不需要人工标签,它大大降低了成本和人力。它允许 LLM “反映”通过坚持一组原则或章程而产生的输出。人工智能将审查自己的响应,并确保他们遵守基本原则。

具体实现包括两个步骤:监督式学习阶段和 RLAIF 阶段,系统参考架构如下:

在监督式学习阶段,AI系统首先采用一套自我完善的规则,包括AI对各种大范围提示的答复,然后修订这些关于原型的初步答复。首先,检索预先训练LLM模型的响应,其中模型的响应可能包含有害元素。随后,要求模型使用一套既定的原则来评估自己的响应。然后,提示模型根据其提供的评估修改其响应。这两个步骤也称为“批评和修订”管道,将在n次迭代中重复执行。最后,使用由有害提示生成的修订响应的所有迭代对预先训练好的LLM进行微调。

此外,重要的是要包括一组有用的提示和它们各自的响应,以确保经过微调的模型仍然是有用的,也就是这个阶段的“监督”性质。这个修改后的模型被称为监督式学习AI宪章(SL-CAI)模型。

在强化学习阶段,需要AI系统探索对成千上万个提示的可能反应,并使用思维链推理来确定最符合宪章原则的行为。首先,利用前一阶段开发的SL-CAI模型为有害提示生成响应对。然后,引入一个反馈模型,它本质上是一个预训练的语言模型,用于评估一对反馈,并根据已建立的原则选择危害较小的反馈。反馈模型的归一化对数概率用于训练偏好模型或奖励模型。最后,使用这一奖励模型作为奖励函数,使用近似策略优化(PPO)训练SL-CAI模型。这就产生了最终的强化学习人工智能宪章(RL-CAI)模型。

9. 小结

RLHF的主要任务是生成奖励模型,通过人类偏好为输入文本分配标量奖励,并使用增强学习对大型语言模型进行微调。同时,RLHF可能会产生偏差,需要使用相应的缓解策略。通过强化学习和监督式学习中微调的对比,可以了解到二者结合使用的可能性,也就是RLHF的一个潜在发展方向——RLAIF。

【参考资料与关联阅读】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 喔家ArchiSelf 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
新智元
2023/09/09
4220
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代
根据人类反馈的强化学习(RLHF)是一种对齐语言模型与人类偏好的有效技术,而且其被认为是 ChatGPT 和 Bard 等现代对话语言模型的成功的关键驱动因素之一。通过使用强化学习(RL)进行训练,语言模型可以优化用于复杂的序列级目标 —— 使用传统的监督式微调时,这些目标不是轻易可微的。
机器之心
2023/09/08
6500
RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代
【论文解读】RLAIF基于人工智能反馈的强化学习
人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐,但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF) -一种由现成的LLM代替人类标记偏好的技术,论文发现它们能带来相似的改善。在总结任务中,人类评估者在70%的情况下更喜欢来自RLAIF和RLHF的生成,而不是基线监督微调模型。此外,当被要求对RLAIF和RLHF总结进行评分时,人们倾向于两者评分相等。这些结果表明,RLAIF可以产生人类水平的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。
合合技术团队
2023/10/27
9200
【论文解读】RLAIF基于人工智能反馈的强化学习
反思RLHF,如何更加高效训练有偏好的LLM
当前 LLM 蓬勃发展,各种模型和方法层出不穷,但总体看来,但是朝着以下3点目标前进:
ShuYini
2023/11/20
1.5K0
反思RLHF,如何更加高效训练有偏好的LLM
LLM成功不可或缺的基石:RLHF及其替代技术
在讨论 LLM 时,我们总是会涉及一个名为「使用人类反馈的强化学习(RLHF)」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分,因为它可以将人类偏好整合到优化图景中,从而提升模型的有用性和安全性。
机器之心
2023/10/08
7940
LLM成功不可或缺的基石:RLHF及其替代技术
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
当前,不论是GPT-4,还是Llama 2等大语言模型,背后的机制都是人类反馈强化学习(RLHF)。
新智元
2023/08/07
3310
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1090
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
RLAIF:一个不依赖人工的RLHF替代方案
LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。
zenRRan
2023/09/11
1.5K0
RLAIF:一个不依赖人工的RLHF替代方案
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
5860
【强化学习】Reward Model(奖励模型)详细介绍
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级
在ChatGPT引领的大型语言模型时代,一个绕不过去的话题就是「基于人类反馈的强化学习」(RLHF),不仅提升了语言模型的性能,也将人类社会的价值观注入到模型中,使得语言模型能够帮助用户解决问题,提高模型的安全性。
新智元
2023/09/19
9510
RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。 RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。 RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间,与人类价值观保持一致,并做出更明智和道德的选择。RLHF 已经在从自然语言处理和推荐系统到机器人和自动驾驶汽车的广泛领域中找到了应用。通过将人类反馈纳入训练过程,RLHF有能力提高模型性能,增强用户体验,并为人工智能技术的负责任发展做出贡献。
致Great
2024/01/18
4.2K0
RLHF 和 DPO:简化和增强语言模型的微调
ChatGPT与openai
ChatGPT是openai推荐的优化对话的语言模型,是openai使用来自人类反馈的强化学习(RLHF)训练了这个模型,使用与InstructGPT相同的方法,但在数据收集设置上略有不同。
jack.yang
2025/04/05
840
ChatGPT与openai
大模型微调:RHLF与DPO浅析
大模型应用性能的提升不仅在于其预训练,而微调的作用也非常显著。对于多数从事大模型应用领域的团队而言,微调是一个核心的工作之一,为专门任务完善大模型并确保其产出符合我们的预期。
半吊子全栈工匠
2024/11/07
3820
大模型微调:RHLF与DPO浅析
ChatGPT发展历程、原理、技术架构详解和产业未来
去年12月1日,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
边缘计算
2023/02/23
1.3K0
ChatGPT发展历程、原理、技术架构详解和产业未来
ChatGPT背后的模型
InstructGPT语言模型,是一个比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、毒性更小。InstructGPT 模型循环迭代的过程当中,加入了人类反馈进行训练。
算法一只狗
2023/01/18
6630
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
近年来,大语言模型(Large Language Model, LLM)取得了突破性的进展,GPT-3、GPT-4 以及其他基于 Transformer 架构的模型在自然语言处理(NLP)任务中展现出卓越的性能。然而,尽管这些模型具备强大的生成能力,它们的输出仍然可能存在不符合人类期望的情况,比如生成误导性信息、带有偏见的内容,或者在对话中缺乏连贯性。
编程小妖女
2025/02/03
1660
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
如何启用和使用ChatGPT4的详细步骤演示
讲到大语言模型的优势,一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征。
用户10882970
2023/12/18
2.2K0
谷歌研究科学家:ChatGPT 秘密武器的演进与局限
以下文章来源于OneFlow ,作者OneFlow社区 来源|TalkRL OneFlow 编译 翻译|徐佳渝、贾川 同样是基于GPT预训练模型,为什么ChatGPT的效果要远远超出GPT-3等前几代模型?答案已经揭晓,成就ChatGPT的秘密武器在于RLHF,也就是人类反馈的强化学习。 在预训练阶段,GPT模型学习关于这个世界的一切,而在RLHF阶段,ChatGPT更关注的让模型输出正确、有益的恰当结果,并对结果不断进行微调。 具体而言,RLHF阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对
AI科技评论
2023/04/19
2780
谷歌研究科学家:ChatGPT 秘密武器的演进与局限
人类反馈强化学习(RLHF)
人类反馈强化学习(RLHF)是一种结合传统强化学习与人类主观判断的机器学习范式。其核心思想是通过人类对智能体行为的直接评价(如偏好排序、评分或修正),动态调整模型的优化目标,使智能体在复杂、模糊的任务中逐步逼近人类期望的行为模式。与传统强化学习依赖预设的数学化奖励函数不同,RLHF 将人类视为奖励信号的“活体来源”,尤其适用于两类场景:
jack.yang
2025/04/05
2000
人类反馈强化学习(RLHF)
【前沿速递】17所高校32位作者联合综述最新技术:RLHF 的开放问题和技术限制(34页)
来自人类反馈的强化学习(RLHF)已成为一种重要的技术,使机器学习模型适应难以指定的目标。特别是,RLHF 是训练最先进的大型语言模型(LLM)的关键组成部分,例如 OpenAI 的 GPT-4、Anthropic 的 Claude 、Google 的 Bard,以及 Meta 的 Llama 2-Chat。RLHF 和类似的方法使法学硕士不仅可以对其训练数据的分布进行建模,还可以调整文本的分布,以便人类评估者对模型输出给予更高的评价。我们使用 RLHF 来指代结合了三个相互关联的过程的方法:反馈收集、奖励建模和策略优化。图 1(上)说明了此设置。反馈过程引起人类对模型输出的评估。奖励建模过程使用监督学习来训练模仿这些评估的奖励模型。策略优化过程优化人工智能系统,以产生从奖励模型中获得有利评估的输出。当效果良好时,与演示、手动设计的奖励函数或其他指定或学习奖励的方法相比,RLHF 可以相对轻松地识别“良好”行为。RLHF 的根源在于经济学的显示偏好理论。显示偏好理论形式化了这样一种想法,即人们可以从演员的行为中了解他们的目标。它很早就被机器学习领域采用,用于人机交互和强化学习的应用。今天使用的 RLHF 标准方法由 Christiano 等人于 2017 年推广。[2017],它在引导深度强化学习社区对基于反馈的方法的关注方面发挥了关键作用。RLHF 已成为部署前微调 LLM 的主要策略,目标是生成符合人类目标的安全模型。尽管如此,使用 RLHF 进行微调的部署模型还是暴露了敏感的私人信息,幻觉的不真实内容 。传播有利于特定政治意识形态的偏见,表现出阿谀奉承的反应,并表达了不良偏好(例如,不想成为 关闭)。RLHF 也没有使模型能够抵御越狱(即颠覆系统通常运行的约束)或即时注入/提取的对抗性攻击。研究和产品团队都知道其中许多缺点,但很少有公共工作将 RLHF 的问题正式系统化。在本文中,我们调查了 RLHF 面临的挑战,以促进行业从业者的常识并确定进一步研究的开放问题。我们主要关注法学硕士的申请。我们做出三项贡献:
深度强化学习实验室
2023/08/18
6840
【前沿速递】17所高校32位作者联合综述最新技术:RLHF 的开放问题和技术限制(34页)
推荐阅读
相关推荐
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档