Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐

深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐

作者头像
机器之心
发布于 2024-01-17 11:24:36
发布于 2024-01-17 11:24:36
2260
举报
文章被收录于专栏:机器之心机器之心

机器之心专栏

机器之心编辑部

继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大语言模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。

现在,复旦团队进一步挖掘 RLHF 的潜力,重点关注奖励模型(Reward Model)在面对实际应用挑战时的表现和优化途径。

  • Secrets of RLHF in Large Language Models Part I: PPO 论文链接:https://arxiv.org/pdf/2307.04964.pdf
  • Secrets of RLHF in Large Language Models Part II: Reward Modeling 论文链接:https://arxiv.org/abs/2401.06080

复旦团队究竟做了什么?

随着 ChatGPT、GPT-4 等大型语言模型的技术创新和广泛应用,这些模型已成为当下的技术热点,革新了我们与机器互动的方式,为各行各业提供了前所未有的模型支持。这些模型在解决复杂问题、自动生成内容和理解复杂指令方面展现出巨大价值。然而这些模型在在对齐人类价值观和偏好方面,仍有所局限。OpenAI、Anthropic 等研究团队对此的应对策略是深入研究基于人类反馈的强化学习(RLHF),目标是使 AI 系统在价值观上与人类更加一致。

OpenAI 的超级对齐、过程监督和 Anthropic 的宪法式 AI 等最新研究,都进一步强调了 AI 对齐的重要性。这些概念不仅关注于如何让 AI 回答更加符合人类的文化和审美标准,而且还关注于如何让 AI 在更广泛的伦理和价值观层面与人类保持一致。这些进展不仅展示了科学上的挑战,也体现了哲学上的探索。它们在确保 AI 的目标与人类社会真正对齐的过程中起到了关键作用,对未来人类文明的发展至关重要。

为了使大模型与人类的偏好对齐,RLHF 通过奖励模型(reward model)学习人类的偏好。好的奖励模型能够反映人类的偏好和价值目标,指引大模型充分发挥自身的能力造福社会;反之,坏的奖励模型则歪曲误解人类的偏好,误导大模型滑向不被人类理解和接纳的深渊。因此,奖励模型的设计和实施对于大型语言模型的发展至关重要。

在研究过程中复旦团队曾发现一个有趣的现象,如果按照特定方式选择 hh-rlhf 数据集(Anthropic 公开的有用和无害的人类偏好数据集)中的 70% 数据用于训练奖励模型,这个奖励模型用于 PPO 阶段训练将导致模型无论输入任何内容都只会回复 「免责声明」:

这种现象是 hh-rlhf 数据集中存在大量冲突、模糊数据的结果,这样的冲突会导致奖励模型无法准确反映人类的偏好,语言模型无法捕捉到一致的奖惩,便采用这种万金油策略来应对奖励模型。而复旦团队所做的第一个工作便是揭露了 hh-rlhf 数据集中存在大量噪音数据的现象。通过去除数据集中的噪音,可以使得模型更加贴合人类的喜好。正如下述例子中所看到的:

除了构造出对于训练 RM 来说更加优质的数据,还可以从 RM 本身出发, 适当改变 RM 的选择策略等,使得 RM 变的更好,进而使得 LLM 能够更贴切人类的喜好,这便是复旦团队所做的第二个工作。团队提出了使用对比学习、元学习的方式,很大程度提高了 RM 对于数据好坏的甄别的能力,RM 的改进直接使得 LLM 变得更加符合人类的需求。

通过对比学习后的 RM 能够指导 LLM 回答问题更加精确,更符合人类价值观偏好。比如在遇到有害问题时,优化前的 LLM 只会拒绝回答问题,但是优化后的 RM 能够更具体的回答有害的地方,给出更符合人类价值观的回答,正如下述例子所看到的:

上述例子中优化前的 LLM 没有按照用户的指示回答问题,而是说它不能理解或回答问题,这是不准确的,因为作为人工智能,它能够理解并根据输入生成语言。这个回答不能解决用户的问题,也没有帮助。另一方面,对比学习优化后的 LLM 选择不提供表示笨的词语,相反,它通过强调支持孩子的重要性并认识到他们独特的优势和劣势,提供了一种建设性的方法。这种回应是有帮助的,因为它将对话转向了一种积极和支持儿童发展的方法,这比提供负面标签更有益,危害更小,更符合人类价值观的对齐。

同时复旦团队的研究进一步提升了语言模型在面对不同数据分布的同一任务时的表现,确保了模型能够在相同任务不同数据分布的情况下,也能准确把握和遵循人类价值观,提高了语言模型的泛化能力。

通过 RLHF 的应用,我们可以对模型的输出进行细致的调整,引导模型以更符合人类喜好和期望的方式作出反应。例如,未经 RLHF 优化的模型可能提供的回答简单直接,可能缺乏文艺气息;而经过 RLHF 优化的模型则能提供更加典雅、有文学感的回答。正如下述对比的例子所看到的那样,第一条回答略显生硬,更谈不上「信达雅」,第二条回答却明显更文学气息,更耐人寻味。通过 RLHF,大模型从从生硬的 「机言」跨越到多情的「人语」。

深化 RLHF:奖励模型在大语言模型中的关键作用与挑战

在复旦团队的技术报告中,他们深入探索了 Reinforcement learning from human feedback(RLHF)这一技术。此技术对于使语言模型更好地与人类价值观和意图对齐,产生更有帮助和更无害的回应具有重要意义。同时报告指出了在实际应用中奖励模型所面临的挑战,包括数据集中固有的不正确和模糊的偏好数据,以及奖励模型在特定数据分布上训练时的泛化困难。

为了应对这些挑战,复旦团队从数据和算法两个角度进行了深入研究。在数据方面,通过多个奖励模型的一致性结果来量化偏好的强度,并分析了不同强度偏好数据奖励模型性能的影响。在算法方面,团队探索了如何学习泛化特征以区分选择和拒绝的回应,并利用元学习来促进奖励模型对于超出分布(OOD)数据的泛化能力,以及迭代 RLHF 优化。奖励模型被训练成为人类偏好的代理,但在准确反映人类偏好方面面临着诸多挑战。

此外,复旦团队还开源了包含偏好强度注释的 anthropic-hh 数据集,并使用 GPT-4 标记了验证集。本技术报告所使用的训练代码在项目网站提供。这些研究和开发不仅为 AI 技术树立了新的里程碑,也为未来的研究和应用开辟了新的道路,进一步提升了语言模型的响应质量和适应性。通过这些工作,团队更加深化了对 RLHF 的理解,并为大语言模型的优化开创了新篇章。

项目地址:https://github.com/OpenLMLab/MOSS-RLHF

数据影响力:塑造人类偏好模型的关键因素

复旦团队探索了人类偏好数据的固有噪声问题,并重点研究了偏好强度对奖励模型表现的影响。通过分析不同强度偏好数据对模型性能的影响,团队提出了新的奖励模型方法,以更准确地建模偏好。实验显示,通过这种方法,能够更有效地辨别正确和错误的偏好标注,并提升模型的整体性能。

在这部分中,报告深入探讨了数据如何影响对人类偏好的建模。

通过随机初始化若干奖励模型,训练后在数据集上评估得到对数据集中比较对的细粒度打分,研究团队量化了每个比较对的偏好强度,并分析了不同强度偏好数据对奖励模型性能的影响。上图中展示的是测试集上偏好强度的分布情况,注意到数据集中大约 25% 的数据的偏好强度小于零,并且有很多数据的偏好强度在 0 附近,意味着可能存在不正确的数据偏好标注和低差异的数据。从数据集中抽取了一些真实存在的样本如下:

数据示例一:标签错误(harmful)

chosen 标签对应的回复包含了剥夺人类睡眠的方法,而 rejected 标签对应的回复拒绝了这种对人类有害的回答。从无害性角度来说,rejected 的回复是更安全、更符合人类偏好的。而模型评估 chosen 与 rejected 的平均得分差异(即偏好强度)为 - 6.23,表示更偏好 rejected 回复,这与人类价值偏好一致

数据示例一:标签错误(helpful)

chosen 拒绝回复,rejected 给出了比较详细的解释。从有用性的角度来说,rejected 标签对应的回答是我们更希望看到的。而模型评估 chosen 与 rejected 的平均得分差异为 - 5.85,表现出对 rejected 数据的偏好,与人类价值偏好一致

数据示例二:低差异

对于上述 chosen 和 rejected 对应的回复,差异不大。模型评估 chosen 与 rejected 的平均得分差异为 - 0.0007,表示模型认为这两个回复差别不大,符合人类价值判断

在复旦团队的技术报告中提供了一个关于偏好强度的细致分析(如下左图所示)。

将数据集按照偏好强度从小到大排序,等分成若干组分别计算组内数据的统计信息。可以看出,偏好差异的均值在不同数据组中表现出显著的差异。这反映了数据中存在的不同偏好强度,从几乎无差异到显著差异的偏好都有所体现。同时,偏好差异的标准差显示出一种 U 形模式,这意味着在偏好非常明显或非常不明显的情况下,模型在评估偏好时的不确定性增加。

此外,团队使用 GPT-4 对测试集进行标注,衡量提出的偏好强度量化指标与 GPT4 评估的一致性。

团队发现平均偏好差异与 GPT-4 一致性很高(如下右图所示)。这说明偏好强度指标一定程度上反映了真实世界的人类价值偏好。

这一发现为我们提供了深入理解奖励模型处理不同类型偏好数据的能力,并指出了优化模型时需要考虑的关键方面。通过对偏好差异的这种细致分析,我们能更好地调整奖励模型,以提高其在处理复杂偏好情境时的准确性和鲁棒性。

复旦团队进一步考虑在奖励模型训练过程中对于不同类型的偏好数据施加不同的处理,以及如何通过调整方法来优化模型性能。例如,团队深入分析了不同类型数据对奖励模型的影响,通过识别噪音数据并进行矫正操作(如:标签反转等),发现对偏好强度最低的 10% 样本单独训练,其在测试集上的正确率低于 35%,但是如果将其标签反转,正确率可以接近 65%。

实验表明,对数据集中特定部分进行细致处理,可以显著提高奖励模型在理解复杂人类偏好方面的性能。

在研究中,复旦团队探索了四种去噪方法(flip、margin、soft label 等)来提升奖励模型的性能,它们在实际测试中都显示出了相对于原始方法的改进。团队构造了三个测试集,分别是原始测试集、GPT4 清洗后的测试集以及 GPT4 与原始测试集保持一致的测试子集。这些方法的训练过程如下图中所示。实验显示,原始方法在训练过程中在会有明显的精度下滑,表明了原始数据集存在噪声,会导致训练过拟合。而相比较来说,四种去噪方法在所有测试集上能够保持稳定的精度,表现出比原始方法整体更好的性能。

复旦团队使用 PPO 方法,利用上述四种方法和原始方法训练得到的奖励模型微调 SFT 模型,下图反映了 PPO 训练过程中各项指标的变化情况,注意到 KL 散度和 PPL 指标显示去噪方法能够提供更稳定的 PPO 训练过程。

复旦团队利用 GPT-4-turbo 评估了不同方法经过 PPO 训练得到的语言模型相比较于原始方法的输出质量,特别是在有害提示下的表现,复旦团队的方法显示出了显著的改善。这可能归因于处理有害提示相关的偏好数据中的噪声数据时去噪的有效性。

这些实验成果为如何更好地建模人类偏好提供了新的视角,并指出了未来研究的方向。

对比学习:奖励模型的新视角

在传统的奖励建模中,一个重大挑战是模型通常在「chosen」和「rejected」样本之间表现出高度的特征相似性,如上图所示,通过 t-SNE 获得的特征分布显示,在基线模型中,「chosen」和「rejected」样本特征分布有显著的重叠。这表明模型无法捕捉固有的细微差异 以及数据上的区别。缺乏这样的辨别能力可能会导致表现不佳,因为模型可能很难有效地了解是什么使特定行为或结果变得更好或不更好。

相比之下,对比学习有一些先天的优势:1)有效的特征提取:对比学习通过比较相似和不相似的样本来训练模型,这有助于模型更有效地学习数据中的独特特征。2)强大的泛化能力:通过学习区分不同的样本,使用对比学习训练的模型通常表现出更好的泛化能力,使它们能够更有效地处理新的、看不见的数据。

在 RLHF 的背景下,将对比学习整合到偏好建模中需要仔细对比数据的构造。常有的两种方法则是:① 「chosen」数据 和「rejected」数据的差异对比 ②「chosen」 数据 和 「rejected」数据的直接对比

这两种方法都有其优点和局限性。如果目标是使模型能够更精确地识别和奖励表现明显优于坏数据的好数据,那么第一种方法可能更合适,它允许模型学习区分喜欢和不喜欢。然而,如果目标是增强模型的泛化能力并使其能够有效地区分各种数据,那么第二种方法可能更理想,它使模型能够通过区分选择和拒绝的反应来推断偏好。在实践中,还可以考虑将这两种方法结合起来以获得更好的建模结果。

复旦团队基于已有的两种对比学习方法来探究对比学习在奖励模型中能否区分出数据的差异性。

首先是 SwAV(Swapping Assignments between Views):SwAV 是一种创新的无监督视觉特征学习方法,与传统的对比学习方法不同,它在同时对数据进行聚类的同时,确保了对同一图像不同增强(或「视图」)的聚类分配的一致性。该方法包括创建图像的多个视图,预测每个视图的聚类分配,然后使用交换机制来匹配一个视图的聚类分配与另一个视图的预测。这种方法提高了学习效率,避免了比较每一对可能的图像,从而降低了计算成本。

其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一种利用对比学习来学习句子嵌入的技术。它通过使用相同的句子作为正样本,将它们输入到基于 Transformer 的模型(如 BERT)中以生成嵌入。关键之处在于,相同的句子在不同的 dropout 掩码下进行建模,从而产生了嵌入的变化。负样本则来自不同的句子,使得能够高效而有效地学习句子表示,而无需复杂的数据增强或外部标记数据。

如上图所示,当在奖励模型中引入 SimCSE 后,通过 t-SNE 获得的特征分布显示,选择和拒绝响应之间的特征分布重叠减少了。

复旦团队还利用 GPT-4-turbo 评估了不同方法相比较于基线模型 (普通 PPO 和 SFT 模型) 的输出质量,如下图所示,在有用性和无害性上,模型性能都有一定的提升,表明对比学习确实可以通过让奖励模型增强区分数据之间的差异性的能力来改善模型的能力。

MetaRM:引领奖励模型的未来

复旦团队所提出的目标是,当策略模型的分布随着 PPO 训练而变化时,奖励模型仍应保持对从新分布中采样的响应的区分度。

在本节中,复旦团队提出了 MetaRM,一种通过元学习将原始偏好数据与移位分布对齐的方法。MetaRM 的关键思想是:奖励模型的训练阶段应该最小化原始偏好数据的损失,同时最大化从转移的策略分布中采样的响应之间的差异。

MetaRM 的实现依靠四个关键步骤:首先,计算差异损失来评估策略变化后响应的差异;其次,根据梯度上升方向调整奖励模型参数;接着,使用更新后的参数计算原始偏好对的普通损失;最后,优化原始参数,以沿着梯度下降方向进行调整。总体来说,MetaRM 通过元学习过程调整奖励模型,确保模型在面对策略分布的演变时,仍能够识别和奖励高质量的响应。

总之,MetaRM 的方法是使用元学习训练奖励模型,即使在策略模型的分布发生变化时,也能够识别出质量响应,确保响应仍与原始偏好对齐。

Main Results:实验结果深度剖析 RLHF

内部任务评估

在上表中,展示了与 SFT 模型响应相比,复旦团队所提出方法的获胜、平局和失败比例。回合数代表相应回合的模型生成的响应。

此外,为了更全面地展示复旦团队所提出方法的优越性,表格 3 中展示了与其它基线(包括普通 PPO)对比的最佳性能,还提供了对 GPT-4 和人类评估的评估结果。

外部任务评估

如图所示,即使在 OOD 情景下,复旦团队所提出的方法仍然优于基线。这表明该方法可以在新领域实现对齐,而无需昂贵的偏好标记一组查询,从而显著降低了 RM 培训的培训成本。此外,团队观察到与内部分布评估结果相比,他们所提出的方法在获胜率上略有下降。

总结:深度剖析奖励模型推动 RLHF 新发展

在这篇技术报告中,复旦团队全面审视了强化学习与人类反馈(RLHF)在大语言模型中的应用,并提出了创新的奖励模型方法。团队的研究不仅解决了数据集中存在的不正确和模糊偏好问题,还提高了模型对于新场景的泛化能力。通过复旦团队所提出的方法,语言模型能够更准确地理解和符合人类的意图和价值观,从而产生更有帮助和更安全的回应。复旦团队的工作不仅推动了 RLHF 技术的发展,也为未来的研究者和开发者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference

几千年来,语言一直是连接人类文明的纽带。每一种语言都是一个独特的文化世界,充满着细腻的情感和深厚的历史。在这个数字时代,我们试图通过机器翻译来跨越语言障碍,但仅仅依靠字面意思的翻译往往无法传达语言的真正魅力。就像生活在一个五彩斑斓的世界里,却只能看到黑白的世界。幸运的是,RLHF 在模拟人类偏好方面不仅限于安全和道德;它还可以用来满足人们对高质量翻译的偏好。为了实现这一目标,复旦团队监督微调 LLaMA-7b 模型,赋予其基本翻译功能,然后利用奖励模型来学习人类翻译偏好。最后,复旦团队通过 PPO 算法优化翻译模型,使其生成更符合忠实、表达、优雅偏好的翻译。

以上三个英汉翻译的例子生动地说明了翻译不仅仅是语言的转换,更是文化和情感的传递。在复旦团队技术报告的下一部分中,将努力探索如何将人类偏好和文化理解有效地融入到机器翻译系统中。通过实验和数据分析,期望开发出一种不仅精确而且富有情感深度和文化敏感性的翻译模型。这样的模式不仅可以提高翻译的准确性,而且可以促进不同文化之间的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.” — Steve Jobs

人工智能代理生成代码的过程比最初看起来更加复杂。编程是一门与自然语言的复杂性和可变性相似的学科,提供了多种可能性。然而,如此广泛的选择范围,与稀疏奖励信号的问题并列时,极大地限制了智能体的探索能力。因此,关键的挑战在于在复杂任务的背景下制定稳健有效的探索策略,这是当前研究中尚未解决的问题。未来,复旦团队将进一步阐述人工智能代理如何充分探索代码合成任务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。
机器之心
2024/02/26
3000
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型
---- 新智元报道   编辑:好困 【新智元导读】最近,来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法,无需强化学习即可用于训练语言模型,效果比肩RLHF。 OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。 RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。 目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。
新智元
2023/05/09
7420
无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型
国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver
机器之心专栏 机器之心编辑部 如今,大语言模型如 ChatGPT 已在人们的生产生活中产生广泛影响。作为训练大语言模型的关键步骤,RLHF(Reinforcement Learning from Human Feedback)是一种利用强化学习方法从人类反馈中学习的技术。借助 RLHF 技术,大语言模型可与人类偏好保持对齐并遵循人类意图,满足 “有帮助的”、“诚实的” 和 “无害的” 的 3H(Helpful, Honest, Harmless)标准。然而,当前开源社区中复现 RLHF 技术仍具有较大挑战性
机器之心
2023/05/22
8310
国内首个可复现的RLHF基准,北大团队开源 PKU-Beaver
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
近年来,大语言模型(Large Language Model, LLM)取得了突破性的进展,GPT-3、GPT-4 以及其他基于 Transformer 架构的模型在自然语言处理(NLP)任务中展现出卓越的性能。然而,尽管这些模型具备强大的生成能力,它们的输出仍然可能存在不符合人类期望的情况,比如生成误导性信息、带有偏见的内容,或者在对话中缺乏连贯性。
编程小妖女
2025/02/03
1660
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
人类反馈强化学习(RLHF)
人类反馈强化学习(RLHF)是一种结合传统强化学习与人类主观判断的机器学习范式。其核心思想是通过人类对智能体行为的直接评价(如偏好排序、评分或修正),动态调整模型的优化目标,使智能体在复杂、模糊的任务中逐步逼近人类期望的行为模式。与传统强化学习依赖预设的数学化奖励函数不同,RLHF 将人类视为奖励信号的“活体来源”,尤其适用于两类场景:
jack.yang
2025/04/05
2000
人类反馈强化学习(RLHF)
大语言模型对齐的四种方法!
语言模型的对齐在20年就有相关工作,22年谷歌提出基于指令微调的Flan,Openai则提出InstructGPT,ChatGPT,大模型的对齐工作受到广泛的关注。
zenRRan
2024/05/11
9020
大语言模型对齐的四种方法!
RLHF(人类反馈强化学习)
人类反馈强化学习(RLHF)是一种结合传统强化学习与人类主观判断的机器学习范式。其核心思想是通过人类对智能体行为的直接评价(如偏好排序、评分或修正),动态调整模型的优化目标,使智能体在复杂、模糊的任务中逐步逼近人类期望的行为模式。与传统强化学习依赖预设的数学化奖励函数不同,RLHF 将人类视为奖励信号的“活体来源”,尤其适用于两类场景:
jack.yang
2025/04/05
2830
RLHF(人类反馈强化学习)
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
以 ChatGPT 为代表的大型语言模型(LLM)在各项任务上的高效表现彰显了其广阔发展前景。然而,大模型回复与人类价值偏好经常存在不一致问题。
机器之心
2023/08/07
3950
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
大语言模型技术原理
在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。
NineData
2023/05/30
1.8K0
大语言模型技术原理
大语言模型 RLHF 技术的深度解析:从理论到实践的范式革命
在人工智能领域,人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)已成为大语言模型(Large Language Models)进化过程中最具突破性的技术之一。这项技术不仅重新定义了人机协作的边界,更在模型伦理对齐、输出可控性、应用场景扩展等维度展现出独特价值。本文将通过技术解构、案例分析和代码实现三个维度,深入揭示 RLHF 的核心机理与实践应用。
编程小妖女
2025/02/03
2590
大语言模型 RLHF 技术的深度解析:从理论到实践的范式革命
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。 RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。 RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间,与人类价值观保持一致,并做出更明智和道德的选择。RLHF 已经在从自然语言处理和推荐系统到机器人和自动驾驶汽车的广泛领域中找到了应用。通过将人类反馈纳入训练过程,RLHF有能力提高模型性能,增强用户体验,并为人工智能技术的负责任发展做出贡献。
致Great
2024/01/18
4.2K0
RLHF 和 DPO:简化和增强语言模型的微调
无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型
随着大模型的能力越来越强,如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观,就显得尤为重要。
新智元
2023/09/09
2640
无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
近来,在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而,这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的,其中一些目标和技能设定未必希望被模仿。
机器之心
2023/08/04
5010
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
本文约1200字,建议阅读5分钟本文提出了基于排序的人类偏好对齐方法。 OpenAI 的 ChatGPT 理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。 RLHF 方法不同于以往传统的监督学习的微调方式,该方法首先让模型根据指令提示生成不同的回复,之后通过人工的评价反馈,使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人
数据派THU
2023/04/25
3490
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
当前,不论是GPT-4,还是Llama 2等大语言模型,背后的机制都是人类反馈强化学习(RLHF)。
新智元
2023/08/07
3310
RLHF不是万金油!MIT哈佛等32人研究天团揭露最大弱点,囊括250+论文成果,挑战大模型机制
反思RLHF,如何更加高效训练有偏好的LLM
当前 LLM 蓬勃发展,各种模型和方法层出不穷,但总体看来,但是朝着以下3点目标前进:
ShuYini
2023/11/20
1.5K0
反思RLHF,如何更加高效训练有偏好的LLM
强化学习系列(十)--基于大语言模型的RLHF
推荐文章:《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》
languageX
2024/11/27
6400
每日论文速递 | 使用对比Reward改进RLHF
摘要:来自人类反馈的强化学习(RLHF)是将大语言模型(LLM)与人类偏好相匹配的主流范式。然而,现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型,而奖励模型对各种来源的噪声(如人类标签错误)很脆弱、很敏感,从而使管道变得脆弱。在这项工作中,我们通过在奖励上引入惩罚项来提高奖励模型的有效性,该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤:(1) 离线采样步骤,获取对提示的回应,作为计算基线;(2) 使用基线回应计算对比奖励,并将其用于近端策略优化 (PPO) 步骤。我们的研究表明,对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估,我们的实证结果表明,对比性奖励可以大幅提高 RLHF,而且我们的方法始终优于强基线。
zenRRan
2024/03/25
6350
每日论文速递 | 使用对比Reward改进RLHF
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
模型如 ChatGPT 依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic 推出了 Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI 的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于 LLMs 显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
机器之心
2024/02/28
2560
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
5890
【强化学习】Reward Model(奖励模型)详细介绍
推荐阅读
相关推荐
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档