前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >强化学习微调(ReFT)来了,AI不再只是“记住答案”!

强化学习微调(ReFT)来了,AI不再只是“记住答案”!

原创
作者头像
算法一只狗
发布于 2025-03-30 13:47:43
发布于 2025-03-30 13:47:43
1670
举报
文章被收录于专栏:算法一只狗算法一只狗

在为期12天的OpenAI活动中,第二天发布了一项名为“强化学习微调”(Reinforcement Fine-Tuning, ReFT)的技术。这一方法不同于传统的监督微调(SFT),不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参考答案,提升其推理能力,使其在特定领域中学会如何高效地找到正确答案。

可以将强化学习微调理解为赋予AI一套复杂的规则和思考框架,让其通过反复实践和推理,逐步掌握解决问题的有效方法。这种训练方式主要依赖两个核心数据集:微调数据集和测试数据集。模型首先通过微调数据集进行学习,然后利用测试数据集验证推理能力,找出不足之处并进行针对性调整。通过这种迭代式的自我训练与验证,模型的推理能力不断优化,最终在特定领域内达到专业水平。

强化学习微调不仅提升了模型在同类问题上的适应能力,还显著增强了其在特定领域的准确性。例如在法律、保险、医疗、金融和工程等领域,这些任务往往具有明确的“正确答案”,而强化学习微调正是为此类应用量身定制的解决方案。这一技术使得AI能够在复杂任务中展现更强的适应性和专业性,从而推动各行业向高效、精准的智能化方向发展。

OpenAI的强化学习微调步骤

强化学习微调不同于传统的监督微调方法,它是一种基于强化学习的微调策略。目前,OpenAI计划在明年正式推出这一技术,用户可前往官网填写申请表以尝试。

1. 选择微调方法和基础模型

在OpenAI官网,选择“Reinforcement”作为微调方法,并选定基础模型(如o1-mini)。

2. 训练数据准备

用户需准备自己的数据集,并以JSONL格式存储。在演示案例中,使用的是“遗传病”数据集,该数据集包含患者症状和已知的致病基因。数据通常被划分为训练数据集和验证数据集,以确保模型最终能在验证数据集上取得良好的收敛效果。

3. 设定评分机制

强化学习微调需要一个评估器来衡量模型生成结果的优劣。评分机制的核心在于比较模型输出与正确答案的差距,并给出0到1的评分,分数越高代表预测越精准。用户可以选择现成的评分器,也可以自行定义评分规则。

4. 配置训练参数

用户可设置训练参数,如批次大小(batch size)、学习率(learning rate)和训练轮次(epochs)等。当然,也可以使用默认参数进行训练。

5. 启动训练并监测结果

在训练过程中,用户可在控制面板中查看模型的微调进度及最终评估结果。实验显示,新微调的模型得分达到31%,已超越基础推理模型o1的效果。

Demo局限性分析

尽管OpenAI的演示案例展示了强化学习微调的潜力,但也暴露了一些局限性。例如,“遗传病”分类任务在医学中虽然重要,但其诊断往往基于明确的基因指标和标准化流程,因此相对简单。深度学习模型仅需少量数据即可自动学习该诊断过程,类似于构建一个决策树。

此外,该演示案例回避了强化学习中最具挑战性的部分——奖励建模。示例中的评分规则较为简单,正确答案得分1,错误答案得分0。然而,在现实应用中,许多任务并没有固定的标准答案,例如科学研究、工程设计和策略决策等。因此,强化学习微调在处理这些问题时,可能需要更复杂的奖励机制与更强的泛化能力。

强化学习微调的技术背景

强化学习微调最早可能源自2024年的ACL会议论文,由字节跳动团队提出。其核心思想是结合下游微调(Fine-Tuning)与强化学习(Reinforcement Learning),以克服传统监督学习的局限。

在传统的下游微调任务中,即使采用带有思维链(CoT)标注的数据进行训练,也只能让模型学习到单一的推理路径。而强化学习微调则引入了两阶段训练方案:

  1. 预热阶段(Warm-up)
    • 在CoT数据上进行监督微调训练,使模型具备初步的推理能力。
    • 此阶段不追求极高的准确率,而是确保模型能够基本理解任务。
  2. 强化学习阶段
    • 采用在线强化学习(如PPO算法)进一步微调。
    • 模型针对同一问题生成多种推理路径,并根据答案匹配程度给予奖励,从而学习更丰富的推理方式。

监督微调 vs. 强化学习微调

从实验结果来看,强化学习微调在多个数据集上的表现均优于传统的监督微调方法。尤其是在涉及复杂推理的任务中,强化学习微调能生成多条推理路径,并通过多数投票或重新排序等策略进一步提升模型的准确性与泛化能力。

结语

强化学习微调本质上是强化学习与微调技术的融合,尽管两个概念本身并不新鲜,但其结合所产生的效果远超预期。连OpenAI CEO 奥特曼(Sam Altman)都曾评价该技术为2024年最重要的AI技术突破之一。只需少量训练数据,便能让模型在特定领域达到专业水准。

随着研究的深入,强化学习微调有望在未来的AI发展中发挥更大作用,为多个行业带来智能化升级,推动大模型从“记忆型”向“推理型”演进。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OpenAI把强化学习的门槛给打下来?
为期12天的OpenAI,在第二天的时候发布了一个名叫“强化学习微调”的技术。不同于传统的监督微调(SFT),强化微调不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参考答案,强化模型的推理能力,使其在特定领域中学会如何找到正确答案。
算法一只狗
2024/12/23
4020
OpenAI把强化学习的门槛给打下来?
【强化学习】Reward Model(奖励模型)详细介绍
Reward Model(奖励模型)是近年来在深度学习和强化学习领域广泛应用的一种技术,特别是在生成式模型(如大型语言模型)和强化学习(RL)结合的场景中,起到了至关重要的作用。它在多个领域的应用中,尤其是在自然语言处理(NLP)和数学推理领域,展现了显著的潜力。
不去幼儿园
2025/03/22
2820
【强化学习】Reward Model(奖励模型)详细介绍
大模型训练全解析:预训练、微调、强化学习,一步到位!
2025年初,随着DeepSeek的迅速走红,公众对LLM(大语言模型)的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而,这些看似神奇的模型背后究竟隐藏着什么秘密?接下来,我们将深入探讨LLM的构建、训练和微调过程,揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。
福大大架构师每日一题
2025/03/18
4010
大模型训练全解析:预训练、微调、强化学习,一步到位!
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
1460
推理大模型的后训练增强技术-强化学习篇
白话科普 | 深度解析AI自学习与强化学习:大模型背后的“黑科技”,如何让AI更聪明?深入浅出DeepSeek等大模型特殊技能
在人工智能(AI)发展的浪潮中,大语言模型(LLM)无疑是最耀眼的明星之一。从最初的简单规则系统到如今能够生成高质量文本、解决复杂问题的大规模神经网络,AI的能力已经达到了令人惊叹的高度。然而,随着技术的进步,我们也逐渐意识到传统方法的局限性——尤其是在数据驱动的预训练阶段。互联网上的文本数据正在被快速消耗殆尽,而单纯依赖更多数据堆叠的方式已无法持续推动性能提升。正是在这种背景下,强化学习是AI自学习的一种方法(Reinforcement Learning, RL),作为一种新兴的后训练方法,开始崭露头角,并迅速成为提升大模型性能的关键手段。
AI研思录
2025/02/20
2770
白话科普 | 深度解析AI自学习与强化学习:大模型背后的“黑科技”,如何让AI更聪明?深入浅出DeepSeek等大模型特殊技能
【论文解读】RLAIF基于人工智能反馈的强化学习
人类反馈强化学习(RLHF)可以有效地将大型语言模型(LLM)与人类偏好对齐,但收集高质量的人类偏好标签是一个关键瓶颈。论文进行了一场RLHF与来自人工智能反馈的RL的比较(RLAIF) -一种由现成的LLM代替人类标记偏好的技术,论文发现它们能带来相似的改善。在总结任务中,人类评估者在70%的情况下更喜欢来自RLAIF和RLHF的生成,而不是基线监督微调模型。此外,当被要求对RLAIF和RLHF总结进行评分时,人们倾向于两者评分相等。这些结果表明,RLAIF可以产生人类水平的性能,为RLHF的可扩展性限制提供了一个潜在的解决方案。
合合技术团队
2023/10/27
8720
【论文解读】RLAIF基于人工智能反馈的强化学习
强化学习在生成式预训练语言模型中的研究现状简单调研
本文旨在深入探讨强化学习在生成式预训练语言模型中的应用,特别是在对齐优化、提示词优化和经验记忆增强提示词等方面的具体实践。通过对现有研究的综述,我们将揭示强化学习在提高生成式语言模型性能和人类对话交互的关键作用。虽然这些应用展示了巨大的潜力,但也将讨论现有方法的挑战和可能的未来发展方向。
Ranlychan
2024/01/10
4690
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
你好,我是喵喵侠。众所周知,在AI人工智能领域,大模型推理能力的突破,一直是技术革新的核心挑战,而DeepSeek-R1 的横空出世,凭借其基于纯强化学习的多阶段训练框架,获得了与OpenAI o1系列模型的性能比肩的能力。自此以后,各大AI厂商都推出了自家的推理模型,这场由算法架构创新引发的推理革命,或将重新定义人类与智能体协同进化的未来图景。
喵喵侠
2025/03/12
1600
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」:
新智元
2025/02/15
1000
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
通过预测下一个标记进行语言模型预训练,已被证明在扩展计算规模方面是有效的,但它受限于可用训练数据的数量。扩展强化学习(RL)为人工智能的持续改进开辟了新的途径,大语言模型(LLMs)有望通过学习利用奖励进行探索,来扩展其训练数据。然而,先前已发表的研究并未取得具有竞争力的成果。有鉴于此,我们在此报告Kimi k1.5的训练实践,这是我们最新的通过强化学习训练的多模态大语言模型,内容包括其强化学习训练技术、多模态数据方法以及基础设施优化。长上下文扩展和改进的策略优化方法,是我们方法的关键要素,它们构建了一个简单而有效的强化学习框架,且无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术。值得注意的是,我们的系统在多个基准测试和模态中,均取得了最先进的推理性能,例如在AIME竞赛中得分为77.5、在MATH 500测试中达到96.2、在Codeforces平台上位于第94百分位、在MathVista测试中为74.9,与OpenAI的o1模型相当。此外,我们提出了有效的长到短(long2short)方法,利用长思维链(long-CoT)技术改进短思维链(short-CoT)模型,从而在短思维链推理方面取得了领先成果,比如在AIME竞赛中得分为60.8、在MATH500测试中达到94.6、在LiveCodeBench测试中为47.3,大幅超越了现有的短思维链模型,如GPT-4o和Claude Sonnet 3.5(提升幅度高达550%)。
码事漫谈
2025/01/24
1990
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
立委
2025/02/28
1170
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
2570
DeepSeek-R1:强化学习驱动的LLM推理能力提升
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
近年来,大语言模型(Large Language Model, LLM)取得了突破性的进展,GPT-3、GPT-4 以及其他基于 Transformer 架构的模型在自然语言处理(NLP)任务中展现出卓越的性能。然而,尽管这些模型具备强大的生成能力,它们的输出仍然可能存在不符合人类期望的情况,比如生成误导性信息、带有偏见的内容,或者在对话中缺乏连贯性。
编程小妖女
2025/02/03
1160
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
深度解析DeepSeek R1:人工智能领域的中国创新范式
在全球人工智能(AI)技术激烈竞争的背景下,中国科技企业正以独特的创新路径参与这场变革。DeepSeek R1的诞生,不仅标志着中国在通用人工智能(AGI)领域的技术突破,更开创了一种“低成本、高效率、强开放”的研发范式。作为首个完全基于强化学习(Reinforcement Learning, RL)驱动推理进化的AI系统,R1通过算法创新、训练策略优化、资源高效利用及开源生态构建,重新定义了AI技术发展的可能性。本文将从核心技术突破、训练方法论、生态影响及产业价值四个维度,系统剖析这一划时代成果的技术逻辑与战略意义。
用户7353950
2025/02/05
1.6K0
深度解析DeepSeek R1:人工智能领域的中国创新范式
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.1K0
深入了解Deepseek模型的最佳三篇论文
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
谷歌团队的最新研究提出了,用大模型替代人类,进行偏好标注,也就是AI反馈强化学习(RLAIF)。
新智元
2023/09/09
4020
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
突破性创新!无服务器强化微调技术问世,仅需少量数据即可实现性能提升,效率高达DeepSeek和o1的三倍以上。
Predibase近日推出了首个端到端强化微调平台(RFT),该平台与传统依赖大量标注数据的监督式微调不同,采用奖励机制和自定义函数来实现持续的强化学习。RFT支持无服务器和端到端训练,用户仅需通过浏览器设定微调目标并上传数据,即可简化原本复杂的大模型微调流程,实现从数据管理到模型训练再到应用部署的一站式操作。
福大大架构师每日一题
2025/03/21
680
突破性创新!无服务器强化微调技术问世,仅需少量数据即可实现性能提升,效率高达DeepSeek和o1的三倍以上。
图解DeepSeek R1训练流程
这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列,旨在通过强化学习(Reinforcement Learning, RL)提升大型语言模型(Large Language Models, LLMs)的推理能力。具体来说,论文试图解决以下几个问题:
致Great
2025/02/08
2630
图解DeepSeek R1训练流程
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025/02/28
2730
万字长文详解DeepSeek核心技术
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/18
1.2K0
万字长文详解DeepSeek核心技术
推荐阅读
OpenAI把强化学习的门槛给打下来?
4020
【强化学习】Reward Model(奖励模型)详细介绍
2820
大模型训练全解析:预训练、微调、强化学习,一步到位!
4010
推理大模型的后训练增强技术-强化学习篇
1460
白话科普 | 深度解析AI自学习与强化学习:大模型背后的“黑科技”,如何让AI更聪明?深入浅出DeepSeek等大模型特殊技能
2770
【论文解读】RLAIF基于人工智能反馈的强化学习
8720
强化学习在生成式预训练语言模型中的研究现状简单调研
4690
论文精读:DeepSeek-R1是如何通过强化学习增强LLM推理能力的?
1600
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
1000
《论文翻译》KIMI K1.5:用大语言模型扩展强化学习
1990
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
1170
DeepSeek-R1:强化学习驱动的LLM推理能力提升
2570
大语言模型中的 RLHF:强化学习如何优化 AI 交互体验
1160
深度解析DeepSeek R1:人工智能领域的中国创新范式
1.6K0
深入了解Deepseek模型的最佳三篇论文
1.1K0
RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平
4020
突破性创新!无服务器强化微调技术问世,仅需少量数据即可实现性能提升,效率高达DeepSeek和o1的三倍以上。
680
图解DeepSeek R1训练流程
2630
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
2730
万字长文详解DeepSeek核心技术
1.2K0
相关推荐
OpenAI把强化学习的门槛给打下来?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文