在为期12天的OpenAI活动中,第二天发布了一项名为“强化学习微调”(Reinforcement Fine-Tuning, ReFT)的技术。这一方法不同于传统的监督微调(SFT),不仅仅是让模型“记住答案”,而是通过高质量的任务数据与参考答案,提升其推理能力,使其在特定领域中学会如何高效地找到正确答案。
可以将强化学习微调理解为赋予AI一套复杂的规则和思考框架,让其通过反复实践和推理,逐步掌握解决问题的有效方法。这种训练方式主要依赖两个核心数据集:微调数据集和测试数据集。模型首先通过微调数据集进行学习,然后利用测试数据集验证推理能力,找出不足之处并进行针对性调整。通过这种迭代式的自我训练与验证,模型的推理能力不断优化,最终在特定领域内达到专业水平。
强化学习微调不仅提升了模型在同类问题上的适应能力,还显著增强了其在特定领域的准确性。例如在法律、保险、医疗、金融和工程等领域,这些任务往往具有明确的“正确答案”,而强化学习微调正是为此类应用量身定制的解决方案。这一技术使得AI能够在复杂任务中展现更强的适应性和专业性,从而推动各行业向高效、精准的智能化方向发展。
强化学习微调不同于传统的监督微调方法,它是一种基于强化学习的微调策略。目前,OpenAI计划在明年正式推出这一技术,用户可前往官网填写申请表以尝试。
在OpenAI官网,选择“Reinforcement”作为微调方法,并选定基础模型(如o1-mini)。
用户需准备自己的数据集,并以JSONL格式存储。在演示案例中,使用的是“遗传病”数据集,该数据集包含患者症状和已知的致病基因。数据通常被划分为训练数据集和验证数据集,以确保模型最终能在验证数据集上取得良好的收敛效果。
强化学习微调需要一个评估器来衡量模型生成结果的优劣。评分机制的核心在于比较模型输出与正确答案的差距,并给出0到1的评分,分数越高代表预测越精准。用户可以选择现成的评分器,也可以自行定义评分规则。
用户可设置训练参数,如批次大小(batch size)、学习率(learning rate)和训练轮次(epochs)等。当然,也可以使用默认参数进行训练。
在训练过程中,用户可在控制面板中查看模型的微调进度及最终评估结果。实验显示,新微调的模型得分达到31%,已超越基础推理模型o1的效果。
尽管OpenAI的演示案例展示了强化学习微调的潜力,但也暴露了一些局限性。例如,“遗传病”分类任务在医学中虽然重要,但其诊断往往基于明确的基因指标和标准化流程,因此相对简单。深度学习模型仅需少量数据即可自动学习该诊断过程,类似于构建一个决策树。
此外,该演示案例回避了强化学习中最具挑战性的部分——奖励建模。示例中的评分规则较为简单,正确答案得分1,错误答案得分0。然而,在现实应用中,许多任务并没有固定的标准答案,例如科学研究、工程设计和策略决策等。因此,强化学习微调在处理这些问题时,可能需要更复杂的奖励机制与更强的泛化能力。
强化学习微调最早可能源自2024年的ACL会议论文,由字节跳动团队提出。其核心思想是结合下游微调(Fine-Tuning)与强化学习(Reinforcement Learning),以克服传统监督学习的局限。
在传统的下游微调任务中,即使采用带有思维链(CoT)标注的数据进行训练,也只能让模型学习到单一的推理路径。而强化学习微调则引入了两阶段训练方案:
从实验结果来看,强化学习微调在多个数据集上的表现均优于传统的监督微调方法。尤其是在涉及复杂推理的任务中,强化学习微调能生成多条推理路径,并通过多数投票或重新排序等策略进一步提升模型的准确性与泛化能力。
强化学习微调本质上是强化学习与微调技术的融合,尽管两个概念本身并不新鲜,但其结合所产生的效果远超预期。连OpenAI CEO 奥特曼(Sam Altman)都曾评价该技术为2024年最重要的AI技术突破之一。只需少量训练数据,便能让模型在特定领域达到专业水准。
随着研究的深入,强化学习微调有望在未来的AI发展中发挥更大作用,为多个行业带来智能化升级,推动大模型从“记忆型”向“推理型”演进。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。