部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >【Deepseek】DeepSeek-R1诞生过程

【Deepseek】DeepSeek-R1诞生过程

作者头像
云帆沧海
发布2025-02-13 09:48:08
发布2025-02-13 09:48:08
1300
举报
文章被收录于专栏:编程杂记编程杂记

本博客参考Deepseek开源论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

在这里插入图片描述
在这里插入图片描述

1.纯强化学习训练的语言模型 DeepSeek-R1-Zero

研究者首先提出了一个完全基于强化学习(RL)训练的模型DeepSeek-R1-Zero,该模型不依赖任何有监督微调(SFT)数据。通过RL训练,DeepSeek-R1-Zero展现出了许多强大而有趣的推理行为,如自我验证、反思、生成长推理链等。这标志着纯RL训练语言模型是可行的,为未来研究指明了方向。 DeepSeek-R1-Zero采用了团队此前提出的GRPO(Group Relative Policy Optimization)算法进行训练。

与传统RL算法相比,GRPO不需要与策略模型同等大小的评论模型,而是从组得分中估计基准值,极大地节省了计算资源。此外,研究者还设计了基于规则的奖励系统,主要包括正确性奖励和格式奖励两类: 正确性奖励:评估模型输出是否正确。对于确定性结果的任务(如数学问题),要求模型以特定格式给出最终答案,以进行规则匹配;对于编程任务,则使用编译器根据预设测试用例给出反馈。

格式奖励:要求模型将推理过程置于和标签之间,以规范输出格式。

通过RL训练,DeepSeek-R1-Zero展现出了令人印象深刻的推理能力和自主学习能力。例如,它能够随着训练的进行而自发地产生验证、反思等复杂推理行为,在AIME 2024等基准测试上的表现超越了有监督微调模型。 实验结果表明,经过数千步RL训练后,DeepSeek-R1-Zero在多个推理基准测试中取得了超越监督微调模型的性能。

2.引入冷启动数据的RL模型DeepSeek-R1

尽管DeepSeek-R1-Zero取得了优异的性能,但也存在着输出可读性差、语言混用等问题。为了进一步提升性能并改善这些问题,研究者提出了DeepSeek-R1模型。与R1-Zero不同的是,R1引入了少量人工标注的高质量冷启动数据,并采用了多阶段训练流程。 具体来说,DeepSeek-R1的训练分为四个阶段: (1)冷启动阶段:收集数千条长推理链数据,在此基础上对预训练语言模型进行微调,作为后续RL的起点。这些数据引入了人类先验,规定了推理过程和答案的输出格式,以提高可读性。 (2)推理导向的RL阶段: 类似R1-Zero,在冷启动模型上进行大规模RL训练。这一阶段侧重提升编程、数学、科学、逻辑推理等任务上的表现。除了正确性奖励,研究者还引入了语言一致性奖励,以缓解多语言场景下的语言混用问题。RL训练一直进行到在推理任务上收敛。 (3)拒绝采样和有监督微调阶段:使用RL收敛后的模型,通过拒绝采样的方式生成新的SFT数据。与冷启动阶段不同,这一阶段的数据不仅包括推理,还涵盖了写作、知识问答、认知等其他领域。研究者利用新数据和部分R1-Zero数据在基础模型上进行了两轮微调。 (4)全场景RL阶段:在所有类型的Prompt上进行第二轮RL,进一步提升模型的整体性能,并与人类偏好对齐。推理相关数据沿用规则奖励,其他数据则采用奖励模型。结合多种奖励信号和数据分布,使模型在保持推理能力的同时兼顾通用性、安全性和可用性。 最终,DeepSeek-R1在MMLU、MATH、Codeforces等各项基准测试上取得了与OpenAI-o1-1217相媲美的成绩,展现了全面的推理和通用能力。

3.基于RL蒸馏的高效推理模型

为了进一步将DeepSeek-R1的推理能力赋予更高效的小模型,研究者也探索了基于RL的知识蒸馏方法。他们首先利用DeepSeek-R1生成了80万个高质量的推理数据,然后用这些数据对Qwen和Llama系列的小模型进行了微调。 实验结果表明,单纯的蒸馏就可以显著提升小模型的推理表现。例如,蒸馏后的Qwen-7B在AIME、MATH等测试中全面超越了非推理类模型如GPT-4o;Qwen-14B超过了之前最优的开源模型;Qwen-32B和Llama-70B则在多个任务上显著优于OpenAI-o1-mini。 研究者还发现,相比从头在小模型上应用RL,直接从大模型蒸馏在效果上更胜一筹。这表明大模型通过RL学到的推理模式可以高效迁移到小模型中。考虑到从头RL训练的巨大计算开销,蒸馏无疑是一种更经济实用的小模型赋能方式。以下为蒸溜结果

总的来说,DeepSeek-R1研究全面探索了RL在提升语言模型推理能力上的应用。纯RL训练揭示了语言模型的惊人学习能力,冷启动数据和多阶段RL进一步优化了训练效果,蒸馏则为RL成果的快速应用铺平了道路。这些RL实践相互配合,支撑起了DeepSeek-R1卓越的推理表现。 当然,RL在该领域的应用还有很大的探索空间,如奖励函数的设计、样本效率的提高、推理和通用目标的平衡等。未来进一步优化RL范式,有望带来性能更强、成本更低的推理语言模型。DeepSeek-R1已经在这条道路上迈出了坚实的一步。

总结

DeepSeek-R1-Zero是一个完全基于强化学习(RL)训练的模型在没有任何有监督数据的情况下,通过自我进化掌握了强大的推理能力。模型学会了花更多的"思考时间"来解决复杂问题,展现出反思、自我验证等有趣的推理行为。这为研究界证明了单纯依靠RL就能让模型具备强推理能力。 在R1-Zero的基础上,为了提升输出的可读性和进一步增强性能,DeepSeek-R1采用了由监督微调和强化学习交织的多阶段训练流程:先用少量高质量的chain-of-thought数据进行冷启动,然后进行面向推理任务的RL训练,接着用RL模型产生新数据并结合其他领域数据再次微调,最后经过多场景RL使得模型输出更加有帮助和无害。

实验表明,DeepSeek-R1在AIME、MATH等推理类任务上达到了与OpenAI的o1-1217模型相媲美的水准,充分证明了这套训练流程的有效性。同时,他们还通过蒸馏的方式将DeepSeek-R1的推理能力成功迁移到了中小规模密集模型中,使其大幅超越同规模的微调模型,并开源了相关模型,这对于业界应用具有重要价值。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.纯强化学习训练的语言模型 DeepSeek-R1-Zero
  • 2.引入冷启动数据的RL模型DeepSeek-R1
  • 3.基于RL蒸馏的高效推理模型
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档