o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析

原创

立委

发布于 2025-02-27 20:30:01

29500

代码可运行

文章被收录于专栏：deepseekdeepseek 腾讯云TVP

运行总次数：0

代码可运行

好的，我将对 DeepSeek R1 的整体训练过程进行研究，并重点分析强化阶段（第二、三、四阶段）的具体细节，
包括 RL、SFT、CoT 的方法和策略。

报告将采用问答解析的形式，同时保持一定的技术深度，并确保可读性。还会在必要时提供与 GPT-4、Claude、Gemini 
等模型的简单核心对比，以展示其独特性。

我会尽量参考 DeepSeek 官方网站的论文和技术资料，同时结合网络上的研究和学习经验进行综合分析。

DeepSeek R1 多阶段训练流程问答解析

Q1: DeepSeek R1 的整体训练包含哪些阶段，为什么采用多阶段策略？

A: DeepSeek R1 采用了四阶段的训练流程，包括两个强化学习（RL）阶段和两个监督微调（SFT）阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式，然后大规模提升推理能力，接着扩展通用能力，最后对齐人类偏好，逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说：

阶段1（冷启动 SFT）：使用少量人工整理的高质量长链推理数据对基础模型进行监督微调，规范输出格式，提高可读性，解决直接RL训练时出现的中英混杂、格式混乱等不稳定现象 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一冷启动确保模型在进入强化学习前已有基本的思维链格式和可读性，为后续RL提供稳定起点。
阶段2（推理导向的强化学习）：在阶段1基础上进行大规模 RL 训练，重点激发模型在数学、编程、科学问答等复杂推理任务上的能力，同时通过特别的奖励设计避免输出再次变得难以阅读或语言混杂 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一阶段显著增强模型的推理水平。
阶段3（拒绝采样 + 监督微调）：利用阶段2得到的强推理模型生成大规模的推理数据，并结合一定量的非推理数据，对模型进行监督微调 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。该阶段平衡模型在推理和非推理任务上的表现，使模型不仅会做推理题，也能应对日常问答、写作等。
阶段4（全场景强化学习，对齐人类偏好）：最后再进行一次RL训练，引入人类偏好相关的奖励（即RLHF，Reinforcement Learning from Human Feedback）来提升模型的安全性和有用性 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。此阶段确保模型的行为与人类偏好对齐，在各种开放场景下都表现稳健。

通过上述多阶段渐进式训练，DeepSeek R1 最终在推理能力上达到接近OpenAI o1系列闭源模型的水平，同时保持了输出的规范性和对用户需求的良好适应 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)。

Q2: 第二阶段的推理强化学习是如何实施的？训练是逐个问题进行还是批量进行？训练数据是否会保留？奖励机制如何设计？

A: 阶段2是针对推理能力的强化学习训练。在这一阶段，DeepSeek R1 采用了GRPO算法（分组相对策略优化）来高效地进行RL训练 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。具体来说，对每个问题，不会只生成单一回答，而是从当前策略采样一组不同的回答，然后根据这组回答的得分情况来优化模型 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这种“按问题分组”的方式相当于批量生成和评价：每道训练题目产生多个解答，计算每个解答的奖励，并用组内奖励的相对差异（优势值）指导模型参数更新 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。由于采用组内平均得分作为基准（baseline），GRPO 不需要额外的价值网络（critic），降低了大模型RL的开销 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。因此，就单个问题而言是通过多次尝试来强化，但在实现中会并行处理多个问题批次，以加速训练。每轮生成的回答在用于计算梯度更新后并不长期保留，属于在线的RL采样；只有当阶段2训练收敛后，会使用最终的模型来批量生成数据供下阶段使用 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

奖励机制方面，DeepSeek R1 在此阶段设计了规则奖励，主要包括：

准确性奖励：检测模型回答是否正确。 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)例如，对数学题要求答案格式固定、便于比对正确结果；对编程题则通过编译运行测试用例判断解答是否正确。 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)如果答案正确，给予正奖励，错误则无奖励或负奖励。
格式奖励：要求模型将推理过程和最终答案分别写在特定标签（如 <think> 和 <answer>）内，如果模型遵守格式就给予奖励 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这保证了输出包含清晰的思维链步骤和答案。
语言一致性奖励：针对之前发现的中英混用问题，增加了奖励信号鼓励模型使用单一目标语言回答。 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)具体做法是统计回答中目标语言词汇的占比，若模型夹杂其它语言则扣分，从而促使整个推理过程语言一致。

最终，以上各项奖励会加权求和形成总奖励 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。模型通过最大化期望奖励来更新参数：正确且格式规范、语言一致的回答获得最高回报，从而模型逐步学会既推理正确又表述规范地回答问题 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

值得一提的是，DeepSeek R1-Zero（没有冷启动微调的版本）在纯RL下已经自行涌现出了反思验证、超长链式推理等强大能力，但同时输出可读性差、语言混杂 (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻) (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)。因此在 R1 中通过以上冷启动和奖励改进，显著改善了这些问题 (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)。阶段2 的RL训练让模型的推理准确率在数学等任务上大幅提升（例如 AIME 数学竞赛准确率从15.6%提高到71% (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)），为后续步骤打下强大的推理基础。训练过程中产生的大量问答尝试并未直接用于模型参数更新之外的用途，而是在训练完成后经过筛选用于下一阶段的数据集构建 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。

Q3: 第三阶段为什么要用 60 万条推理再生数据和 20 万条非推理数据进行微调？这一混合微调策略有何作用？

A: 阶段3是承上启下的监督微调，目的是在保持高推理能力的同时扩展模型的通用能力 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。之所以采用“60万推理 + 20万非推理”的数据组合，主要有以下考虑：

丰富高质量推理数据 (60万)：大规模高质量的推理示例难以人工标注获取，因此DeepSeek团队利用第二阶段训练出的强推理模型来自动生成这些数据 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。通过拒绝采样，他们为每个问题让模型生成多种解答，筛选出推理正确、过程合理的轨迹 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这样累计约 60万条长链思维过程的数据，为模型提供了前所未有规模的推理示例库 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这些数据囊括了数学、代码、逻辑推理等复杂问题的正确解题过程，大幅拓展了模型学习推理模式的知识面和多样性。模型在这些数据上微调，可以巩固并细化第二阶段通过RL学到的推理技能 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。
引入非推理领域数据 (20万)：如果模型只在推理数据上训练，可能会偏科，即擅长推理但在日常对话、写作、常识问答等任务上表现退化。为避免这点，研究者引入了约 20万条非推理类的数据 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这些数据主要来自前代模型 DeepSeek-V3 的SFT数据集，涵盖写作、翻译、问答、自我认知等一般指令场景 (DeepSeek-R1：开源Top推理模型的实现细节、使用与复现 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。通过把非推理任务的数据混合进训练集，模型能够维持和提升在通用NLP任务上的表现，不会因为专注推理而忽视了其他能力 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。
比例与效果权衡：选择大约 3:1 的推理 vs 非推理数据比例（60万对20万），体现了团队在推理能力和通用能力之间的权衡。一方面，推理数据占据多数，确保模型主要朝着擅长复杂推理优化 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。另一方面，也保留了相当数量的非推理样本，让模型不会在日常任务上“不接地气” (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。实践中，他们对混合数据集进行了两轮微调（两次epoch），进一步平衡了模型在推理与非推理任务上的性能 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。经过阶段3微调，模型不仅保持了高水平的逻辑推理能力，还在开放问答、创意写作等方面达到令人满意的效果，实现了**“一专多能”** (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一策略使DeepSeek R1在广义能力上更加接近GPT-4这类通用大模型，同时仍保有卓越的推理特长。

Q4: 第四阶段为何需要再次进行强化学习？这一阶段是如何结合人类偏好进行对齐的，人类偏好对齐有什么必要性？

A: 阶段4是DeepSeek R1的二次强化学习阶段，核心目的在于对齐人类偏好，进一步提升模型在实际应用中的安全性和实用性 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。即使经过阶段2和阶段3，模型在推理和一般任务上已表现出色，但仍可能存在不符合用户期望的行为，例如回答不够礼貌有用，或在敏感问题上产生不安全内容。这正是当前尖端LLM都会面临的问题，需要引入人类偏好对齐（例如 OpenAI 的GPT-4通过RLHF过程进行对齐）。对于DeepSeek R1，这一阶段通过融合人类偏好相关的奖励信号来微调模型，使其行为更符合人类期望 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体而言：

继续强化推理任务表现：对于推理类的问答，仍沿用之前的规则奖励体系（比如数学、代码的准确性检查等），保证模型的推理能力不倒退 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这样模型在追求对齐的同时，不会牺牲已经获得的严谨推理技能。
引入偏好模型评估的一般任务奖励：针对闲聊对话、开放问答等非确定性场景，单靠规则已无法评判回答的好坏。因此研究者使用训练好的奖励模型（偏好模型）来评估模型输出对人类的友好程度 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这个偏好模型并非简单的规则判断，而是通过大量人类偏好数据（可能来自类似DeepSeek-V3管线的人类反馈数据对）训练而成，用来打分模型回答的有用性和无害性 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。例如，一条回答是否切题、详尽、有帮助，以及是否避免了偏见、有害内容等 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。在训练时，DeepSeek R1 对这些通用场景的回答会获得偏好模型的打分作为奖励信号，高分意味着更符合人类偏好。通过最大化这些奖励，模型学会产出更令用户满意、安全的回答。
多样化的提示分布训练：为使模型适应各种应用场景，这一阶段在训练时还混合了不同类型的提示（prompts），如一般用户提问、角色扮演指令、闲聊寒暄等 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这种多提示分布训练使模型在面对形式多样的输入时都能表现得体，从而真正成为一个全场景的助手，而不仅限于解题机器。

通过上述措施，阶段4 实现了模型行为和人类期望的深度对齐，相当于执行了一次RLHF式（基于人类反馈的强化学习）训练。 (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)在对齐后，DeepSeek R1 兼具强大的推理能力和良好的安全性/有用性：既能给出复杂问题的正确解答，又能确保回答让用户容易理解、愿意接受，在敏感问题上遵循安全准则 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这种人类偏好对齐对于模型大规模应用是必要的 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)——它保证模型不会因为追求高推理准确率而忽略了与用户互动的品质，确保模型的高智商能够以让人类舒适的方式呈现出来。换句话说，经过阶段4，DeepSeek R1 不仅是“推理高手”，也是“贴心助手”。

Q5: DeepSeek R1 与 GPT-4、Anthropic Claude、Google Gemini 等顶尖模型有哪些核心差异？

A: DeepSeek R1 的训练路线与这些闭源大模型有一些独特之处，但总体目标相似（都追求强性能和对齐人类意图）。主要区别在于：

训练开创性：DeepSeek R1 强调通过纯RL激发推理能力。其 R1-Zero 实验证明了即使没有大型监督微调数据，仅靠强化学习也能让模型学会复杂推理 (deepseek-ai/DeepSeek-R1 · Hugging Face) (The Illustrated DeepSeek-R1 - by Jay Alammar)。这在 GPT-4 等模型中未被公开证实，因为 OpenAI 的方法相对保密，我们只知道GPT-4经过了海量预训练+监督微调+RLHF，但具体是否单独用RL增强推理尚不得而知 (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻) (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)。DeepSeek R1 的多阶段过程是公开透明的，并将推理RL成果开源，这对研究社区非常有意义 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) (deepseek-ai/DeepSeek-R1 · Hugging Face)。
数据获取方式：GPT-4、Claude 等模型大量能力来自于规模空前的训练数据和人类标注反馈。相比之下，DeepSeek R1 使用RL生成了60万条思维链数据，以模型自我生成数据来弥补人工标注不足 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这种自举式获取高质量数据的方法降低了对人工的依赖，提高了性价比，被认为是构建强大模型的高效新途径 (The Illustrated DeepSeek-R1 - by Jay Alammar) (The Illustrated DeepSeek-R1 - by Jay Alammar)。
开放性与可复现：DeepSeek R1是开源的，甚至提供了小模型蒸馏版，让社区能够复现和验证其成果 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。相反，GPT-4 和 Gemini 等目前是闭源且难以复现，其具体架构和训练细节不公开。DeepSeek R1 的开放使研究者可以更深入地了解大模型的推理培养过程，并将类似方法应用到其它基座模型上。
模型侧重点：Claude 等模型以安全和长上下文见长，Gemini 传闻将侧重多模态与工具使用，而 DeepSeek R1 的突出卖点是卓越的推理解题能力 (deepseek-ai/DeepSeek-R1 · Hugging Face)。在定位上，DeepSeek R1 更像是对标OpenAI的 o1系列（专注推理的模型），通过RL结合SFT达到了特定领域接近SOTA的推理性能 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。同时经过偏好对齐后，R1 的综合能力也达到了当代顶尖助手模型的水准，只是在训练思路上有所创新。

综上，DeepSeek R1 展现了一条与主流商用大模型不同但并行的研发路线：用较少人工介入、充分利用RL自我提升推理，再辅以必要的监督和对齐，来培养强大的通用AI。这为业界提供了新思路，也使研究者能够探究在不开天量数据集的情况下提升模型智力的可能 (The Illustrated DeepSeek-R1 - by Jay Alammar) (The Illustrated DeepSeek-R1 - by Jay Alammar)。各模型各有侧重，但目标殊途同归：让AI既“智商高”又“情商高”，能真正解决问题并让用户放心使用。

参考文献：

DeepSeek R1 官方论文 ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)及技术报告、DeepSeek 官方博客和数据集说明 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) ([2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)，以及相关分析文章和讨论 (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻) (阅读 | DeepSeek-R1：怎么用强化学习把一个普通语言模型调教成推理高手？_腾讯新闻)。

上述内容综合了官方资料与社区解读，以问答形式呈现，希望对DeepSeek R1的训练策略有全面而清晰的说明。

后记

才试了一下 openai o3 最新推出的 deep research 功能，不能不说，作为研究工具，非常给力，
完成后的成品具有直接发表的水平，想做一点后编辑都难。有点叹为观止的感觉，堪称完美。
当然，现在各家头部模型都开始 offer 这种“深度研究”的功能了，这等于是平替了大多数咨询公司的研究人员的工作。
即便是训练有素的数据分析和调研人员，多数人实际上做不了它这么全面和细致。最见功力的是它的引用的全面和细密。
说话有根据，幻觉自然减少。

【相关】

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大模型知识引擎