搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏DeepHub IMBA
解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏
GRPO的问题:不准确的优势归因要理解Chunk-GRPO做了什么,得先搞清楚现有方法的问题出在哪。步骤级GRPO的数学形式在流匹配的标准GRPO中,策略(T2I模型,记为θ)通过最大化目标J(θ)来更新。 Chunk-GRPO在这方面表现不错,研究团队把它和基础FLUX.1模型以及标准步骤级Dance-GRPO做了对比。使用清晰的标签，如"基础模型(FLUX.1)"、"标准RL(Dance-GRPO)"和"Chunk-GRPO"。突出显示Chunk-GRPO的获胜分数。 FLUX、DanceGRPO、不带时间动态的Chunk-GRPO、带时间动态的Chunk-GRPO和带加权采样的Chunk-GRPO之间的额外可视化比较。论文也展示了失败案例。
9910编辑于 2025-11-15
来自专栏IT技术订阅
DeepSeek GRPO：原理及相关技术解析
本文深入探讨了 DeepSeek 提出的组相对策略优化（GRPO）算法。（三）GRPO 的诞生为应对上述问题，DeepSeek 提出了 GRPO 算法。六、GRPO 的局限性与挑战（一）奖励函数设计尽管 GRPO 在算法机制上取得了诸多突破，但奖励函数的设计仍然是一个关键挑战。七、GRPO 的实际应用场景（一）数学推理 DeepSeek-R1 在数学推理任务上取得了令人瞩目的成果，充分展现了 GRPO 算法的强大威力。（二）代码生成在代码生成领域，GRPO 同样发挥着重要作用。通过 GRPO 的训练，模型能够生成更高质量、更符合规范和需求的代码。
94310编辑于 2025-06-28
来自专栏强化学习系列
强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO
论文方案 GRPO的解决方案就是直接去掉了Critic网络。GRPO的核心创新思路很简单：直接剔除Critic，启用群体相对优势。PPO中Critic存在主要就是为了计算优势函数，而什么是优势呢？但是，论文指出在长链推理任务中，使用 GRPO 会遭遇一些问题，比如样本级别的 loss 计算方式、KL 散度限制（在推理时可能不必要）。论文指出GRPO这种方法训练不稳定问题的根本在于：GRPO 使用 token-level的重要性比率（注意不是token-level的loss和DAPO不要搞混了），但是reward的单位通常是整条 sequence 论文指出 GRPO 在这类模型上极不稳定。相比 GRPO 的 token-level 可能引入高方差，GSPO 更稳定，尤其在训练大模型例如 MoE 时减少崩塌风险。
53321编辑于 2025-11-23
来自专栏机器之心
冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世
在介绍 GFPO 之前，有必要先看看 DeepSeek 提出的组相对策略优化（GRPO）。写成公式的话，如果令 θ 表示模型参数，q 表示问题，o 表示从旧策略 π_θ_old 采样的响应，则 GRPO 目标可以写成：需要注意的是，尽管这里展示了标准的 GRPO 损失归一化公式，但包括 verl GRPO 的一个关键限制在于它依赖于单一的标量奖励信号，这使得它难以联合优化多个期望得到的响应属性，例如简洁性和准确度。结果就是，GRPO 确实能提高准确度，但也会让响应长度大幅增加。因此，GFPO 的主要干预措施是在优势估计层面，使其可与任何 GRPO 变体兼容，例如 DAPO、Dr. GRPO 或带有 Dual-Clip PPO 损失的 GRPO。发现 9：在最长的响应四分位数中，GFPO 的准确度优于 GRPO。
32310编辑于 2025-08-15
来自专栏周末程序猿
机器学习|从0开发大模型之DeepSeek的GRPO
最近，DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：其次，我们引入了群体相对策略优化（GRPO），这是一种近端策略优化（PPO）的变体，旨在增强数学推理能力，同时优化PPO的内存使用。对比数据 1、什么是GRPO GRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图： GRPO GRPO 是 PPO (Proximal Policy model GRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分 GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数
55610编辑于 2025-02-27
来自专栏面经
【大模型后训练学习】DPO与GRPO专题学习
为此，Deepseek 团队提出了Group Relative Policy Optimization (GRPO)，使用多个采样输出的平均奖励。除此之外，在目标损失中，GRPO还修改了KL散度的计算，通过只计算一个采样到的 token就能估计 KL。传统的KL散度计算需要通过计算所有的token，增加优势计算复杂度。 GRPO 代码实现policy_model：当前要更新的 LLM（Decoder-only），带 forward 和 generate_with_logprobsref_model：冻结的 SFT 模型 # [B, L] seq_logprob = token_logprobs.sum(dim=-1) # [B] return seq_logprob2️⃣ 单步 GRPO 单步 GRPO 更新 loss, info = grpo_step( policy_model=policy_model, old_policy_model
35930编辑于 2025-11-24
来自专栏机器之心
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码
，比如《DeepSeek 用的 GRPO 占用大量内存？既然 GRPO 如此有效，那么，你知道如何从头开始实现 GRPO 吗？接下来我们就来看看这份 GRPO 从头实现教程吧。 Part 6：从头开始实现 DataParallel GRPO 这一节，我们将从头实现 GRPO 算法的所有构建模块。首先，这里假设运行代码的机器至少有 2 台 GPU。强化学习微调：为从头开始实现 GRPO 的训练函数 train_with_grpo 配置适当的训练参数和奖励函数。然后，在剩余的训练数据上执行强化学习训练。
1.1K00编辑于 2025-03-03
来自专栏自然语言处理
DeepSeek 背后的数学原理：深入探究群体相对策略优化 (GRPO)
-8a75007491ba GRPO动机什么是 GRPO？ GRPO 的本质思路：通过在同一个问题上生成多条回答，把它们彼此之间做“相对比较”，来代替传统 PPO 中的“价值模型” 为什么选择 GRPO？ GRPO 如何应对这些挑战：无价值模型优化：GRPO 通过比较组内的响应消除了对评论模型的需求，从而显著减少了计算开销。 GRPO实现来源:GRPO Trainer,https://huggingface.co/docs/trl/main/en/grpo_trainer 为了方便后人使用GRPO进行开发，DeepSeek 图片来源：https://huggingface.co/docs/trl/main/en/grpo_trainer 为什么 GRPO 有效无需批评：GRPO 依靠群体比较避免了对单独评估者的需求，
3.1K40编辑于 2025-02-12
来自专栏机器之心
揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案
RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的？ GRPO（GRPO Done Right）（图 1 中显示）。为了理解 R1-Zero 上的训练方式，研究人员仔细观察了两个核心部分：基础模型和强化学习，随后重点介绍了其发现。为了优化 GRPO 算法并解决其存在的偏差问题，研究针对 GRPO 两处修改：一是删除了长度归一化项 ∣oi∣，二是移除了标准差（std）标准化项。 GRPO，并通过实验验证了其在实际应用中的有效性。如图 5 所展示的多项实验对比结果，证明 Dr. GRPO 能够有效缓解优化偏差并显著减少了错误回答的长度。作者还使用 Llama 基础模型重新审视了 GRPO 的优化偏差。图 7 的右图比较了使用 GRPO 和 Dr.
22110编辑于 2025-03-24
来自专栏机器之心
DeepSeek用的GRPO占用大量内存？有人给出了些破解方法
本文为那些 GPU 资源有限时使用 GRPO 训练的开发者提供了宝贵的指导。自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。原文链接：https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor 作者表示，他发现 trl 库中已经有一个易于使用的 GRPO 为什么 GRPO 对内存需求较高这要从 GRPO 的原理说起，这是它的流程图。 GRPO 对内存需求较高的原因在于，其内部涉及多个模型，并且在训练数据中每个查询会产生多个输出。 batch_size=1，由于 GRPO 为每个查询生成多个响应，batch size 会迅速失控。
67610编辑于 2025-02-08
来自专栏机器之心
超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场
）的约 2-3 倍，而 token 效率是 GRPO 的 1.5 倍、是基础模型的 5 倍。 GRPO 是 DeepSeek-R1 的关键强化学习算法。对于第二种设置，研究者对 Llama 3.1 进行微调以实现回溯，结果表明，MRT 相较于 STaR 和 GRPO 均实现了 1.6-1.7 倍的 token 效率提升。然而，与基于结果奖励的 RL 方法（如 GRPO）相比，使用 MRT 的相对性能提升约为 2-3 倍。图 8（右）显示，与结果奖励 GRPO 相比，MRT（RL）通过减少 1.6 倍的 token 来提升线性化效率。 © THE END 转载请联系本公众号获得授权
29610编辑于 2025-03-13
来自专栏机器之心
DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究
域外泛化：DPO 与 GRPO 各擅胜场 DPO 称雄域内：实验结果显示，离策略 (off-policy) 的 DPO 方法在域内任务上表现优于 GRPO。 GRPO 泛化更强：与之相反，在策略 (on-policy) 的 GRPO 在域外泛化能力上表现更出色。在 GenEval 数据集上，GRPO 始终展现出比 DPO 更好的泛化性能；在使用 HPS 奖励模型时，GRPO 的峰值提升甚至比 DPO 高出 2.42%。 2. 在 DPO 与 GRPO 的对比中，研究者确保了两者在计算成本上的可比性。例如，DPO 中每个 prompt 生成的图像数量与 GRPO 中的组大小对齐，并使用相同的奖励模型。在扩展策略的探索上，研究团队针对 GRPO 和 DPO 的特性提出了不同的优化路径。
30510编辑于 2025-06-20
来自专栏机器之心
从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南
，还分享了如何用 GRPO 训练推理模型的技巧。本文涵盖了你需要了解的关于 GRPO、强化学习 (RL) 和奖励函数的所有内容 —— 从初学者到高级，还有基于 Unsloth 使用 GRPO 的基础知识。 /tutorial-train-your-own-reasoning-model-with-grpo GRPO 是如何训练模型的？使用 GRPO 训练的次数越多越好。GRPO 最大的优点是你甚至不需要那么多数据。你只需要一个优秀的奖励函数 / 验证器，并且训练时间越长，你的模型就会越好。常规微调（不使用 GRPO）仅最大化下一词的预测概率，而不会针对奖励进行优化。GRPO 针对奖励函数进行优化，而不仅仅是预测下一词。你可以在多个 epoch 中重复使用数据。
92510编辑于 2025-06-23
来自专栏《三桥君 | AI产品方法论》
GRPO强化学习算法，究竟如何让AI从‘模仿’走向‘思考’？如何让AI具备真正的推理能力，而不仅仅是模仿？
GRPO的创新通过让模型将自己生成的多种候选输出在“同一场比赛”中进行对比，解决了传统强化学习的难题。利用评分 GRPO算法拿到这四个分数后，会进行相对比较。六、GRPO的优势 GRPO（Group Relative Policy Optimization）强化学习算法在提升AI推理能力方面展现了显著的优势。以下是对其优点的详细解释： 1. 这些优势使得GRPO成为提升AI推理能力的有力工具，尤其适合在资源有限、任务复杂的环境中应用。通过深入理解GRPO的工作原理和优势，AI产品经理可以更好地应用这一技术，推动AI产品的创新与发展。七、总结三桥君认为，GRPO强化学习与奖励策略，正是AI从“模仿”迈向“思考”的关键一跃。
25010编辑于 2025-08-29
来自专栏机器之心
在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电
机器之心报道编辑：Panda DeepSeek-R1 的成功离不开一种强化学习算法：GRPO（组相对策略优化）。之后，GRPO 会使用一个基于规则的奖励函数来计算每个完成结果的奖励，并计算每个完成结果的相对优势。 GRPO 巨大的训练开销限制了其训练效率和可扩展性。而在实践中，提高训练效率是非常重要的。总结起来，GRPO 训练的计算成本主要源自其核心设计：为了进行组内比较，会为每个提示词生成一大组完成结果。基于这一见解，他们发现可以通过对完成结果进行剪枝来加速 GRPO。在 GSM8K 上的结果如表 1 所示，CPPO 在准确度和加速比上都明显优于 GRPO。值得注意的是，CPPO 在各种剪枝率下都达到了与 GRPO 相当甚至更高的准确度。
29010编辑于 2025-04-02
来自专栏新智元
「古董」GPU也能跑DeepSeek同款GRPO！显存只需110，上下文爆涨10倍
目前，实现更长的上下文是GRPO面临的最大挑战之一。与其他GRPO LoRA/QLoRA实现相比，即使是基于Flash Attention 2（FA2）的实现，Unsloth新推出的高效GRPO算法上下文长度增加了10倍，同时使用的VRAM只要10%。 Unsloth和基于Flash Attention 2（FA2）的标准实现内存比较在典型的GRPO标准实现中，需要创建两个大小为(8，20K)的logits来计算GRPO损失。在所有实现中，还利用了logsumexp技巧： Unsloth高效GRPO算法但没想到华人工程师Horace He的线性交叉熵实现，带给unsloth灵感并成功应用于GRPO！也不再需要调用函数来给GRPO打补丁了！
22000编辑于 2025-03-11
来自专栏机器之心
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
看这些名字都绕晕了，GRPO 到底有什么魔力，能让各大研究团队绕着它团团转；GRPO 又有什么缺陷，各大团队都要在它身上动刀？于是，我们得到了 GRPO 的损失函数：对于 PPO 到 GRPO，知乎网友将两者在多个维度上进行了比较，如图表所示。知乎网友@杞鋂分享PPO与GRPO的对比从 GRPO 开枝散叶 GRPO 在出现后迅速成为一个后训练范式的重要节点，DeepSeek 的模型成功充分证明了 GRPO 范式的有效性和优越性。也因此，后续的改进工作大多都是在 GRPO 的方法基础上进行。那么 GRPO 到底有啥问题，各个新工作都要在它身上动刀呢？ GRPO 或带有 Dual-Clip PPO 损失的 GRPO。
73010编辑于 2025-09-02
来自专栏机器之心
泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法
该团队通过基于奖励的课程采样策略进一步增强了 GRPO 的训练效果，有效引导模型在训练过程中聚焦于更具挑战性的样例。 3. GRPO 方法与 SFT 方法的对比：研究团队首先对比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法，在意图识别任务上，模型可以达到与 SFT 相近的性能，在英文的 MultiWOZ2.2 数据集上做到了与 SFT 模型相同的表现，证明了 GRPO 方法在该任务上的有效性为了进一步探究 GRPO 的优势，研究团队针对模型的泛化性进行了评测。结果表明，在课程学习的第一阶段，模型收敛到与原始 GRPO 方法相近的准确率；在第二阶段难样例筛选过程后，模型的准确率进一步提升。
25800编辑于 2025-05-17
来自专栏机器之心
扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源
在第一阶段，模型在高质量推理轨迹中进行监督微调；在第二即 RL 阶段，研究者引入了用于掩码 dLLM 的新颖策略梯度方法 diffu-GRPO，它利用提出的高效一步（one-step）对数概率估计在 GRPO 其中，在线强化学习（特别是 GRPO 算法）已被证明能有效提升离线训练语言模型的性能。然而，GRPO 的学习策略并不能直接泛化到 dLLMs。基于新引入的对数概率估计器，该研究将 GRPO 扩展到掩码 dLLMs，推导出 diffu-GRPO 的损失函数。算法如下图所示。 diffu-GRPO 和 SFT 都相较于 LLaDA-8B-Instruct 基线有所提升，但 diffu-GRPO 显示出更持续且幅度更大的增益。具体来说，diffu-GRPO 在所有 12 种设置中都优于 LLaDA-8B-Instruct 和 SFT，而 SFT 仅在其中的 7 种设置中优于 LLaDA-8B-Instruct，这表明 diffu-GRPO
27710编辑于 2025-04-22
来自专栏自然语言处理
HuggingFace 又出新教程啦！手把手教你构建DeepSeek-R1推理模型
作者将 GRPO 描述为模型微调的突破： GRPO 的创新之处在于它能够“直接优化偏好校正”。让我们通过三个主要组件来分析 GRPO 的工作原理。 Group Formation：创造多种解决方案 GRPO 的第一步非常直观 - 类似于学生通过尝试多种方法来解决难题。这种分解很复杂，但关键在于 GRPO 是一种更有效、更稳定的训练模型推理的方法。 GRPO 算法的伪代码现在我们了解了 GRPO 的关键组件，让我们看看伪代码中的算法。在 TRL 中实现 GRPO 首先，我们来回顾一下 GRPO 算法的一些重要概念：群体形成：模型为每个提示生成多个完成。偏好学习：模型从比较完成组的奖励函数中学习。这种行为在 GRPO 中是可以预料到的，并且与算法的数学公式直接相关。GRPO 中的损失与 KL 散度（相对于原始策略的上限）成正比。
74910编辑于 2025-03-05

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

解决GRPO优势归因错误,Chunk-GRPO让文生图模型更懂节奏

DeepSeek GRPO：原理及相关技术解析

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

机器学习|从0开发大模型之DeepSeek的GRPO

【大模型后训练学习】DPO与GRPO专题学习

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

DeepSeek 背后的数学原理：深入探究群体相对策略优化 (GRPO)

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

GRPO强化学习算法，究竟如何让AI从‘模仿’走向‘思考’？如何让AI具备真正的推理能力，而不仅仅是模仿？

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

「古董」GPU也能跑DeepSeek同款GRPO！显存只需110，上下文爆涨10倍

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

HuggingFace 又出新教程啦！手把手教你构建DeepSeek-R1推理模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐