首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI前沿技术

    强化学习|GRPO GSPO SAPO 演进

    2,GSPO 目标函数序列级优化 2.1,对齐奖励与序列级设计 与GRPO的token级设计不同,GSPO的核心思路是:让优化单位匹配奖励单位。 GSPO的关键创新在于,基于序列似然的重要性比率定义,完全契合重要性采样的基本原理。此外,GSPO将归一化奖励计算为同一查询下多个响应的优势值,确保了序列级奖励与优化过程的对齐。 GSPO算法采用以下序列级优化目标: 其中,GSPO采用分组优势估计(group-based advantage estimation): 并基于序列似然定义重要性比率: 这一设计的核心优势在于: 1) 总结: 从GRPO到GSPO再到SAPO的演进,本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化: 优化粒度升级: GRPO(token级)→ GSPO(序列级)→ SAPO(序列级 ”的优化,逐步提升样本效率; 核心目标迭代: 从“解决基本训练可行性”(GRPO→GSPO,避免模型崩溃)到“追求更高效率与性能”(GSPO→SAPO,提升样本利用率与任务适配性)。

    23810编辑于 2026-01-18
  • 来自专栏强化学习系列

    强化学习系列(十二)--GRPO,DAPO,DUPO,GSPO

    GSPO (Group Sequence Policy Optimization) GSPO:Group Sequence Policy Optimization 论文地址:https://arxiv.org /pdf/2507.18071 GSPO也是通义实验室提出的论文,WebResearcher 项目采用了 GSPO的方案。 GSPO的核心思想主要是: 重要性比率的定义 GSPO用序列级别的概率来定义重要性比率 (不是 token 级别)。 相比 GRPO 的 token-level 可能引入高方差,GSPO 更稳定,尤其在训练大模型例如 MoE 时减少崩塌风险。 在复杂问题比如WebReasearch中,也用到GSPO提升复杂推理问题的性能和效率。

    1.5K44编辑于 2025-11-23
  • 来自专栏机器之心

    科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

    后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。 如果说 DAPO 是在 GRPO 框架内做微调,那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级。 为此,Qwen 团队将 GRPO 进化为组序列策略优化(Group Sequence Policy Optimization, GSPO)。 因此,GSPO 的损失函数为: GRPO:重要性权重在 token 级,每个 token 都可能被单独裁剪。 GSPO:重要性权重在 序列级,裁剪时直接作用于整个回答,更符合奖励信号的整体性。 因此,GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。

    1K10编辑于 2025-09-02
  • 每周AI论文速递(250721-250725)

    Group Sequence Policy Optimization 序列组策略优化 本文提出序列组策略优化(Group Sequence Policy Optimization,GSPO),这是一种稳定 不同于以往采用Token级重要性比例的方法,GSPO根据序列似然来定义重要性比例,并进行序列级的裁剪、奖励和优化。 实验表明,相较于GRPO算法,GSPO在训练效率和性能上表现更优,能有效稳定混合专家(Mixture-of-Experts,MoE)的强化学习训练过程,同时具备简化强化学习基础设施设计的潜力。 GSPO的这些优势显著提升了最新Qwen3模型的性能。

    36810编辑于 2025-07-27
  • PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末有大模型微调神器!

    这也是后来GRPO、GSPO等新算法诞生的重要原因。如果你手头只有几张GPU,还想用PPO+RM跑一套完整RLHF流程,大概率会被现实猛猛教育一下。 SOTA的大厂垂直问答、领域助手、开源模型安全防护、粗对齐、低预算项目如果用一句话给不同类型团队提建议:●大厂/研究机构有工程团队、有算力、有大量标注资源:优先采用PPO+RM,在此基础上再探索GRPO、GSPO

    55310编辑于 2025-12-01
  • 来自专栏DeepHub IMBA

    Google开源Tunix:JAX生态的LLM微调方案来了

    强化学习:实现了几个主流算法:PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)、还有token级别的GSPO

    17110编辑于 2025-11-15
  • 读完200篇论文,看DeepMind、Meta、DeepSeek ,中美巨头都在描述哪种AGI叙事|2025 AI 年度复盘

    比如Qwen的GSPO的优化引入了分值加权,不只看你是否高于平均分,还看你的绝对得分是多少,让GPRO能够从对的里选出更好的,把全错的都排除出梯度,让训练更稳。 2510.13786] The Art of Scaling Reinforcement Learning Compute for LLMs)● Group Sequence Policy Optimization (GSPO )(文中 Qwen 的 GSPO / GSPO 类)https://arxiv.org/abs/2507.18071 ([2507.18071] Group Sequence Policy Optimization

    28621编辑于 2026-01-15
  • 来自专栏LLM-RL

    收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定

    强化学习从入门到封神:5本经典教材+8大实战项目+7个免费视频,一站式搞定小白也能看懂的RLHF:基础篇小白也能看懂的RLHF-PPO:原理篇小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO2022

    59110编辑于 2026-01-20
  • 来自专栏LLM

    收藏!LLM开发全链路:5大步骤+15大框架,从数据治理到RLHF一文通关

    强化学习从入门到封神:5本经典教材+8大实战项目+7个免费视频,一站式搞定小白也能看懂的RLHF:基础篇小白也能看懂的RLHF-PPO:原理篇小白也能看懂的LLM-RL算法:PPO/DPO/GRPO/GSPO 模型支持:支持Qwen-VL,InternVL,GLM-4.5V,Ovis等300+多模态模型多模态优化:引入多模态打包技术(Packing),训练速度提升100%+强化学习族群:内置GRPO,DAPO,GSPO

    18010编辑于 2026-01-26
  • 每周AI论文速递(250922-250926)

    然而,现有的基于滚动 (rollout) 的强化学习方法 (如 GRPO、DAPO、GSPO 等) 未能显式考虑大语言模型对不同难度样本的学习能力,这与人类从易到难进行数学推理的认知过程相悖。

    19010编辑于 2025-11-20
  • 深入解析强化学习中的混合精度训练:FP16累加误差与Loss Scaling补偿机制

    混合精度训练在强化学习中的实际应用案例 深度强化学习中的混合精度实战 在2025年最新发布的Qwen3大模型中,阿里巴巴通义千问团队采用GSPO(Group Sequence Policy Optimization

    79110编辑于 2025-08-27
  • 来自专栏深度学习与python

    多模态思维链如何重塑 AI 与短视频的未来

    冷启动阶段主要构造领域内的长思维链式数据,引导模型学习深度思考的范式,否则模型难以从 0 到 1 直接去激发它这个能力;强化学习阶段则引入更加精细化的奖励信号,并结合前沿的强化学习算法(如 GRPO、GSPO

    22310编辑于 2025-12-24
  • 每周AI论文速递(251117-251121)

    训练方面,在跨模态预训练后,我们采用渐进式监督微调策略激活模态特定专家,并通过平衡数据组合与迭代 GSPO-DPO 方法增强训练,以稳定强化学习 (Reinforcement Learning, RL)

    37810编辑于 2025-11-30
领券