首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏强化学习系列

    强化学习系列(十二)--GRPO,DAPO,DUPO,GSPO

    GSPO (Group Sequence Policy Optimization) GSPO:Group Sequence Policy Optimization 论文地址:https://arxiv.org /pdf/2507.18071 GSPO也是通义实验室提出的论文,WebResearcher 项目采用了 GSPO的方案。 GSPO的核心思想主要是: 重要性比率的定义 GSPO用序列级别的概率来定义重要性比率 (不是 token 级别)。 相比 GRPO 的 token-level 可能引入高方差,GSPO 更稳定,尤其在训练大模型例如 MoE 时减少崩塌风险。 在复杂问题比如WebReasearch中,也用到GSPO提升复杂推理问题的性能和效率。

    53321编辑于 2025-11-23
  • 来自专栏机器之心

    科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生

    后训练领域里重要的突破是 Qwen3 使用的新方法 GSPO。 如果说 DAPO 是在 GRPO 框架内做微调,那么 GSPO 则是直接调整了优化目标的颗粒度 —— 从 token 级跳到序列级。 为此,Qwen 团队将 GRPO 进化为组序列策略优化(Group Sequence Policy Optimization, GSPO)。 因此,GSPO 的损失函数为: GRPO:重要性权重在 token 级,每个 token 都可能被单独裁剪。 GSPO:重要性权重在 序列级,裁剪时直接作用于整个回答,更符合奖励信号的整体性。 因此,GSPO 提出的「序列级重要性采样」显著提高了训练的稳定性,很可能会成为未来后训练强化学习的新标准。

    73010编辑于 2025-09-02
  • 每周AI论文速递(250721-250725)

    Group Sequence Policy Optimization 序列组策略优化 本文提出序列组策略优化(Group Sequence Policy Optimization,GSPO),这是一种稳定 不同于以往采用Token级重要性比例的方法,GSPO根据序列似然来定义重要性比例,并进行序列级的裁剪、奖励和优化。 实验表明,相较于GRPO算法,GSPO在训练效率和性能上表现更优,能有效稳定混合专家(Mixture-of-Experts,MoE)的强化学习训练过程,同时具备简化强化学习基础设施设计的潜力。 GSPO的这些优势显著提升了最新Qwen3模型的性能。

    29610编辑于 2025-07-27
  • 来自专栏DeepHub IMBA

    Google开源Tunix:JAX生态的LLM微调方案来了

    强化学习:实现了几个主流算法:PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization)、还有token级别的GSPO

    10410编辑于 2025-11-15
  • 每周AI论文速递(250922-250926)

    然而,现有的基于滚动 (rollout) 的强化学习方法 (如 GRPO、DAPO、GSPO 等) 未能显式考虑大语言模型对不同难度样本的学习能力,这与人类从易到难进行数学推理的认知过程相悖。

    11810编辑于 2025-11-20
  • 深入解析强化学习中的混合精度训练:FP16累加误差与Loss Scaling补偿机制

    混合精度训练在强化学习中的实际应用案例 深度强化学习中的混合精度实战 在2025年最新发布的Qwen3大模型中,阿里巴巴通义千问团队采用GSPO(Group Sequence Policy Optimization

    46210编辑于 2025-08-27
  • 每周AI论文速递(251117-251121)

    训练方面,在跨模态预训练后,我们采用渐进式监督微调策略激活模态特定专家,并通过平衡数据组合与迭代 GSPO-DPO 方法增强训练,以稳定强化学习 (Reinforcement Learning, RL)

    1900编辑于 2025-11-30
领券