首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >强化学习|GRPO GSPO SAPO 演进

强化学习|GRPO GSPO SAPO 演进

作者头像
AI老马
修改2026-01-18 12:18:45
修改2026-01-18 12:18:45
2100
举报
文章被收录于专栏:AI前沿技术AI前沿技术

随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一核心目标,从GRPO到GSPO再到SAPO的算法进行了持续探索。本文主要介绍:

1)GRPO训练不稳定,造成模型崩溃的原因分析 2)GSPO 如何通过序列级的对齐进行优化 3)SAPO 利用软自适应门控机制解决硬裁剪问题

关注“AI老马” —【获取资源】&【进群交流】

1,GRPO训练瓶颈

  • 异策略训练的必要性

在RL训练中为了最大化硬件利用率,提升样本效率,需要采用较大的批次规模。标准做法是将大规模的数据分割为多个小批次(mini-batches)进行梯度更新。这一过程不可避免地引入了异策略(off-policy)学习场景,即结果响应 y 来自旧策略 ,而当前策略 。这也解释了PPO和GRPO中裁剪机制的必要性,防止过度“异策略“的样本参与梯度估计。

  • 重要性采样的误用

要实现RL的规模化应用,首要前提是稳定且鲁棒的训练过程。而GRPO 在训练时,会出现严重的稳定性问题,常常导致灾难性且不可逆的模型崩溃。这种不稳定性源于,算法设计中对重要性采样权重的根本性误用与失效,造成目标函数设定失当。且这一设计缺陷,引入了高方差的训练噪声,该噪声会随着响应长度的增加而逐步累积,并被裁剪机制进一步放大,最终引发模型崩溃。

重要性采样的核心原理是:通过对来自行为分布q 的样本重新加权,估计目标分布p下函数 f 的期望,公式如下:

关键在于,这一原理依赖于对来自行为分布 q 的多个样本进行平均,才能使重要性权重有效校正分布失配。与之相反,GRPO将重要性权重应用于token级别,这种token级别的权重会在长序列中累积,且被裁剪机制进一步放大,最终导致梯度估计出现严重偏差,进而引发不可逆的模型崩溃,一旦崩溃发生,即使回滚到之前的checkpoint、再进行精细调整超参数、恢复训练也无济于事。

以上揭示了GRPO设计的核心症结:优化目标的单位与奖励的单位不匹配。由于奖励是基于整个序列授予的,在token级别进行异策略校正显然存在根本性缺陷。这促使放弃token级目标,探索直接在序列级别使用重要性权重并执行优化的方案。

2,GSPO 目标函数序列级优化

2.1,对齐奖励与序列级设计

与GRPO的token级设计不同,GSPO的核心思路是:让优化单位匹配奖励单位。通过将优化粒度提升至序列级,从根本上解决了token级重要性权重累积导致的高方差问题,同时序列级的重要性比率也能更准确地反映新旧策略的差异,为裁剪机制提供更合理的判断依据。

GSPO的关键创新在于,基于序列似然的重要性比率定义,完全契合重要性采样的基本原理。此外,GSPO将归一化奖励计算为同一查询下多个响应的优势值,确保了序列级奖励与优化过程的对齐。

2.2,序列级目标函数与优势估计

在语言生成场景中,序列级重要性权重具有清晰的理论意义:它反映了从旧策略 采样的响应 y 与当前策略 的偏离程度,这自然与序列级奖励对齐,也可作为裁剪机制的有效指标。

GSPO算法采用以下序列级优化目标:

其中,GSPO采用分组优势估计(group-based advantage estimation):

并基于序列似然定义重要性比率:

这一设计的核心优势在于:

1)长度归一化有效抑制了长序列下的权重累积效应,降低了训练方差;

2)分组优势估计通过同一查询下多个响应的统计归一化,减少了奖励波动对训练的影响;

3)序列级裁剪确保了异策略样本的梯度贡献不会过度偏离,提升了训练稳定性。从信息论角度看, 等价于困惑度比率,这一等价性为GSPO的稳定性提供了更直观的理论解释,即算法本质上通过困惑度改进程度来加权梯度更新,契合语言模型的训练目标。

实证结果表明,GSPO在训练稳定性、效率和性能上显著优于GRPO,尤其解决了混合专家模型的RL训练稳定性难题,无需复杂的稳定策略,同时具备简化RL基础设施设计的潜力,并已成功应用于Qwen 3模型的性能提升。

3,SAPO 软自适应优化

3.1,GSPO 硬裁剪的局限性

尽管GSPO解决了GRPO的核心稳定性问题,但它继承了硬裁剪机制,这带来了新的局限,即硬裁剪通过固定的阈值范围(1−ε, 1+ε)抑制异策略样本的影响,但这种“非黑即白”的处理方式会导致有用学习信号的丢失。例如,当一个序列中包含少量高度异策略的token时,GSPO会对整个序列的梯度进行抑制,从而浪费了其他近策略token包含的有效信息,降低了样本效率。此外,固定的裁剪范围无法适应不同样本的异质性,在复杂任务场景下难以平衡稳定性与学习效率。

3.2,SAPO 软自适应门控机制

SAPO其核心改进是用平滑的、温度可控的门控机制(soft temperature-controlled gate)替代硬裁剪,实现对异策略更新的自适应衰减,同时保留有用的学习信号。推导公式如下:

SAPO 的 软自动控制特性,核心体现在 温度可控的门控函数(公式6)以及依赖的 自适应温度参数(公式7)上。

温度可控门函数根据信号性质的动态参数切换,替代了传统硬裁剪对信号的 “一刀切” 式截断,是 “自动控制” 的核心体现。自适应温度参数通过调节 可以平滑地衰减异策略偏差信号,同时保留有益信号的强度,这种 “平滑衰减而非截断” 的机制,正是 “软控制” 的关键。

SAPO的设计兼具序列一致性与token适应性:

  • • 序列一致性:延续GSPO的序列级优化框架,确保优化目标与序列级奖励的对齐,维持训练稳定性;
  • • 软自适应裁剪:用连续的信任区域替代GSPO的刚性裁剪区间,通过温度参数调节门控的平滑程度。对于包含少量异常token的序列,SAPO仅选择性地降低异常token的权重,保留近策略token的学习信号,大幅提升了样本效率;
  • • Token级自适应:相对于GRPO的token级硬裁剪,SAPO的平滑缩放机制能够保留更丰富的梯度信息,实现更稳定且更具信息量的更新。
总结:

从GRPO到GSPO再到SAPO的演进,本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化:

优化粒度升级: GRPO(token级)→ GSPO(序列级)→ SAPO(序列级+token自适应),实现从“失配优化”到“精准对齐”再到“自适应细化”的递进;

裁剪机制演进: GRPO(硬裁剪)→ GSPO(序列级硬裁剪)→ SAPO(软自适应门控),实现从“刚性抑制”到“自适应保留”的优化,逐步提升样本效率;

核心目标迭代: 从“解决基本训练可行性”(GRPO→GSPO,避免模型崩溃)到“追求更高效率与性能”(GSPO→SAPO,提升样本利用率与任务适配性)。

GRPO、GSPO、SAPO三代算法的演进,清晰地展现了大型语言模型RL训练优化的技术路径:围绕“优化单位与奖励单位对齐”这一核心原则,通过优化粒度调整、裁剪机制革新,逐步实现了训练稳定性、样本效率与任务性能的协同提升。GSPO的序列级优化奠定了稳定训练的基础,而SAPO的软自适应门控则进一步突破了硬裁剪的局限,成为当前LLM RL训练的优选方案之一。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI老马啊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1,GRPO训练瓶颈
  • 2,GSPO 目标函数序列级优化
    • 2.1,对齐奖励与序列级设计
    • 2.2,序列级目标函数与优势估计
  • 3,SAPO 软自适应优化
    • 3.1,GSPO 硬裁剪的局限性
    • 3.2,SAPO 软自适应门控机制
      • 总结:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档