随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一核心目标,从GRPO到GSPO再到SAPO的算法进行了持续探索。本文主要介绍:
1)GRPO训练不稳定,造成模型崩溃的原因分析 2)GSPO 如何通过序列级的对齐进行优化 3)SAPO 利用软自适应门控机制解决硬裁剪问题
关注“AI老马” —【获取资源】&【进群交流】
在RL训练中为了最大化硬件利用率,提升样本效率,需要采用较大的批次规模。标准做法是将大规模的数据分割为多个小批次(mini-batches)进行梯度更新。这一过程不可避免地引入了异策略(off-policy)学习场景,即结果响应 y 来自旧策略 ,而当前策略 。这也解释了PPO和GRPO中裁剪机制的必要性,防止过度“异策略“的样本参与梯度估计。
要实现RL的规模化应用,首要前提是稳定且鲁棒的训练过程。而GRPO 在训练时,会出现严重的稳定性问题,常常导致灾难性且不可逆的模型崩溃。这种不稳定性源于,算法设计中对重要性采样权重的根本性误用与失效,造成目标函数设定失当。且这一设计缺陷,引入了高方差的训练噪声,该噪声会随着响应长度的增加而逐步累积,并被裁剪机制进一步放大,最终引发模型崩溃。
重要性采样的核心原理是:通过对来自行为分布q 的样本重新加权,估计目标分布p下函数 f 的期望,公式如下:
关键在于,这一原理依赖于对来自行为分布 q 的多个样本进行平均,才能使重要性权重有效校正分布失配。与之相反,GRPO将重要性权重应用于token级别,这种token级别的权重会在长序列中累积,且被裁剪机制进一步放大,最终导致梯度估计出现严重偏差,进而引发不可逆的模型崩溃,一旦崩溃发生,即使回滚到之前的checkpoint、再进行精细调整超参数、恢复训练也无济于事。
以上揭示了GRPO设计的核心症结:优化目标的单位与奖励的单位不匹配。由于奖励是基于整个序列授予的,在token级别进行异策略校正显然存在根本性缺陷。这促使放弃token级目标,探索直接在序列级别使用重要性权重并执行优化的方案。
与GRPO的token级设计不同,GSPO的核心思路是:让优化单位匹配奖励单位。通过将优化粒度提升至序列级,从根本上解决了token级重要性权重累积导致的高方差问题,同时序列级的重要性比率也能更准确地反映新旧策略的差异,为裁剪机制提供更合理的判断依据。
GSPO的关键创新在于,基于序列似然的重要性比率定义,完全契合重要性采样的基本原理。此外,GSPO将归一化奖励计算为同一查询下多个响应的优势值,确保了序列级奖励与优化过程的对齐。
在语言生成场景中,序列级重要性权重具有清晰的理论意义:它反映了从旧策略 采样的响应 y 与当前策略 的偏离程度,这自然与序列级奖励对齐,也可作为裁剪机制的有效指标。
GSPO算法采用以下序列级优化目标:
其中,GSPO采用分组优势估计(group-based advantage estimation):
并基于序列似然定义重要性比率:
这一设计的核心优势在于:
1)长度归一化有效抑制了长序列下的权重累积效应,降低了训练方差;
2)分组优势估计通过同一查询下多个响应的统计归一化,减少了奖励波动对训练的影响;
3)序列级裁剪确保了异策略样本的梯度贡献不会过度偏离,提升了训练稳定性。从信息论角度看, 等价于困惑度比率,这一等价性为GSPO的稳定性提供了更直观的理论解释,即算法本质上通过困惑度改进程度来加权梯度更新,契合语言模型的训练目标。
实证结果表明,GSPO在训练稳定性、效率和性能上显著优于GRPO,尤其解决了混合专家模型的RL训练稳定性难题,无需复杂的稳定策略,同时具备简化RL基础设施设计的潜力,并已成功应用于Qwen 3模型的性能提升。
尽管GSPO解决了GRPO的核心稳定性问题,但它继承了硬裁剪机制,这带来了新的局限,即硬裁剪通过固定的阈值范围(1−ε, 1+ε)抑制异策略样本的影响,但这种“非黑即白”的处理方式会导致有用学习信号的丢失。例如,当一个序列中包含少量高度异策略的token时,GSPO会对整个序列的梯度进行抑制,从而浪费了其他近策略token包含的有效信息,降低了样本效率。此外,固定的裁剪范围无法适应不同样本的异质性,在复杂任务场景下难以平衡稳定性与学习效率。
SAPO其核心改进是用平滑的、温度可控的门控机制(soft temperature-controlled gate)替代硬裁剪,实现对异策略更新的自适应衰减,同时保留有用的学习信号。推导公式如下:
SAPO 的 软自动控制特性,核心体现在 温度可控的门控函数(公式6)以及依赖的 自适应温度参数(公式7)上。
温度可控门函数根据信号性质的动态参数切换,替代了传统硬裁剪对信号的 “一刀切” 式截断,是 “自动控制” 的核心体现。自适应温度参数通过调节 可以平滑地衰减异策略偏差信号,同时保留有益信号的强度,这种 “平滑衰减而非截断” 的机制,正是 “软控制” 的关键。
SAPO的设计兼具序列一致性与token适应性:
从GRPO到GSPO再到SAPO的演进,本质上是对“异策略学习中稳定性与样本效率平衡”这一核心问题的逐步优化:
优化粒度升级: GRPO(token级)→ GSPO(序列级)→ SAPO(序列级+token自适应),实现从“失配优化”到“精准对齐”再到“自适应细化”的递进;
裁剪机制演进: GRPO(硬裁剪)→ GSPO(序列级硬裁剪)→ SAPO(软自适应门控),实现从“刚性抑制”到“自适应保留”的优化,逐步提升样本效率;
核心目标迭代: 从“解决基本训练可行性”(GRPO→GSPO,避免模型崩溃)到“追求更高效率与性能”(GSPO→SAPO,提升样本利用率与任务适配性)。
GRPO、GSPO、SAPO三代算法的演进,清晰地展现了大型语言模型RL训练优化的技术路径:围绕“优化单位与奖励单位对齐”这一核心原则,通过优化粒度调整、裁剪机制革新,逐步实现了训练稳定性、样本效率与任务性能的协同提升。GSPO的序列级优化奠定了稳定训练的基础,而SAPO的软自适应门控则进一步突破了硬裁剪的局限,成为当前LLM RL训练的优选方案之一。