在大语言模型(LLM)技术快速发展的背景下,阿里通义 Qwen 团队近日提出一种名为“软自适应策略优化”(Soft Adaptive Policy Optimization,简称 SAPO)的新型强化学习方法,旨在应对当前大语言模型在强化学习训练过程中所面临的策略优化不稳定问题。
传统强化学习方法如 GRPO 与 GSPO 通常依赖硬截断技术来控制重要性比例的范围,以维持训练过程的稳定性。然而,这类方法存在明显局限:过于严格的截断容易丢失有效的学习信号,尤其在 GSPO 中,若序列中出现少数偏离策略较远的 token,整个序列的梯度更新可能被完全抑制;此外,截断阈值的设定也十分敏感——设置过小会导致大量样本无法贡献梯度,设置过大则可能引入噪声,影响收敛稳定性。这一问题在混合专家模型(MoE)中尤为突出。
为应对上述挑战,SAPO 引入一种平滑且可温度调控的门控机制,以替代传统的硬截断操作。该方法具备以下特点:
- 连续信任域:通过软门控构建连续的优化区间,避免硬截断带来的梯度不连续问题;
- 序列级一致性:不会因局部 token 的偏离而丢弃整个序列的梯度,保留更多有效学习信息;
- token 级自适应性:能够识别并减弱异常 token 的影响,同时保留接近策略的 token 所携带的梯度信号。
此外,SAPO 在处理正负样本 token 时采用非对称温度设计,实现对不同类型 token 的差异化调节,从而提升训练的有效性。实验结果表明,该方法在不同规模的稠密模型与 MoE 模型上均能提升训练稳定性与任务性能。
在数学推理、代码生成、逻辑推理及多模态数学推理等多个任务上的评估显示,SAPO 在相同训练预算下均优于 GRPO 与 GSPO,展现出更高的 Pass@1 成功率与收敛稳定性。这一方法为大语言模型的强化学习训练提供了更可靠、可扩展的优化路径,也为后续相关研究提供了新的思路。
论文地址:https://arxiv.org/abs/2511.20347
© 版权声明
文章版权归作者所有,未经允许请勿转载。