Group Sequence Policy Optimization
Group Sequence Policy Optimization中指出GRPO在计算重要性采样权重时,是在token级别进行操作的。然而,这种做法由于每个token仅采样一次,无法实现有效的分布校正,反而会在模型训练过程中引入高方差噪声,极易导致模型的梯度估计不稳定,最终造成模型训练的崩塌。因此,论文认为,优化目标的单位应该与奖励的单位保持一致。由于奖励通常是在序列级别(即完整生成的回复)给出的,因此更合理的做法是将 off-policy 校正和优化也提升到序列级别,而非 token 级别。
GRPO 中,重要性采样比在 token 级别上计算,具体公式为
wi,tGRPO=πθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
GSPO 中,重要性采样比在序列级别上计算,具体公式为
wiGSPO=[πθold(yi∣x)πθ(yi∣x)]∣yi∣1=exp∣yi∣1t=1∑∣yi∣logπθold(yi,t∣x,yi,<t)πθ(yi,t∣x,yi,<t)
我们可以在 GRPO 训练的基础上,使用参数--importance_sampling_level sequence
来使用 GSPO 算法