大语言模型时代的强化学习 (一):基础理论与算法解析 对于https://zhuanlan.zhihu.com/p/1987273670977156594的阅后总结整理,完成了关于修正后的Dr.GRPO和Dr.GSPO的误差与方差公式的推导过程。 2025-12-27 学习 #RL