大语言模型时代的强化学习 (一):基础理论与算法解析 对于https://zhuanlan.zhihu.com/p/1987273670977156594的阅后总结整理,完成了了关于修正后的Dr.GRPO和Dr.GSPO的误差与方差公式的推导过程。 2025-12-27 学习 #RL
古德寺&解放公园一日游 IMG_6834 IMG_6836 IMG_6841 IMG_6842 IMG_6844 IMG_6848 IMG_6853 IMG_6857 IMG_6864 IMG_6869 IMG_6870 IMG_6871 IMG_6873 IMG_6874 IM 2025-06-14 生活 #随拍