GRPO-Loss-Pytorch 代码节选自课程《手撕LLM》关键实现代码: blog: 【手撕LLM-GRPO】你只管给Reward, 剩下的交给RL(附代码) blog: GRPO的Loss为什么会有负值?