Fix spurious KL gradients for zero-std reward groups in GRPOTrainer#5640

Open

robrui wants to merge 2 commits intohuggingface:mainfrom

robrui:fix/grpo-zero-std-kl-masking

Commits on Apr 24, 2026

fix: mask KL gradients for zero-std reward groups in GRPOTrainer
robrui
committed

Commits on Apr 26, 2026

Fix paper link: use huggingface.co/papers/ instead of arxiv.org/abs/ (per project convention)
robrui
committed