Add WIP code GRPO configs #593

edbeeching · 2025-04-11T09:26:41Z

DO NOT MERGE / REVIEW

Saving for reference.

sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.20 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=1.0e-06 --num_iterations=4 --hub_model_revision=v05.20 --output_dir=data/open-r1-code-GRPO-v05.20 --run_name=open-r1-code-GRPO-v05.20-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.21 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=2.0e-06 --num_iterations=4 --hub_model_revision=v05.21 --output_dir=data/open-r1-code-GRPO-v05.21 --run_name=open-r1-code-GRPO-v05.21-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.22 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=4.0e-06 --num_iterations=4 --hub_model_revision=v05.22 --output_dir=data/open-r1-code-GRPO-v05.22 --run_name=open-r1-code-GRPO-v05.22-lr-4.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.23 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=8.0e-06 --num_iterations=4 --hub_model_revision=v05.23 --output_dir=data/open-r1-code-GRPO-v05.23 --run_name=open-r1-code-GRPO-v05.23-lr-8.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.24 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=1.0e-05 --num_iterations=4 --hub_model_revision=v05.24 --output_dir=data/open-r1-code-GRPO-v05.24 --run_name=open-r1-code-GRPO-v05.24-lr-1.0e-05 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'

sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.25 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=1.0e-06 --num_iterations=4 --hub_model_revision=v05.25 --output_dir=data/open-r1-code-GRPO-v05.25 --run_name=open-r1-code-GRPO-v05.25-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.26 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=2.0e-06 --num_iterations=4 --hub_model_revision=v05.26 --output_dir=data/open-r1-code-GRPO-v05.26 --run_name=open-r1-code-GRPO-v05.26-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1'

sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.27 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=1.0e-06 --hub_model_revision=v05.27 --output_dir=data/open-r1-code-GRPO-v05.27 --run_name=open-r1-code-GRPO-v05.27-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1 --a2c_loss'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.28 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.20 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v05.28 --output_dir=data/open-r1-code-GRPO-v05.28 --run_name=open-r1-code-GRPO-v05.28-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1 --a2c_loss'



sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.30 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=1.0e-06 --num_iterations=4 --hub_model_revision=v05.30 --output_dir=data/open-r1-code-GRPO-v05.30 --run_name=open-r1-code-GRPO-v05.30-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.31 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=2.0e-06 --num_iterations=4 --hub_model_revision=v05.31 --output_dir=data/open-r1-code-GRPO-v05.31 --run_name=open-r1-code-GRPO-v05.31-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.32 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=4.0e-06 --num_iterations=4 --hub_model_revision=v05.32 --output_dir=data/open-r1-code-GRPO-v05.32 --run_name=open-r1-code-GRPO-v05.32-lr-4.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.33 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=8.0e-06 --num_iterations=4 --hub_model_revision=v05.33 --output_dir=data/open-r1-code-GRPO-v05.33 --run_name=open-r1-code-GRPO-v05.33-lr-8.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.34 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=1.0e-05 --num_iterations=4 --hub_model_revision=v05.34 --output_dir=data/open-r1-code-GRPO-v05.34 --run_name=open-r1-code-GRPO-v05.34-lr-1.0e-05 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO'

sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.35 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=1.0e-06 --hub_model_revision=v05.35 --output_dir=data/open-r1-code-GRPO-v05.35 --run_name=open-r1-code-GRPO-v05.35-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.36 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v05.36 --output_dir=data/open-r1-code-GRPO-v05.36 --run_name=open-r1-code-GRPO-v05.36-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1'

sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.37 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=1.0e-06 --hub_model_revision=v05.37 --output_dir=data/open-r1-code-GRPO-v05.37 --run_name=open-r1-code-GRPO-v05.37-lr-1.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1 --a2c_loss'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v05.38 --nodes=2 slurm/train.slurm Qwen2.5-7B-Instruct grpo v05.30 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v05.38 --output_dir=data/open-r1-code-GRPO-v05.38 --run_name=open-r1-code-GRPO-v05.38-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --num_iterations=1 --a2c_loss'

#  Latest R1 distill exps
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v6.00 --nodes=2 slurm/train.slurm DeepSeek-R1-Distill-Qwen-7B grpo v06.00 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v06.00 --output_dir=data/open-r1-code-GRPO-v06.00 --run_name=open-r1-code-GRPO-v06.00-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --gradient_accumulation_steps=16'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v6.01 --nodes=2 slurm/train.slurm DeepSeek-R1-Distill-Qwen-7B grpo v06.00 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v06.01 --output_dir=data/open-r1-code-GRPO-v06.01 --run_name=open-r1-code-GRPO-v06.01-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --gradient_accumulation_steps=32'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v6.02 --nodes=2 slurm/train.slurm DeepSeek-R1-Distill-Qwen-7B grpo v06.00 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v06.02 --output_dir=data/open-r1-code-GRPO-v06.02 --run_name=open-r1-code-GRPO-v06.02-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --gradient_accumulation_steps=64'
sbatch --mail-type=ALL [email protected]  --job-name=open-r1-code-GRPO-v6.03 --nodes=2 slurm/train.slurm DeepSeek-R1-Distill-Qwen-7B grpo v06.00 zero3 '--learning_rate=2.0e-06 --hub_model_revision=v06.03 --output_dir=data/open-r1-code-GRPO-v06.03 --run_name=open-r1-code-GRPO-v06.03-lr-2.0e-06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=open-r1-code-GRPO --gradient_accumulation_steps=128'

add WIP code GRPO configs

98cbed7

edbeeching requested a review from lewtun April 11, 2025 09:27

edbeeching and others added 7 commits April 11, 2025 15:12

Merge branch 'main' into code-grpo-configs

3684ab2

bin reward

243db80

save wip

7ddc028

add new reward, configs

0662164

update trl version in setup

9b6c970

Merge branch 'main' into code-grpo-configs

b3c7971

Merge branch 'main' into code-grpo-configs

1bab913

lewtun mentioned this pull request May 2, 2025

Requiring the recipe for training the GRPO model of OlympicCoder #623

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add WIP code GRPO configs #593

Add WIP code GRPO configs #593

Uh oh!

edbeeching commented Apr 11, 2025 •

edited

Loading

Uh oh!

Uh oh!

Add WIP code GRPO configs #593

Are you sure you want to change the base?

Add WIP code GRPO configs #593

Uh oh!

Conversation

edbeeching commented Apr 11, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

edbeeching commented Apr 11, 2025 •

edited

Loading