--- v00 ablations ---# v00.0X (all)sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.00 --output_dir=data/R1-Zero-Qwen-7B-v00.00 --run_name=v00.00 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# equal reward weightssbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.01 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.01 --output_dir=data/R1-Zero-Qwen-7B-v00.01 --run_name=v00.01 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# re-run baseline with new TRLsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02 --output_dir=data/R1-Zero-Qwen-7B-v00.02 --run_name=v00.02 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with soft format rewardsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02-soft-format --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_funcs accuracy format soft_format --reward_weights 1.0 1.0 1.0 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02-soft-format --output_dir=data/R1-Zero-Qwen-7B-v00.02-soft-format --run_name=v00.02-soft-format --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with soft format reward 0.5sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02-soft-format-0.5 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_funcs accuracy format soft_format --reward_weights 1.0 0.5 0.5 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02-soft-format-0.5 --output_dir=data/R1-Zero-Qwen-7B-v00.02-soft-format-0.5 --run_name=v00.02-soft-format-0.5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with soft format reward 0.25sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02-soft-format-0.25 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_funcs accuracy format soft_format --reward_weights 1.0 0.25 0.25 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02-soft-format-0.25 --output_dir=data/R1-Zero-Qwen-7B-v00.02-soft-format-0.25 --run_name=v00.02-soft-format-0.25 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with soft format reward 0.125sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02-soft-format-0.125 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_funcs accuracy format soft_format --reward_weights 1.0 0.125 0.125 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02-soft-format-0.125 --output_dir=data/R1-Zero-Qwen-7B-v00.02-soft-format-0.125 --run_name=v00.02-soft-format-0.125 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with overlong masksbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.02-with-mask --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --mask_truncated_completions=true --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.02-with-mask --output_dir=data/R1-Zero-Qwen-7B-v00.02-with-mask --run_name=v00.02-with-mask --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# clip highersbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.03 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --epsilon_high=0.28 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.03 --output_dir=data/R1-Zero-Qwen-7B-v00.03 --run_name=v00.03 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=2sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.04 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=2 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.04 --output_dir=data/R1-Zero-Qwen-7B-v00.04 --run_name=v00.04 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.05 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=4 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.05 --output_dir=data/R1-Zero-Qwen-7B-v00.05 --run_name=v00.05 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4 with mask# sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.05-with-mask --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args '--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=4 --mask_truncated_completions=true --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.05-with-mask --output_dir=data/R1-Zero-Qwen-7B-v00.05-with-mask --run_name=v00.05-with-mask --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# beta=0sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.06 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --beta=0.0 --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.06 --output_dir=data/R1-Zero-Qwen-7B-v00.06 --run_name=v00.06 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# beta=0 with masksbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.06-with-mask --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --beta=0.0 --mask_truncated_completions=true --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.06-with-mask --output_dir=data/R1-Zero-Qwen-7B-v00.06-with-mask --run_name=v00.06-with-mask --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with no syncsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.07 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.07 --output_dir=data/R1-Zero-Qwen-7B-v00.07 --run_name=v00.07 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# dr grpo loss (no scaling)sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.08 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --scale_rewards=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.08 --output_dir=data/R1-Zero-Qwen-7B-v00.08 --run_name=v00.08 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# dr grpo (no ref model)sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.09 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --scale_rewards=false --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.09 --output_dir=data/R1-Zero-Qwen-7B-v00.09 --run_name=v00.09 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4, beta=0sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.10 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=4 --beta=0.0 --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.10 --output_dir=data/R1-Zero-Qwen-7B-v00.10 --run_name=v00.10 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4, beta=0 with masksbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.10-with-mask --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=4 --beta=0.0 --sync_ref_model=false --mask_truncated_completions=true --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.10-with-mask --output_dir=data/R1-Zero-Qwen-7B-v00.10-with-mask --run_name=v00.10-with-mask --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=2, beta=0sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v00.11 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v00.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --reward_weights 1.0 1.0 --num_iterations=2 --beta=0.0 --sync_ref_model=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v00.11 --output_dir=data/R1-Zero-Qwen-7B-v00.11 --run_name=v00.11 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'--- v01.0X (best settings) ---# v01.0X (baselines)sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.00 --output_dir=data/R1-Zero-Qwen-7B-v01.00 --run_name=v01.00_baseline --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with 64 unique prompts per batchsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.00-bs-64 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --gradient_accumulation_steps=32 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.00-bs-64 --output_dir=data/R1-Zero-Qwen-7B-v01.00-bs-64 --run_name=v01.00_baseline_bs-64 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with 128 unique prompts per batchsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.00-bs-128 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --gradient_accumulation_steps=64 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.00-bs-128 --output_dir=data/R1-Zero-Qwen-7B-v01.00-bs-128 --run_name=v01.00_baseline_bs-128 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.01 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=4 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.01 --output_dir=data/R1-Zero-Qwen-7B-v01.01 --run_name=v01.01_mu-4 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4 with format=0.5sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.02 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=4 --reward_weights 1.0 0.5 0.5 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.02 --output_dir=data/R1-Zero-Qwen-7B-v01.02 --run_name=v01.02_mu-4_format-0.5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=2 with format=0.5sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.03 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=2 --reward_weights 1.0 0.5 0.5 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.03 --output_dir=data/R1-Zero-Qwen-7B-v01.03 --run_name=v01.03_mu-2_format-0.5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# dr grposbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v01.04 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v01.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --loss_type=dr_grpo --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v01.04 --output_dir=data/R1-Zero-Qwen-7B-v01.04 --run_name=v01.04_dr-grpo --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'--- v02.0X (levels 2-5) ---sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v02.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v02.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v02.00 --output_dir=data/R1-Zero-Qwen-7B-v02.00 --run_name=v02.00_level-2-5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'--- v03.0X (levels 3-5) ---sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v03.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v03.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v03.00 --output_dir=data/R1-Zero-Qwen-7B-v03.00 --run_name=v03.00_level-3-5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'--- v04.0X (levels 4-5) ---sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v04.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v04.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v04.00 --output_dir=data/R1-Zero-Qwen-7B-v04.00 --run_name=v04.00_level-4-5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# level 5 onlysbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v04.10 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v04.10 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v04.10 --output_dir=data/R1-Zero-Qwen-7B-v04.10 --run_name=v04.10_level-5 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'--- v05.0X (DAPO) ---sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.00 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.00 --output_dir=data/R1-Zero-Qwen-7B-v05.00 --run_name=v05.00_baseline --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# clip higher# sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.01 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args '--learning_rate=1.0e-6 --epsilon_high=0.28 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.01 --output_dir=data/R1-Zero-Qwen-7B-v05.01 --run_name=v05.01_eps-high-0.28 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# dr grposbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.02 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --loss_type=dr_grpo --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.02 --output_dir=data/R1-Zero-Qwen-7B-v05.02 --run_name=v05.02_dr-grpo --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# scaled rewardssbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.03 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --scale_rewards=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.03 --output_dir=data/R1-Zero-Qwen-7B-v05.03 --run_name=v05.03_dr-grpo --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# dr grpo w/out scaled rewardssbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.04 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --loss_type=dr_grpo --scale_rewards=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.04 --output_dir=data/R1-Zero-Qwen-7B-v05.04 --run_name=v05.04_dr-grpo_scale-reward-false --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# no maskingsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.05 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --mask_truncated_completions=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.05 --output_dir=data/R1-Zero-Qwen-7B-v05.05 --run_name=v05.05_no-mask --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# # mu=2# sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.06 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args '--learning_rate=1.0e-6 --scale_rewards=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.06 --output_dir=data/R1-Zero-Qwen-7B-v05.06 --run_name=v05.06_mu-2 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# # mu=4# sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.07 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args '--learning_rate=1.0e-6 --scale_rewards=false --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.07 --output_dir=data/R1-Zero-Qwen-7B-v05.07 --run_name=v05.07_mu-4 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=2sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.08 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=2 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.08 --output_dir=data/R1-Zero-Qwen-7B-v05.08 --run_name=v05.08_mu-2 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.09 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=4 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.09 --output_dir=data/R1-Zero-Qwen-7B-v05.09 --run_name=v05.09_mu-4 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# bs=64sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.10 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --gradient_accumulation_steps=32 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.10 --output_dir=data/R1-Zero-Qwen-7B-v05.10 --run_name=v05.10_bs-64 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# bs=128sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.11 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --gradient_accumulation_steps=64 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.11-fix --output_dir=data/R1-Zero-Qwen-7B-v05.11-fix --run_name=v05.11_bs-128 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# max_tokens=16ksbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.12 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --max_completion_length=16384 --gradient_accumulation_steps=32 --per_device_train_batch_size=2 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.12 --output_dir=data/R1-Zero-Qwen-7B-v05.12 --run_name=v05.12_ctx-16k --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# mu=4, eps=0.28sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.13 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --num_iterations=4 --epsilon_high=0.28 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.13 --output_dir=data/R1-Zero-Qwen-7B-v05.13 --run_name=v05.13_mu-4_eps-0.28 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with beta=0.001sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.14 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --beta=0.001 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.14 --output_dir=data/R1-Zero-Qwen-7B-v05.14 --run_name=v05.14_beta-0.001 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline once per batchsbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.15 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.15 --output_dir=data/R1-Zero-Qwen-7B-v05.15 --run_name=v05.15_baseline_once-per-batch --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with DP=4, TP=2sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.16 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.16 --output_dir=data/R1-Zero-Qwen-7B-v05.16 --run_name=v05.16_dp-4-tp-2 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with DP=2, TP=4sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.17 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.17 --output_dir=data/R1-Zero-Qwen-7B-v05.17 --run_name=v05.17_dp-2-tp-4 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with DP=1, TP=4sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.18 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.18 --output_dir=data/R1-Zero-Qwen-7B-v05.18 --run_name=v05.18_dp-1-tp-4 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with DP=8, TP=1sbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.19 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --args'--learning_rate=1.0e-6 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.19 --output_dir=data/R1-Zero-Qwen-7B-v05.19 --run_name=v05.19_dp-8-tp-1 --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'# baseline with 3 epochssbatch --mail-type=ALL --mail-user=lewis+hfc@huggingface.co --output=/fsx/h4/logs/%x-%j.out --err=/fsx/h4/logs/%x-%j.err --job-name=r1-zero-7b-v05.20 --nodes=2 slurm/train.slurm --model OpenR1-Zero-7B-Math --task grpo --config v05.00 --accelerator zero3 --dp 4 --tp 2 --args --args'--learning_rate=1.0e-6 --num_train_epochs=3 --hub_model_id=open-r1/R1-Zero-Qwen-7B-Math --hub_model_revision=v05.20 --output_dir=data/R1-Zero-Qwen-7B-v05.20 --run_name=v05.20_3-epochs --wandb_entity=huggingface --wandb_project=open-r1 --wandb_run_group=r1-zero-qwen-7b-math'
Uh oh!
There was an error while loading.Please reload this page.
Context:https://huggingface.co/spaces/open-r1/README/discussions/20
Slurm commands