Spaces:

md896
/

sql-debug-env

Running

App Files Files Community

md896 commited on 15 days ago

Commit

471dda7

verified ·

1 Parent(s): a1e637f

Add training artifacts 20260425-202751

Browse files

Files changed (5) hide show

.gitattributes +1 -0
artifacts/runs/20260425-202751/before_after_avg_reward.png +0 -0
artifacts/runs/20260425-202751/reward_curve.png +3 -0
artifacts/runs/20260425-202751/train_log_history.jsonl +81 -0
artifacts/runs/20260425-202751/train_metrics.json +19 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+artifacts/runs/20260425-202751/reward_curve.png filter=lfs diff=lfs merge=lfs -text

artifacts/runs/20260425-202751/before_after_avg_reward.png ADDED Viewed

artifacts/runs/20260425-202751/reward_curve.png ADDED Viewed

Git LFS Details

SHA256: ff14546a77b2479f96c4174f20f6676b9076384955a92d6fbdeb19f325067077
Pointer size: 131 Bytes
Size of remote file: 102 kB

artifacts/runs/20260425-202751/train_log_history.jsonl ADDED Viewed

	@@ -0,0 +1,81 @@

+{"loss": -0.0, "grad_norm": 21.125, "learning_rate": 5e-06, "num_tokens": 670.0, "completions/mean_length": 152.0, "completions/min_length": 48.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 48.0, "completions/min_terminated_length": 48.0, "completions/max_terminated_length": 48.0, "rewards/openenv_sql_reward_func/mean": 0.08334966003894806, "rewards/openenv_sql_reward_func/std": 0.02354578487575054, "reward": 0.08334966003894806, "reward_std": 0.02354578487575054, "frac_reward_zero_std": 0.0, "kl": 0.0, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0078125, "step": 1}
+{"loss": 0.0, "grad_norm": 0.01202392578125, "learning_rate": 4.937500000000001e-06, "num_tokens": 2206.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1005994975566864, "rewards/openenv_sql_reward_func/std": 7.375698629630278e-08, "reward": 0.1005994975566864, "reward_std": 7.375698629630278e-08, "frac_reward_zero_std": 0.0, "kl": 3.5199918784201145e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.015625, "step": 2}
+{"loss": 0.0, "grad_norm": 0.03955078125, "learning_rate": 4.875e-06, "num_tokens": 3742.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060041397809982, "rewards/openenv_sql_reward_func/std": 8.429369557916289e-08, "reward": 0.10060041397809982, "reward_std": 8.429369557916289e-08, "frac_reward_zero_std": 0.0, "kl": 0.0002939075930044055, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0234375, "step": 3}
+{"loss": 0.0001, "grad_norm": 0.0966796875, "learning_rate": 4.8125e-06, "num_tokens": 4526.0, "completions/mean_length": 139.0, "completions/min_length": 82.0, "completions/max_length": 196.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 139.0, "completions/min_terminated_length": 82.0, "completions/max_terminated_length": 196.0, "rewards/openenv_sql_reward_func/mean": 0.1005999818444252, "rewards/openenv_sql_reward_func/std": 1.1379648867659853e-06, "reward": 0.1005999818444252, "reward_std": 1.1379648867659853e-06, "frac_reward_zero_std": 0.0, "kl": 0.001363219867926091, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.03125, "step": 4}
+{"loss": 0.0007, "grad_norm": 0.0693359375, "learning_rate": 4.75e-06, "num_tokens": 5404.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999945759773254, "rewards/openenv_sql_reward_func/std": 5.532024829335569e-07, "reward": 0.09999945759773254, "reward_std": 5.531774149858393e-07, "frac_reward_zero_std": 0.0, "kl": 0.01733613759279251, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0390625, "step": 5}
+{"loss": -0.0, "grad_norm": 0.052734375, "learning_rate": 4.6875000000000004e-06, "num_tokens": 6326.0, "completions/mean_length": 248.0, "completions/min_length": 240.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 240.0, "completions/min_terminated_length": 240.0, "completions/max_terminated_length": 240.0, "rewards/openenv_sql_reward_func/mean": 0.10059972107410431, "rewards/openenv_sql_reward_func/std": 4.0569761949882377e-07, "reward": 0.10059972107410431, "reward_std": 4.05663428182379e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008688690431881696, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.046875, "step": 6}
+{"loss": 0.0001, "grad_norm": 0.047119140625, "learning_rate": 4.625000000000001e-06, "num_tokens": 7170.0, "completions/mean_length": 169.0, "completions/min_length": 82.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 82.0, "completions/min_terminated_length": 82.0, "completions/max_terminated_length": 82.0, "rewards/openenv_sql_reward_func/mean": 0.10059922933578491, "rewards/openenv_sql_reward_func/std": 2.4766876549620065e-07, "reward": 0.10059922933578491, "reward_std": 2.476127463069133e-07, "frac_reward_zero_std": 0.0, "kl": 0.0009190448399749584, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0546875, "step": 7}
+{"loss": 0.0, "grad_norm": 0.05126953125, "learning_rate": 4.5625e-06, "num_tokens": 8095.0, "completions/mean_length": 249.5, "completions/min_length": 243.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 243.0, "completions/min_terminated_length": 243.0, "completions/max_terminated_length": 243.0, "rewards/openenv_sql_reward_func/mean": 0.10060019791126251, "rewards/openenv_sql_reward_func/std": 1.4751397259260557e-07, "reward": 0.10060019791126251, "reward_std": 1.4751397259260557e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008130658243317157, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0625, "step": 8}
+{"loss": 0.0001, "grad_norm": 0.051025390625, "learning_rate": 4.5e-06, "num_tokens": 9510.0, "completions/mean_length": 195.5, "completions/min_length": 135.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 135.0, "completions/min_terminated_length": 135.0, "completions/max_terminated_length": 135.0, "rewards/openenv_sql_reward_func/mean": 0.10059981048107147, "rewards/openenv_sql_reward_func/std": 5.215938472247217e-07, "reward": 0.10059981048107147, "reward_std": 5.215672445046948e-07, "frac_reward_zero_std": 0.0, "kl": 0.0006440177676267922, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0703125, "step": 9}
+{"loss": -0.0, "grad_norm": 0.054443359375, "learning_rate": 4.4375e-06, "num_tokens": 10448.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059981048107147, "rewards/openenv_sql_reward_func/std": 1.1327088031976018e-06, "reward": 0.10059981048107147, "reward_std": 1.1326965250191279e-06, "frac_reward_zero_std": 0.0, "kl": 0.0004847404779866338, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.078125, "step": 10}
+{"loss": 0.0001, "grad_norm": 0.02978515625, "learning_rate": 4.3750000000000005e-06, "num_tokens": 11341.0, "completions/mean_length": 233.5, "completions/min_length": 211.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 211.0, "completions/min_terminated_length": 211.0, "completions/max_terminated_length": 211.0, "rewards/openenv_sql_reward_func/mean": 0.10060051083564758, "rewards/openenv_sql_reward_func/std": 1.528731274902384e-07, "reward": 0.10060051083564758, "reward_std": 1.5278232012860826e-07, "frac_reward_zero_std": 0.0, "kl": 0.0005265262443572283, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.0859375, "step": 11}
+{"loss": 0.0, "grad_norm": 0.04345703125, "learning_rate": 4.312500000000001e-06, "num_tokens": 12191.0, "completions/mean_length": 212.0, "completions/min_length": 203.0, "completions/max_length": 221.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 212.0, "completions/min_terminated_length": 203.0, "completions/max_terminated_length": 221.0, "rewards/openenv_sql_reward_func/mean": 0.1005994975566864, "rewards/openenv_sql_reward_func/std": 2.634178031257761e-07, "reward": 0.1005994975566864, "reward_std": 2.634178031257761e-07, "frac_reward_zero_std": 0.0, "kl": 0.0009352297347504646, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.09375, "step": 12}
+{"loss": 0.0, "grad_norm": 0.083984375, "learning_rate": 4.25e-06, "num_tokens": 13172.0, "completions/mean_length": 237.5, "completions/min_length": 219.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 219.0, "completions/min_terminated_length": 219.0, "completions/max_terminated_length": 219.0, "rewards/openenv_sql_reward_func/mean": 0.10060029476881027, "rewards/openenv_sql_reward_func/std": 8.745470836402092e-07, "reward": 0.10060029476881027, "reward_std": 8.745470836402092e-07, "frac_reward_zero_std": 0.0, "kl": 0.0012385000591166317, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1015625, "step": 13}
+{"loss": 0.0001, "grad_norm": 0.06689453125, "learning_rate": 4.1875e-06, "num_tokens": 14050.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999918937683105, "rewards/openenv_sql_reward_func/std": 1.053671194739536e-08, "reward": 0.09999918937683105, "reward_std": 1.053671194739536e-08, "frac_reward_zero_std": 0.0, "kl": 0.001744267763569951, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.109375, "step": 14}
+{"loss": 0.0001, "grad_norm": 5.03125, "learning_rate": 4.125e-06, "num_tokens": 14928.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11500045657157898, "rewards/openenv_sql_reward_func/std": 0.02121354639530182, "reward": 0.11500045657157898, "reward_std": 0.02121354639530182, "frac_reward_zero_std": 0.0, "kl": 0.0012873391387984157, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1171875, "step": 15}
+{"loss": 0.0001, "grad_norm": 4.25, "learning_rate": 4.0625000000000005e-06, "num_tokens": 15806.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11500053852796555, "rewards/openenv_sql_reward_func/std": 0.021213319152593613, "reward": 0.11500053852796555, "reward_std": 0.021213319152593613, "frac_reward_zero_std": 0.0, "kl": 0.001506468397565186, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.125, "step": 16}
+{"loss": 0.0001, "grad_norm": 0.06494140625, "learning_rate": 4.000000000000001e-06, "num_tokens": 16533.0, "completions/mean_length": 180.5, "completions/min_length": 105.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 105.0, "completions/min_terminated_length": 105.0, "completions/max_terminated_length": 105.0, "rewards/openenv_sql_reward_func/mean": 0.10000051558017731, "rewards/openenv_sql_reward_func/std": 6.164201522551593e-07, "reward": 0.10000051558017731, "reward_std": 6.163976422612905e-07, "frac_reward_zero_std": 0.0, "kl": 0.0023137877142289653, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1328125, "step": 17}
+{"loss": 0.0, "grad_norm": 0.0380859375, "learning_rate": 3.9375e-06, "num_tokens": 17381.0, "completions/mean_length": 211.0, "completions/min_length": 171.0, "completions/max_length": 251.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 211.0, "completions/min_terminated_length": 171.0, "completions/max_terminated_length": 251.0, "rewards/openenv_sql_reward_func/mean": 0.10059992969036102, "rewards/openenv_sql_reward_func/std": 2.423443845600559e-07, "reward": 0.10059992969036102, "reward_std": 2.423443845600559e-07, "frac_reward_zero_std": 0.0, "kl": 0.0004668166220653802, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.140625, "step": 18}
+{"loss": 0.0001, "grad_norm": 0.04345703125, "learning_rate": 3.875e-06, "num_tokens": 18228.0, "completions/mean_length": 170.5, "completions/min_length": 170.0, "completions/max_length": 171.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 170.5, "completions/min_terminated_length": 170.0, "completions/max_terminated_length": 171.0, "rewards/openenv_sql_reward_func/mean": 0.10060045123100281, "rewards/openenv_sql_reward_func/std": 3.0034249220989295e-07, "reward": 0.10060045123100281, "reward_std": 3.0029630693206855e-07, "frac_reward_zero_std": 0.0, "kl": 0.0006636844482272863, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1484375, "step": 19}
+{"loss": -0.0, "grad_norm": 0.031005859375, "learning_rate": 3.8125e-06, "num_tokens": 19141.0, "completions/mean_length": 203.5, "completions/min_length": 151.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 151.0, "completions/min_terminated_length": 151.0, "completions/max_terminated_length": 151.0, "rewards/openenv_sql_reward_func/mean": 0.10060043632984161, "rewards/openenv_sql_reward_func/std": 4.0569761949882377e-07, "reward": 0.10060043632984161, "reward_std": 4.05663428182379e-07, "frac_reward_zero_std": 0.0, "kl": 0.0005661351897288114, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.15625, "step": 20}
+{"loss": 0.0003, "grad_norm": 0.049072265625, "learning_rate": 3.7500000000000005e-06, "num_tokens": 20019.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999975562095642, "rewards/openenv_sql_reward_func/std": 9.325138989879633e-07, "reward": 0.09999975562095642, "reward_std": 9.324990060122218e-07, "frac_reward_zero_std": 0.0, "kl": 0.006562135647982359, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1640625, "step": 21}
+{"loss": 0.0001, "grad_norm": 0.059326171875, "learning_rate": 3.6875000000000007e-06, "num_tokens": 20897.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999951720237732, "rewards/openenv_sql_reward_func/std": 8.429369557916289e-08, "reward": 0.09999951720237732, "reward_std": 8.429369557916289e-08, "frac_reward_zero_std": 0.0, "kl": 0.0015639823395758867, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.171875, "step": 22}
+{"loss": 0.0001, "grad_norm": 4.4375, "learning_rate": 3.625e-06, "num_tokens": 21775.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11499930918216705, "rewards/openenv_sql_reward_func/std": 0.021213416010141373, "reward": 0.11499930918216705, "reward_std": 0.021213416010141373, "frac_reward_zero_std": 0.0, "kl": 0.002424163627438247, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1796875, "step": 23}
+{"loss": 0.0001, "grad_norm": 5.53125, "learning_rate": 3.5625e-06, "num_tokens": 22653.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11499938368797302, "rewards/openenv_sql_reward_func/std": 0.021213456988334656, "reward": 0.11499938368797302, "reward_std": 0.021213456988334656, "frac_reward_zero_std": 0.0, "kl": 0.002321964828297496, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1875, "step": 24}
+{"loss": 0.0001, "grad_norm": 0.047607421875, "learning_rate": 3.5e-06, "num_tokens": 23669.0, "completions/mean_length": 255.0, "completions/min_length": 254.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 254.0, "completions/min_terminated_length": 254.0, "completions/max_terminated_length": 254.0, "rewards/openenv_sql_reward_func/mean": 0.10060000419616699, "rewards/openenv_sql_reward_func/std": 3.8462607676592597e-07, "reward": 0.10060000419616699, "reward_std": 3.8458998119494936e-07, "frac_reward_zero_std": 0.0, "kl": 0.000912162009626627, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.1953125, "step": 25}
+{"loss": 0.0, "grad_norm": 0.02685546875, "learning_rate": 3.4375e-06, "num_tokens": 24570.0, "completions/mean_length": 237.5, "completions/min_length": 219.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 219.0, "completions/min_terminated_length": 219.0, "completions/max_terminated_length": 219.0, "rewards/openenv_sql_reward_func/mean": 0.10059957951307297, "rewards/openenv_sql_reward_func/std": 2.318076610663411e-07, "reward": 0.10059957951307297, "reward_std": 2.318076610663411e-07, "frac_reward_zero_std": 0.0, "kl": 0.00029659441497642547, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.203125, "step": 26}
+{"loss": 0.0001, "grad_norm": 4.46875, "learning_rate": 3.3750000000000003e-06, "num_tokens": 25351.0, "completions/mean_length": 207.5, "completions/min_length": 159.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 159.0, "completions/min_terminated_length": 159.0, "completions/max_terminated_length": 159.0, "rewards/openenv_sql_reward_func/mean": 0.11500020325183868, "rewards/openenv_sql_reward_func/std": 0.02121415175497532, "reward": 0.11500020325183868, "reward_std": 0.02121415175497532, "frac_reward_zero_std": 0.0, "kl": 0.0017118019168265164, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2109375, "step": 27}
+{"loss": 0.0, "grad_norm": 0.01519775390625, "learning_rate": 3.3125e-06, "num_tokens": 26887.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060025751590729, "rewards/openenv_sql_reward_func/std": 5.2683560625155224e-08, "reward": 0.10060025751590729, "reward_std": 5.2683560625155224e-08, "frac_reward_zero_std": 0.0, "kl": 3.622565418481827e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.21875, "step": 28}
+{"loss": 0.0001, "grad_norm": 0.05712890625, "learning_rate": 3.2500000000000002e-06, "num_tokens": 27765.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.12999990582466125, "rewards/openenv_sql_reward_func/std": 7.903236678430403e-07, "reward": 0.12999990582466125, "reward_std": 7.902534093773284e-07, "frac_reward_zero_std": 0.0, "kl": 0.0013640724355354905, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2265625, "step": 29}
+{"loss": 0.0, "grad_norm": 0.01153564453125, "learning_rate": 3.1875e-06, "num_tokens": 29301.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059954226016998, "rewards/openenv_sql_reward_func/std": 3.055646402572165e-07, "reward": 0.10059954226016998, "reward_std": 3.055646402572165e-07, "frac_reward_zero_std": 0.0, "kl": 9.018986020237207e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.234375, "step": 30}
+{"loss": 0.0001, "grad_norm": 0.09521484375, "learning_rate": 3.125e-06, "num_tokens": 30091.0, "completions/mean_length": 142.0, "completions/min_length": 79.0, "completions/max_length": 205.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 142.0, "completions/min_terminated_length": 79.0, "completions/max_terminated_length": 205.0, "rewards/openenv_sql_reward_func/mean": 0.10060063004493713, "rewards/openenv_sql_reward_func/std": 4.952254926138266e-07, "reward": 0.10060063004493713, "reward_std": 4.952254926138266e-07, "frac_reward_zero_std": 0.0, "kl": 0.0013611545437015593, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2421875, "step": 31}
+{"loss": 0.0, "grad_norm": 0.033203125, "learning_rate": 3.0625000000000003e-06, "num_tokens": 31627.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1006002426147461, "rewards/openenv_sql_reward_func/std": 1.7912410044118587e-07, "reward": 0.1006002426147461, "reward_std": 1.7912410044118587e-07, "frac_reward_zero_std": 0.0, "kl": 0.0001397512387484312, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.25, "step": 32}
+{"loss": -0.0, "grad_norm": 0.0213623046875, "learning_rate": 3e-06, "num_tokens": 33163.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060061514377594, "rewards/openenv_sql_reward_func/std": 8.97168703772877e-08, "reward": 0.10060061514377594, "reward_std": 8.956205022059294e-08, "frac_reward_zero_std": 0.0, "kl": 8.115230593830347e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2578125, "step": 33}
+{"loss": 0.0, "grad_norm": 0.036865234375, "learning_rate": 2.9375000000000003e-06, "num_tokens": 34041.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.12999926507472992, "rewards/openenv_sql_reward_func/std": 2.7395452661949093e-07, "reward": 0.12999926507472992, "reward_std": 2.7395452661949093e-07, "frac_reward_zero_std": 0.0, "kl": 0.0012209611013531685, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.265625, "step": 34}
+{"loss": 0.0, "grad_norm": 0.006378173828125, "learning_rate": 2.875e-06, "num_tokens": 35577.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059958696365356, "rewards/openenv_sql_reward_func/std": 6.869095869888042e-08, "reward": 0.10059958696365356, "reward_std": 6.848863165487273e-08, "frac_reward_zero_std": 0.0, "kl": 3.042793832719326e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2734375, "step": 35}
+{"loss": 0.0, "grad_norm": 0.0091552734375, "learning_rate": 2.8125e-06, "num_tokens": 37113.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060015320777893, "rewards/openenv_sql_reward_func/std": 1.0325977655156748e-06, "reward": 0.10060015320777893, "reward_std": 1.0325977655156748e-06, "frac_reward_zero_std": 0.0, "kl": 5.699298344552517e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.28125, "step": 36}
+{"loss": 0.0, "grad_norm": 0.0830078125, "learning_rate": 2.7500000000000004e-06, "num_tokens": 37832.0, "completions/mean_length": 146.5, "completions/min_length": 97.0, "completions/max_length": 196.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 146.5, "completions/min_terminated_length": 97.0, "completions/max_terminated_length": 196.0, "rewards/openenv_sql_reward_func/mean": 0.10060019046068192, "rewards/openenv_sql_reward_func/std": 7.902534093773284e-07, "reward": 0.10060019046068192, "reward_std": 7.902534093773284e-07, "frac_reward_zero_std": 0.0, "kl": 0.0009088766237255186, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.2890625, "step": 37}
+{"loss": 0.0001, "grad_norm": 4.71875, "learning_rate": 2.6875e-06, "num_tokens": 38710.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11500005424022675, "rewards/openenv_sql_reward_func/std": 0.021212829276919365, "reward": 0.11500005424022675, "reward_std": 0.021212829276919365, "frac_reward_zero_std": 0.0, "kl": 0.002512380597181618, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.296875, "step": 38}
+{"loss": 0.0002, "grad_norm": 0.1533203125, "learning_rate": 2.6250000000000003e-06, "num_tokens": 39588.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10000037401914597, "rewards/openenv_sql_reward_func/std": 6.427394509955775e-07, "reward": 0.10000037401914597, "reward_std": 6.427394509955775e-07, "frac_reward_zero_std": 0.0, "kl": 0.004490889958105981, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3046875, "step": 39}
+{"loss": 0.0001, "grad_norm": 0.03515625, "learning_rate": 2.5625e-06, "num_tokens": 40535.0, "completions/mean_length": 220.5, "completions/min_length": 185.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 185.0, "completions/min_terminated_length": 185.0, "completions/max_terminated_length": 185.0, "rewards/openenv_sql_reward_func/mean": 0.1005995124578476, "rewards/openenv_sql_reward_func/std": 2.686345013103164e-08, "reward": 0.1005995124578476, "reward_std": 2.6341780312577612e-08, "frac_reward_zero_std": 0.0, "kl": 0.0006986626540310681, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3125, "step": 40}
+{"loss": 0.0, "grad_norm": 0.054443359375, "learning_rate": 2.5e-06, "num_tokens": 41409.0, "completions/mean_length": 224.0, "completions/min_length": 192.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 192.0, "completions/min_terminated_length": 192.0, "completions/max_terminated_length": 192.0, "rewards/openenv_sql_reward_func/mean": 0.10059982538223267, "rewards/openenv_sql_reward_func/std": 4.214684850012418e-07, "reward": 0.10059982538223267, "reward_std": 4.214684850012418e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008067296294029802, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3203125, "step": 41}
+{"loss": 0.0, "grad_norm": 3.90625, "learning_rate": 2.4375e-06, "num_tokens": 42287.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11500048637390137, "rewards/openenv_sql_reward_func/std": 0.021212762221693993, "reward": 0.11500048637390137, "reward_std": 0.021212762221693993, "frac_reward_zero_std": 0.0, "kl": 0.001165723311714828, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.328125, "step": 42}
+{"loss": 0.0002, "grad_norm": 0.1650390625, "learning_rate": 2.375e-06, "num_tokens": 43165.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999962151050568, "rewards/openenv_sql_reward_func/std": 2.582031868314516e-07, "reward": 0.09999962151050568, "reward_std": 2.581494413789187e-07, "frac_reward_zero_std": 0.0, "kl": 0.004168013110756874, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3359375, "step": 43}
+{"loss": 0.0001, "grad_norm": 0.049560546875, "learning_rate": 2.3125000000000003e-06, "num_tokens": 44168.0, "completions/mean_length": 248.5, "completions/min_length": 241.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 241.0, "completions/min_terminated_length": 241.0, "completions/max_terminated_length": 241.0, "rewards/openenv_sql_reward_func/mean": 0.10060051083564758, "rewards/openenv_sql_reward_func/std": 6.90174772444152e-07, "reward": 0.10060051083564758, "reward_std": 6.901546498738753e-07, "frac_reward_zero_std": 0.0, "kl": 0.0007310072251129895, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.34375, "step": 44}
+{"loss": 0.0, "grad_norm": 0.002166748046875, "learning_rate": 2.25e-06, "num_tokens": 45704.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059913992881775, "rewards/openenv_sql_reward_func/std": 6.322026990801533e-08, "reward": 0.10059913992881775, "reward_std": 6.322026990801533e-08, "frac_reward_zero_std": 0.0, "kl": 3.154273144900799e-06, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3515625, "step": 45}
+{"loss": -0.0, "grad_norm": 0.010009765625, "learning_rate": 2.1875000000000002e-06, "num_tokens": 47240.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1005997359752655, "rewards/openenv_sql_reward_func/std": 7.323204158637964e-07, "reward": 0.1005997359752655, "reward_std": 7.323014870053157e-07, "frac_reward_zero_std": 0.0, "kl": 0.0001104455441236496, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.359375, "step": 46}
+{"loss": -0.0, "grad_norm": 0.046630859375, "learning_rate": 2.125e-06, "num_tokens": 48622.0, "completions/mean_length": 179.0, "completions/min_length": 102.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 102.0, "completions/min_terminated_length": 102.0, "completions/max_terminated_length": 102.0, "rewards/openenv_sql_reward_func/mean": 0.1006002128124237, "rewards/openenv_sql_reward_func/std": 5.215938472247217e-07, "reward": 0.1006002128124237, "reward_std": 5.215672445046948e-07, "frac_reward_zero_std": 0.0, "kl": 0.00042647848022170365, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3671875, "step": 47}
+{"loss": 0.0, "grad_norm": 0.036376953125, "learning_rate": 2.0625e-06, "num_tokens": 49560.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059944540262222, "rewards/openenv_sql_reward_func/std": 4.530786270606768e-07, "reward": 0.10059944540262222, "reward_std": 4.530786270606768e-07, "frac_reward_zero_std": 0.0, "kl": 0.0005319059127941728, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.375, "step": 48}
+{"loss": 0.0, "grad_norm": 0.061767578125, "learning_rate": 2.0000000000000003e-06, "num_tokens": 50455.0, "completions/mean_length": 194.5, "completions/min_length": 133.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 133.0, "completions/min_terminated_length": 133.0, "completions/max_terminated_length": 133.0, "rewards/openenv_sql_reward_func/mean": 0.10060052573680878, "rewards/openenv_sql_reward_func/std": 6.638128411395883e-07, "reward": 0.10060052573680878, "reward_std": 6.638128411395883e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008273344719782472, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3828125, "step": 49}
+{"loss": 0.0, "grad_norm": 0.061279296875, "learning_rate": 1.9375e-06, "num_tokens": 51345.0, "completions/mean_length": 192.0, "completions/min_length": 143.0, "completions/max_length": 241.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 192.0, "completions/min_terminated_length": 143.0, "completions/max_terminated_length": 241.0, "rewards/openenv_sql_reward_func/mean": 0.10060083121061325, "rewards/openenv_sql_reward_func/std": 1.5805068187546567e-07, "reward": 0.10060083121061325, "reward_std": 1.5805068187546567e-07, "frac_reward_zero_std": 0.0, "kl": 0.0009750118479132652, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.390625, "step": 50}
+{"loss": 0.0001, "grad_norm": 0.0537109375, "learning_rate": 1.8750000000000003e-06, "num_tokens": 52283.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1005997359752655, "rewards/openenv_sql_reward_func/std": 1.0062698265755898e-06, "reward": 0.1005997359752655, "reward_std": 1.0062559567813878e-06, "frac_reward_zero_std": 0.0, "kl": 0.000826591276563704, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.3984375, "step": 51}
+{"loss": -0.0, "grad_norm": 0.0245361328125, "learning_rate": 1.8125e-06, "num_tokens": 53819.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1006002128124237, "rewards/openenv_sql_reward_func/std": 2.0553342494622484e-07, "reward": 0.1006002128124237, "reward_std": 2.0546588075376349e-07, "frac_reward_zero_std": 0.0, "kl": 0.00020425557158887386, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.40625, "step": 52}
+{"loss": 0.0001, "grad_norm": 0.039794921875, "learning_rate": 1.75e-06, "num_tokens": 54757.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059990733861923, "rewards/openenv_sql_reward_func/std": 5.268356062515522e-07, "reward": 0.10059990733861923, "reward_std": 5.268356062515522e-07, "frac_reward_zero_std": 0.0, "kl": 0.002905867761000991, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4140625, "step": 53}
+{"loss": 0.0, "grad_norm": 3.015625, "learning_rate": 1.6875000000000001e-06, "num_tokens": 56293.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11559954285621643, "rewards/openenv_sql_reward_func/std": 0.02121366374194622, "reward": 0.11559954285621643, "reward_std": 0.02121366374194622, "frac_reward_zero_std": 0.0, "kl": 0.00019224989227950573, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.421875, "step": 54}
+{"loss": 0.0, "grad_norm": 0.017333984375, "learning_rate": 1.6250000000000001e-06, "num_tokens": 57829.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060040652751923, "rewards/openenv_sql_reward_func/std": 7.059597351144475e-07, "reward": 0.10060040652751923, "reward_std": 7.059597351144475e-07, "frac_reward_zero_std": 0.0, "kl": 4.853028804063797e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4296875, "step": 55}
+{"loss": 0.0, "grad_norm": 0.0712890625, "learning_rate": 1.5625e-06, "num_tokens": 58616.0, "completions/mean_length": 140.5, "completions/min_length": 79.0, "completions/max_length": 202.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 140.5, "completions/min_terminated_length": 79.0, "completions/max_terminated_length": 202.0, "rewards/openenv_sql_reward_func/mean": 0.10060013830661774, "rewards/openenv_sql_reward_func/std": 8.640104169899132e-07, "reward": 0.10060013830661774, "reward_std": 8.640104169899132e-07, "frac_reward_zero_std": 0.0, "kl": 0.0009596922900527716, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4375, "step": 56}
+{"loss": 0.0001, "grad_norm": 4.5625, "learning_rate": 1.5e-06, "num_tokens": 59494.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1149996817111969, "rewards/openenv_sql_reward_func/std": 0.021213652566075325, "reward": 0.1149996817111969, "reward_std": 0.021213652566075325, "frac_reward_zero_std": 0.0, "kl": 0.0015592599520459771, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4453125, "step": 57}
+{"loss": -0.0, "grad_norm": 0.0419921875, "learning_rate": 1.4375e-06, "num_tokens": 60407.0, "completions/mean_length": 243.5, "completions/min_length": 231.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 231.0, "completions/min_terminated_length": 231.0, "completions/max_terminated_length": 231.0, "rewards/openenv_sql_reward_func/mean": 0.10060077905654907, "rewards/openenv_sql_reward_func/std": 5.819089565761715e-08, "reward": 0.10060077905654907, "reward_std": 5.7951915266585274e-08, "frac_reward_zero_std": 0.0, "kl": 0.0007375064305961132, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.453125, "step": 58}
+{"loss": 0.0, "grad_norm": 0.049072265625, "learning_rate": 1.3750000000000002e-06, "num_tokens": 61287.0, "completions/mean_length": 187.0, "completions/min_length": 162.0, "completions/max_length": 212.0, "completions/clipped_ratio": 0.0, "completions/mean_terminated_length": 187.0, "completions/min_terminated_length": 162.0, "completions/max_terminated_length": 212.0, "rewards/openenv_sql_reward_func/mean": 0.10059993714094162, "rewards/openenv_sql_reward_func/std": 4.846887691201118e-07, "reward": 0.10059993714094162, "reward_std": 4.846887691201118e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008219787559937686, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4609375, "step": 59}
+{"loss": -0.0, "grad_norm": 0.06591796875, "learning_rate": 1.3125000000000001e-06, "num_tokens": 62165.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.12999975681304932, "rewards/openenv_sql_reward_func/std": 6.428257961488271e-07, "reward": 0.12999975681304932, "reward_std": 6.427394509955775e-07, "frac_reward_zero_std": 0.0, "kl": 0.001668700948357582, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.46875, "step": 60}
+{"loss": 0.0001, "grad_norm": 4.03125, "learning_rate": 1.25e-06, "num_tokens": 62920.0, "completions/mean_length": 194.5, "completions/min_length": 133.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 133.0, "completions/min_terminated_length": 133.0, "completions/max_terminated_length": 133.0, "rewards/openenv_sql_reward_func/mean": 0.11500030755996704, "rewards/openenv_sql_reward_func/std": 0.02121289260685444, "reward": 0.11500030755996704, "reward_std": 0.02121289260685444, "frac_reward_zero_std": 0.0, "kl": 0.0019740195712074637, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4765625, "step": 61}
+{"loss": 0.0, "grad_norm": 0.049560546875, "learning_rate": 1.1875e-06, "num_tokens": 63856.0, "completions/mean_length": 215.0, "completions/min_length": 174.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 174.0, "completions/min_terminated_length": 174.0, "completions/max_terminated_length": 174.0, "rewards/openenv_sql_reward_func/mean": 0.10060030966997147, "rewards/openenv_sql_reward_func/std": 3.4771150581036636e-07, "reward": 0.10060030966997147, "reward_std": 3.4771150581036636e-07, "frac_reward_zero_std": 0.0, "kl": 0.0011559513513930142, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.484375, "step": 62}
+{"loss": -0.0, "grad_norm": 0.002044677734375, "learning_rate": 1.125e-06, "num_tokens": 65392.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059931874275208, "rewards/openenv_sql_reward_func/std": 4.583772579280776e-07, "reward": 0.10059931874275208, "reward_std": 4.583469888075342e-07, "frac_reward_zero_std": 0.0, "kl": 9.016599506139755e-06, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.4921875, "step": 63}
+{"loss": 0.0001, "grad_norm": 4.8125, "learning_rate": 1.0625e-06, "num_tokens": 66270.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.11499994993209839, "rewards/openenv_sql_reward_func/std": 0.02121191844344139, "reward": 0.11499994993209839, "reward_std": 0.02121191844344139, "frac_reward_zero_std": 0.0, "kl": 0.0032611616188660264, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5, "step": 64}
+{"loss": -0.0, "grad_norm": 0.0272216796875, "learning_rate": 1.0000000000000002e-06, "num_tokens": 67149.0, "completions/mean_length": 226.5, "completions/min_length": 197.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 197.0, "completions/min_terminated_length": 197.0, "completions/max_terminated_length": 197.0, "rewards/openenv_sql_reward_func/mean": 0.1006007045507431, "rewards/openenv_sql_reward_func/std": 6.869095869888042e-08, "reward": 0.1006007045507431, "reward_std": 6.848863165487273e-08, "frac_reward_zero_std": 0.0, "kl": 0.00047733107930980623, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5078125, "step": 65}
+{"loss": -0.0, "grad_norm": 0.00640869140625, "learning_rate": 9.375000000000001e-07, "num_tokens": 68685.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059936344623566, "rewards/openenv_sql_reward_func/std": 3.53019174781366e-07, "reward": 0.10059936344623566, "reward_std": 3.5297986755722377e-07, "frac_reward_zero_std": 0.0, "kl": 2.478680107742548e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.515625, "step": 66}
+{"loss": 0.0, "grad_norm": 0.015380859375, "learning_rate": 8.75e-07, "num_tokens": 70221.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060082376003265, "rewards/openenv_sql_reward_func/std": 9.483041196745035e-08, "reward": 0.10060082376003265, "reward_std": 9.483041196745035e-08, "frac_reward_zero_std": 0.0, "kl": 4.500383511185646e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5234375, "step": 67}
+{"loss": 0.0002, "grad_norm": 0.1767578125, "learning_rate": 8.125000000000001e-07, "num_tokens": 71099.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.0999995768070221, "rewards/openenv_sql_reward_func/std": 5.63738694836502e-07, "reward": 0.0999995768070221, "reward_std": 5.637140816361352e-07, "frac_reward_zero_std": 0.0, "kl": 0.0052041958551853895, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.53125, "step": 68}
+{"loss": -0.0, "grad_norm": 0.05517578125, "learning_rate": 7.5e-07, "num_tokens": 72037.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059982538223267, "rewards/openenv_sql_reward_func/std": 9.746601108417963e-07, "reward": 0.10059982538223267, "reward_std": 9.74645899987081e-07, "frac_reward_zero_std": 0.0, "kl": 0.0006255102343857288, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5390625, "step": 69}
+{"loss": 0.0001, "grad_norm": 0.09912109375, "learning_rate": 6.875000000000001e-07, "num_tokens": 72802.0, "completions/mean_length": 169.5, "completions/min_length": 83.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 83.0, "completions/min_terminated_length": 83.0, "completions/max_terminated_length": 83.0, "rewards/openenv_sql_reward_func/mean": 0.10059989988803864, "rewards/openenv_sql_reward_func/std": 9.009042969410075e-07, "reward": 0.10059989988803864, "reward_std": 9.008888923744962e-07, "frac_reward_zero_std": 0.0, "kl": 0.0007415459549520165, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.546875, "step": 70}
+{"loss": 0.0, "grad_norm": 0.039794921875, "learning_rate": 6.25e-07, "num_tokens": 73680.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.1300000250339508, "rewards/openenv_sql_reward_func/std": 1.0536712125031045e-07, "reward": 0.1300000250339508, "reward_std": 1.0536712125031045e-07, "frac_reward_zero_std": 0.0, "kl": 0.0012366266455501318, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5546875, "step": 71}
+{"loss": 0.0, "grad_norm": 4.8125, "learning_rate": 5.625e-07, "num_tokens": 74519.0, "completions/mean_length": 166.5, "completions/min_length": 77.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 77.0, "completions/min_terminated_length": 77.0, "completions/max_terminated_length": 77.0, "rewards/openenv_sql_reward_func/mean": 0.1506001353263855, "rewards/openenv_sql_reward_func/std": 0.07070982456207275, "reward": 0.1506001353263855, "reward_std": 0.07070982456207275, "frac_reward_zero_std": 0.0, "kl": 0.00025202418873959687, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5625, "step": 72}
+{"loss": -0.0, "grad_norm": 0.0576171875, "learning_rate": 5.000000000000001e-07, "num_tokens": 75313.0, "completions/mean_length": 184.0, "completions/min_length": 112.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 112.0, "completions/min_terminated_length": 112.0, "completions/max_terminated_length": 112.0, "rewards/openenv_sql_reward_func/mean": 0.10059963166713715, "rewards/openenv_sql_reward_func/std": 3.0034249220989295e-07, "reward": 0.10059963166713715, "reward_std": 3.0029630693206855e-07, "frac_reward_zero_std": 0.0, "kl": 0.0007105328259058297, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5703125, "step": 73}
+{"loss": 0.0, "grad_norm": 0.00750732421875, "learning_rate": 4.375e-07, "num_tokens": 76849.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060027241706848, "rewards/openenv_sql_reward_func/std": 2.6873780711866857e-07, "reward": 0.10060027241706848, "reward_std": 2.686861648726335e-07, "frac_reward_zero_std": 0.0, "kl": 1.566484570503235e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.578125, "step": 74}
+{"loss": 0.0, "grad_norm": 0.04296875, "learning_rate": 3.75e-07, "num_tokens": 77712.0, "completions/mean_length": 218.5, "completions/min_length": 181.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 181.0, "completions/min_terminated_length": 181.0, "completions/max_terminated_length": 181.0, "rewards/openenv_sql_reward_func/mean": 0.1005995124578476, "rewards/openenv_sql_reward_func/std": 1.5805068187546567e-07, "reward": 0.1005995124578476, "reward_std": 1.5805068187546567e-07, "frac_reward_zero_std": 0.0, "kl": 0.0008388351416215301, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.5859375, "step": 75}
+{"loss": 0.0, "grad_norm": 0.03564453125, "learning_rate": 3.125e-07, "num_tokens": 78650.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10060064494609833, "rewards/openenv_sql_reward_func/std": 4.846887691201118e-07, "reward": 0.10060064494609833, "reward_std": 4.846887691201118e-07, "frac_reward_zero_std": 0.0, "kl": 0.0005347070982679725, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.59375, "step": 76}
+{"loss": 0.0001, "grad_norm": 0.055419921875, "learning_rate": 2.5000000000000004e-07, "num_tokens": 79493.0, "completions/mean_length": 168.5, "completions/min_length": 81.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 81.0, "completions/min_terminated_length": 81.0, "completions/max_terminated_length": 81.0, "rewards/openenv_sql_reward_func/mean": 0.10059995949268341, "rewards/openenv_sql_reward_func/std": 1.1076084405203801e-07, "reward": 0.10059995949268341, "reward_std": 1.106354758917405e-07, "frac_reward_zero_std": 0.0, "kl": 0.0007368020596913993, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.6015625, "step": 77}
+{"loss": 0.0001, "grad_norm": 0.051513671875, "learning_rate": 1.875e-07, "num_tokens": 80294.0, "completions/mean_length": 217.5, "completions/min_length": 179.0, "completions/max_length": 256.0, "completions/clipped_ratio": 0.5, "completions/mean_terminated_length": 179.0, "completions/min_terminated_length": 179.0, "completions/max_terminated_length": 179.0, "rewards/openenv_sql_reward_func/mean": 0.09999934583902359, "rewards/openenv_sql_reward_func/std": 1.4751397259260557e-07, "reward": 0.09999934583902359, "reward_std": 1.4751397259260557e-07, "frac_reward_zero_std": 0.0, "kl": 0.0017193516832776368, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.609375, "step": 78}
+{"loss": 0.0, "grad_norm": 0.01483154296875, "learning_rate": 1.2500000000000002e-07, "num_tokens": 81830.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.10059992969036102, "rewards/openenv_sql_reward_func/std": 3.53019174781366e-07, "reward": 0.10059992969036102, "reward_std": 3.5297986755722377e-07, "frac_reward_zero_std": 0.0, "kl": 2.858974039554596e-05, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.6171875, "step": 79}
+{"loss": 0.0001, "grad_norm": 0.09814453125, "learning_rate": 6.250000000000001e-08, "num_tokens": 82708.0, "completions/mean_length": 256.0, "completions/min_length": 256.0, "completions/max_length": 256.0, "completions/clipped_ratio": 1.0, "completions/mean_terminated_length": 0.0, "completions/min_terminated_length": 0.0, "completions/max_terminated_length": 0.0, "rewards/openenv_sql_reward_func/mean": 0.09999945014715195, "rewards/openenv_sql_reward_func/std": 1.053671194739536e-08, "reward": 0.09999945014715195, "reward_std": 1.053671194739536e-08, "frac_reward_zero_std": 0.0, "kl": 0.0034081300254911184, "clip_ratio/low_mean": 0.0, "clip_ratio/low_min": 0.0, "clip_ratio/high_mean": 0.0, "clip_ratio/high_max": 0.0, "clip_ratio/region_mean": 0.0, "epoch": 0.625, "step": 80}
+{"train_runtime": 548.4754, "train_samples_per_second": 0.292, "train_steps_per_second": 0.146, "total_flos": 0.0, "train_loss": 5.505121234818944e-05, "epoch": 0.625, "step": 80}

artifacts/runs/20260425-202751/train_metrics.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "generated_at_epoch_s": 1777148857.9733007,
+  "log_rows": 81,
+  "reward_points": 80,
+  "reward_first": 0.08334966003894806,
+  "reward_last": 0.09999945014715195,
+  "reward_max": 0.1506001353263855,
+  "openenv_base_url": "https://md896-sql-debug-env.hf.space",
+  "train_max_steps": 80,
+  "model_name": "Qwen/Qwen2.5-Coder-0.5B-Instruct",
+  "baseline_avg_reward": 0.10435011155751148,
+  "post_avg_reward": 0.10059991848325071,
+  "delta_avg_reward": -0.003750193074260763,
+  "base_hard_reward": 0.10374985788224293,
+  "trained_hard_reward": 0.10937500148901497,
+  "delta_hard_reward": 0.0056251436067720345,
+  "tensorboard_dir": null,
+  "report_to": "none"
+}