diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,9393 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 585,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.0,
+      "completion_length": 541.46875,
+      "epoch": 0.0017094017094017094,
+      "grad_norm": 1.683565878742209,
+      "kl": 0.0,
+      "learning_rate": 4.999963950687845e-07,
+      "loss": 0.0,
+      "reward": 3.018749952316284,
+      "reward_std": 0.8137361407279968,
+      "rewards/accuracy_reward": 1.8312499523162842,
+      "rewards/format_reward": 0.875,
+      "step": 1,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.0,
+      "completion_length": 468.90625,
+      "epoch": 0.003418803418803419,
+      "grad_norm": 2.1815089490701913,
+      "kl": 1.704692840576172e-05,
+      "learning_rate": 4.999855803791026e-07,
+      "loss": 0.0,
+      "reward": 3.1187500953674316,
+      "reward_std": 0.7342080473899841,
+      "rewards/accuracy_reward": 1.8749998807907104,
+      "rewards/format_reward": 0.9375,
+      "step": 2,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 484.6875,
+      "epoch": 0.005128205128205128,
+      "grad_norm": 1.4996002948310077,
+      "kl": 0.00014078617095947266,
+      "learning_rate": 4.999675562428436e-07,
+      "loss": 0.0,
+      "reward": 3.268749713897705,
+      "reward_std": 0.6532481908798218,
+      "rewards/accuracy_reward": 1.96875,
+      "rewards/format_reward": 0.9375,
+      "step": 3,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.25,
+      "all_wrong": 0.125,
+      "completion_length": 344.1875,
+      "epoch": 0.006837606837606838,
+      "grad_norm": 1.4231314531189088,
+      "kl": 0.0005269050598144531,
+      "learning_rate": 4.99942323179814e-07,
+      "loss": 0.0,
+      "reward": 2.7041666507720947,
+      "reward_std": 0.9302234649658203,
+      "rewards/accuracy_reward": 1.4979166984558105,
+      "rewards/format_reward": 1.0,
+      "step": 4,
+      "temporal_rewards": 0.5
+    },
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.0,
+      "completion_length": 348.4375,
+      "epoch": 0.008547008547008548,
+      "grad_norm": 1.6202034213899428,
+      "kl": 0.0007777214050292969,
+      "learning_rate": 4.999098819177214e-07,
+      "loss": 0.0,
+      "reward": 3.257291793823242,
+      "reward_std": 0.9336519241333008,
+      "rewards/accuracy_reward": 1.9385416507720947,
+      "rewards/format_reward": 1.0,
+      "step": 5,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.125,
+      "completion_length": 335.59375,
+      "epoch": 0.010256410256410256,
+      "grad_norm": 1.5129502527970957,
+      "kl": 0.003147125244140625,
+      "learning_rate": 4.998702333921537e-07,
+      "loss": 0.0001,
+      "reward": 2.652083396911621,
+      "reward_std": 0.5108211040496826,
+      "rewards/accuracy_reward": 1.3989583253860474,
+      "rewards/format_reward": 1.0,
+      "step": 6,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 346.4375,
+      "epoch": 0.011965811965811967,
+      "grad_norm": 2.852095537675998,
+      "kl": 0.0029296875,
+      "learning_rate": 4.998233787465529e-07,
+      "loss": 0.0001,
+      "reward": 3.445833206176758,
+      "reward_std": 0.7031689286231995,
+      "rewards/accuracy_reward": 2.089583396911621,
+      "rewards/format_reward": 1.0,
+      "step": 7,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.0,
+      "completion_length": 400.5,
+      "epoch": 0.013675213675213675,
+      "grad_norm": 1.4016587180453157,
+      "kl": 0.00347137451171875,
+      "learning_rate": 4.99769319332181e-07,
+      "loss": 0.0001,
+      "reward": 3.4281249046325684,
+      "reward_std": 0.928835928440094,
+      "rewards/accuracy_reward": 2.078125,
+      "rewards/format_reward": 0.96875,
+      "step": 8,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.125,
+      "completion_length": 365.0625,
+      "epoch": 0.015384615384615385,
+      "grad_norm": 1.2798899527221033,
+      "kl": 0.0038013458251953125,
+      "learning_rate": 4.997080567080816e-07,
+      "loss": 0.0002,
+      "reward": 3.417708158493042,
+      "reward_std": 0.609825849533081,
+      "rewards/accuracy_reward": 2.070833206176758,
+      "rewards/format_reward": 1.0,
+      "step": 9,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 362.1875,
+      "epoch": 0.017094017094017096,
+      "grad_norm": 1.395047997993146,
+      "kl": 0.00490570068359375,
+      "learning_rate": 4.996395926410354e-07,
+      "loss": 0.0002,
+      "reward": 3.805208206176758,
+      "reward_std": 0.5129755735397339,
+      "rewards/accuracy_reward": 2.4364583492279053,
+      "rewards/format_reward": 1.0,
+      "step": 10,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 388.75,
+      "epoch": 0.018803418803418803,
+      "grad_norm": 1.488334584137506,
+      "kl": 0.005565643310546875,
+      "learning_rate": 4.995639291055083e-07,
+      "loss": 0.0002,
+      "reward": 3.644791603088379,
+      "reward_std": 0.37456631660461426,
+      "rewards/accuracy_reward": 2.2666664123535156,
+      "rewards/format_reward": 1.0,
+      "step": 11,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.125,
+      "completion_length": 363.09375,
+      "epoch": 0.020512820512820513,
+      "grad_norm": 1.5121635878096116,
+      "kl": 0.00585174560546875,
+      "learning_rate": 4.994810682835951e-07,
+      "loss": 0.0002,
+      "reward": 3.3416666984558105,
+      "reward_std": 0.6709672212600708,
+      "rewards/accuracy_reward": 2.0010416507720947,
+      "rewards/format_reward": 1.0,
+      "step": 12,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.0,
+      "completion_length": 353.875,
+      "epoch": 0.022222222222222223,
+      "grad_norm": 1.584900921649109,
+      "kl": 0.00725555419921875,
+      "learning_rate": 4.99391012564956e-07,
+      "loss": 0.0003,
+      "reward": 3.323958396911621,
+      "reward_std": 0.6850003004074097,
+      "rewards/accuracy_reward": 2.011458396911621,
+      "rewards/format_reward": 1.0,
+      "step": 13,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 371.90625,
+      "epoch": 0.023931623931623933,
+      "grad_norm": 1.289433557825761,
+      "kl": 0.006565093994140625,
+      "learning_rate": 4.992937645467487e-07,
+      "loss": 0.0003,
+      "reward": 4.022916793823242,
+      "reward_std": 0.23490256071090698,
+      "rewards/accuracy_reward": 2.566666841506958,
+      "rewards/format_reward": 1.0,
+      "step": 14,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 382.9375,
+      "epoch": 0.02564102564102564,
+      "grad_norm": 1.345896846637116,
+      "kl": 0.007579803466796875,
+      "learning_rate": 4.991893270335525e-07,
+      "loss": 0.0003,
+      "reward": 3.6708333492279053,
+      "reward_std": 0.6491622924804688,
+      "rewards/accuracy_reward": 2.2552082538604736,
+      "rewards/format_reward": 1.0,
+      "step": 15,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.0,
+      "completion_length": 370.3125,
+      "epoch": 0.02735042735042735,
+      "grad_norm": 1.2090675917862106,
+      "kl": 0.00836181640625,
+      "learning_rate": 4.990777030372877e-07,
+      "loss": 0.0003,
+      "reward": 3.484375,
+      "reward_std": 0.6027818322181702,
+      "rewards/accuracy_reward": 2.1343750953674316,
+      "rewards/format_reward": 1.0,
+      "step": 16,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 376.09375,
+      "epoch": 0.02905982905982906,
+      "grad_norm": 1.2326055119778474,
+      "kl": 0.0081024169921875,
+      "learning_rate": 4.989588957771289e-07,
+      "loss": 0.0003,
+      "reward": 4.0604166984558105,
+      "reward_std": 0.27780890464782715,
+      "rewards/accuracy_reward": 2.629166603088379,
+      "rewards/format_reward": 1.0,
+      "step": 17,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 360.6875,
+      "epoch": 0.03076923076923077,
+      "grad_norm": 1.4027389890784656,
+      "kl": 0.01031494140625,
+      "learning_rate": 4.988329086794122e-07,
+      "loss": 0.0004,
+      "reward": 3.801041603088379,
+      "reward_std": 0.7676520347595215,
+      "rewards/accuracy_reward": 2.4322915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 18,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 0.25,
+      "all_wrong": 0.125,
+      "completion_length": 388.0625,
+      "epoch": 0.03247863247863248,
+      "grad_norm": 1.3113368380701045,
+      "kl": 0.0105133056640625,
+      "learning_rate": 4.98699745377536e-07,
+      "loss": 0.0004,
+      "reward": 2.6572916507720947,
+      "reward_std": 1.0090596675872803,
+      "rewards/accuracy_reward": 1.4760416746139526,
+      "rewards/format_reward": 1.0,
+      "step": 19,
+      "temporal_rewards": 0.375
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 419.0,
+      "epoch": 0.03418803418803419,
+      "grad_norm": 1.3507441829832403,
+      "kl": 0.0096435546875,
+      "learning_rate": 4.98559409711857e-07,
+      "loss": 0.0004,
+      "reward": 4.09375,
+      "reward_std": 0.48559144139289856,
+      "rewards/accuracy_reward": 2.6500000953674316,
+      "rewards/format_reward": 1.0,
+      "step": 20,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.5,
+      "all_wrong": 0.0,
+      "completion_length": 511.65625,
+      "epoch": 0.035897435897435895,
+      "grad_norm": 1.069629246503528,
+      "kl": 0.00966644287109375,
+      "learning_rate": 4.984119057295782e-07,
+      "loss": 0.0004,
+      "reward": 3.5947916507720947,
+      "reward_std": 1.0261844396591187,
+      "rewards/accuracy_reward": 2.2916665077209473,
+      "rewards/format_reward": 0.96875,
+      "step": 21,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 393.71875,
+      "epoch": 0.037606837606837605,
+      "grad_norm": 1.2791927924599586,
+      "kl": 0.01261138916015625,
+      "learning_rate": 4.982572376846336e-07,
+      "loss": 0.0005,
+      "reward": 3.754166603088379,
+      "reward_std": 0.5403501391410828,
+      "rewards/accuracy_reward": 2.3447914123535156,
+      "rewards/format_reward": 1.0,
+      "step": 22,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 430.1875,
+      "epoch": 0.039316239316239315,
+      "grad_norm": 1.7506140238512828,
+      "kl": 0.01303863525390625,
+      "learning_rate": 4.980954100375641e-07,
+      "loss": 0.0005,
+      "reward": 3.5333333015441895,
+      "reward_std": 0.40053439140319824,
+      "rewards/accuracy_reward": 2.1614584922790527,
+      "rewards/format_reward": 0.96875,
+      "step": 23,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.125,
+      "completion_length": 379.28125,
+      "epoch": 0.041025641025641026,
+      "grad_norm": 1.3679656342404225,
+      "kl": 0.013427734375,
+      "learning_rate": 4.979264274553905e-07,
+      "loss": 0.0005,
+      "reward": 3.6927084922790527,
+      "reward_std": 0.36222660541534424,
+      "rewards/accuracy_reward": 2.2989583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 24,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.71875,
+      "epoch": 0.042735042735042736,
+      "grad_norm": 1.2997329449132966,
+      "kl": 0.012847900390625,
+      "learning_rate": 4.977502948114771e-07,
+      "loss": 0.0005,
+      "reward": 4.105208396911621,
+      "reward_std": 0.17637358605861664,
+      "rewards/accuracy_reward": 2.605208396911621,
+      "rewards/format_reward": 1.0,
+      "step": 25,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 404.90625,
+      "epoch": 0.044444444444444446,
+      "grad_norm": 1.0980366331488811,
+      "kl": 0.01285552978515625,
+      "learning_rate": 4.975670171853925e-07,
+      "loss": 0.0005,
+      "reward": 3.8135416507720947,
+      "reward_std": 0.17942586541175842,
+      "rewards/accuracy_reward": 2.382291555404663,
+      "rewards/format_reward": 1.0,
+      "step": 26,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 425.90625,
+      "epoch": 0.046153846153846156,
+      "grad_norm": 1.018936824183645,
+      "kl": 0.01212310791015625,
+      "learning_rate": 4.973765998627628e-07,
+      "loss": 0.0005,
+      "reward": 4.140625,
+      "reward_std": 0.11659625172615051,
+      "rewards/accuracy_reward": 2.6468749046325684,
+      "rewards/format_reward": 1.0,
+      "step": 27,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 389.40625,
+      "epoch": 0.04786324786324787,
+      "grad_norm": 1.274734253704229,
+      "kl": 0.01471710205078125,
+      "learning_rate": 4.971790483351185e-07,
+      "loss": 0.0006,
+      "reward": 4.0489583015441895,
+      "reward_std": 0.25080567598342896,
+      "rewards/accuracy_reward": 2.5989582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 28,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 370.3125,
+      "epoch": 0.04957264957264957,
+      "grad_norm": 1.3615292424154284,
+      "kl": 0.0167083740234375,
+      "learning_rate": 4.969743682997371e-07,
+      "loss": 0.0007,
+      "reward": 3.9749999046325684,
+      "reward_std": 0.1734190285205841,
+      "rewards/accuracy_reward": 2.5,
+      "rewards/format_reward": 1.0,
+      "step": 29,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.59375,
+      "epoch": 0.05128205128205128,
+      "grad_norm": 1.2586392375596873,
+      "kl": 0.01397705078125,
+      "learning_rate": 4.967625656594781e-07,
+      "loss": 0.0006,
+      "reward": 4.040625095367432,
+      "reward_std": 0.36229580640792847,
+      "rewards/accuracy_reward": 2.596874952316284,
+      "rewards/format_reward": 1.0,
+      "step": 30,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 421.875,
+      "epoch": 0.05299145299145299,
+      "grad_norm": 1.0034894597632342,
+      "kl": 0.01374053955078125,
+      "learning_rate": 4.965436465226134e-07,
+      "loss": 0.0005,
+      "reward": 4.0052080154418945,
+      "reward_std": 0.11021745949983597,
+      "rewards/accuracy_reward": 2.511458396911621,
+      "rewards/format_reward": 1.0,
+      "step": 31,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 415.9375,
+      "epoch": 0.0547008547008547,
+      "grad_norm": 1.186567396905901,
+      "kl": 0.01535797119140625,
+      "learning_rate": 4.963176172026501e-07,
+      "loss": 0.0006,
+      "reward": 4.063541412353516,
+      "reward_std": 0.35574567317962646,
+      "rewards/accuracy_reward": 2.613541603088379,
+      "rewards/format_reward": 1.0,
+      "step": 32,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 432.40625,
+      "epoch": 0.05641025641025641,
+      "grad_norm": 1.1360779116026305,
+      "kl": 0.01425933837890625,
+      "learning_rate": 4.960844842181495e-07,
+      "loss": 0.0006,
+      "reward": 4.133333206176758,
+      "reward_std": 0.12846407294273376,
+      "rewards/accuracy_reward": 2.6583333015441895,
+      "rewards/format_reward": 1.0,
+      "step": 33,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 408.78125,
+      "epoch": 0.05811965811965812,
+      "grad_norm": 0.8899659454865542,
+      "kl": 0.01470947265625,
+      "learning_rate": 4.958442542925385e-07,
+      "loss": 0.0006,
+      "reward": 3.909374952316284,
+      "reward_std": 0.11280812323093414,
+      "rewards/accuracy_reward": 2.4281249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 34,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.0625,
+      "epoch": 0.05982905982905983,
+      "grad_norm": 1.243819180618824,
+      "kl": 0.01522064208984375,
+      "learning_rate": 4.955969343539162e-07,
+      "loss": 0.0006,
+      "reward": 4.188541412353516,
+      "reward_std": 0.29594290256500244,
+      "rewards/accuracy_reward": 2.7010416984558105,
+      "rewards/format_reward": 1.0,
+      "step": 35,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 419.78125,
+      "epoch": 0.06153846153846154,
+      "grad_norm": 1.087347310616568,
+      "kl": 0.01739501953125,
+      "learning_rate": 4.953425315348533e-07,
+      "loss": 0.0007,
+      "reward": 3.856250047683716,
+      "reward_std": 0.2288118600845337,
+      "rewards/accuracy_reward": 2.4312498569488525,
+      "rewards/format_reward": 1.0,
+      "step": 36,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 410.0,
+      "epoch": 0.06324786324786325,
+      "grad_norm": 1.1829560454903354,
+      "kl": 0.01535797119140625,
+      "learning_rate": 4.950810531721873e-07,
+      "loss": 0.0006,
+      "reward": 3.9552080631256104,
+      "reward_std": 0.3480744957923889,
+      "rewards/accuracy_reward": 2.523958206176758,
+      "rewards/format_reward": 1.0,
+      "step": 37,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 415.875,
+      "epoch": 0.06495726495726496,
+      "grad_norm": 2.510450971093536,
+      "kl": 0.01531219482421875,
+      "learning_rate": 4.948125068068102e-07,
+      "loss": 0.0006,
+      "reward": 4.268750190734863,
+      "reward_std": 0.16723832488059998,
+      "rewards/accuracy_reward": 2.7750000953674316,
+      "rewards/format_reward": 1.0,
+      "step": 38,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 394.28125,
+      "epoch": 0.06666666666666667,
+      "grad_norm": 1.3719775273852637,
+      "kl": 0.0177459716796875,
+      "learning_rate": 4.945369001834514e-07,
+      "loss": 0.0007,
+      "reward": 4.229166507720947,
+      "reward_std": 0.31150686740875244,
+      "rewards/accuracy_reward": 2.7635416984558105,
+      "rewards/format_reward": 1.0,
+      "step": 39,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 429.53125,
+      "epoch": 0.06837606837606838,
+      "grad_norm": 1.3719775273852637,
+      "kl": 0.0168304443359375,
+      "learning_rate": 4.945369001834514e-07,
+      "loss": 0.0007,
+      "reward": 4.134374618530273,
+      "reward_std": 0.1546359807252884,
+      "rewards/accuracy_reward": 2.703125,
+      "rewards/format_reward": 0.96875,
+      "step": 40,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 410.4375,
+      "epoch": 0.07008547008547009,
+      "grad_norm": 1.2644523276736128,
+      "kl": 0.0154266357421875,
+      "learning_rate": 4.942542412504542e-07,
+      "loss": 0.0006,
+      "reward": 4.0489583015441895,
+      "reward_std": 0.4742382764816284,
+      "rewards/accuracy_reward": 2.6395833492279053,
+      "rewards/format_reward": 1.0,
+      "step": 41,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.125,
+      "completion_length": 415.3125,
+      "epoch": 0.07179487179487179,
+      "grad_norm": 1.1018136502795606,
+      "kl": 0.0175628662109375,
+      "learning_rate": 4.939645381595469e-07,
+      "loss": 0.0007,
+      "reward": 3.827083110809326,
+      "reward_std": 0.39651432633399963,
+      "rewards/accuracy_reward": 2.4114582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 42,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 405.9375,
+      "epoch": 0.0735042735042735,
+      "grad_norm": 1.2912311172901192,
+      "kl": 0.0161285400390625,
+      "learning_rate": 4.93667799265607e-07,
+      "loss": 0.0006,
+      "reward": 4.202083587646484,
+      "reward_std": 0.22498193383216858,
+      "rewards/accuracy_reward": 2.7520833015441895,
+      "rewards/format_reward": 1.0,
+      "step": 43,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 433.53125,
+      "epoch": 0.07521367521367521,
+      "grad_norm": 1.1270256274020096,
+      "kl": 0.0157318115234375,
+      "learning_rate": 4.933640331264209e-07,
+      "loss": 0.0006,
+      "reward": 3.8489584922790527,
+      "reward_std": 0.4682225286960602,
+      "rewards/accuracy_reward": 2.448958396911621,
+      "rewards/format_reward": 1.0,
+      "step": 44,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 415.375,
+      "epoch": 0.07692307692307693,
+      "grad_norm": 1.1446070338065426,
+      "kl": 0.0166168212890625,
+      "learning_rate": 4.930532485024371e-07,
+      "loss": 0.0007,
+      "reward": 4.257291793823242,
+      "reward_std": 0.15706223249435425,
+      "rewards/accuracy_reward": 2.7760417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 45,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 413.53125,
+      "epoch": 0.07863247863247863,
+      "grad_norm": 0.8947762413142382,
+      "kl": 0.0162200927734375,
+      "learning_rate": 4.92735454356513e-07,
+      "loss": 0.0006,
+      "reward": 4.262499809265137,
+      "reward_std": 0.16938015818595886,
+      "rewards/accuracy_reward": 2.7750000953674316,
+      "rewards/format_reward": 1.0,
+      "step": 46,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.125,
+      "completion_length": 403.28125,
+      "epoch": 0.08034188034188035,
+      "grad_norm": 1.174221977713762,
+      "kl": 0.020172119140625,
+      "learning_rate": 4.924106598536569e-07,
+      "loss": 0.0008,
+      "reward": 3.6770830154418945,
+      "reward_std": 0.5174077749252319,
+      "rewards/accuracy_reward": 2.3177082538604736,
+      "rewards/format_reward": 1.0,
+      "step": 47,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 405.0,
+      "epoch": 0.08205128205128205,
+      "grad_norm": 1.2539694416071312,
+      "kl": 0.0191192626953125,
+      "learning_rate": 4.920788743607635e-07,
+      "loss": 0.0008,
+      "reward": 4.245833396911621,
+      "reward_std": 0.11767269670963287,
+      "rewards/accuracy_reward": 2.789583206176758,
+      "rewards/format_reward": 1.0,
+      "step": 48,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.125,
+      "completion_length": 523.53125,
+      "epoch": 0.08376068376068375,
+      "grad_norm": 0.9433390532702114,
+      "kl": 0.0193634033203125,
+      "learning_rate": 4.917401074463441e-07,
+      "loss": 0.0008,
+      "reward": 3.4083333015441895,
+      "reward_std": 0.23333337903022766,
+      "rewards/accuracy_reward": 2.0520832538604736,
+      "rewards/format_reward": 0.96875,
+      "step": 49,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.03125,
+      "epoch": 0.08547008547008547,
+      "grad_norm": 1.0789180937599403,
+      "kl": 0.01885986328125,
+      "learning_rate": 4.913943688802497e-07,
+      "loss": 0.0008,
+      "reward": 3.8416666984558105,
+      "reward_std": 0.10729683935642242,
+      "rewards/accuracy_reward": 2.3541665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 50,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 407.40625,
+      "epoch": 0.08717948717948718,
+      "grad_norm": 1.0848879174336674,
+      "kl": 0.0179901123046875,
+      "learning_rate": 4.910416686333906e-07,
+      "loss": 0.0007,
+      "reward": 4.078125,
+      "reward_std": 0.21803808212280273,
+      "rewards/accuracy_reward": 2.640625,
+      "rewards/format_reward": 1.0,
+      "step": 51,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.46875,
+      "epoch": 0.08888888888888889,
+      "grad_norm": 1.337971900277908,
+      "kl": 0.01824951171875,
+      "learning_rate": 4.906820168774477e-07,
+      "loss": 0.0007,
+      "reward": 4.232291221618652,
+      "reward_std": 0.25198420882225037,
+      "rewards/accuracy_reward": 2.7447915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 52,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.40625,
+      "epoch": 0.0905982905982906,
+      "grad_norm": 0.8834429627770471,
+      "kl": 0.0177764892578125,
+      "learning_rate": 4.903154239845797e-07,
+      "loss": 0.0007,
+      "reward": 4.382291793823242,
+      "reward_std": 0.18958330154418945,
+      "rewards/accuracy_reward": 2.9010417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 53,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 417.125,
+      "epoch": 0.09230769230769231,
+      "grad_norm": 1.203929154283064,
+      "kl": 0.018402099609375,
+      "learning_rate": 4.899419005271241e-07,
+      "loss": 0.0007,
+      "reward": 3.8572916984558105,
+      "reward_std": 0.47611916065216064,
+      "rewards/accuracy_reward": 2.444791555404663,
+      "rewards/format_reward": 1.0,
+      "step": 54,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.25,
+      "epoch": 0.09401709401709402,
+      "grad_norm": 1.1789915580867665,
+      "kl": 0.018585205078125,
+      "learning_rate": 4.895614572772916e-07,
+      "loss": 0.0007,
+      "reward": 4.397916793823242,
+      "reward_std": 0.14303147792816162,
+      "rewards/accuracy_reward": 2.9354166984558105,
+      "rewards/format_reward": 1.0,
+      "step": 55,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 390.625,
+      "epoch": 0.09572649572649573,
+      "grad_norm": 1.0962984555581834,
+      "kl": 0.0188751220703125,
+      "learning_rate": 4.891741052068563e-07,
+      "loss": 0.0008,
+      "reward": 3.871875047683716,
+      "reward_std": 0.4036891758441925,
+      "rewards/accuracy_reward": 2.453125,
+      "rewards/format_reward": 1.0,
+      "step": 56,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.9375,
+      "epoch": 0.09743589743589744,
+      "grad_norm": 0.9728121847774251,
+      "kl": 0.0185546875,
+      "learning_rate": 4.887798554868387e-07,
+      "loss": 0.0007,
+      "reward": 4.251041412353516,
+      "reward_std": 0.2343870848417282,
+      "rewards/accuracy_reward": 2.7760417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 57,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.15625,
+      "epoch": 0.09914529914529914,
+      "grad_norm": 1.0548365636932022,
+      "kl": 0.0202178955078125,
+      "learning_rate": 4.883787194871841e-07,
+      "loss": 0.0008,
+      "reward": 4.237500190734863,
+      "reward_std": 0.23333334922790527,
+      "rewards/accuracy_reward": 2.75,
+      "rewards/format_reward": 1.0,
+      "step": 58,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 386.3125,
+      "epoch": 0.10085470085470086,
+      "grad_norm": 0.9381978440298725,
+      "kl": 0.020721435546875,
+      "learning_rate": 4.879707087764336e-07,
+      "loss": 0.0008,
+      "reward": 4.045833587646484,
+      "reward_std": 0.28949087858200073,
+      "rewards/accuracy_reward": 2.5958333015441895,
+      "rewards/format_reward": 1.0,
+      "step": 59,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.4375,
+      "epoch": 0.10256410256410256,
+      "grad_norm": 1.0705966230487958,
+      "kl": 0.0215606689453125,
+      "learning_rate": 4.875558351213917e-07,
+      "loss": 0.0009,
+      "reward": 4.146874904632568,
+      "reward_std": 0.13578978180885315,
+      "rewards/accuracy_reward": 2.671875,
+      "rewards/format_reward": 1.0,
+      "step": 60,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 411.21875,
+      "epoch": 0.10427350427350428,
+      "grad_norm": 1.1664516379468814,
+      "kl": 0.0201568603515625,
+      "learning_rate": 4.871341104867864e-07,
+      "loss": 0.0008,
+      "reward": 4.278124809265137,
+      "reward_std": 0.14145717024803162,
+      "rewards/accuracy_reward": 2.796875,
+      "rewards/format_reward": 1.0,
+      "step": 61,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.875,
+      "epoch": 0.10598290598290598,
+      "grad_norm": 1.0021126975161656,
+      "kl": 0.0220184326171875,
+      "learning_rate": 4.86705547034924e-07,
+      "loss": 0.0009,
+      "reward": 4.288541793823242,
+      "reward_std": 0.12666571140289307,
+      "rewards/accuracy_reward": 2.8072915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 62,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.125,
+      "completion_length": 404.71875,
+      "epoch": 0.1076923076923077,
+      "grad_norm": 0.9763800912983838,
+      "kl": 0.023162841796875,
+      "learning_rate": 4.862701571253386e-07,
+      "loss": 0.0009,
+      "reward": 3.660416603088379,
+      "reward_std": 0.32134899497032166,
+      "rewards/accuracy_reward": 2.2604165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 63,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 389.59375,
+      "epoch": 0.1094017094017094,
+      "grad_norm": 1.2190757004518098,
+      "kl": 0.022216796875,
+      "learning_rate": 4.858279533144357e-07,
+      "loss": 0.0009,
+      "reward": 4.22499942779541,
+      "reward_std": 0.3128542900085449,
+      "rewards/accuracy_reward": 2.781249761581421,
+      "rewards/format_reward": 1.0,
+      "step": 64,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 401.25,
+      "epoch": 0.1111111111111111,
+      "grad_norm": 1.2190757004518098,
+      "kl": 0.023590087890625,
+      "learning_rate": 4.858279533144357e-07,
+      "loss": 0.0009,
+      "reward": 4.0625,
+      "reward_std": 0.35272979736328125,
+      "rewards/accuracy_reward": 2.590625047683716,
+      "rewards/format_reward": 1.0,
+      "step": 65,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.59375,
+      "epoch": 0.11282051282051282,
+      "grad_norm": 1.0903737095796673,
+      "kl": 0.023040771484375,
+      "learning_rate": 4.853789483551299e-07,
+      "loss": 0.0009,
+      "reward": 4.194791793823242,
+      "reward_std": 0.14985042810440063,
+      "rewards/accuracy_reward": 2.7510414123535156,
+      "rewards/format_reward": 1.0,
+      "step": 66,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 379.59375,
+      "epoch": 0.11452991452991453,
+      "grad_norm": 1.251956266873502,
+      "kl": 0.024993896484375,
+      "learning_rate": 4.849231551964771e-07,
+      "loss": 0.001,
+      "reward": 4.060416221618652,
+      "reward_std": 0.21292035281658173,
+      "rewards/accuracy_reward": 2.647916555404663,
+      "rewards/format_reward": 1.0,
+      "step": 67,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 397.96875,
+      "epoch": 0.11623931623931624,
+      "grad_norm": 1.1499394081760086,
+      "kl": 0.0238037109375,
+      "learning_rate": 4.844605869833011e-07,
+      "loss": 0.001,
+      "reward": 4.163541316986084,
+      "reward_std": 0.3349958062171936,
+      "rewards/accuracy_reward": 2.7135415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 68,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 391.09375,
+      "epoch": 0.11794871794871795,
+      "grad_norm": 1.231872857506519,
+      "kl": 0.025390625,
+      "learning_rate": 4.839912570558147e-07,
+      "loss": 0.001,
+      "reward": 4.061458110809326,
+      "reward_std": 0.4164637327194214,
+      "rewards/accuracy_reward": 2.648958206176758,
+      "rewards/format_reward": 1.0,
+      "step": 69,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 377.09375,
+      "epoch": 0.11965811965811966,
+      "grad_norm": 1.1777677393893522,
+      "kl": 0.023284912109375,
+      "learning_rate": 4.835151789492348e-07,
+      "loss": 0.0009,
+      "reward": 4.453125,
+      "reward_std": 0.06480175256729126,
+      "rewards/accuracy_reward": 2.9781248569488525,
+      "rewards/format_reward": 1.0,
+      "step": 70,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.90625,
+      "epoch": 0.12136752136752137,
+      "grad_norm": 1.1982090607904423,
+      "kl": 0.02740478515625,
+      "learning_rate": 4.830323663933919e-07,
+      "loss": 0.0011,
+      "reward": 4.154166221618652,
+      "reward_std": 0.2893369793891907,
+      "rewards/accuracy_reward": 2.6541664600372314,
+      "rewards/format_reward": 1.0,
+      "step": 71,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.875,
+      "epoch": 0.12307692307692308,
+      "grad_norm": 0.9473668531569807,
+      "kl": 0.027313232421875,
+      "learning_rate": 4.825428333123346e-07,
+      "loss": 0.0011,
+      "reward": 4.294791221618652,
+      "reward_std": 0.07352134585380554,
+      "rewards/accuracy_reward": 2.8072917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 72,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.40625,
+      "epoch": 0.12478632478632479,
+      "grad_norm": 1.03754559850679,
+      "kl": 0.0255126953125,
+      "learning_rate": 4.820465938239273e-07,
+      "loss": 0.001,
+      "reward": 4.033333778381348,
+      "reward_std": 0.15917819738388062,
+      "rewards/accuracy_reward": 2.539583206176758,
+      "rewards/format_reward": 1.0,
+      "step": 73,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 403.71875,
+      "epoch": 0.1264957264957265,
+      "grad_norm": 1.1677283116591801,
+      "kl": 0.02960205078125,
+      "learning_rate": 4.815436622394441e-07,
+      "loss": 0.0012,
+      "reward": 4.285416603088379,
+      "reward_std": 0.39640671014785767,
+      "rewards/accuracy_reward": 2.8135414123535156,
+      "rewards/format_reward": 1.0,
+      "step": 74,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 423.0625,
+      "epoch": 0.1282051282051282,
+      "grad_norm": 0.7428073315387178,
+      "kl": 0.0275115966796875,
+      "learning_rate": 4.810340530631549e-07,
+      "loss": 0.0011,
+      "reward": 4.481249809265137,
+      "reward_std": 0.037499964237213135,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 75,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 399.21875,
+      "epoch": 0.12991452991452992,
+      "grad_norm": 1.0581615460777196,
+      "kl": 0.02978515625,
+      "learning_rate": 4.805177809919081e-07,
+      "loss": 0.0012,
+      "reward": 3.905208110809326,
+      "reward_std": 0.5119619965553284,
+      "rewards/accuracy_reward": 2.5052082538604736,
+      "rewards/format_reward": 1.0,
+      "step": 76,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 511.25,
+      "epoch": 0.13162393162393163,
+      "grad_norm": 1.0377759736829821,
+      "kl": 0.02618408203125,
+      "learning_rate": 4.799948609147061e-07,
+      "loss": 0.001,
+      "reward": 4.206250190734863,
+      "reward_std": 0.2519336938858032,
+      "rewards/accuracy_reward": 2.78125,
+      "rewards/format_reward": 1.0,
+      "step": 77,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.28125,
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.7942593296904896,
+      "kl": 0.031097412109375,
+      "learning_rate": 4.794653079122759e-07,
+      "loss": 0.0012,
+      "reward": 4.4552083015441895,
+      "reward_std": 0.05143451690673828,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 78,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.875,
+      "epoch": 0.13504273504273503,
+      "grad_norm": 0.9331544780479013,
+      "kl": 0.0287017822265625,
+      "learning_rate": 4.789291372566351e-07,
+      "loss": 0.0011,
+      "reward": 4.338541507720947,
+      "reward_std": 0.05567879229784012,
+      "rewards/accuracy_reward": 2.851041793823242,
+      "rewards/format_reward": 1.0,
+      "step": 79,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 410.59375,
+      "epoch": 0.13675213675213677,
+      "grad_norm": 1.0320580205777932,
+      "kl": 0.0257568359375,
+      "learning_rate": 4.783863644106502e-07,
+      "loss": 0.001,
+      "reward": 4.132291793823242,
+      "reward_std": 0.35786792635917664,
+      "rewards/accuracy_reward": 2.707291603088379,
+      "rewards/format_reward": 1.0,
+      "step": 80,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 429.5,
+      "epoch": 0.13846153846153847,
+      "grad_norm": 0.7048956820692803,
+      "kl": 0.0269012451171875,
+      "learning_rate": 4.778370050275913e-07,
+      "loss": 0.0011,
+      "reward": 4.306250095367432,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.8125,
+      "rewards/format_reward": 1.0,
+      "step": 81,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 416.78125,
+      "epoch": 0.14017094017094017,
+      "grad_norm": 0.8952589382668804,
+      "kl": 0.0283203125,
+      "learning_rate": 4.772810749506809e-07,
+      "loss": 0.0011,
+      "reward": 4.219791412353516,
+      "reward_std": 0.23541666567325592,
+      "rewards/accuracy_reward": 2.7760415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 82,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.78125,
+      "epoch": 0.14188034188034188,
+      "grad_norm": 0.8348274832354236,
+      "kl": 0.0284423828125,
+      "learning_rate": 4.767185902126363e-07,
+      "loss": 0.0011,
+      "reward": 4.165625095367432,
+      "reward_std": 0.1401844620704651,
+      "rewards/accuracy_reward": 2.671875,
+      "rewards/format_reward": 1.0,
+      "step": 83,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 522.0625,
+      "epoch": 0.14358974358974358,
+      "grad_norm": 1.022611292014723,
+      "kl": 0.024749755859375,
+      "learning_rate": 4.7614956703520804e-07,
+      "loss": 0.001,
+      "reward": 4.092708110809326,
+      "reward_std": 0.6706736087799072,
+      "rewards/accuracy_reward": 2.7083330154418945,
+      "rewards/format_reward": 0.96875,
+      "step": 84,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 408.96875,
+      "epoch": 0.1452991452991453,
+      "grad_norm": 0.9761155646963828,
+      "kl": 0.02508544921875,
+      "learning_rate": 4.755740218287112e-07,
+      "loss": 0.001,
+      "reward": 4.112500190734863,
+      "reward_std": 0.37582719326019287,
+      "rewards/accuracy_reward": 2.671875,
+      "rewards/format_reward": 1.0,
+      "step": 85,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 388.3125,
+      "epoch": 0.147008547008547,
+      "grad_norm": 1.2718356208746022,
+      "kl": 0.032958984375,
+      "learning_rate": 4.74991971191553e-07,
+      "loss": 0.0013,
+      "reward": 4.103125095367432,
+      "reward_std": 0.4052058756351471,
+      "rewards/accuracy_reward": 2.6656250953674316,
+      "rewards/format_reward": 1.0,
+      "step": 86,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 474.21875,
+      "epoch": 0.14871794871794872,
+      "grad_norm": 1.0968352483995067,
+      "kl": 0.02587890625,
+      "learning_rate": 4.7440343190975353e-07,
+      "loss": 0.001,
+      "reward": 4.304166793823242,
+      "reward_std": 0.09711828827857971,
+      "rewards/accuracy_reward": 2.8291666507720947,
+      "rewards/format_reward": 1.0,
+      "step": 87,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.125,
+      "epoch": 0.15042735042735042,
+      "grad_norm": 0.9691599798256204,
+      "kl": 0.0262603759765625,
+      "learning_rate": 4.738084209564617e-07,
+      "loss": 0.001,
+      "reward": 4.346875190734863,
+      "reward_std": 0.04667320474982262,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 88,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.9375,
+      "epoch": 0.15213675213675212,
+      "grad_norm": 0.8101632754541203,
+      "kl": 0.02728271484375,
+      "learning_rate": 4.73206955491466e-07,
+      "loss": 0.0011,
+      "reward": 4.215178489685059,
+      "reward_std": 0.05478445440530777,
+      "rewards/accuracy_reward": 2.7276782989501953,
+      "rewards/format_reward": 1.0,
+      "step": 89,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 387.9375,
+      "epoch": 0.15384615384615385,
+      "grad_norm": 1.1273537548135169,
+      "kl": 0.03240966796875,
+      "learning_rate": 4.7259905286069954e-07,
+      "loss": 0.0013,
+      "reward": 3.7479166984558105,
+      "reward_std": 0.580402135848999,
+      "rewards/accuracy_reward": 2.3541665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 90,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 431.90625,
+      "epoch": 0.15555555555555556,
+      "grad_norm": 0.781932646770067,
+      "kl": 0.030029296875,
+      "learning_rate": 4.7198473059573974e-07,
+      "loss": 0.0012,
+      "reward": 4.414583206176758,
+      "reward_std": 0.15730378031730652,
+      "rewards/accuracy_reward": 2.9270832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 91,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 397.9375,
+      "epoch": 0.15726495726495726,
+      "grad_norm": 0.9533696651480593,
+      "kl": 0.0255126953125,
+      "learning_rate": 4.7136400641330245e-07,
+      "loss": 0.001,
+      "reward": 4.039583206176758,
+      "reward_std": 0.22083337604999542,
+      "rewards/accuracy_reward": 2.5833334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 92,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.25,
+      "epoch": 0.15897435897435896,
+      "grad_norm": 1.0132966640941599,
+      "kl": 0.0294952392578125,
+      "learning_rate": 4.707368982147317e-07,
+      "loss": 0.0012,
+      "reward": 4.3958330154418945,
+      "reward_std": 0.15550215542316437,
+      "rewards/accuracy_reward": 2.8958332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 93,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 419.375,
+      "epoch": 0.1606837606837607,
+      "grad_norm": 1.2522183905304256,
+      "kl": 0.02801513671875,
+      "learning_rate": 4.7010342408548287e-07,
+      "loss": 0.0011,
+      "reward": 4.1458330154418945,
+      "reward_std": 0.36495131254196167,
+      "rewards/accuracy_reward": 2.7083332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 94,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 404.3125,
+      "epoch": 0.1623931623931624,
+      "grad_norm": 1.1792878234541568,
+      "kl": 0.02886962890625,
+      "learning_rate": 4.6946360229460114e-07,
+      "loss": 0.0012,
+      "reward": 3.6041665077209473,
+      "reward_std": 0.36204349994659424,
+      "rewards/accuracy_reward": 2.2291667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 95,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.125,
+      "epoch": 0.1641025641025641,
+      "grad_norm": 0.8469321333446865,
+      "kl": 0.029541015625,
+      "learning_rate": 4.6881745129419493e-07,
+      "loss": 0.0012,
+      "reward": 4.429166793823242,
+      "reward_std": 0.1416667103767395,
+      "rewards/accuracy_reward": 2.929166555404663,
+      "rewards/format_reward": 1.0,
+      "step": 96,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 423.46875,
+      "epoch": 0.1658119658119658,
+      "grad_norm": 1.0273051044862946,
+      "kl": 0.0257415771484375,
+      "learning_rate": 4.6816498971890357e-07,
+      "loss": 0.001,
+      "reward": 4.300000190734863,
+      "reward_std": 0.2707865238189697,
+      "rewards/accuracy_reward": 2.840625286102295,
+      "rewards/format_reward": 1.0,
+      "step": 97,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.4375,
+      "epoch": 0.1675213675213675,
+      "grad_norm": 0.8112755323213016,
+      "kl": 0.0298919677734375,
+      "learning_rate": 4.675062363853598e-07,
+      "loss": 0.0012,
+      "reward": 4.335416793823242,
+      "reward_std": 0.055717818439006805,
+      "rewards/accuracy_reward": 2.8541667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 98,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 401.125,
+      "epoch": 0.16923076923076924,
+      "grad_norm": 0.8112755323213016,
+      "kl": 0.0279083251953125,
+      "learning_rate": 4.675062363853598e-07,
+      "loss": 0.0011,
+      "reward": 4.195833206176758,
+      "reward_std": 0.4500877261161804,
+      "rewards/accuracy_reward": 2.7833333015441895,
+      "rewards/format_reward": 1.0,
+      "step": 99,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.15625,
+      "epoch": 0.17094017094017094,
+      "grad_norm": 0.9537294500448106,
+      "kl": 0.0280303955078125,
+      "learning_rate": 4.668412102916473e-07,
+      "loss": 0.0011,
+      "reward": 4.2479166984558105,
+      "reward_std": 0.11696276068687439,
+      "rewards/accuracy_reward": 2.7604165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 100,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.59375,
+      "epoch": 0.17264957264957265,
+      "grad_norm": 0.8870244874511185,
+      "kl": 0.0321044921875,
+      "learning_rate": 4.661699306167527e-07,
+      "loss": 0.0013,
+      "reward": 4.0958333015441895,
+      "reward_std": 0.08488449454307556,
+      "rewards/accuracy_reward": 2.639583110809326,
+      "rewards/format_reward": 1.0,
+      "step": 101,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 393.46875,
+      "epoch": 0.17435897435897435,
+      "grad_norm": 1.2937118348992478,
+      "kl": 0.0302734375,
+      "learning_rate": 4.6549241672001225e-07,
+      "loss": 0.0012,
+      "reward": 3.7468748092651367,
+      "reward_std": 0.3312501013278961,
+      "rewards/accuracy_reward": 2.3531250953674316,
+      "rewards/format_reward": 1.0,
+      "step": 102,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 395.34375,
+      "epoch": 0.17606837606837608,
+      "grad_norm": 0.9367320519479579,
+      "kl": 0.026885986328125,
+      "learning_rate": 4.648086881405542e-07,
+      "loss": 0.0011,
+      "reward": 4.008333206176758,
+      "reward_std": 0.0621061772108078,
+      "rewards/accuracy_reward": 2.589583158493042,
+      "rewards/format_reward": 1.0,
+      "step": 103,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 374.0625,
+      "epoch": 0.17777777777777778,
+      "grad_norm": 1.05051378151386,
+      "kl": 0.0265045166015625,
+      "learning_rate": 4.6411876459673425e-07,
+      "loss": 0.0011,
+      "reward": 4.313541412353516,
+      "reward_std": 0.10353533923625946,
+      "rewards/accuracy_reward": 2.819791793823242,
+      "rewards/format_reward": 1.0,
+      "step": 104,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 382.375,
+      "epoch": 0.1794871794871795,
+      "grad_norm": 0.9732242039361731,
+      "kl": 0.028472900390625,
+      "learning_rate": 4.634226659855681e-07,
+      "loss": 0.0011,
+      "reward": 3.8406248092651367,
+      "reward_std": 0.1651667058467865,
+      "rewards/accuracy_reward": 2.421875,
+      "rewards/format_reward": 1.0,
+      "step": 105,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 368.25,
+      "epoch": 0.1811965811965812,
+      "grad_norm": 1.3889995707473142,
+      "kl": 0.0296173095703125,
+      "learning_rate": 4.6272041238215624e-07,
+      "loss": 0.0012,
+      "reward": 4.084374904632568,
+      "reward_std": 0.19951941072940826,
+      "rewards/accuracy_reward": 2.640625,
+      "rewards/format_reward": 1.0,
+      "step": 106,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.09375,
+      "epoch": 0.1829059829059829,
+      "grad_norm": 1.3128202485981113,
+      "kl": 0.02618408203125,
+      "learning_rate": 4.6201202403910643e-07,
+      "loss": 0.001,
+      "reward": 4.440625190734863,
+      "reward_std": 0.10036799311637878,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 107,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.375,
+      "epoch": 0.18461538461538463,
+      "grad_norm": 0.7102669473273966,
+      "kl": 0.0255584716796875,
+      "learning_rate": 4.612975213859487e-07,
+      "loss": 0.001,
+      "reward": 4.467708587646484,
+      "reward_std": 0.06458333879709244,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 108,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.28125,
+      "epoch": 0.18632478632478633,
+      "grad_norm": 1.0616473492020093,
+      "kl": 0.0303497314453125,
+      "learning_rate": 4.6057692502854615e-07,
+      "loss": 0.0012,
+      "reward": 4.422916412353516,
+      "reward_std": 0.10133548080921173,
+      "rewards/accuracy_reward": 2.929166555404663,
+      "rewards/format_reward": 1.0,
+      "step": 109,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.03125,
+      "epoch": 0.18803418803418803,
+      "grad_norm": 0.7608352327314286,
+      "kl": 0.02850341796875,
+      "learning_rate": 4.5985025574850147e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 110,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 374.28125,
+      "epoch": 0.18974358974358974,
+      "grad_norm": 1.2756873989717936,
+      "kl": 0.028533935546875,
+      "learning_rate": 4.591175345025566e-07,
+      "loss": 0.0011,
+      "reward": 4.426041603088379,
+      "reward_std": 0.11025416105985641,
+      "rewards/accuracy_reward": 2.9635415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 111,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 383.0,
+      "epoch": 0.19145299145299147,
+      "grad_norm": 1.1294579531120268,
+      "kl": 0.030609130859375,
+      "learning_rate": 4.5837878242198936e-07,
+      "loss": 0.0012,
+      "reward": 4.414583206176758,
+      "reward_std": 0.11800213158130646,
+      "rewards/accuracy_reward": 2.9270830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 112,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.5,
+      "epoch": 0.19316239316239317,
+      "grad_norm": 1.4815174005495628,
+      "kl": 0.02777099609375,
+      "learning_rate": 4.576340208120029e-07,
+      "loss": 0.0011,
+      "reward": 4.240625381469727,
+      "reward_std": 0.22145536541938782,
+      "rewards/accuracy_reward": 2.809375047683716,
+      "rewards/format_reward": 1.0,
+      "step": 113,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.0625,
+      "epoch": 0.19487179487179487,
+      "grad_norm": 1.2037657564527842,
+      "kl": 0.03204345703125,
+      "learning_rate": 4.568832711511125e-07,
+      "loss": 0.0013,
+      "reward": 4.122916221618652,
+      "reward_std": 0.5055912733078003,
+      "rewards/accuracy_reward": 2.6979167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 114,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 372.46875,
+      "epoch": 0.19658119658119658,
+      "grad_norm": 1.1382977843959905,
+      "kl": 0.0279541015625,
+      "learning_rate": 4.56126555090525e-07,
+      "loss": 0.0011,
+      "reward": 4.448958396911621,
+      "reward_std": 0.06571361422538757,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 115,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.21875,
+      "epoch": 0.19829059829059828,
+      "grad_norm": 1.1413384562324795,
+      "kl": 0.035675048828125,
+      "learning_rate": 4.5536389445351543e-07,
+      "loss": 0.0014,
+      "reward": 4.321875095367432,
+      "reward_std": 0.23794110119342804,
+      "rewards/accuracy_reward": 2.828125,
+      "rewards/format_reward": 1.0,
+      "step": 116,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 386.59375,
+      "epoch": 0.2,
+      "grad_norm": 1.2561424116442306,
+      "kl": 0.02850341796875,
+      "learning_rate": 4.5459531123479673e-07,
+      "loss": 0.0011,
+      "reward": 4.234375,
+      "reward_std": 0.3199463486671448,
+      "rewards/accuracy_reward": 2.796875,
+      "rewards/format_reward": 1.0,
+      "step": 117,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.125,
+      "epoch": 0.20170940170940171,
+      "grad_norm": 0.8249652926631506,
+      "kl": 0.0283660888671875,
+      "learning_rate": 4.5382082759988605e-07,
+      "loss": 0.0011,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 118,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.71875,
+      "epoch": 0.20341880341880342,
+      "grad_norm": 0.8847393998997601,
+      "kl": 0.03466796875,
+      "learning_rate": 4.530404658844653e-07,
+      "loss": 0.0014,
+      "reward": 4.469791412353516,
+      "reward_std": 0.06041671335697174,
+      "rewards/accuracy_reward": 2.976041793823242,
+      "rewards/format_reward": 1.0,
+      "step": 119,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.09375,
+      "epoch": 0.20512820512820512,
+      "grad_norm": 0.9561856550148037,
+      "kl": 0.030670166015625,
+      "learning_rate": 4.5225424859373684e-07,
+      "loss": 0.0012,
+      "reward": 4.404166221618652,
+      "reward_std": 0.17557336390018463,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 120,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 418.65625,
+      "epoch": 0.20683760683760682,
+      "grad_norm": 1.0259977877012747,
+      "kl": 0.030731201171875,
+      "learning_rate": 4.5146219840177475e-07,
+      "loss": 0.0012,
+      "reward": 4.176041603088379,
+      "reward_std": 0.33959513902664185,
+      "rewards/accuracy_reward": 2.6979167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 121,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.96875,
+      "epoch": 0.20854700854700856,
+      "grad_norm": 0.702747684245723,
+      "kl": 0.028900146484375,
+      "learning_rate": 4.506643381508707e-07,
+      "loss": 0.0012,
+      "reward": 4.306250095367432,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.8125,
+      "rewards/format_reward": 1.0,
+      "step": 122,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.53125,
+      "epoch": 0.21025641025641026,
+      "grad_norm": 1.1619100447476434,
+      "kl": 0.03375244140625,
+      "learning_rate": 4.498606908508753e-07,
+      "loss": 0.0013,
+      "reward": 4.426041603088379,
+      "reward_std": 0.12149910628795624,
+      "rewards/accuracy_reward": 2.944791555404663,
+      "rewards/format_reward": 1.0,
+      "step": 123,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.40625,
+      "epoch": 0.21196581196581196,
+      "grad_norm": 1.2522793729461437,
+      "kl": 0.036834716796875,
+      "learning_rate": 4.490512796785344e-07,
+      "loss": 0.0015,
+      "reward": 3.9991068840026855,
+      "reward_std": 0.3829628825187683,
+      "rewards/accuracy_reward": 2.549107074737549,
+      "rewards/format_reward": 1.0,
+      "step": 124,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 427.25,
+      "epoch": 0.21367521367521367,
+      "grad_norm": 0.6509539904039816,
+      "kl": 0.0312042236328125,
+      "learning_rate": 4.4823612797682087e-07,
+      "loss": 0.0012,
+      "reward": 4.471875190734863,
+      "reward_std": 0.042036332190036774,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 125,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.625,
+      "epoch": 0.2153846153846154,
+      "grad_norm": 0.7919778046183683,
+      "kl": 0.036956787109375,
+      "learning_rate": 4.474152592542612e-07,
+      "loss": 0.0015,
+      "reward": 4.446875095367432,
+      "reward_std": 0.10624998807907104,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 126,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 433.1875,
+      "epoch": 0.2170940170940171,
+      "grad_norm": 0.6780552993485987,
+      "kl": 0.0328369140625,
+      "learning_rate": 4.4658869718425774e-07,
+      "loss": 0.0013,
+      "reward": 4.3572916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.8697915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 127,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 429.53125,
+      "epoch": 0.2188034188034188,
+      "grad_norm": 0.7305604882468433,
+      "kl": 0.03265380859375,
+      "learning_rate": 4.457564656044056e-07,
+      "loss": 0.0013,
+      "reward": 4.461458206176758,
+      "reward_std": 0.049896106123924255,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 128,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.3125,
+      "epoch": 0.2205128205128205,
+      "grad_norm": 0.7726284703597854,
+      "kl": 0.03424072265625,
+      "learning_rate": 4.4491858851580553e-07,
+      "loss": 0.0014,
+      "reward": 4.347916603088379,
+      "reward_std": 0.04286307469010353,
+      "rewards/accuracy_reward": 2.8541665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 129,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 436.0625,
+      "epoch": 0.2222222222222222,
+      "grad_norm": 0.8638370981363065,
+      "kl": 0.0269317626953125,
+      "learning_rate": 4.4407509008237196e-07,
+      "loss": 0.0011,
+      "reward": 4.1895833015441895,
+      "reward_std": 0.32424014806747437,
+      "rewards/accuracy_reward": 2.7395830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 130,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 426.21875,
+      "epoch": 0.22393162393162394,
+      "grad_norm": 1.0551809083662111,
+      "kl": 0.03521728515625,
+      "learning_rate": 4.4322599463013545e-07,
+      "loss": 0.0014,
+      "reward": 4.178124904632568,
+      "reward_std": 0.3996901512145996,
+      "rewards/accuracy_reward": 2.734375,
+      "rewards/format_reward": 1.0,
+      "step": 131,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 425.53125,
+      "epoch": 0.22564102564102564,
+      "grad_norm": 1.1479168859184186,
+      "kl": 0.030426025390625,
+      "learning_rate": 4.4237132664654147e-07,
+      "loss": 0.0012,
+      "reward": 4.053124904632568,
+      "reward_std": 0.5168147087097168,
+      "rewards/accuracy_reward": 2.703125,
+      "rewards/format_reward": 1.0,
+      "step": 132,
+      "temporal_rewards": 0.625
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 411.0625,
+      "epoch": 0.22735042735042735,
+      "grad_norm": 0.7820256367987459,
+      "kl": 0.0303497314453125,
+      "learning_rate": 4.415111107797445e-07,
+      "loss": 0.0012,
+      "reward": 4.462499618530273,
+      "reward_std": 0.05738960951566696,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 133,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 439.46875,
+      "epoch": 0.22905982905982905,
+      "grad_norm": 2.249627165827172,
+      "kl": 0.0304718017578125,
+      "learning_rate": 4.4064537183789675e-07,
+      "loss": 0.0012,
+      "reward": 4.209374904632568,
+      "reward_std": 0.3062499761581421,
+      "rewards/accuracy_reward": 2.746875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 134,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 409.78125,
+      "epoch": 0.23076923076923078,
+      "grad_norm": 0.8498529438908856,
+      "kl": 0.03729248046875,
+      "learning_rate": 4.397741347884328e-07,
+      "loss": 0.0015,
+      "reward": 4.324999809265137,
+      "reward_std": 0.24286305904388428,
+      "rewards/accuracy_reward": 2.875,
+      "rewards/format_reward": 1.0,
+      "step": 135,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 451.09375,
+      "epoch": 0.23247863247863249,
+      "grad_norm": 1.0694841410107003,
+      "kl": 0.0322265625,
+      "learning_rate": 4.3889742475735e-07,
+      "loss": 0.0013,
+      "reward": 4.319791316986084,
+      "reward_std": 0.08318377286195755,
+      "rewards/accuracy_reward": 2.844791889190674,
+      "rewards/format_reward": 1.0,
+      "step": 136,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.21875,
+      "epoch": 0.2341880341880342,
+      "grad_norm": 0.6728996381607415,
+      "kl": 0.03460693359375,
+      "learning_rate": 4.38015267028483e-07,
+      "loss": 0.0014,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.025839831680059433,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 137,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 415.71875,
+      "epoch": 0.2358974358974359,
+      "grad_norm": 0.6340723425708861,
+      "kl": 0.030426025390625,
+      "learning_rate": 4.3712768704277524e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 138,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.28125,
+      "epoch": 0.2376068376068376,
+      "grad_norm": 1.1056370156277198,
+      "kl": 0.030914306640625,
+      "learning_rate": 4.3623471039754525e-07,
+      "loss": 0.0012,
+      "reward": 4.379166603088379,
+      "reward_std": 0.1078614890575409,
+      "rewards/accuracy_reward": 2.8854167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 139,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 393.53125,
+      "epoch": 0.23931623931623933,
+      "grad_norm": 0.948558652626463,
+      "kl": 0.035614013671875,
+      "learning_rate": 4.3533636284574796e-07,
+      "loss": 0.0014,
+      "reward": 3.9968748092651367,
+      "reward_std": 0.4216731786727905,
+      "rewards/accuracy_reward": 2.609375,
+      "rewards/format_reward": 1.0,
+      "step": 140,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.4375,
+      "epoch": 0.24102564102564103,
+      "grad_norm": 0.5879812262176896,
+      "kl": 0.034820556640625,
+      "learning_rate": 4.3443267029523254e-07,
+      "loss": 0.0014,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 141,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.875,
+      "epoch": 0.24273504273504273,
+      "grad_norm": 0.8386661546855418,
+      "kl": 0.033416748046875,
+      "learning_rate": 4.335236588079948e-07,
+      "loss": 0.0013,
+      "reward": 4.478125095367432,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 142,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 384.21875,
+      "epoch": 0.24444444444444444,
+      "grad_norm": 1.037895789589214,
+      "kl": 0.035247802734375,
+      "learning_rate": 4.326093545994258e-07,
+      "loss": 0.0014,
+      "reward": 4.25,
+      "reward_std": 0.47384506464004517,
+      "rewards/accuracy_reward": 2.765625238418579,
+      "rewards/format_reward": 1.0,
+      "step": 143,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.15625,
+      "epoch": 0.24615384615384617,
+      "grad_norm": 0.6668242868362341,
+      "kl": 0.0330810546875,
+      "learning_rate": 4.316897840375558e-07,
+      "loss": 0.0013,
+      "reward": 4.483333587646484,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 144,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.34375,
+      "epoch": 0.24786324786324787,
+      "grad_norm": 0.6460003816835764,
+      "kl": 0.03411865234375,
+      "learning_rate": 4.307649736422938e-07,
+      "loss": 0.0014,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 145,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.125,
+      "epoch": 0.24957264957264957,
+      "grad_norm": 0.9050593727078955,
+      "kl": 0.031158447265625,
+      "learning_rate": 4.2983495008466273e-07,
+      "loss": 0.0012,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 146,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.0625,
+      "epoch": 0.2512820512820513,
+      "grad_norm": 0.6703003062364626,
+      "kl": 0.033782958984375,
+      "learning_rate": 4.2889974018603024e-07,
+      "loss": 0.0014,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 147,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.28125,
+      "epoch": 0.252991452991453,
+      "grad_norm": 1.0917161345953537,
+      "kl": 0.0330810546875,
+      "learning_rate": 4.279593709173351e-07,
+      "loss": 0.0013,
+      "reward": 4.433333396911621,
+      "reward_std": 0.13333328068256378,
+      "rewards/accuracy_reward": 2.9583334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 148,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.625,
+      "epoch": 0.2547008547008547,
+      "grad_norm": 0.8805064754871379,
+      "kl": 0.0304718017578125,
+      "learning_rate": 4.2701386939830964e-07,
+      "loss": 0.0012,
+      "reward": 4.352083206176758,
+      "reward_std": 0.04583332687616348,
+      "rewards/accuracy_reward": 2.8645832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 149,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 388.78125,
+      "epoch": 0.2564102564102564,
+      "grad_norm": 0.6458664357306447,
+      "kl": 0.0308990478515625,
+      "learning_rate": 4.2606326289669737e-07,
+      "loss": 0.0012,
+      "reward": 4.09375,
+      "reward_std": 0.40142717957496643,
+      "rewards/accuracy_reward": 2.6875,
+      "rewards/format_reward": 1.0,
+      "step": 150,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.5,
+      "epoch": 0.25811965811965815,
+      "grad_norm": 0.9763278041863155,
+      "kl": 0.032562255859375,
+      "learning_rate": 4.251075788274666e-07,
+      "loss": 0.0013,
+      "reward": 4.2916669845581055,
+      "reward_std": 0.1666666567325592,
+      "rewards/accuracy_reward": 2.804166793823242,
+      "rewards/format_reward": 1.0,
+      "step": 151,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.8125,
+      "epoch": 0.25982905982905985,
+      "grad_norm": 0.8435947936286351,
+      "kl": 0.03424072265625,
+      "learning_rate": 4.241468447520201e-07,
+      "loss": 0.0014,
+      "reward": 4.321875095367432,
+      "reward_std": 0.10624998807907104,
+      "rewards/accuracy_reward": 2.828125,
+      "rewards/format_reward": 1.0,
+      "step": 152,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.4375,
+      "epoch": 0.26153846153846155,
+      "grad_norm": 0.09049154033837374,
+      "kl": 0.037017822265625,
+      "learning_rate": 4.2318108837739986e-07,
+      "loss": 0.0015,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 153,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 383.3125,
+      "epoch": 0.26324786324786326,
+      "grad_norm": 1.4584819845115002,
+      "kl": 0.037506103515625,
+      "learning_rate": 4.222103375554883e-07,
+      "loss": 0.0015,
+      "reward": 4.245833396911621,
+      "reward_std": 0.27943506836891174,
+      "rewards/accuracy_reward": 2.8020832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 154,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 409.09375,
+      "epoch": 0.26495726495726496,
+      "grad_norm": 0.8201575206609092,
+      "kl": 0.03228759765625,
+      "learning_rate": 4.21234620282205e-07,
+      "loss": 0.0013,
+      "reward": 4.234375,
+      "reward_std": 0.2431229054927826,
+      "rewards/accuracy_reward": 2.778125047683716,
+      "rewards/format_reward": 1.0,
+      "step": 155,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 380.59375,
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.9490002461994388,
+      "kl": 0.037811279296875,
+      "learning_rate": 4.2025396469669926e-07,
+      "loss": 0.0015,
+      "reward": 4.258333206176758,
+      "reward_std": 0.23629263043403625,
+      "rewards/accuracy_reward": 2.8145833015441895,
+      "rewards/format_reward": 1.0,
+      "step": 156,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 386.1875,
+      "epoch": 0.26837606837606837,
+      "grad_norm": 1.0340991717732253,
+      "kl": 0.0355224609375,
+      "learning_rate": 4.1926839908053847e-07,
+      "loss": 0.0014,
+      "reward": 4.346875190734863,
+      "reward_std": 0.3062499761581421,
+      "rewards/accuracy_reward": 2.875,
+      "rewards/format_reward": 1.0,
+      "step": 157,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.65625,
+      "epoch": 0.27008547008547007,
+      "grad_norm": 0.6692632630400234,
+      "kl": 0.030181884765625,
+      "learning_rate": 4.182779518568925e-07,
+      "loss": 0.0012,
+      "reward": 4.471875190734863,
+      "reward_std": 0.03781628608703613,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 158,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.28125,
+      "epoch": 0.2717948717948718,
+      "grad_norm": 0.8775894893835341,
+      "kl": 0.03155517578125,
+      "learning_rate": 4.172826515897145e-07,
+      "loss": 0.0013,
+      "reward": 4.323958396911621,
+      "reward_std": 0.0946541279554367,
+      "rewards/accuracy_reward": 2.8302083015441895,
+      "rewards/format_reward": 1.0,
+      "step": 159,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.0,
+      "epoch": 0.27350427350427353,
+      "grad_norm": 0.7159177225721635,
+      "kl": 0.031707763671875,
+      "learning_rate": 4.1628252698291643e-07,
+      "loss": 0.0013,
+      "reward": 4.464583396911621,
+      "reward_std": 0.07083334028720856,
+      "rewards/accuracy_reward": 2.9708333015441895,
+      "rewards/format_reward": 1.0,
+      "step": 160,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 479.625,
+      "epoch": 0.27521367521367524,
+      "grad_norm": 0.9407462086984125,
+      "kl": 0.03369140625,
+      "learning_rate": 4.1527760687954154e-07,
+      "loss": 0.0013,
+      "reward": 4.115624904632568,
+      "reward_std": 0.2119678258895874,
+      "rewards/accuracy_reward": 2.715625047683716,
+      "rewards/format_reward": 1.0,
+      "step": 161,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.0,
+      "epoch": 0.27692307692307694,
+      "grad_norm": 0.8294728401817897,
+      "kl": 0.03289794921875,
+      "learning_rate": 4.142679202609327e-07,
+      "loss": 0.0013,
+      "reward": 4.293749809265137,
+      "reward_std": 0.33775240182876587,
+      "rewards/accuracy_reward": 2.809375047683716,
+      "rewards/format_reward": 1.0,
+      "step": 162,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 417.3125,
+      "epoch": 0.27863247863247864,
+      "grad_norm": 1.1630809289888393,
+      "kl": 0.033050537109375,
+      "learning_rate": 4.132534962458962e-07,
+      "loss": 0.0013,
+      "reward": 4.464582920074463,
+      "reward_std": 0.07083332538604736,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 163,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.03125,
+      "epoch": 0.28034188034188035,
+      "grad_norm": 0.9793847159932046,
+      "kl": 0.0299835205078125,
+      "learning_rate": 4.122343640898627e-07,
+      "loss": 0.0012,
+      "reward": 4.469791412353516,
+      "reward_std": 0.0440576896071434,
+      "rewards/accuracy_reward": 2.988541603088379,
+      "rewards/format_reward": 1.0,
+      "step": 164,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 395.9375,
+      "epoch": 0.28205128205128205,
+      "grad_norm": 0.9221426587193271,
+      "kl": 0.02789306640625,
+      "learning_rate": 4.112105531840426e-07,
+      "loss": 0.0011,
+      "reward": 4.135416507720947,
+      "reward_std": 0.45945125818252563,
+      "rewards/accuracy_reward": 2.710416793823242,
+      "rewards/format_reward": 1.0,
+      "step": 165,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 383.53125,
+      "epoch": 0.28376068376068375,
+      "grad_norm": 1.2107513043899343,
+      "kl": 0.032958984375,
+      "learning_rate": 4.101820930545791e-07,
+      "loss": 0.0013,
+      "reward": 4.166666507720947,
+      "reward_std": 0.2459823042154312,
+      "rewards/accuracy_reward": 2.7010416984558105,
+      "rewards/format_reward": 1.0,
+      "step": 166,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 414.6875,
+      "epoch": 0.28547008547008546,
+      "grad_norm": 10.127658017576508,
+      "kl": 0.03192138671875,
+      "learning_rate": 4.0914901336169636e-07,
+      "loss": 0.0013,
+      "reward": 4.369791507720947,
+      "reward_std": 0.22447693347930908,
+      "rewards/accuracy_reward": 2.8885414600372314,
+      "rewards/format_reward": 1.0,
+      "step": 167,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 407.46875,
+      "epoch": 0.28717948717948716,
+      "grad_norm": 1.338662658207005,
+      "kl": 0.0302734375,
+      "learning_rate": 4.081113438988443e-07,
+      "loss": 0.0012,
+      "reward": 4.044791221618652,
+      "reward_std": 0.37701213359832764,
+      "rewards/accuracy_reward": 2.6072916984558105,
+      "rewards/format_reward": 1.0,
+      "step": 168,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.78125,
+      "epoch": 0.28888888888888886,
+      "grad_norm": 0.7678363169616945,
+      "kl": 0.0291595458984375,
+      "learning_rate": 4.0706911459183915e-07,
+      "loss": 0.0012,
+      "reward": 4.275000095367432,
+      "reward_std": 0.14716877043247223,
+      "rewards/accuracy_reward": 2.78125,
+      "rewards/format_reward": 1.0,
+      "step": 169,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 408.96875,
+      "epoch": 0.2905982905982906,
+      "grad_norm": 0.37201441496178467,
+      "kl": 0.0289306640625,
+      "learning_rate": 4.060223554980007e-07,
+      "loss": 0.0012,
+      "reward": 4.365624904632568,
+      "reward_std": 0.01875000260770321,
+      "rewards/accuracy_reward": 2.8656249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 170,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.09375,
+      "epoch": 0.2923076923076923,
+      "grad_norm": 0.9442920981368175,
+      "kl": 0.0305633544921875,
+      "learning_rate": 4.049710968052851e-07,
+      "loss": 0.0012,
+      "reward": 4.40625,
+      "reward_std": 0.11353625357151031,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 171,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.8125,
+      "epoch": 0.294017094017094,
+      "grad_norm": 0.8610965790801496,
+      "kl": 0.03173828125,
+      "learning_rate": 4.039153688314145e-07,
+      "loss": 0.0013,
+      "reward": 4.4552083015441895,
+      "reward_std": 0.07053571194410324,
+      "rewards/accuracy_reward": 2.9552083015441895,
+      "rewards/format_reward": 1.0,
+      "step": 172,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.3125,
+      "epoch": 0.29572649572649573,
+      "grad_norm": 0.6546428714553589,
+      "kl": 0.030426025390625,
+      "learning_rate": 4.0285520202300304e-07,
+      "loss": 0.0012,
+      "reward": 4.363541603088379,
+      "reward_std": 0.02291664481163025,
+      "rewards/accuracy_reward": 2.8697915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 173,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 418.03125,
+      "epoch": 0.29743589743589743,
+      "grad_norm": 0.928954032622018,
+      "kl": 0.0286102294921875,
+      "learning_rate": 4.017906269546778e-07,
+      "loss": 0.0011,
+      "reward": 4.3302083015441895,
+      "reward_std": 0.2645833492279053,
+      "rewards/accuracy_reward": 2.8802084922790527,
+      "rewards/format_reward": 1.0,
+      "step": 174,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.90625,
+      "epoch": 0.29914529914529914,
+      "grad_norm": 1.00349567888993,
+      "kl": 0.026947021484375,
+      "learning_rate": 4.0072167432819804e-07,
+      "loss": 0.0011,
+      "reward": 4.456250190734863,
+      "reward_std": 0.08750001341104507,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 175,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 417.53125,
+      "epoch": 0.30085470085470084,
+      "grad_norm": 1.0724285167954328,
+      "kl": 0.0303955078125,
+      "learning_rate": 3.996483749715693e-07,
+      "loss": 0.0012,
+      "reward": 4.0916666984558105,
+      "reward_std": 0.36414697766304016,
+      "rewards/accuracy_reward": 2.6354169845581055,
+      "rewards/format_reward": 1.0,
+      "step": 176,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 455.65625,
+      "epoch": 0.30256410256410254,
+      "grad_norm": 0.7595506312826728,
+      "kl": 0.0310211181640625,
+      "learning_rate": 3.9857075983815435e-07,
+      "loss": 0.0012,
+      "reward": 4.464583396911621,
+      "reward_std": 0.05756280571222305,
+      "rewards/accuracy_reward": 2.9895830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 177,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 424.75,
+      "epoch": 0.30427350427350425,
+      "grad_norm": 0.689982122737275,
+      "kl": 0.029083251953125,
+      "learning_rate": 3.974888600057807e-07,
+      "loss": 0.0012,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 178,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 393.4375,
+      "epoch": 0.305982905982906,
+      "grad_norm": 1.4037433240452628,
+      "kl": 0.03350830078125,
+      "learning_rate": 3.964027066758442e-07,
+      "loss": 0.0013,
+      "reward": 4.056249618530273,
+      "reward_std": 0.7050526142120361,
+      "rewards/accuracy_reward": 2.640625,
+      "rewards/format_reward": 1.0,
+      "step": 179,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.4375,
+      "epoch": 0.3076923076923077,
+      "grad_norm": 0.9223686072304105,
+      "kl": 0.029083251953125,
+      "learning_rate": 3.9531233117240916e-07,
+      "loss": 0.0012,
+      "reward": 4.363541603088379,
+      "reward_std": 0.21862298250198364,
+      "rewards/accuracy_reward": 2.8697915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 180,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.71875,
+      "epoch": 0.3094017094017094,
+      "grad_norm": 0.7071742159832561,
+      "kl": 0.0265655517578125,
+      "learning_rate": 3.942177649413051e-07,
+      "loss": 0.0011,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833373069763184,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 181,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.5,
+      "epoch": 0.3111111111111111,
+      "grad_norm": 0.944488337051925,
+      "kl": 0.03485107421875,
+      "learning_rate": 3.931190395492198e-07,
+      "loss": 0.0014,
+      "reward": 4.154166221618652,
+      "reward_std": 0.10786150395870209,
+      "rewards/accuracy_reward": 2.691666603088379,
+      "rewards/format_reward": 1.0,
+      "step": 182,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.78125,
+      "epoch": 0.3128205128205128,
+      "grad_norm": 1.4172142108579164,
+      "kl": 0.03289794921875,
+      "learning_rate": 3.920161866827889e-07,
+      "loss": 0.0013,
+      "reward": 4.438541412353516,
+      "reward_std": 0.10668228566646576,
+      "rewards/accuracy_reward": 2.976041793823242,
+      "rewards/format_reward": 0.96875,
+      "step": 183,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.84375,
+      "epoch": 0.3145299145299145,
+      "grad_norm": 1.0922169496908305,
+      "kl": 0.035736083984375,
+      "learning_rate": 3.909092381476824e-07,
+      "loss": 0.0014,
+      "reward": 4.464583396911621,
+      "reward_std": 0.060267090797424316,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 184,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.78125,
+      "epoch": 0.3162393162393162,
+      "grad_norm": 1.253878274187877,
+      "kl": 0.029754638671875,
+      "learning_rate": 3.8979822586768666e-07,
+      "loss": 0.0012,
+      "reward": 4.383333206176758,
+      "reward_std": 0.21100425720214844,
+      "rewards/accuracy_reward": 2.8958332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 185,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.0625,
+      "epoch": 0.31794871794871793,
+      "grad_norm": 1.2577882270187375,
+      "kl": 0.031341552734375,
+      "learning_rate": 3.886831818837847e-07,
+      "loss": 0.0013,
+      "reward": 4.315625190734863,
+      "reward_std": 0.3046152591705322,
+      "rewards/accuracy_reward": 2.828125,
+      "rewards/format_reward": 1.0,
+      "step": 186,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 403.46875,
+      "epoch": 0.31965811965811963,
+      "grad_norm": 1.1920000015302785,
+      "kl": 0.0292816162109375,
+      "learning_rate": 3.875641383532313e-07,
+      "loss": 0.0012,
+      "reward": 4.3072919845581055,
+      "reward_std": 0.30388689041137695,
+      "rewards/accuracy_reward": 2.835416793823242,
+      "rewards/format_reward": 1.0,
+      "step": 187,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 422.5625,
+      "epoch": 0.3213675213675214,
+      "grad_norm": 0.8014786025674295,
+      "kl": 0.031768798828125,
+      "learning_rate": 3.864411275486261e-07,
+      "loss": 0.0013,
+      "reward": 4.368750095367432,
+      "reward_std": 0.25475597381591797,
+      "rewards/accuracy_reward": 2.8843750953674316,
+      "rewards/format_reward": 1.0,
+      "step": 188,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.0625,
+      "epoch": 0.3230769230769231,
+      "grad_norm": 1.0341597454894706,
+      "kl": 0.0292510986328125,
+      "learning_rate": 3.8531418185698286e-07,
+      "loss": 0.0012,
+      "reward": 4.428124904632568,
+      "reward_std": 0.10352461785078049,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 189,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.21875,
+      "epoch": 0.3247863247863248,
+      "grad_norm": 0.9430153874247215,
+      "kl": 0.02935791015625,
+      "learning_rate": 3.8418333377879503e-07,
+      "loss": 0.0012,
+      "reward": 4.313541412353516,
+      "reward_std": 0.10962940007448196,
+      "rewards/accuracy_reward": 2.819791555404663,
+      "rewards/format_reward": 1.0,
+      "step": 190,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 410.3125,
+      "epoch": 0.3264957264957265,
+      "grad_norm": 0.9576912011030316,
+      "kl": 0.0325927734375,
+      "learning_rate": 3.8304861592709904e-07,
+      "loss": 0.0013,
+      "reward": 4.266666412353516,
+      "reward_std": 0.21308261156082153,
+      "rewards/accuracy_reward": 2.835416555404663,
+      "rewards/format_reward": 0.96875,
+      "step": 191,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 421.0625,
+      "epoch": 0.3282051282051282,
+      "grad_norm": 0.7534753154491364,
+      "kl": 0.0256805419921875,
+      "learning_rate": 3.8191006102653317e-07,
+      "loss": 0.001,
+      "reward": 4.347916603088379,
+      "reward_std": 0.05416667461395264,
+      "rewards/accuracy_reward": 2.8541665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 192,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.84375,
+      "epoch": 0.3299145299145299,
+      "grad_norm": 0.906929755623497,
+      "kl": 0.02947998046875,
+      "learning_rate": 3.8076770191239436e-07,
+      "loss": 0.0012,
+      "reward": 4.430208206176758,
+      "reward_std": 0.07240592688322067,
+      "rewards/accuracy_reward": 2.936458110809326,
+      "rewards/format_reward": 1.0,
+      "step": 193,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 421.84375,
+      "epoch": 0.3316239316239316,
+      "grad_norm": 0.8586672190817547,
+      "kl": 0.030670166015625,
+      "learning_rate": 3.796215715296909e-07,
+      "loss": 0.0012,
+      "reward": 4.310416221618652,
+      "reward_std": 0.30416667461395264,
+      "rewards/accuracy_reward": 2.8541667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 194,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.4375,
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.8210935565532269,
+      "kl": 0.0287933349609375,
+      "learning_rate": 3.7847170293219216e-07,
+      "loss": 0.0012,
+      "reward": 4.354166507720947,
+      "reward_std": 0.0348845049738884,
+      "rewards/accuracy_reward": 2.866666555404663,
+      "rewards/format_reward": 1.0,
+      "step": 195,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 388.1875,
+      "epoch": 0.335042735042735,
+      "grad_norm": 0.7852858921555795,
+      "kl": 0.035491943359375,
+      "learning_rate": 3.7731812928147586e-07,
+      "loss": 0.0014,
+      "reward": 4.323958396911621,
+      "reward_std": 0.2618446350097656,
+      "rewards/accuracy_reward": 2.8802084922790527,
+      "rewards/format_reward": 1.0,
+      "step": 196,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 415.3125,
+      "epoch": 0.3367521367521368,
+      "grad_norm": 0.9470229844909844,
+      "kl": 0.02789306640625,
+      "learning_rate": 3.761608838459713e-07,
+      "loss": 0.0011,
+      "reward": 4.480207920074463,
+      "reward_std": 0.03958338499069214,
+      "rewards/accuracy_reward": 2.9864583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 197,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.71875,
+      "epoch": 0.3384615384615385,
+      "grad_norm": 0.6651186503821079,
+      "kl": 0.036865234375,
+      "learning_rate": 3.75e-07,
+      "loss": 0.0015,
+      "reward": 4.018750190734863,
+      "reward_std": 0.23578637838363647,
+      "rewards/accuracy_reward": 2.578125,
+      "rewards/format_reward": 1.0,
+      "step": 198,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.0,
+      "completion_length": 406.34375,
+      "epoch": 0.3401709401709402,
+      "grad_norm": 1.128117707234193,
+      "kl": 0.0311737060546875,
+      "learning_rate": 3.7383551122281333e-07,
+      "loss": 0.0012,
+      "reward": 3.8093748092651367,
+      "reward_std": 0.5722583532333374,
+      "rewards/accuracy_reward": 2.390625,
+      "rewards/format_reward": 1.0,
+      "step": 199,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.125,
+      "epoch": 0.3418803418803419,
+      "grad_norm": 1.4020135825307583,
+      "kl": 0.02947998046875,
+      "learning_rate": 3.7266745109762667e-07,
+      "loss": 0.0012,
+      "reward": 4.349999904632568,
+      "reward_std": 0.26009172201156616,
+      "rewards/accuracy_reward": 2.8499999046325684,
+      "rewards/format_reward": 1.0,
+      "step": 200,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 379.5625,
+      "epoch": 0.3435897435897436,
+      "grad_norm": 0.9662630849888666,
+      "kl": 0.03948974609375,
+      "learning_rate": 3.7149585331065145e-07,
+      "loss": 0.0016,
+      "reward": 4.323958396911621,
+      "reward_std": 0.262869656085968,
+      "rewards/accuracy_reward": 2.8802084922790527,
+      "rewards/format_reward": 1.0,
+      "step": 201,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.0,
+      "epoch": 0.3452991452991453,
+      "grad_norm": 1.5104522228717128,
+      "kl": 0.0267486572265625,
+      "learning_rate": 3.7032075165012317e-07,
+      "loss": 0.0011,
+      "reward": 4.301041603088379,
+      "reward_std": 0.29089102149009705,
+      "rewards/accuracy_reward": 2.851041555404663,
+      "rewards/format_reward": 1.0,
+      "step": 202,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 413.375,
+      "epoch": 0.347008547008547,
+      "grad_norm": 0.5898349301397676,
+      "kl": 0.02825927734375,
+      "learning_rate": 3.6914218000532694e-07,
+      "loss": 0.0011,
+      "reward": 4.045833110809326,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.6145834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 203,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.875,
+      "epoch": 0.3487179487179487,
+      "grad_norm": 1.1089677792013501,
+      "kl": 0.0281219482421875,
+      "learning_rate": 3.679601723656205e-07,
+      "loss": 0.0011,
+      "reward": 4.444791793823242,
+      "reward_std": 0.0822400450706482,
+      "rewards/accuracy_reward": 2.9635415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 204,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.71875,
+      "epoch": 0.3504273504273504,
+      "grad_norm": 1.4298067612813101,
+      "kl": 0.03106689453125,
+      "learning_rate": 3.6677476281945383e-07,
+      "loss": 0.0012,
+      "reward": 4.451041221618652,
+      "reward_std": 0.09791666269302368,
+      "rewards/accuracy_reward": 2.9635415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 205,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 395.65625,
+      "epoch": 0.35213675213675216,
+      "grad_norm": 0.6495565253321198,
+      "kl": 0.02825927734375,
+      "learning_rate": 3.655859855533858e-07,
+      "loss": 0.0011,
+      "reward": 4.352083206176758,
+      "reward_std": 0.2120281457901001,
+      "rewards/accuracy_reward": 2.8958332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 206,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 378.5,
+      "epoch": 0.35384615384615387,
+      "grad_norm": 0.5216991414124108,
+      "kl": 0.02606201171875,
+      "learning_rate": 3.6439387485109883e-07,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 207,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.1875,
+      "epoch": 0.35555555555555557,
+      "grad_norm": 1.050743290099695,
+      "kl": 0.03167724609375,
+      "learning_rate": 3.6319846509240935e-07,
+      "loss": 0.0013,
+      "reward": 4.389583587646484,
+      "reward_std": 0.19467836618423462,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 208,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 411.34375,
+      "epoch": 0.3572649572649573,
+      "grad_norm": 0.7153104975051203,
+      "kl": 0.0269317626953125,
+      "learning_rate": 3.6199979075227703e-07,
+      "loss": 0.0011,
+      "reward": 4.2208333015441895,
+      "reward_std": 0.23333333432674408,
+      "rewards/accuracy_reward": 2.7708334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 209,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.09375,
+      "epoch": 0.358974358974359,
+      "grad_norm": 1.0973274762683427,
+      "kl": 0.02703857421875,
+      "learning_rate": 3.6079788639981036e-07,
+      "loss": 0.0011,
+      "reward": 4.409374713897705,
+      "reward_std": 0.11961360275745392,
+      "rewards/accuracy_reward": 2.921875,
+      "rewards/format_reward": 1.0,
+      "step": 210,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.1875,
+      "epoch": 0.3606837606837607,
+      "grad_norm": 1.0082670195010648,
+      "kl": 0.035614013671875,
+      "learning_rate": 3.595927866972693e-07,
+      "loss": 0.0014,
+      "reward": 4.398958206176758,
+      "reward_std": 0.17489610612392426,
+      "rewards/accuracy_reward": 2.9114584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 211,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 405.15625,
+      "epoch": 0.3623931623931624,
+      "grad_norm": 1.524459154985029,
+      "kl": 0.027679443359375,
+      "learning_rate": 3.5838452639906636e-07,
+      "loss": 0.0011,
+      "reward": 4.0364580154418945,
+      "reward_std": 0.052083373069763184,
+      "rewards/accuracy_reward": 2.605208396911621,
+      "rewards/format_reward": 1.0,
+      "step": 212,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.5625,
+      "epoch": 0.3641025641025641,
+      "grad_norm": 0.6439117276501238,
+      "kl": 0.0262451171875,
+      "learning_rate": 3.571731403507635e-07,
+      "loss": 0.001,
+      "reward": 4.4739580154418945,
+      "reward_std": 0.03150193765759468,
+      "rewards/accuracy_reward": 2.980208396911621,
+      "rewards/format_reward": 1.0,
+      "step": 213,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.3125,
+      "epoch": 0.3658119658119658,
+      "grad_norm": 1.2757245332043572,
+      "kl": 0.034698486328125,
+      "learning_rate": 3.5595866348806784e-07,
+      "loss": 0.0014,
+      "reward": 4.434374809265137,
+      "reward_std": 0.13124999403953552,
+      "rewards/accuracy_reward": 2.953125238418579,
+      "rewards/format_reward": 1.0,
+      "step": 214,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 376.84375,
+      "epoch": 0.36752136752136755,
+      "grad_norm": 1.0971851079389807,
+      "kl": 0.03082275390625,
+      "learning_rate": 3.547411308358238e-07,
+      "loss": 0.0012,
+      "reward": 4.382291793823242,
+      "reward_std": 0.22485044598579407,
+      "rewards/accuracy_reward": 2.9010419845581055,
+      "rewards/format_reward": 1.0,
+      "step": 215,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.6875,
+      "epoch": 0.36923076923076925,
+      "grad_norm": 2.7008212681165653,
+      "kl": 0.0269012451171875,
+      "learning_rate": 3.53520577507003e-07,
+      "loss": 0.0011,
+      "reward": 4.396874904632568,
+      "reward_std": 0.12885668873786926,
+      "rewards/accuracy_reward": 2.921875,
+      "rewards/format_reward": 1.0,
+      "step": 216,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.6875,
+      "epoch": 0.37094017094017095,
+      "grad_norm": 0.9693046082804693,
+      "kl": 0.029571533203125,
+      "learning_rate": 3.522970387016919e-07,
+      "loss": 0.0012,
+      "reward": 4.465624809265137,
+      "reward_std": 0.04530119150876999,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 217,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 387.40625,
+      "epoch": 0.37264957264957266,
+      "grad_norm": 1.219843185180707,
+      "kl": 0.03228759765625,
+      "learning_rate": 3.510705497060762e-07,
+      "loss": 0.0013,
+      "reward": 4.204166412353516,
+      "reward_std": 0.4419190287590027,
+      "rewards/accuracy_reward": 2.7760415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 218,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 378.75,
+      "epoch": 0.37435897435897436,
+      "grad_norm": 0.6411925545755867,
+      "kl": 0.0299835205078125,
+      "learning_rate": 3.498411458914238e-07,
+      "loss": 0.0012,
+      "reward": 4.4270830154418945,
+      "reward_std": 0.145833358168602,
+      "rewards/accuracy_reward": 2.9270834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 219,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 441.5625,
+      "epoch": 0.37606837606837606,
+      "grad_norm": 1.1490538552907357,
+      "kl": 0.03131103515625,
+      "learning_rate": 3.4860886271306425e-07,
+      "loss": 0.0013,
+      "reward": 4.276041507720947,
+      "reward_std": 0.3311324715614319,
+      "rewards/accuracy_reward": 2.8385415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 220,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 405.78125,
+      "epoch": 0.37777777777777777,
+      "grad_norm": 1.1288423812269204,
+      "kl": 0.0305633544921875,
+      "learning_rate": 3.473737357093662e-07,
+      "loss": 0.0012,
+      "reward": 4.290624618530273,
+      "reward_std": 0.32047489285469055,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 221,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.84375,
+      "epoch": 0.37948717948717947,
+      "grad_norm": 0.9951055239789207,
+      "kl": 0.0250091552734375,
+      "learning_rate": 3.4613580050071274e-07,
+      "loss": 0.001,
+      "reward": 4.4395833015441895,
+      "reward_std": 0.12083331495523453,
+      "rewards/accuracy_reward": 2.9583334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 222,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 470.4375,
+      "epoch": 0.3811965811965812,
+      "grad_norm": 0.6608504589024419,
+      "kl": 0.024688720703125,
+      "learning_rate": 3.4489509278847413e-07,
+      "loss": 0.001,
+      "reward": 4.344791412353516,
+      "reward_std": 0.22214612364768982,
+      "rewards/accuracy_reward": 2.9010417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 223,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.03125,
+      "epoch": 0.38290598290598293,
+      "grad_norm": 0.9867302997194648,
+      "kl": 0.0281219482421875,
+      "learning_rate": 3.43651648353978e-07,
+      "loss": 0.0011,
+      "reward": 4.423958778381348,
+      "reward_std": 0.1164790689945221,
+      "rewards/accuracy_reward": 2.9239583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 224,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.96875,
+      "epoch": 0.38461538461538464,
+      "grad_norm": 0.9974966511762322,
+      "kl": 0.0308074951171875,
+      "learning_rate": 3.4240550305747775e-07,
+      "loss": 0.0012,
+      "reward": 4.454166412353516,
+      "reward_std": 0.07680822908878326,
+      "rewards/accuracy_reward": 2.9791667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 225,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 419.28125,
+      "epoch": 0.38632478632478634,
+      "grad_norm": 1.3201881013331591,
+      "kl": 0.03338623046875,
+      "learning_rate": 3.411566928371179e-07,
+      "loss": 0.0013,
+      "reward": 4.479166507720947,
+      "reward_std": 0.04166668653488159,
+      "rewards/accuracy_reward": 2.991666793823242,
+      "rewards/format_reward": 1.0,
+      "step": 226,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.8125,
+      "epoch": 0.38803418803418804,
+      "grad_norm": 0.7245163759686314,
+      "kl": 0.035125732421875,
+      "learning_rate": 3.399052537078979e-07,
+      "loss": 0.0014,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 227,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.1875,
+      "epoch": 0.38974358974358975,
+      "grad_norm": 0.772009416924489,
+      "kl": 0.0304718017578125,
+      "learning_rate": 3.3865122176063385e-07,
+      "loss": 0.0012,
+      "reward": 4.483333587646484,
+      "reward_std": 0.03333336114883423,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 228,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 426.5625,
+      "epoch": 0.39145299145299145,
+      "grad_norm": 0.8644644067175916,
+      "kl": 0.031646728515625,
+      "learning_rate": 3.3739463316091694e-07,
+      "loss": 0.0013,
+      "reward": 4.310416221618652,
+      "reward_std": 0.11860044300556183,
+      "rewards/accuracy_reward": 2.8229167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 229,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 404.875,
+      "epoch": 0.39316239316239315,
+      "grad_norm": 0.8265116205734101,
+      "kl": 0.0302581787109375,
+      "learning_rate": 3.361355241480709e-07,
+      "loss": 0.0012,
+      "reward": 4.102083206176758,
+      "reward_std": 0.43446728587150574,
+      "rewards/accuracy_reward": 2.6770834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 230,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 395.15625,
+      "epoch": 0.39487179487179486,
+      "grad_norm": 0.698805660870072,
+      "kl": 0.031463623046875,
+      "learning_rate": 3.348739310341068e-07,
+      "loss": 0.0013,
+      "reward": 4.315625190734863,
+      "reward_std": 0.2198578268289566,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 231,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.625,
+      "all_wrong": 0.0,
+      "completion_length": 394.53125,
+      "epoch": 0.39658119658119656,
+      "grad_norm": 1.088198339296736,
+      "kl": 0.032989501953125,
+      "learning_rate": 3.3360989020267577e-07,
+      "loss": 0.0013,
+      "reward": 4.078125,
+      "reward_std": 0.6198577880859375,
+      "rewards/accuracy_reward": 2.6875,
+      "rewards/format_reward": 1.0,
+      "step": 232,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 437.1875,
+      "epoch": 0.39829059829059826,
+      "grad_norm": 1.005838721121158,
+      "kl": 0.0369873046875,
+      "learning_rate": 3.323434381080199e-07,
+      "loss": 0.0015,
+      "reward": 4.46875,
+      "reward_std": 0.05193370580673218,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 233,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 379.40625,
+      "epoch": 0.4,
+      "grad_norm": 0.9749551182471569,
+      "kl": 0.036590576171875,
+      "learning_rate": 3.3107461127392067e-07,
+      "loss": 0.0015,
+      "reward": 4.293749809265137,
+      "reward_std": 0.28388282656669617,
+      "rewards/accuracy_reward": 2.84375,
+      "rewards/format_reward": 1.0,
+      "step": 234,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.3125,
+      "epoch": 0.4017094017094017,
+      "grad_norm": 0.08016351523251836,
+      "kl": 0.034393310546875,
+      "learning_rate": 3.2980344629264576e-07,
+      "loss": 0.0014,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 235,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.84375,
+      "epoch": 0.40341880341880343,
+      "grad_norm": 0.865805756499028,
+      "kl": 0.0306396484375,
+      "learning_rate": 3.285299798238937e-07,
+      "loss": 0.0012,
+      "reward": 4.444791793823242,
+      "reward_std": 0.09749572724103928,
+      "rewards/accuracy_reward": 2.9635419845581055,
+      "rewards/format_reward": 1.0,
+      "step": 236,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.34375,
+      "epoch": 0.40512820512820513,
+      "grad_norm": 0.7739827684103321,
+      "kl": 0.035491943359375,
+      "learning_rate": 3.272542485937368e-07,
+      "loss": 0.0014,
+      "reward": 4.425000190734863,
+      "reward_std": 0.13943374156951904,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 237,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 405.625,
+      "epoch": 0.40683760683760684,
+      "grad_norm": 0.6796335794293678,
+      "kl": 0.03515625,
+      "learning_rate": 3.259762893935617e-07,
+      "loss": 0.0014,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 238,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.15625,
+      "epoch": 0.40854700854700854,
+      "grad_norm": 0.7390802160289531,
+      "kl": 0.03143310546875,
+      "learning_rate": 3.2469613907900844e-07,
+      "loss": 0.0013,
+      "reward": 4.483333110809326,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 239,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.21875,
+      "epoch": 0.41025641025641024,
+      "grad_norm": 0.44392961076222454,
+      "kl": 0.0284271240234375,
+      "learning_rate": 3.234138345689077e-07,
+      "loss": 0.0011,
+      "reward": 4.431250095367432,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 240,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.625,
+      "epoch": 0.41196581196581195,
+      "grad_norm": 0.7968672197503313,
+      "kl": 0.028839111328125,
+      "learning_rate": 3.221294128442159e-07,
+      "loss": 0.0012,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 241,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 414.0625,
+      "epoch": 0.41367521367521365,
+      "grad_norm": 0.42444744478538265,
+      "kl": 0.03271484375,
+      "learning_rate": 3.2084291094694877e-07,
+      "loss": 0.0013,
+      "reward": 4.479166507720947,
+      "reward_std": 0.041666675359010696,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 242,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.46875,
+      "epoch": 0.4153846153846154,
+      "grad_norm": 0.9419712744942863,
+      "kl": 0.028472900390625,
+      "learning_rate": 3.1955436597911315e-07,
+      "loss": 0.0011,
+      "reward": 4.309374809265137,
+      "reward_std": 0.13124997913837433,
+      "rewards/accuracy_reward": 2.828125,
+      "rewards/format_reward": 1.0,
+      "step": 243,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.03125,
+      "epoch": 0.4170940170940171,
+      "grad_norm": 0.9131196385800117,
+      "kl": 0.0345458984375,
+      "learning_rate": 3.182638151016369e-07,
+      "loss": 0.0014,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07500000298023224,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 244,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 440.09375,
+      "epoch": 0.4188034188034188,
+      "grad_norm": 0.4798659825058091,
+      "kl": 0.0302734375,
+      "learning_rate": 3.16971295533297e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 245,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.09375,
+      "epoch": 0.4205128205128205,
+      "grad_norm": 0.8572445103395465,
+      "kl": 0.0389404296875,
+      "learning_rate": 3.1567684454964674e-07,
+      "loss": 0.0016,
+      "reward": 4.398958206176758,
+      "reward_std": 0.11110330373048782,
+      "rewards/accuracy_reward": 2.9114584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 246,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.625,
+      "epoch": 0.4222222222222222,
+      "grad_norm": 0.9437136155386749,
+      "kl": 0.030975341796875,
+      "learning_rate": 3.1438049948194e-07,
+      "loss": 0.0012,
+      "reward": 4.445833206176758,
+      "reward_std": 0.09411968290805817,
+      "rewards/accuracy_reward": 2.9583334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 247,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.375,
+      "epoch": 0.4239316239316239,
+      "grad_norm": 1.0077844266141458,
+      "kl": 0.0306854248046875,
+      "learning_rate": 3.130822977160554e-07,
+      "loss": 0.0012,
+      "reward": 4.347916603088379,
+      "reward_std": 0.054166775196790695,
+      "rewards/accuracy_reward": 2.847916603088379,
+      "rewards/format_reward": 1.0,
+      "step": 248,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 397.1875,
+      "epoch": 0.4256410256410256,
+      "grad_norm": 1.0272231741810445,
+      "kl": 0.03204345703125,
+      "learning_rate": 3.117822766914174e-07,
+      "loss": 0.0013,
+      "reward": 4.141666412353516,
+      "reward_std": 0.2541666626930237,
+      "rewards/accuracy_reward": 2.7135415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 249,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 429.90625,
+      "epoch": 0.42735042735042733,
+      "grad_norm": 0.9751280617445557,
+      "kl": 0.033355712890625,
+      "learning_rate": 3.104804738999169e-07,
+      "loss": 0.0013,
+      "reward": 4.461458206176758,
+      "reward_std": 0.06965409964323044,
+      "rewards/accuracy_reward": 2.9864583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 250,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 501.96875,
+      "epoch": 0.42905982905982903,
+      "grad_norm": 0.8430346840867876,
+      "kl": 0.03485107421875,
+      "learning_rate": 3.091769268848302e-07,
+      "loss": 0.0014,
+      "reward": 4.309374809265137,
+      "reward_std": 0.29744482040405273,
+      "rewards/accuracy_reward": 2.890625,
+      "rewards/format_reward": 0.96875,
+      "step": 251,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.0,
+      "epoch": 0.4307692307692308,
+      "grad_norm": 0.8703999727094797,
+      "kl": 0.03179931640625,
+      "learning_rate": 3.078716732397358e-07,
+      "loss": 0.0013,
+      "reward": 4.426041603088379,
+      "reward_std": 0.14791667461395264,
+      "rewards/accuracy_reward": 2.9322917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 252,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.40625,
+      "epoch": 0.4324786324786325,
+      "grad_norm": 1.0588800980943704,
+      "kl": 0.03173828125,
+      "learning_rate": 3.065647506074306e-07,
+      "loss": 0.0013,
+      "reward": 4.4708333015441895,
+      "reward_std": 0.0348845049738884,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 253,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 419.15625,
+      "epoch": 0.4341880341880342,
+      "grad_norm": 0.795838052137267,
+      "kl": 0.02801513671875,
+      "learning_rate": 3.0525619667884406e-07,
+      "loss": 0.0011,
+      "reward": 4.384375095367432,
+      "reward_std": 0.23124998807907104,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 254,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.375,
+      "epoch": 0.4358974358974359,
+      "grad_norm": 0.8042273966949223,
+      "kl": 0.0276336669921875,
+      "learning_rate": 3.0394604919195157e-07,
+      "loss": 0.0011,
+      "reward": 4.436458110809326,
+      "reward_std": 0.12708336114883423,
+      "rewards/accuracy_reward": 2.9427082538604736,
+      "rewards/format_reward": 1.0,
+      "step": 255,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 409.78125,
+      "epoch": 0.4376068376068376,
+      "grad_norm": 1.4988357700262755,
+      "kl": 0.031280517578125,
+      "learning_rate": 3.026343459306856e-07,
+      "loss": 0.0013,
+      "reward": 4.336458206176758,
+      "reward_std": 0.3077019453048706,
+      "rewards/accuracy_reward": 2.870833396911621,
+      "rewards/format_reward": 1.0,
+      "step": 256,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.90625,
+      "epoch": 0.4393162393162393,
+      "grad_norm": 0.741488605323632,
+      "kl": 0.0300140380859375,
+      "learning_rate": 3.0132112472384646e-07,
+      "loss": 0.0012,
+      "reward": 4.478125095367432,
+      "reward_std": 0.043749988079071045,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 257,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.3125,
+      "epoch": 0.441025641025641,
+      "grad_norm": 0.46834571667347163,
+      "kl": 0.0301513671875,
+      "learning_rate": 3.000064234440111e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.015728820115327835,
+      "rewards/accuracy_reward": 2.988541603088379,
+      "rewards/format_reward": 1.0,
+      "step": 258,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.125,
+      "epoch": 0.4427350427350427,
+      "grad_norm": 1.0017912500595636,
+      "kl": 0.03057861328125,
+      "learning_rate": 2.98690280006441e-07,
+      "loss": 0.0012,
+      "reward": 4.453125,
+      "reward_std": 0.09375004470348358,
+      "rewards/accuracy_reward": 2.965625047683716,
+      "rewards/format_reward": 1.0,
+      "step": 259,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 388.21875,
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.8420521089116736,
+      "kl": 0.028961181640625,
+      "learning_rate": 2.973727323679887e-07,
+      "loss": 0.0012,
+      "reward": 4.352083206176758,
+      "reward_std": 0.22083336114883423,
+      "rewards/accuracy_reward": 2.8958330154418945,
+      "rewards/format_reward": 1.0,
+      "step": 260,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.6875,
+      "epoch": 0.4461538461538462,
+      "grad_norm": 0.8625863312058557,
+      "kl": 0.0295867919921875,
+      "learning_rate": 2.9605381852600284e-07,
+      "loss": 0.0012,
+      "reward": 4.342708110809326,
+      "reward_std": 0.05237945541739464,
+      "rewards/accuracy_reward": 2.8489582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 261,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.375,
+      "epoch": 0.4478632478632479,
+      "grad_norm": 0.49859391609468073,
+      "kl": 0.0287017822265625,
+      "learning_rate": 2.947335765172332e-07,
+      "loss": 0.0011,
+      "reward": 4.244791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.7447917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 262,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.8125,
+      "epoch": 0.4495726495726496,
+      "grad_norm": 0.8102700890434518,
+      "kl": 0.0269317626953125,
+      "learning_rate": 2.934120444167326e-07,
+      "loss": 0.0011,
+      "reward": 4.485416412353516,
+      "reward_std": 0.019589867442846298,
+      "rewards/accuracy_reward": 2.991666793823242,
+      "rewards/format_reward": 1.0,
+      "step": 263,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.9375,
+      "epoch": 0.4512820512820513,
+      "grad_norm": 1.063427576553572,
+      "kl": 0.0272216796875,
+      "learning_rate": 2.920892603367596e-07,
+      "loss": 0.0011,
+      "reward": 4.284375190734863,
+      "reward_std": 0.35624998807907104,
+      "rewards/accuracy_reward": 2.840625047683716,
+      "rewards/format_reward": 1.0,
+      "step": 264,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.65625,
+      "epoch": 0.452991452991453,
+      "grad_norm": 0.7582712930815526,
+      "kl": 0.0360107421875,
+      "learning_rate": 2.9076526242567934e-07,
+      "loss": 0.0014,
+      "reward": 4.4270830154418945,
+      "reward_std": 0.145833358168602,
+      "rewards/accuracy_reward": 2.9270834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 265,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 375.21875,
+      "epoch": 0.4547008547008547,
+      "grad_norm": 0.9742655842076069,
+      "kl": 0.0289459228515625,
+      "learning_rate": 2.894400888668628e-07,
+      "loss": 0.0012,
+      "reward": 4.34375,
+      "reward_std": 0.23749995231628418,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 266,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.3125,
+      "epoch": 0.4564102564102564,
+      "grad_norm": 0.8038643205075684,
+      "kl": 0.034393310546875,
+      "learning_rate": 2.881137778775863e-07,
+      "loss": 0.0014,
+      "reward": 4.479166507720947,
+      "reward_std": 0.041666723787784576,
+      "rewards/accuracy_reward": 2.9791667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 267,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.625,
+      "epoch": 0.4581196581196581,
+      "grad_norm": 1.0271744591922272,
+      "kl": 0.03143310546875,
+      "learning_rate": 2.86786367707929e-07,
+      "loss": 0.0013,
+      "reward": 4.429166793823242,
+      "reward_std": 0.1416667252779007,
+      "rewards/accuracy_reward": 2.929166555404663,
+      "rewards/format_reward": 1.0,
+      "step": 268,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.59375,
+      "epoch": 0.4598290598290598,
+      "grad_norm": 0.8636551985030093,
+      "kl": 0.031036376953125,
+      "learning_rate": 2.854578966396697e-07,
+      "loss": 0.0012,
+      "reward": 4.483333110809326,
+      "reward_std": 0.03333336114883423,
+      "rewards/accuracy_reward": 2.9895830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 269,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 378.1875,
+      "epoch": 0.46153846153846156,
+      "grad_norm": 0.6804208467696614,
+      "kl": 0.0298614501953125,
+      "learning_rate": 2.841284029851829e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 270,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 374.6875,
+      "epoch": 0.46324786324786327,
+      "grad_norm": 0.9979554468965982,
+      "kl": 0.029266357421875,
+      "learning_rate": 2.827979250863341e-07,
+      "loss": 0.0012,
+      "reward": 4.460416793823242,
+      "reward_std": 0.055717818439006805,
+      "rewards/accuracy_reward": 2.9854166507720947,
+      "rewards/format_reward": 1.0,
+      "step": 271,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.15625,
+      "epoch": 0.46495726495726497,
+      "grad_norm": 0.7332376349094659,
+      "kl": 0.0316162109375,
+      "learning_rate": 2.814665013133737e-07,
+      "loss": 0.0013,
+      "reward": 4.477083206176758,
+      "reward_std": 0.035267096012830734,
+      "rewards/accuracy_reward": 2.9833333492279053,
+      "rewards/format_reward": 1.0,
+      "step": 272,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 515.1875,
+      "epoch": 0.4666666666666667,
+      "grad_norm": 1.1845653043927773,
+      "kl": 0.03582763671875,
+      "learning_rate": 2.801341700638307e-07,
+      "loss": 0.0014,
+      "reward": 4.276041507720947,
+      "reward_std": 0.34067392349243164,
+      "rewards/accuracy_reward": 2.8572916984558105,
+      "rewards/format_reward": 0.96875,
+      "step": 273,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.3125,
+      "epoch": 0.4683760683760684,
+      "grad_norm": 0.81579997427106,
+      "kl": 0.02886962890625,
+      "learning_rate": 2.788009697614053e-07,
+      "loss": 0.0012,
+      "reward": 4.476041793823242,
+      "reward_std": 0.03735041618347168,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 274,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 375.75,
+      "epoch": 0.4700854700854701,
+      "grad_norm": 0.800487315534138,
+      "kl": 0.03509521484375,
+      "learning_rate": 2.774669388548604e-07,
+      "loss": 0.0014,
+      "reward": 4.210416793823242,
+      "reward_std": 0.2419627606868744,
+      "rewards/accuracy_reward": 2.7604165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 275,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.96875,
+      "epoch": 0.4717948717948718,
+      "grad_norm": 0.6826117859600568,
+      "kl": 0.0281982421875,
+      "learning_rate": 2.761321158169134e-07,
+      "loss": 0.0011,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 276,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 375.90625,
+      "epoch": 0.4735042735042735,
+      "grad_norm": 1.3430565290060326,
+      "kl": 0.03118896484375,
+      "learning_rate": 2.7479653914312606e-07,
+      "loss": 0.0012,
+      "reward": 4.476041793823242,
+      "reward_std": 0.03735041618347168,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 277,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.15625,
+      "epoch": 0.4752136752136752,
+      "grad_norm": 0.9795006362402202,
+      "kl": 0.0301666259765625,
+      "learning_rate": 2.7346024735079484e-07,
+      "loss": 0.0012,
+      "reward": 4.446874618530273,
+      "reward_std": 0.10625002533197403,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 278,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 433.03125,
+      "epoch": 0.47692307692307695,
+      "grad_norm": 0.6527773932424796,
+      "kl": 0.02783203125,
+      "learning_rate": 2.721232789778396e-07,
+      "loss": 0.0011,
+      "reward": 4.237500190734863,
+      "reward_std": 0.24743911623954773,
+      "rewards/accuracy_reward": 2.78125,
+      "rewards/format_reward": 1.0,
+      "step": 279,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 391.5,
+      "epoch": 0.47863247863247865,
+      "grad_norm": 0.6682007724714246,
+      "kl": 0.032196044921875,
+      "learning_rate": 2.707856725816926e-07,
+      "loss": 0.0013,
+      "reward": 3.9937500953674316,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.5625,
+      "rewards/format_reward": 1.0,
+      "step": 280,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.40625,
+      "epoch": 0.48034188034188036,
+      "grad_norm": 0.8803348470608947,
+      "kl": 0.0287933349609375,
+      "learning_rate": 2.694474667381862e-07,
+      "loss": 0.0012,
+      "reward": 4.477083206176758,
+      "reward_std": 0.045833367854356766,
+      "rewards/accuracy_reward": 2.977083206176758,
+      "rewards/format_reward": 1.0,
+      "step": 281,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 375.25,
+      "epoch": 0.48205128205128206,
+      "grad_norm": 0.8702511072331989,
+      "kl": 0.031494140625,
+      "learning_rate": 2.681087000404406e-07,
+      "loss": 0.0013,
+      "reward": 4.452083110809326,
+      "reward_std": 0.09583336859941483,
+      "rewards/accuracy_reward": 2.9583334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 282,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.25,
+      "epoch": 0.48376068376068376,
+      "grad_norm": 0.9082136706246213,
+      "kl": 0.030792236328125,
+      "learning_rate": 2.667694110977506e-07,
+      "loss": 0.0012,
+      "reward": 4.331250190734863,
+      "reward_std": 0.2124999761581421,
+      "rewards/accuracy_reward": 2.84375,
+      "rewards/format_reward": 1.0,
+      "step": 283,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 413.09375,
+      "epoch": 0.48547008547008547,
+      "grad_norm": 0.9472183403193424,
+      "kl": 0.031494140625,
+      "learning_rate": 2.6542963853447236e-07,
+      "loss": 0.0013,
+      "reward": 4.336458206176758,
+      "reward_std": 0.28391897678375244,
+      "rewards/accuracy_reward": 2.8489582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 284,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.625,
+      "epoch": 0.48717948717948717,
+      "grad_norm": 1.0101567131078781,
+      "kl": 0.0292205810546875,
+      "learning_rate": 2.6408942098890937e-07,
+      "loss": 0.0012,
+      "reward": 4.484375,
+      "reward_std": 0.03125004097819328,
+      "rewards/accuracy_reward": 2.9906249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 285,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.5625,
+      "epoch": 0.4888888888888889,
+      "grad_norm": 0.9155167378458238,
+      "kl": 0.0291595458984375,
+      "learning_rate": 2.627487971121981e-07,
+      "loss": 0.0012,
+      "reward": 4.490625381469727,
+      "reward_std": 0.018750011920928955,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 286,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.46875,
+      "epoch": 0.4905982905982906,
+      "grad_norm": 0.09023924616680266,
+      "kl": 0.0288238525390625,
+      "learning_rate": 2.6140780556719347e-07,
+      "loss": 0.0012,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 287,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 406.4375,
+      "epoch": 0.49230769230769234,
+      "grad_norm": 1.000320586353409,
+      "kl": 0.028656005859375,
+      "learning_rate": 2.600664850273538e-07,
+      "loss": 0.0011,
+      "reward": 4.198958396911621,
+      "reward_std": 0.4171741008758545,
+      "rewards/accuracy_reward": 2.7364583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 288,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 386.21875,
+      "epoch": 0.49401709401709404,
+      "grad_norm": 0.9749985816490925,
+      "kl": 0.032196044921875,
+      "learning_rate": 2.5872487417562527e-07,
+      "loss": 0.0013,
+      "reward": 4.344791412353516,
+      "reward_std": 0.23541665077209473,
+      "rewards/accuracy_reward": 2.9010417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 289,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.1875,
+      "epoch": 0.49572649572649574,
+      "grad_norm": 1.0603863586034312,
+      "kl": 0.0286407470703125,
+      "learning_rate": 2.573830117033266e-07,
+      "loss": 0.0011,
+      "reward": 4.477083206176758,
+      "reward_std": 0.04583334922790527,
+      "rewards/accuracy_reward": 2.9895830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 290,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.15625,
+      "epoch": 0.49743589743589745,
+      "grad_norm": 0.7918598838130273,
+      "kl": 0.029510498046875,
+      "learning_rate": 2.5604093630903305e-07,
+      "loss": 0.0012,
+      "reward": 4.353125095367432,
+      "reward_std": 0.04374999552965164,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 291,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.71875,
+      "epoch": 0.49914529914529915,
+      "grad_norm": 0.6422748229725009,
+      "kl": 0.0258331298828125,
+      "learning_rate": 2.546986866974606e-07,
+      "loss": 0.001,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 292,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.5625,
+      "epoch": 0.5008547008547009,
+      "grad_norm": 0.6832432825210148,
+      "kl": 0.02874755859375,
+      "learning_rate": 2.5335630157834935e-07,
+      "loss": 0.0011,
+      "reward": 4.483333110809326,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 293,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.5625,
+      "epoch": 0.5025641025641026,
+      "grad_norm": 0.9559767563465718,
+      "kl": 0.037506103515625,
+      "learning_rate": 2.520138196653475e-07,
+      "loss": 0.0015,
+      "reward": 4.442708492279053,
+      "reward_std": 0.11458335071802139,
+      "rewards/accuracy_reward": 2.9552083015441895,
+      "rewards/format_reward": 1.0,
+      "step": 294,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.25,
+      "epoch": 0.5042735042735043,
+      "grad_norm": 0.6727684539804029,
+      "kl": 0.029754638671875,
+      "learning_rate": 2.506712796748946e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 295,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.75,
+      "epoch": 0.505982905982906,
+      "grad_norm": 1.2585998862695662,
+      "kl": 0.0263214111328125,
+      "learning_rate": 2.4932872032510537e-07,
+      "loss": 0.0011,
+      "reward": 4.425000190734863,
+      "reward_std": 0.10459256172180176,
+      "rewards/accuracy_reward": 2.937499761581421,
+      "rewards/format_reward": 1.0,
+      "step": 296,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.34375,
+      "epoch": 0.5076923076923077,
+      "grad_norm": 0.4917127903002045,
+      "kl": 0.0260772705078125,
+      "learning_rate": 2.4798618033465255e-07,
+      "loss": 0.001,
+      "reward": 4.490624904632568,
+      "reward_std": 0.018750011920928955,
+      "rewards/accuracy_reward": 2.9906249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 297,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 376.125,
+      "epoch": 0.5094017094017094,
+      "grad_norm": 1.207778413398748,
+      "kl": 0.0299072265625,
+      "learning_rate": 2.466436984216507e-07,
+      "loss": 0.0012,
+      "reward": 4.4583330154418945,
+      "reward_std": 0.08333337306976318,
+      "rewards/accuracy_reward": 2.9708333015441895,
+      "rewards/format_reward": 1.0,
+      "step": 298,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.125,
+      "epoch": 0.5111111111111111,
+      "grad_norm": 0.8055096119300761,
+      "kl": 0.03076171875,
+      "learning_rate": 2.453013133025394e-07,
+      "loss": 0.0012,
+      "reward": 4.462500095367432,
+      "reward_std": 0.06035531684756279,
+      "rewards/accuracy_reward": 2.981250047683716,
+      "rewards/format_reward": 1.0,
+      "step": 299,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.6875,
+      "epoch": 0.5128205128205128,
+      "grad_norm": 0.688464217089206,
+      "kl": 0.0254669189453125,
+      "learning_rate": 2.43959063690967e-07,
+      "loss": 0.001,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833373069763184,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 300,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 390.0625,
+      "epoch": 0.5145299145299145,
+      "grad_norm": 0.7340505299617726,
+      "kl": 0.035491943359375,
+      "learning_rate": 2.4261698829667347e-07,
+      "loss": 0.0014,
+      "reward": 4.34375,
+      "reward_std": 0.22693371772766113,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 301,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 394.6875,
+      "epoch": 0.5162393162393163,
+      "grad_norm": 0.4532640845625846,
+      "kl": 0.026885986328125,
+      "learning_rate": 2.412751258243748e-07,
+      "loss": 0.0011,
+      "reward": 4.243750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 2.75,
+      "rewards/format_reward": 1.0,
+      "step": 302,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 515.4375,
+      "epoch": 0.517948717948718,
+      "grad_norm": 0.6342363966568346,
+      "kl": 0.026885986328125,
+      "learning_rate": 2.399335149726463e-07,
+      "loss": 0.0011,
+      "reward": 4.3145833015441895,
+      "reward_std": 0.2862565219402313,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 0.96875,
+      "step": 303,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.03125,
+      "epoch": 0.5196581196581197,
+      "grad_norm": 0.9147804600722801,
+      "kl": 0.0301055908203125,
+      "learning_rate": 2.3859219443280656e-07,
+      "loss": 0.0012,
+      "reward": 4.484375,
+      "reward_std": 0.03125,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 304,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.15625,
+      "epoch": 0.5213675213675214,
+      "grad_norm": 0.572485423830036,
+      "kl": 0.028717041015625,
+      "learning_rate": 2.3725120288780184e-07,
+      "loss": 0.0011,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 305,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.34375,
+      "epoch": 0.5230769230769231,
+      "grad_norm": 0.5033729544766128,
+      "kl": 0.024871826171875,
+      "learning_rate": 2.359105790110906e-07,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.014433743432164192,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 306,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.09375,
+      "epoch": 0.5247863247863248,
+      "grad_norm": 0.07262558086141567,
+      "kl": 0.028656005859375,
+      "learning_rate": 2.3457036146552762e-07,
+      "loss": 0.0011,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 307,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.59375,
+      "epoch": 0.5264957264957265,
+      "grad_norm": 0.5134612957808165,
+      "kl": 0.031341552734375,
+      "learning_rate": 2.3323058890224938e-07,
+      "loss": 0.0013,
+      "reward": 4.496874809265137,
+      "reward_std": 0.00625002384185791,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 308,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 403.59375,
+      "epoch": 0.5282051282051282,
+      "grad_norm": 0.9972226303838653,
+      "kl": 0.0303497314453125,
+      "learning_rate": 2.3189129995955942e-07,
+      "loss": 0.0012,
+      "reward": 4.351041793823242,
+      "reward_std": 0.22291666269302368,
+      "rewards/accuracy_reward": 2.9010415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 309,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.0,
+      "epoch": 0.5299145299145299,
+      "grad_norm": 0.6795557618970453,
+      "kl": 0.0360107421875,
+      "learning_rate": 2.305525332618138e-07,
+      "loss": 0.0014,
+      "reward": 4.359375,
+      "reward_std": 0.0312500074505806,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 310,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.8125,
+      "epoch": 0.5316239316239316,
+      "grad_norm": 0.6496698469493593,
+      "kl": 0.038726806640625,
+      "learning_rate": 2.292143274183074e-07,
+      "loss": 0.0015,
+      "reward": 4.237500190734863,
+      "reward_std": 0.024999987334012985,
+      "rewards/accuracy_reward": 2.75,
+      "rewards/format_reward": 1.0,
+      "step": 311,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.21875,
+      "epoch": 0.5333333333333333,
+      "grad_norm": 0.4986396531003259,
+      "kl": 0.0290069580078125,
+      "learning_rate": 2.278767210221604e-07,
+      "loss": 0.0012,
+      "reward": 4.496874809265137,
+      "reward_std": 0.00625002384185791,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 312,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.125,
+      "epoch": 0.535042735042735,
+      "grad_norm": 0.7570977637884239,
+      "kl": 0.02655029296875,
+      "learning_rate": 2.265397526492052e-07,
+      "loss": 0.0011,
+      "reward": 4.477083206176758,
+      "reward_std": 0.04583334922790527,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 313,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.03125,
+      "epoch": 0.5367521367521367,
+      "grad_norm": 0.7585204865202935,
+      "kl": 0.0333251953125,
+      "learning_rate": 2.2520346085687397e-07,
+      "loss": 0.0013,
+      "reward": 4.462499618530273,
+      "reward_std": 0.06235354393720627,
+      "rewards/accuracy_reward": 2.968750238418579,
+      "rewards/format_reward": 1.0,
+      "step": 314,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.78125,
+      "epoch": 0.5384615384615384,
+      "grad_norm": 0.6576294540490213,
+      "kl": 0.029510498046875,
+      "learning_rate": 2.2386788418308665e-07,
+      "loss": 0.0012,
+      "reward": 4.3802080154418945,
+      "reward_std": 0.05208335071802139,
+      "rewards/accuracy_reward": 2.8802084922790527,
+      "rewards/format_reward": 1.0,
+      "step": 315,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.84375,
+      "epoch": 0.5401709401709401,
+      "grad_norm": 0.47636538953294866,
+      "kl": 0.028411865234375,
+      "learning_rate": 2.225330611451396e-07,
+      "loss": 0.0011,
+      "reward": 4.368750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 2.875,
+      "rewards/format_reward": 1.0,
+      "step": 316,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.4375,
+      "epoch": 0.5418803418803418,
+      "grad_norm": 0.5799471924824576,
+      "kl": 0.031219482421875,
+      "learning_rate": 2.2119903023859473e-07,
+      "loss": 0.0012,
+      "reward": 4.481249809265137,
+      "reward_std": 0.026933731511235237,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 317,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.0,
+      "epoch": 0.5435897435897435,
+      "grad_norm": 1.0407335382425869,
+      "kl": 0.029876708984375,
+      "learning_rate": 2.1986582993616925e-07,
+      "loss": 0.0012,
+      "reward": 4.431250095367432,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 318,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 407.15625,
+      "epoch": 0.5452991452991452,
+      "grad_norm": 0.6882591692887629,
+      "kl": 0.035675048828125,
+      "learning_rate": 2.1853349868662632e-07,
+      "loss": 0.0014,
+      "reward": 4.346875190734863,
+      "reward_std": 0.22446781396865845,
+      "rewards/accuracy_reward": 2.903125047683716,
+      "rewards/format_reward": 1.0,
+      "step": 319,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.71875,
+      "epoch": 0.5470085470085471,
+      "grad_norm": 0.7401898781027427,
+      "kl": 0.029083251953125,
+      "learning_rate": 2.1720207491366595e-07,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 320,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 424.1875,
+      "epoch": 0.5487179487179488,
+      "grad_norm": 1.0640854009771115,
+      "kl": 0.03546142578125,
+      "learning_rate": 2.1587159701481713e-07,
+      "loss": 0.0014,
+      "reward": 4.237500190734863,
+      "reward_std": 0.28094005584716797,
+      "rewards/accuracy_reward": 2.8125,
+      "rewards/format_reward": 1.0,
+      "step": 321,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 394.71875,
+      "epoch": 0.5504273504273505,
+      "grad_norm": 0.8653685456240925,
+      "kl": 0.03192138671875,
+      "learning_rate": 2.1454210336033038e-07,
+      "loss": 0.0013,
+      "reward": 3.9749999046325684,
+      "reward_std": 0.45868760347366333,
+      "rewards/accuracy_reward": 2.625,
+      "rewards/format_reward": 0.96875,
+      "step": 322,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.1875,
+      "epoch": 0.5521367521367522,
+      "grad_norm": 0.7436416734183169,
+      "kl": 0.0294647216796875,
+      "learning_rate": 2.1321363229207094e-07,
+      "loss": 0.0012,
+      "reward": 4.3572916984558105,
+      "reward_std": 0.035416651517152786,
+      "rewards/accuracy_reward": 2.8697917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 323,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 403.75,
+      "epoch": 0.5538461538461539,
+      "grad_norm": 0.7621262365425368,
+      "kl": 0.0281219482421875,
+      "learning_rate": 2.1188622212241363e-07,
+      "loss": 0.0011,
+      "reward": 4.3458333015441895,
+      "reward_std": 0.23333333432674408,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 324,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 421.0625,
+      "epoch": 0.5555555555555556,
+      "grad_norm": 1.3039362514388342,
+      "kl": 0.032440185546875,
+      "learning_rate": 2.1055991113313716e-07,
+      "loss": 0.0013,
+      "reward": 4.431249618530273,
+      "reward_std": 0.13750001788139343,
+      "rewards/accuracy_reward": 2.9437501430511475,
+      "rewards/format_reward": 1.0,
+      "step": 325,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 414.84375,
+      "epoch": 0.5572649572649573,
+      "grad_norm": 0.7233398361384918,
+      "kl": 0.031463623046875,
+      "learning_rate": 2.092347375743207e-07,
+      "loss": 0.0013,
+      "reward": 4.466666221618652,
+      "reward_std": 0.05610042065382004,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 326,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 408.90625,
+      "epoch": 0.558974358974359,
+      "grad_norm": 0.4883329956768518,
+      "kl": 0.02618408203125,
+      "learning_rate": 2.0791073966324034e-07,
+      "loss": 0.001,
+      "reward": 4.478125095367432,
+      "reward_std": 0.029536345973610878,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 327,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.40625,
+      "epoch": 0.5606837606837607,
+      "grad_norm": 0.7805982638188855,
+      "kl": 0.0284423828125,
+      "learning_rate": 2.065879555832674e-07,
+      "loss": 0.0011,
+      "reward": 4.480208396911621,
+      "reward_std": 0.03000655397772789,
+      "rewards/accuracy_reward": 2.9864583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 328,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 411.90625,
+      "epoch": 0.5623931623931624,
+      "grad_norm": 0.588612781266627,
+      "kl": 0.02874755859375,
+      "learning_rate": 2.052664234827668e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 329,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.15625,
+      "epoch": 0.5641025641025641,
+      "grad_norm": 0.8127453427865569,
+      "kl": 0.02838134765625,
+      "learning_rate": 2.039461814739971e-07,
+      "loss": 0.0011,
+      "reward": 4.456250190734863,
+      "reward_std": 0.05935416370630264,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 330,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 432.3125,
+      "epoch": 0.5658119658119658,
+      "grad_norm": 0.7233379794823771,
+      "kl": 0.0248565673828125,
+      "learning_rate": 2.0262726763201138e-07,
+      "loss": 0.001,
+      "reward": 4.481249809265137,
+      "reward_std": 0.037499964237213135,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 331,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.90625,
+      "epoch": 0.5675213675213675,
+      "grad_norm": 0.7843737099570528,
+      "kl": 0.035797119140625,
+      "learning_rate": 2.0130971999355901e-07,
+      "loss": 0.0014,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 332,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.40625,
+      "epoch": 0.5692307692307692,
+      "grad_norm": 0.5721713988774952,
+      "kl": 0.0305328369140625,
+      "learning_rate": 1.9999357655598891e-07,
+      "loss": 0.0012,
+      "reward": 4.353125095367432,
+      "reward_std": 0.043749988079071045,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 333,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.28125,
+      "epoch": 0.5709401709401709,
+      "grad_norm": 0.7908519479558209,
+      "kl": 0.029327392578125,
+      "learning_rate": 1.9867887527615357e-07,
+      "loss": 0.0012,
+      "reward": 4.453125,
+      "reward_std": 0.09375002235174179,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 334,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.40625,
+      "epoch": 0.5726495726495726,
+      "grad_norm": 0.45751641212204985,
+      "kl": 0.0284881591796875,
+      "learning_rate": 1.9736565406931444e-07,
+      "loss": 0.0011,
+      "reward": 4.491666793823242,
+      "reward_std": 0.010206229984760284,
+      "rewards/accuracy_reward": 2.991666555404663,
+      "rewards/format_reward": 1.0,
+      "step": 335,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.5625,
+      "epoch": 0.5743589743589743,
+      "grad_norm": 0.48027671230517677,
+      "kl": 0.0285491943359375,
+      "learning_rate": 1.960539508080485e-07,
+      "loss": 0.0011,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 336,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.125,
+      "completion_length": 411.09375,
+      "epoch": 0.576068376068376,
+      "grad_norm": 0.8552191405613337,
+      "kl": 0.029144287109375,
+      "learning_rate": 1.9474380332115597e-07,
+      "loss": 0.0012,
+      "reward": 3.9781250953674316,
+      "reward_std": 0.16874998807907104,
+      "rewards/accuracy_reward": 2.578125,
+      "rewards/format_reward": 0.96875,
+      "step": 337,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.4375,
+      "epoch": 0.5777777777777777,
+      "grad_norm": 0.7700902610415192,
+      "kl": 0.0281524658203125,
+      "learning_rate": 1.934352493925695e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 338,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.9375,
+      "epoch": 0.5794871794871795,
+      "grad_norm": 1.0394651393331693,
+      "kl": 0.030426025390625,
+      "learning_rate": 1.9212832676026427e-07,
+      "loss": 0.0012,
+      "reward": 4.478124618530273,
+      "reward_std": 0.043749988079071045,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 339,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 409.5625,
+      "epoch": 0.5811965811965812,
+      "grad_norm": 0.831339218666523,
+      "kl": 0.026580810546875,
+      "learning_rate": 1.9082307311516984e-07,
+      "loss": 0.0011,
+      "reward": 4.246874809265137,
+      "reward_std": 0.30807024240493774,
+      "rewards/accuracy_reward": 2.796875,
+      "rewards/format_reward": 1.0,
+      "step": 340,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.8125,
+      "epoch": 0.582905982905983,
+      "grad_norm": 0.8399181060629186,
+      "kl": 0.030517578125,
+      "learning_rate": 1.895195261000831e-07,
+      "loss": 0.0012,
+      "reward": 4.427083492279053,
+      "reward_std": 0.1458333283662796,
+      "rewards/accuracy_reward": 2.9270832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 341,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.90625,
+      "epoch": 0.5846153846153846,
+      "grad_norm": 0.8058523587821097,
+      "kl": 0.031097412109375,
+      "learning_rate": 1.8821772330858257e-07,
+      "loss": 0.0012,
+      "reward": 4.418749809265137,
+      "reward_std": 0.16249999403953552,
+      "rewards/accuracy_reward": 2.924999952316284,
+      "rewards/format_reward": 1.0,
+      "step": 342,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.375,
+      "epoch": 0.5863247863247864,
+      "grad_norm": 0.6908469933734968,
+      "kl": 0.034515380859375,
+      "learning_rate": 1.8691770228394454e-07,
+      "loss": 0.0014,
+      "reward": 4.475000381469727,
+      "reward_std": 0.050000011920928955,
+      "rewards/accuracy_reward": 2.981250047683716,
+      "rewards/format_reward": 1.0,
+      "step": 343,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.78125,
+      "epoch": 0.588034188034188,
+      "grad_norm": 0.1008549244160086,
+      "kl": 0.0269317626953125,
+      "learning_rate": 1.856195005180599e-07,
+      "loss": 0.0011,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 344,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 425.75,
+      "epoch": 0.5897435897435898,
+      "grad_norm": 0.8736142674173453,
+      "kl": 0.0251617431640625,
+      "learning_rate": 1.8432315545035327e-07,
+      "loss": 0.001,
+      "reward": 4.481249809265137,
+      "reward_std": 0.03750002384185791,
+      "rewards/accuracy_reward": 2.9937500953674316,
+      "rewards/format_reward": 1.0,
+      "step": 345,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.5,
+      "epoch": 0.5914529914529915,
+      "grad_norm": 0.6241840426928807,
+      "kl": 0.0221405029296875,
+      "learning_rate": 1.8302870446670298e-07,
+      "loss": 0.0009,
+      "reward": 4.484375,
+      "reward_std": 0.03125,
+      "rewards/accuracy_reward": 2.9906249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 346,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.875,
+      "epoch": 0.5931623931623932,
+      "grad_norm": 0.6408200735504551,
+      "kl": 0.024658203125,
+      "learning_rate": 1.8173618489836313e-07,
+      "loss": 0.001,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833373069763184,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 347,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.28125,
+      "epoch": 0.5948717948717949,
+      "grad_norm": 0.9209084049652457,
+      "kl": 0.03179931640625,
+      "learning_rate": 1.8044563402088682e-07,
+      "loss": 0.0013,
+      "reward": 4.461458206176758,
+      "reward_std": 0.07708336412906647,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 348,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.71875,
+      "epoch": 0.5965811965811966,
+      "grad_norm": 1.0065364869485496,
+      "kl": 0.027191162109375,
+      "learning_rate": 1.791570890530512e-07,
+      "loss": 0.0011,
+      "reward": 4.410416603088379,
+      "reward_std": 0.17916667461395264,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 349,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.28125,
+      "epoch": 0.5982905982905983,
+      "grad_norm": 0.5284449082970888,
+      "kl": 0.0286712646484375,
+      "learning_rate": 1.7787058715578413e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 350,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.9375,
+      "epoch": 0.6,
+      "grad_norm": 0.41720403366603914,
+      "kl": 0.0263671875,
+      "learning_rate": 1.7658616543109234e-07,
+      "loss": 0.0011,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.012028153985738754,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 351,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.75,
+      "epoch": 0.6017094017094017,
+      "grad_norm": 0.93685086254834,
+      "kl": 0.028167724609375,
+      "learning_rate": 1.7530386092099156e-07,
+      "loss": 0.0011,
+      "reward": 4.443749904632568,
+      "reward_std": 0.08809226006269455,
+      "rewards/accuracy_reward": 2.9499998092651367,
+      "rewards/format_reward": 1.0,
+      "step": 352,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 414.84375,
+      "epoch": 0.6034188034188034,
+      "grad_norm": 0.897602925377439,
+      "kl": 0.0283203125,
+      "learning_rate": 1.7402371060643827e-07,
+      "loss": 0.0011,
+      "reward": 4.084374904632568,
+      "reward_std": 0.35265669226646423,
+      "rewards/accuracy_reward": 2.65625,
+      "rewards/format_reward": 1.0,
+      "step": 353,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.53125,
+      "epoch": 0.6051282051282051,
+      "grad_norm": 2.2020115344389755,
+      "kl": 0.02679443359375,
+      "learning_rate": 1.7274575140626315e-07,
+      "loss": 0.0011,
+      "reward": 4.363541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.8697917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 354,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.75,
+      "epoch": 0.6068376068376068,
+      "grad_norm": 0.6197109581214538,
+      "kl": 0.0264129638671875,
+      "learning_rate": 1.7147002017610623e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 355,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 368.875,
+      "epoch": 0.6085470085470085,
+      "grad_norm": 1.097527602295957,
+      "kl": 0.033172607421875,
+      "learning_rate": 1.7019655370735424e-07,
+      "loss": 0.0013,
+      "reward": 4.147916793823242,
+      "reward_std": 0.22150003910064697,
+      "rewards/accuracy_reward": 2.6979167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 356,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.875,
+      "epoch": 0.6102564102564103,
+      "grad_norm": 0.8495301667876991,
+      "kl": 0.031097412109375,
+      "learning_rate": 1.6892538872607933e-07,
+      "loss": 0.0012,
+      "reward": 4.462499618530273,
+      "reward_std": 0.04892358556389809,
+      "rewards/accuracy_reward": 2.9749999046325684,
+      "rewards/format_reward": 1.0,
+      "step": 357,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.21875,
+      "epoch": 0.611965811965812,
+      "grad_norm": 0.7472227823105034,
+      "kl": 0.02764892578125,
+      "learning_rate": 1.6765656189198011e-07,
+      "loss": 0.0011,
+      "reward": 4.418749809265137,
+      "reward_std": 0.13584043085575104,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 358,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.15625,
+      "epoch": 0.6136752136752137,
+      "grad_norm": 0.7104995938771387,
+      "kl": 0.024169921875,
+      "learning_rate": 1.6639010979732428e-07,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 359,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.0,
+      "epoch": 0.6153846153846154,
+      "grad_norm": 1.0717264447589199,
+      "kl": 0.027740478515625,
+      "learning_rate": 1.6512606896589322e-07,
+      "loss": 0.0011,
+      "reward": 4.277083396911621,
+      "reward_std": 0.17010967433452606,
+      "rewards/accuracy_reward": 2.8020834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 360,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.9375,
+      "epoch": 0.6170940170940171,
+      "grad_norm": 0.8233643578701106,
+      "kl": 0.02764892578125,
+      "learning_rate": 1.6386447585192908e-07,
+      "loss": 0.0011,
+      "reward": 4.480208396911621,
+      "reward_std": 0.03958338499069214,
+      "rewards/accuracy_reward": 2.980208396911621,
+      "rewards/format_reward": 1.0,
+      "step": 361,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.28125,
+      "epoch": 0.6188034188034188,
+      "grad_norm": 0.7446908082485802,
+      "kl": 0.0261383056640625,
+      "learning_rate": 1.6260536683908298e-07,
+      "loss": 0.001,
+      "reward": 4.4427080154418945,
+      "reward_std": 0.06528614461421967,
+      "rewards/accuracy_reward": 2.948958396911621,
+      "rewards/format_reward": 1.0,
+      "step": 362,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 383.0625,
+      "epoch": 0.6205128205128205,
+      "grad_norm": 1.2516482361872705,
+      "kl": 0.0290374755859375,
+      "learning_rate": 1.6134877823936607e-07,
+      "loss": 0.0012,
+      "reward": 4.369791507720947,
+      "reward_std": 0.18541669845581055,
+      "rewards/accuracy_reward": 2.9072916507720947,
+      "rewards/format_reward": 1.0,
+      "step": 363,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.15625,
+      "epoch": 0.6222222222222222,
+      "grad_norm": 1.7897485571413845,
+      "kl": 0.0266265869140625,
+      "learning_rate": 1.6009474629210202e-07,
+      "loss": 0.0011,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 364,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.90625,
+      "epoch": 0.6239316239316239,
+      "grad_norm": 0.46839251135256915,
+      "kl": 0.0285797119140625,
+      "learning_rate": 1.5884330716288212e-07,
+      "loss": 0.0011,
+      "reward": 4.369791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.8697915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 365,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.1875,
+      "epoch": 0.6256410256410256,
+      "grad_norm": 0.6395441188858371,
+      "kl": 0.0303802490234375,
+      "learning_rate": 1.5759449694252225e-07,
+      "loss": 0.0012,
+      "reward": 4.472916603088379,
+      "reward_std": 0.03995303064584732,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 366,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.625,
+      "epoch": 0.6273504273504273,
+      "grad_norm": 0.8032766156666549,
+      "kl": 0.02593994140625,
+      "learning_rate": 1.5634835164602196e-07,
+      "loss": 0.001,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984374761581421,
+      "rewards/format_reward": 1.0,
+      "step": 367,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 394.15625,
+      "epoch": 0.629059829059829,
+      "grad_norm": 0.8829545111351412,
+      "kl": 0.0280914306640625,
+      "learning_rate": 1.551049072115259e-07,
+      "loss": 0.0011,
+      "reward": 4.347916603088379,
+      "reward_std": 0.29124578833580017,
+      "rewards/accuracy_reward": 2.8697917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 368,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.625,
+      "epoch": 0.6307692307692307,
+      "grad_norm": 1.2462048622918114,
+      "kl": 0.029205322265625,
+      "learning_rate": 1.5386419949928732e-07,
+      "loss": 0.0012,
+      "reward": 4.422916412353516,
+      "reward_std": 0.15416669845581055,
+      "rewards/accuracy_reward": 2.929166793823242,
+      "rewards/format_reward": 1.0,
+      "step": 369,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.46875,
+      "epoch": 0.6324786324786325,
+      "grad_norm": 0.9758273251526987,
+      "kl": 0.029815673828125,
+      "learning_rate": 1.5262626429063382e-07,
+      "loss": 0.0012,
+      "reward": 4.4666666984558105,
+      "reward_std": 0.06666666269302368,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 370,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.71875,
+      "epoch": 0.6341880341880342,
+      "grad_norm": 0.4744762238741618,
+      "kl": 0.0276336669921875,
+      "learning_rate": 1.5139113728693572e-07,
+      "loss": 0.0011,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 371,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.4375,
+      "epoch": 0.6358974358974359,
+      "grad_norm": 0.6104190418803218,
+      "kl": 0.0261383056640625,
+      "learning_rate": 1.5015885410857614e-07,
+      "loss": 0.001,
+      "reward": 4.476041793823242,
+      "reward_std": 0.036162108182907104,
+      "rewards/accuracy_reward": 2.9822916984558105,
+      "rewards/format_reward": 1.0,
+      "step": 372,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 396.1875,
+      "epoch": 0.6376068376068376,
+      "grad_norm": 0.46848784320361847,
+      "kl": 0.034393310546875,
+      "learning_rate": 1.4892945029392378e-07,
+      "loss": 0.0014,
+      "reward": 4.237500190734863,
+      "reward_std": 0.13070322573184967,
+      "rewards/accuracy_reward": 2.78125,
+      "rewards/format_reward": 1.0,
+      "step": 373,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 445.4375,
+      "epoch": 0.6393162393162393,
+      "grad_norm": 1.089953457303113,
+      "kl": 0.0233917236328125,
+      "learning_rate": 1.4770296129830817e-07,
+      "loss": 0.0009,
+      "reward": 4.453125,
+      "reward_std": 0.08082906156778336,
+      "rewards/accuracy_reward": 2.984374761581421,
+      "rewards/format_reward": 1.0,
+      "step": 374,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.09375,
+      "epoch": 0.6410256410256411,
+      "grad_norm": 0.50991825060655,
+      "kl": 0.028717041015625,
+      "learning_rate": 1.4647942249299704e-07,
+      "loss": 0.0011,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 375,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 415.90625,
+      "epoch": 0.6427350427350428,
+      "grad_norm": 0.28427279760334795,
+      "kl": 0.0307159423828125,
+      "learning_rate": 1.4525886916417629e-07,
+      "loss": 0.0012,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 376,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.78125,
+      "epoch": 0.6444444444444445,
+      "grad_norm": 0.8341868323788176,
+      "kl": 0.027679443359375,
+      "learning_rate": 1.4404133651193212e-07,
+      "loss": 0.0011,
+      "reward": 4.484375,
+      "reward_std": 0.03125,
+      "rewards/accuracy_reward": 2.996875047683716,
+      "rewards/format_reward": 1.0,
+      "step": 377,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.53125,
+      "epoch": 0.6461538461538462,
+      "grad_norm": 0.8598357114797319,
+      "kl": 0.025360107421875,
+      "learning_rate": 1.428268596492364e-07,
+      "loss": 0.001,
+      "reward": 4.425000190734863,
+      "reward_std": 0.1499999761581421,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 378,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.28125,
+      "epoch": 0.6478632478632479,
+      "grad_norm": 1.2593024143816727,
+      "kl": 0.027923583984375,
+      "learning_rate": 1.4161547360093362e-07,
+      "loss": 0.0011,
+      "reward": 4.459374904632568,
+      "reward_std": 0.08125001192092896,
+      "rewards/accuracy_reward": 2.984374761581421,
+      "rewards/format_reward": 1.0,
+      "step": 379,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.625,
+      "epoch": 0.6495726495726496,
+      "grad_norm": 0.6720050690964591,
+      "kl": 0.0258331298828125,
+      "learning_rate": 1.404072133027306e-07,
+      "loss": 0.001,
+      "reward": 4.467708110809326,
+      "reward_std": 0.051936857402324677,
+      "rewards/accuracy_reward": 2.9739580154418945,
+      "rewards/format_reward": 1.0,
+      "step": 380,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.0625,
+      "epoch": 0.6512820512820513,
+      "grad_norm": 0.8445790964699482,
+      "kl": 0.034149169921875,
+      "learning_rate": 1.392021136001897e-07,
+      "loss": 0.0014,
+      "reward": 4.332291603088379,
+      "reward_std": 0.2606690526008606,
+      "rewards/accuracy_reward": 2.8541665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 381,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.9375,
+      "epoch": 0.652991452991453,
+      "grad_norm": 0.497424678952725,
+      "kl": 0.028289794921875,
+      "learning_rate": 1.3800020924772292e-07,
+      "loss": 0.0011,
+      "reward": 4.3697919845581055,
+      "reward_std": 0.010416656732559204,
+      "rewards/accuracy_reward": 2.8697917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 382,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.28125,
+      "epoch": 0.6547008547008547,
+      "grad_norm": 0.6817091028007041,
+      "kl": 0.0302886962890625,
+      "learning_rate": 1.3680153490759073e-07,
+      "loss": 0.0012,
+      "reward": 4.276041507720947,
+      "reward_std": 0.07291668653488159,
+      "rewards/accuracy_reward": 2.7760415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 383,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 413.25,
+      "epoch": 0.6564102564102564,
+      "grad_norm": 1.0601828314669595,
+      "kl": 0.031768798828125,
+      "learning_rate": 1.3560612514890117e-07,
+      "loss": 0.0013,
+      "reward": 4.453125,
+      "reward_std": 0.09375003725290298,
+      "rewards/accuracy_reward": 2.9593749046325684,
+      "rewards/format_reward": 1.0,
+      "step": 384,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.21875,
+      "epoch": 0.6581196581196581,
+      "grad_norm": 1.024063238771099,
+      "kl": 0.0282745361328125,
+      "learning_rate": 1.3441401444661416e-07,
+      "loss": 0.0011,
+      "reward": 4.449999809265137,
+      "reward_std": 0.10000001639127731,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 385,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.78125,
+      "epoch": 0.6598290598290598,
+      "grad_norm": 1.1337229246665006,
+      "kl": 0.0272979736328125,
+      "learning_rate": 1.3322523718054612e-07,
+      "loss": 0.0011,
+      "reward": 4.456250190734863,
+      "reward_std": 0.08749997615814209,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 386,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.6875,
+      "epoch": 0.6615384615384615,
+      "grad_norm": 0.7632275113673747,
+      "kl": 0.0251312255859375,
+      "learning_rate": 1.320398276343795e-07,
+      "loss": 0.001,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984374761581421,
+      "rewards/format_reward": 1.0,
+      "step": 387,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.46875,
+      "epoch": 0.6632478632478632,
+      "grad_norm": 0.9720242120746869,
+      "kl": 0.0302734375,
+      "learning_rate": 1.30857819994673e-07,
+      "loss": 0.0012,
+      "reward": 4.481249809265137,
+      "reward_std": 0.037500083446502686,
+      "rewards/accuracy_reward": 2.9812498092651367,
+      "rewards/format_reward": 1.0,
+      "step": 388,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.28125,
+      "epoch": 0.6649572649572649,
+      "grad_norm": 1.063131476213759,
+      "kl": 0.031097412109375,
+      "learning_rate": 1.2967924834987686e-07,
+      "loss": 0.0012,
+      "reward": 4.410416603088379,
+      "reward_std": 0.1263355016708374,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 389,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.0625,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 0.616506625556543,
+      "kl": 0.0300750732421875,
+      "learning_rate": 1.2850414668934847e-07,
+      "loss": 0.0012,
+      "reward": 4.432291507720947,
+      "reward_std": 0.1354166865348816,
+      "rewards/accuracy_reward": 2.9322915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 390,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 395.78125,
+      "epoch": 0.6683760683760683,
+      "grad_norm": 0.714095927061412,
+      "kl": 0.0243377685546875,
+      "learning_rate": 1.2733254890237334e-07,
+      "loss": 0.001,
+      "reward": 4.375,
+      "reward_std": 0.25,
+      "rewards/accuracy_reward": 2.890625,
+      "rewards/format_reward": 1.0,
+      "step": 391,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.09375,
+      "epoch": 0.67008547008547,
+      "grad_norm": 0.7346874910044502,
+      "kl": 0.0244293212890625,
+      "learning_rate": 1.2616448877718673e-07,
+      "loss": 0.001,
+      "reward": 4.483333110809326,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 392,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.0625,
+      "epoch": 0.6717948717948717,
+      "grad_norm": 0.9294928372344463,
+      "kl": 0.027130126953125,
+      "learning_rate": 1.2500000000000005e-07,
+      "loss": 0.0011,
+      "reward": 4.399999618530273,
+      "reward_std": 0.19042320549488068,
+      "rewards/accuracy_reward": 2.906249761581421,
+      "rewards/format_reward": 1.0,
+      "step": 393,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 405.09375,
+      "epoch": 0.6735042735042736,
+      "grad_norm": 0.060701910133641554,
+      "kl": 0.0260162353515625,
+      "learning_rate": 1.238391161540287e-07,
+      "loss": 0.001,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 394,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.3125,
+      "epoch": 0.6752136752136753,
+      "grad_norm": 0.9508043618091555,
+      "kl": 0.02716064453125,
+      "learning_rate": 1.2268187071852417e-07,
+      "loss": 0.0011,
+      "reward": 4.467708110809326,
+      "reward_std": 0.06458336114883423,
+      "rewards/accuracy_reward": 2.9739580154418945,
+      "rewards/format_reward": 1.0,
+      "step": 395,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 418.5,
+      "epoch": 0.676923076923077,
+      "grad_norm": 0.716682982957256,
+      "kl": 0.0255889892578125,
+      "learning_rate": 1.2152829706780784e-07,
+      "loss": 0.001,
+      "reward": 4.2635416984558105,
+      "reward_std": 0.2237766981124878,
+      "rewards/accuracy_reward": 2.8072915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 396,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 393.78125,
+      "epoch": 0.6786324786324787,
+      "grad_norm": 0.47548700025938473,
+      "kl": 0.0272064208984375,
+      "learning_rate": 1.203784284703091e-07,
+      "loss": 0.0011,
+      "reward": 4.362500190734863,
+      "reward_std": 0.19999998807907104,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 397,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.5625,
+      "epoch": 0.6803418803418804,
+      "grad_norm": 0.7911863371079141,
+      "kl": 0.028350830078125,
+      "learning_rate": 1.1923229808760561e-07,
+      "loss": 0.0011,
+      "reward": 4.484375,
+      "reward_std": 0.031250059604644775,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 398,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.125,
+      "epoch": 0.6820512820512821,
+      "grad_norm": 0.6325372967711046,
+      "kl": 0.0283355712890625,
+      "learning_rate": 1.1808993897346678e-07,
+      "loss": 0.0011,
+      "reward": 4.2322916984558105,
+      "reward_std": 0.02583983540534973,
+      "rewards/accuracy_reward": 2.738541603088379,
+      "rewards/format_reward": 1.0,
+      "step": 399,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 402.09375,
+      "epoch": 0.6837606837606838,
+      "grad_norm": 0.5661919684215431,
+      "kl": 0.02911376953125,
+      "learning_rate": 1.16951384072901e-07,
+      "loss": 0.0012,
+      "reward": 4.3802080154418945,
+      "reward_std": 0.239583358168602,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 400,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 453.59375,
+      "epoch": 0.6854700854700855,
+      "grad_norm": 1.0406272410877284,
+      "kl": 0.0281982421875,
+      "learning_rate": 1.1581666622120492e-07,
+      "loss": 0.0011,
+      "reward": 4.417708396911621,
+      "reward_std": 0.13980339467525482,
+      "rewards/accuracy_reward": 2.9427084922790527,
+      "rewards/format_reward": 1.0,
+      "step": 401,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.25,
+      "epoch": 0.6871794871794872,
+      "grad_norm": 0.44003758744674243,
+      "kl": 0.026214599609375,
+      "learning_rate": 1.1468581814301717e-07,
+      "loss": 0.001,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 402,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.8125,
+      "epoch": 0.6888888888888889,
+      "grad_norm": 0.44427815805323206,
+      "kl": 0.02783203125,
+      "learning_rate": 1.1355887245137383e-07,
+      "loss": 0.0011,
+      "reward": 4.34375,
+      "reward_std": 0.0625,
+      "rewards/accuracy_reward": 2.84375,
+      "rewards/format_reward": 1.0,
+      "step": 403,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.03125,
+      "epoch": 0.6905982905982906,
+      "grad_norm": 0.9451802505032483,
+      "kl": 0.0255126953125,
+      "learning_rate": 1.1243586164676871e-07,
+      "loss": 0.001,
+      "reward": 4.405208587646484,
+      "reward_std": 0.18958333134651184,
+      "rewards/accuracy_reward": 2.9114582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 404,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.96875,
+      "epoch": 0.6923076923076923,
+      "grad_norm": 0.4641512003830998,
+      "kl": 0.0269775390625,
+      "learning_rate": 1.1131681811621527e-07,
+      "loss": 0.0011,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 405,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.21875,
+      "epoch": 0.694017094017094,
+      "grad_norm": 0.7429336141594866,
+      "kl": 0.0248260498046875,
+      "learning_rate": 1.1020177413231332e-07,
+      "loss": 0.001,
+      "reward": 4.478125095367432,
+      "reward_std": 0.03244640305638313,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 406,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.40625,
+      "epoch": 0.6957264957264957,
+      "grad_norm": 0.7006071134777349,
+      "kl": 0.02923583984375,
+      "learning_rate": 1.0909076185231761e-07,
+      "loss": 0.0012,
+      "reward": 4.4739580154418945,
+      "reward_std": 0.05208336189389229,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 407,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.9375,
+      "epoch": 0.6974358974358974,
+      "grad_norm": 0.8063663104564012,
+      "kl": 0.02850341796875,
+      "learning_rate": 1.0798381331721107e-07,
+      "loss": 0.0011,
+      "reward": 4.451041221618652,
+      "reward_std": 0.08222372084856033,
+      "rewards/accuracy_reward": 2.9635415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 408,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 397.34375,
+      "epoch": 0.6991452991452991,
+      "grad_norm": 0.9754244052914002,
+      "kl": 0.02813720703125,
+      "learning_rate": 1.0688096045078022e-07,
+      "loss": 0.0011,
+      "reward": 4.346875190734863,
+      "reward_std": 0.23125004768371582,
+      "rewards/accuracy_reward": 2.890624761581421,
+      "rewards/format_reward": 1.0,
+      "step": 409,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.46875,
+      "epoch": 0.7008547008547008,
+      "grad_norm": 0.5917251121763085,
+      "kl": 0.02557373046875,
+      "learning_rate": 1.0578223505869493e-07,
+      "loss": 0.001,
+      "reward": 4.478124618530273,
+      "reward_std": 0.03417319431900978,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 410,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.5,
+      "epoch": 0.7025641025641025,
+      "grad_norm": 0.6485887553455526,
+      "kl": 0.025421142578125,
+      "learning_rate": 1.0468766882759092e-07,
+      "loss": 0.001,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 411,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 398.90625,
+      "epoch": 0.7042735042735043,
+      "grad_norm": 0.9158139119113796,
+      "kl": 0.0226898193359375,
+      "learning_rate": 1.0359729332415582e-07,
+      "loss": 0.0009,
+      "reward": 4.311458587646484,
+      "reward_std": 0.37708336114883423,
+      "rewards/accuracy_reward": 2.8333334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 412,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.78125,
+      "epoch": 0.705982905982906,
+      "grad_norm": 0.801373349553099,
+      "kl": 0.028717041015625,
+      "learning_rate": 1.0251113999421935e-07,
+      "loss": 0.0011,
+      "reward": 4.467708110809326,
+      "reward_std": 0.039927028119564056,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 413,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.78125,
+      "epoch": 0.7076923076923077,
+      "grad_norm": 0.6333021803939283,
+      "kl": 0.0247955322265625,
+      "learning_rate": 1.0142924016184568e-07,
+      "loss": 0.001,
+      "reward": 4.462500095367432,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 414,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 409.84375,
+      "epoch": 0.7094017094017094,
+      "grad_norm": 1.2229803239965382,
+      "kl": 0.025390625,
+      "learning_rate": 1.0035162502843073e-07,
+      "loss": 0.001,
+      "reward": 4.334374904632568,
+      "reward_std": 0.25624996423721313,
+      "rewards/accuracy_reward": 2.890625,
+      "rewards/format_reward": 1.0,
+      "step": 415,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.65625,
+      "epoch": 0.7111111111111111,
+      "grad_norm": 1.012165733884373,
+      "kl": 0.02618408203125,
+      "learning_rate": 9.927832567180192e-08,
+      "loss": 0.001,
+      "reward": 4.352083206176758,
+      "reward_std": 0.04583332687616348,
+      "rewards/accuracy_reward": 2.8645834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 416,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 378.8125,
+      "epoch": 0.7128205128205128,
+      "grad_norm": 0.8312247390747932,
+      "kl": 0.0246429443359375,
+      "learning_rate": 9.82093730453222e-08,
+      "loss": 0.001,
+      "reward": 4.441666603088379,
+      "reward_std": 0.10245303064584732,
+      "rewards/accuracy_reward": 2.9479165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 417,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.90625,
+      "epoch": 0.7145299145299145,
+      "grad_norm": 0.8336799427589519,
+      "kl": 0.027740478515625,
+      "learning_rate": 9.714479797699692e-08,
+      "loss": 0.0011,
+      "reward": 4.483333110809326,
+      "reward_std": 0.03333336114883423,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 418,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.96875,
+      "epoch": 0.7162393162393162,
+      "grad_norm": 0.7759354170520542,
+      "kl": 0.0312347412109375,
+      "learning_rate": 9.608463116858542e-08,
+      "loss": 0.0012,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 419,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 418.6875,
+      "epoch": 0.717948717948718,
+      "grad_norm": 0.8691779039194171,
+      "kl": 0.0289306640625,
+      "learning_rate": 9.50289031947149e-08,
+      "loss": 0.0012,
+      "reward": 4.243750095367432,
+      "reward_std": 0.2684400677680969,
+      "rewards/accuracy_reward": 2.8125,
+      "rewards/format_reward": 1.0,
+      "step": 420,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.8125,
+      "epoch": 0.7196581196581197,
+      "grad_norm": 1.1202437579166733,
+      "kl": 0.030670166015625,
+      "learning_rate": 9.397764450199936e-08,
+      "loss": 0.0012,
+      "reward": 4.453125,
+      "reward_std": 0.09375003725290298,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 421,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.84375,
+      "epoch": 0.7213675213675214,
+      "grad_norm": 0.7591812605832288,
+      "kl": 0.0291595458984375,
+      "learning_rate": 9.293088540816079e-08,
+      "loss": 0.0012,
+      "reward": 4.477083206176758,
+      "reward_std": 0.045833371579647064,
+      "rewards/accuracy_reward": 2.9833333492279053,
+      "rewards/format_reward": 1.0,
+      "step": 422,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.40625,
+      "epoch": 0.7230769230769231,
+      "grad_norm": 0.6104488549198498,
+      "kl": 0.0277862548828125,
+      "learning_rate": 9.18886561011557e-08,
+      "loss": 0.0011,
+      "reward": 4.426041603088379,
+      "reward_std": 0.14791667461395264,
+      "rewards/accuracy_reward": 2.9322915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 423,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.21875,
+      "epoch": 0.7247863247863248,
+      "grad_norm": 0.45651071291421774,
+      "kl": 0.02520751953125,
+      "learning_rate": 9.085098663830365e-08,
+      "loss": 0.001,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 424,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.9375,
+      "epoch": 0.7264957264957265,
+      "grad_norm": 1.1982628375493292,
+      "kl": 0.0253143310546875,
+      "learning_rate": 8.981790694542087e-08,
+      "loss": 0.001,
+      "reward": 4.467708110809326,
+      "reward_std": 0.0557781420648098,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 425,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 380.65625,
+      "epoch": 0.7282051282051282,
+      "grad_norm": 1.2747004155195993,
+      "kl": 0.025360107421875,
+      "learning_rate": 8.87894468159574e-08,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 426,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.46875,
+      "epoch": 0.7299145299145299,
+      "grad_norm": 0.7539628275806562,
+      "kl": 0.02587890625,
+      "learning_rate": 8.776563591013728e-08,
+      "loss": 0.001,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 427,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.53125,
+      "epoch": 0.7316239316239316,
+      "grad_norm": 0.6288861591829152,
+      "kl": 0.02947998046875,
+      "learning_rate": 8.674650375410378e-08,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 428,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 393.28125,
+      "epoch": 0.7333333333333333,
+      "grad_norm": 0.44399888000252213,
+      "kl": 0.026947021484375,
+      "learning_rate": 8.573207973906735e-08,
+      "loss": 0.0011,
+      "reward": 4.378125190734863,
+      "reward_std": 0.15253926813602448,
+      "rewards/accuracy_reward": 2.921875,
+      "rewards/format_reward": 1.0,
+      "step": 429,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.375,
+      "epoch": 0.7350427350427351,
+      "grad_norm": 0.6456923693825318,
+      "kl": 0.02691650390625,
+      "learning_rate": 8.47223931204585e-08,
+      "loss": 0.0011,
+      "reward": 4.484375,
+      "reward_std": 0.031250037252902985,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 430,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.1875,
+      "epoch": 0.7367521367521368,
+      "grad_norm": 0.5973125773119494,
+      "kl": 0.03021240234375,
+      "learning_rate": 8.371747301708357e-08,
+      "loss": 0.0012,
+      "reward": 4.369791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.8697915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 431,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 424.46875,
+      "epoch": 0.7384615384615385,
+      "grad_norm": 1.0446842878490674,
+      "kl": 0.0263824462890625,
+      "learning_rate": 8.271734841028552e-08,
+      "loss": 0.0011,
+      "reward": 4.337499618530273,
+      "reward_std": 0.07499998807907104,
+      "rewards/accuracy_reward": 2.856250047683716,
+      "rewards/format_reward": 1.0,
+      "step": 432,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 460.84375,
+      "epoch": 0.7401709401709402,
+      "grad_norm": 0.45931417272614894,
+      "kl": 0.0204315185546875,
+      "learning_rate": 8.17220481431074e-08,
+      "loss": 0.0008,
+      "reward": 4.469791412353516,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 433,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 384.15625,
+      "epoch": 0.7418803418803419,
+      "grad_norm": 1.032488153092806,
+      "kl": 0.0276031494140625,
+      "learning_rate": 8.073160091946155e-08,
+      "loss": 0.0011,
+      "reward": 4.332291603088379,
+      "reward_std": 0.244104266166687,
+      "rewards/accuracy_reward": 2.9010415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 434,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 385.84375,
+      "epoch": 0.7435897435897436,
+      "grad_norm": 0.9677847866334466,
+      "kl": 0.0289154052734375,
+      "learning_rate": 7.974603530330067e-08,
+      "loss": 0.0012,
+      "reward": 4.337499618530273,
+      "reward_std": 0.2377961277961731,
+      "rewards/accuracy_reward": 2.875,
+      "rewards/format_reward": 1.0,
+      "step": 435,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.59375,
+      "epoch": 0.7452991452991453,
+      "grad_norm": 0.5675810029720978,
+      "kl": 0.025421142578125,
+      "learning_rate": 7.876537971779493e-08,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 436,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.09375,
+      "epoch": 0.747008547008547,
+      "grad_norm": 0.8266431754996579,
+      "kl": 0.025665283203125,
+      "learning_rate": 7.778966244451168e-08,
+      "loss": 0.001,
+      "reward": 4.477083206176758,
+      "reward_std": 0.037028130143880844,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 437,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.09375,
+      "epoch": 0.7487179487179487,
+      "grad_norm": 0.6649153083638111,
+      "kl": 0.0288543701171875,
+      "learning_rate": 7.681891162260015e-08,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 438,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.1875,
+      "epoch": 0.7504273504273504,
+      "grad_norm": 0.6925524981976912,
+      "kl": 0.03076171875,
+      "learning_rate": 7.585315524797998e-08,
+      "loss": 0.0012,
+      "reward": 4.484375,
+      "reward_std": 0.031250037252902985,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 439,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 393.59375,
+      "epoch": 0.7521367521367521,
+      "grad_norm": 1.1100264259025414,
+      "kl": 0.022064208984375,
+      "learning_rate": 7.489242117253341e-08,
+      "loss": 0.0009,
+      "reward": 4.040624618530273,
+      "reward_std": 0.41875001788139343,
+      "rewards/accuracy_reward": 2.609375,
+      "rewards/format_reward": 1.0,
+      "step": 440,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 377.40625,
+      "epoch": 0.7538461538461538,
+      "grad_norm": 1.3126118554015618,
+      "kl": 0.02716064453125,
+      "learning_rate": 7.39367371033027e-08,
+      "loss": 0.0011,
+      "reward": 4.337500095367432,
+      "reward_std": 0.07500002533197403,
+      "rewards/accuracy_reward": 2.84375,
+      "rewards/format_reward": 1.0,
+      "step": 441,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.15625,
+      "epoch": 0.7555555555555555,
+      "grad_norm": 0.41578614232032607,
+      "kl": 0.0287322998046875,
+      "learning_rate": 7.298613060169034e-08,
+      "loss": 0.0011,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 442,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.59375,
+      "epoch": 0.7572649572649572,
+      "grad_norm": 0.7200687866230376,
+      "kl": 0.024871826171875,
+      "learning_rate": 7.204062908266489e-08,
+      "loss": 0.001,
+      "reward": 4.477083206176758,
+      "reward_std": 0.037028130143880844,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 443,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.6875,
+      "epoch": 0.7589743589743589,
+      "grad_norm": 1.233770652001251,
+      "kl": 0.0272216796875,
+      "learning_rate": 7.110025981396975e-08,
+      "loss": 0.0011,
+      "reward": 4.3229169845581055,
+      "reward_std": 0.09536151587963104,
+      "rewards/accuracy_reward": 2.8229167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 444,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.375,
+      "epoch": 0.7606837606837606,
+      "grad_norm": 0.7217717281040629,
+      "kl": 0.029083251953125,
+      "learning_rate": 7.016504991533726e-08,
+      "loss": 0.0012,
+      "reward": 4.426041603088379,
+      "reward_std": 0.13442394137382507,
+      "rewards/accuracy_reward": 2.9322915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 445,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 499.9375,
+      "epoch": 0.7623931623931623,
+      "grad_norm": 0.9622825177422807,
+      "kl": 0.022674560546875,
+      "learning_rate": 6.923502635770617e-08,
+      "loss": 0.0009,
+      "reward": 4.295833110809326,
+      "reward_std": 0.31693530082702637,
+      "rewards/accuracy_reward": 2.8958332538604736,
+      "rewards/format_reward": 0.96875,
+      "step": 446,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.375,
+      "epoch": 0.764102564102564,
+      "grad_norm": 0.9650641718789034,
+      "kl": 0.025482177734375,
+      "learning_rate": 6.831021596244424e-08,
+      "loss": 0.001,
+      "reward": 4.4666666984558105,
+      "reward_std": 0.05536311864852905,
+      "rewards/accuracy_reward": 2.972916841506958,
+      "rewards/format_reward": 1.0,
+      "step": 447,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.78125,
+      "epoch": 0.7658119658119659,
+      "grad_norm": 1.0265521574923193,
+      "kl": 0.0304718017578125,
+      "learning_rate": 6.739064540057424e-08,
+      "loss": 0.0012,
+      "reward": 4.456250190734863,
+      "reward_std": 0.07693376392126083,
+      "rewards/accuracy_reward": 2.981250047683716,
+      "rewards/format_reward": 1.0,
+      "step": 448,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 382.1875,
+      "epoch": 0.7675213675213676,
+      "grad_norm": 0.5969568058843474,
+      "kl": 0.02398681640625,
+      "learning_rate": 6.64763411920053e-08,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 449,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 405.75,
+      "epoch": 0.7692307692307693,
+      "grad_norm": 0.7424731291807314,
+      "kl": 0.03155517578125,
+      "learning_rate": 6.556732970476747e-08,
+      "loss": 0.0013,
+      "reward": 4.090624809265137,
+      "reward_std": 0.3034188151359558,
+      "rewards/accuracy_reward": 2.643749952316284,
+      "rewards/format_reward": 1.0,
+      "step": 450,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.3125,
+      "epoch": 0.770940170940171,
+      "grad_norm": 0.3335733622664213,
+      "kl": 0.024505615234375,
+      "learning_rate": 6.466363715425199e-08,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 451,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.90625,
+      "epoch": 0.7726495726495727,
+      "grad_norm": 0.6583854823229668,
+      "kl": 0.025482177734375,
+      "learning_rate": 6.376528960245476e-08,
+      "loss": 0.001,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 452,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.46875,
+      "epoch": 0.7743589743589744,
+      "grad_norm": 0.9027699610364143,
+      "kl": 0.0224609375,
+      "learning_rate": 6.28723129572247e-08,
+      "loss": 0.0009,
+      "reward": 4.452083110809326,
+      "reward_std": 0.0748242735862732,
+      "rewards/accuracy_reward": 2.9583332538604736,
+      "rewards/format_reward": 1.0,
+      "step": 453,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.96875,
+      "epoch": 0.7760683760683761,
+      "grad_norm": 1.0114485056615559,
+      "kl": 0.032135009765625,
+      "learning_rate": 6.198473297151704e-08,
+      "loss": 0.0013,
+      "reward": 4.440625190734863,
+      "reward_std": 0.11874997615814209,
+      "rewards/accuracy_reward": 2.953125,
+      "rewards/format_reward": 1.0,
+      "step": 454,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 506.53125,
+      "epoch": 0.7777777777777778,
+      "grad_norm": 0.9924044566098779,
+      "kl": 0.026336669921875,
+      "learning_rate": 6.110257524264997e-08,
+      "loss": 0.0011,
+      "reward": 4.1427083015441895,
+      "reward_std": 0.5191078782081604,
+      "rewards/accuracy_reward": 2.7239582538604736,
+      "rewards/format_reward": 0.96875,
+      "step": 455,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.28125,
+      "epoch": 0.7794871794871795,
+      "grad_norm": 0.826787193025834,
+      "kl": 0.02239990234375,
+      "learning_rate": 6.022586521156714e-08,
+      "loss": 0.0009,
+      "reward": 4.4739580154418945,
+      "reward_std": 0.052083373069763184,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 456,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.625,
+      "epoch": 0.7811965811965812,
+      "grad_norm": 0.8094979730694892,
+      "kl": 0.0287628173828125,
+      "learning_rate": 5.935462816210324e-08,
+      "loss": 0.0012,
+      "reward": 4.420833587646484,
+      "reward_std": 0.1495281457901001,
+      "rewards/accuracy_reward": 2.9270830154418945,
+      "rewards/format_reward": 1.0,
+      "step": 457,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.375,
+      "epoch": 0.7829059829059829,
+      "grad_norm": 0.730682013119198,
+      "kl": 0.033203125,
+      "learning_rate": 5.848888922025552e-08,
+      "loss": 0.0013,
+      "reward": 4.358333587646484,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.8645832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 458,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.1875,
+      "epoch": 0.7846153846153846,
+      "grad_norm": 0.8077956255238578,
+      "kl": 0.023040771484375,
+      "learning_rate": 5.76286733534585e-08,
+      "loss": 0.0009,
+      "reward": 4.465624809265137,
+      "reward_std": 0.025322264060378075,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 459,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 406.53125,
+      "epoch": 0.7863247863247863,
+      "grad_norm": 0.6038568571097472,
+      "kl": 0.0210113525390625,
+      "learning_rate": 5.67740053698646e-08,
+      "loss": 0.0008,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 460,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 399.125,
+      "epoch": 0.788034188034188,
+      "grad_norm": 1.0060840227873693,
+      "kl": 0.0296630859375,
+      "learning_rate": 5.5924909917627995e-08,
+      "loss": 0.0012,
+      "reward": 4.2083330154418945,
+      "reward_std": 0.3984241187572479,
+      "rewards/accuracy_reward": 2.7395832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 461,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.375,
+      "epoch": 0.7897435897435897,
+      "grad_norm": 0.639208765267943,
+      "kl": 0.021881103515625,
+      "learning_rate": 5.508141148419443e-08,
+      "loss": 0.0009,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 462,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.0625,
+      "epoch": 0.7914529914529914,
+      "grad_norm": 0.828707831366965,
+      "kl": 0.026031494140625,
+      "learning_rate": 5.424353439559445e-08,
+      "loss": 0.001,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 463,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.125,
+      "epoch": 0.7931623931623931,
+      "grad_norm": 0.967518447686714,
+      "kl": 0.0266571044921875,
+      "learning_rate": 5.3411302815742324e-08,
+      "loss": 0.0011,
+      "reward": 4.461458206176758,
+      "reward_std": 0.06577974557876587,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 464,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 408.90625,
+      "epoch": 0.7948717948717948,
+      "grad_norm": 0.8631244884018412,
+      "kl": 0.029449462890625,
+      "learning_rate": 5.2584740745738766e-08,
+      "loss": 0.0012,
+      "reward": 4.469791412353516,
+      "reward_std": 0.052672624588012695,
+      "rewards/accuracy_reward": 2.976041555404663,
+      "rewards/format_reward": 1.0,
+      "step": 465,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.4375,
+      "epoch": 0.7965811965811965,
+      "grad_norm": 0.6542038549407184,
+      "kl": 0.026123046875,
+      "learning_rate": 5.176387202317914e-08,
+      "loss": 0.001,
+      "reward": 4.478124618530273,
+      "reward_std": 0.04375002533197403,
+      "rewards/accuracy_reward": 2.984374761581421,
+      "rewards/format_reward": 1.0,
+      "step": 466,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.25,
+      "epoch": 0.7982905982905983,
+      "grad_norm": 0.69288907002307,
+      "kl": 0.025421142578125,
+      "learning_rate": 5.0948720321465605e-08,
+      "loss": 0.001,
+      "reward": 4.478125095367432,
+      "reward_std": 0.043749988079071045,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 467,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.84375,
+      "epoch": 0.8,
+      "grad_norm": 0.936359454863843,
+      "kl": 0.0253753662109375,
+      "learning_rate": 5.013930914912476e-08,
+      "loss": 0.001,
+      "reward": 4.476041316986084,
+      "reward_std": 0.03735041618347168,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 468,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 386.6875,
+      "epoch": 0.8017094017094017,
+      "grad_norm": 0.6678025066305215,
+      "kl": 0.0253143310546875,
+      "learning_rate": 4.9335661849129295e-08,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 469,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 516.5,
+      "epoch": 0.8034188034188035,
+      "grad_norm": 0.9671858990368253,
+      "kl": 0.0220489501953125,
+      "learning_rate": 4.853780159822521e-08,
+      "loss": 0.0009,
+      "reward": 4.291666507720947,
+      "reward_std": 0.34166663885116577,
+      "rewards/accuracy_reward": 2.8854165077209473,
+      "rewards/format_reward": 0.96875,
+      "step": 470,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.4375,
+      "epoch": 0.8051282051282052,
+      "grad_norm": 1.0010652990375075,
+      "kl": 0.02410888671875,
+      "learning_rate": 4.774575140626316e-08,
+      "loss": 0.001,
+      "reward": 4.465624809265137,
+      "reward_std": 0.06874996423721313,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 471,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.71875,
+      "epoch": 0.8068376068376069,
+      "grad_norm": 0.6308346840052435,
+      "kl": 0.0230560302734375,
+      "learning_rate": 4.695953411553466e-08,
+      "loss": 0.0009,
+      "reward": 4.471875190734863,
+      "reward_std": 0.04568374156951904,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 472,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.34375,
+      "epoch": 0.8085470085470086,
+      "grad_norm": 0.830259804571592,
+      "kl": 0.025726318359375,
+      "learning_rate": 4.617917240011393e-08,
+      "loss": 0.001,
+      "reward": 4.418749809265137,
+      "reward_std": 0.1519337296485901,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 473,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.5625,
+      "epoch": 0.8102564102564103,
+      "grad_norm": 0.43796207428862977,
+      "kl": 0.025177001953125,
+      "learning_rate": 4.5404688765203233e-08,
+      "loss": 0.001,
+      "reward": 4.3645830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.8645832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 474,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 387.25,
+      "epoch": 0.811965811965812,
+      "grad_norm": 1.0880214301685347,
+      "kl": 0.02630615234375,
+      "learning_rate": 4.463610554648459e-08,
+      "loss": 0.0011,
+      "reward": 4.469791412353516,
+      "reward_std": 0.049850404262542725,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 475,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 424.65625,
+      "epoch": 0.8136752136752137,
+      "grad_norm": 0.8848274419852906,
+      "kl": 0.0291290283203125,
+      "learning_rate": 4.387344490947498e-08,
+      "loss": 0.0012,
+      "reward": 4.441666603088379,
+      "reward_std": 0.0993182584643364,
+      "rewards/accuracy_reward": 2.960416793823242,
+      "rewards/format_reward": 1.0,
+      "step": 476,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.8125,
+      "epoch": 0.8153846153846154,
+      "grad_norm": 0.6749741358423411,
+      "kl": 0.0287322998046875,
+      "learning_rate": 4.311672884888756e-08,
+      "loss": 0.0011,
+      "reward": 4.432291507720947,
+      "reward_std": 0.08258546888828278,
+      "rewards/accuracy_reward": 2.9322915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 477,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 398.9375,
+      "epoch": 0.8170940170940171,
+      "grad_norm": 0.8308720861603138,
+      "kl": 0.0290679931640625,
+      "learning_rate": 4.2365979187997084e-08,
+      "loss": 0.0012,
+      "reward": 4.284375190734863,
+      "reward_std": 0.35624998807907104,
+      "rewards/accuracy_reward": 2.828125,
+      "rewards/format_reward": 1.0,
+      "step": 478,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.25,
+      "epoch": 0.8188034188034188,
+      "grad_norm": 0.7211041072858726,
+      "kl": 0.028564453125,
+      "learning_rate": 4.162121757801068e-08,
+      "loss": 0.0011,
+      "reward": 4.471875190734863,
+      "reward_std": 0.046673182398080826,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 479,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 414.90625,
+      "epoch": 0.8205128205128205,
+      "grad_norm": 0.8741863075105513,
+      "kl": 0.024322509765625,
+      "learning_rate": 4.0882465497443313e-08,
+      "loss": 0.001,
+      "reward": 4.477083206176758,
+      "reward_std": 0.04583334922790527,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 480,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.375,
+      "epoch": 0.8222222222222222,
+      "grad_norm": 0.8508830396355825,
+      "kl": 0.0263671875,
+      "learning_rate": 4.014974425149853e-08,
+      "loss": 0.0011,
+      "reward": 4.467708110809326,
+      "reward_std": 0.05237945541739464,
+      "rewards/accuracy_reward": 2.9739584922790527,
+      "rewards/format_reward": 1.0,
+      "step": 481,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.65625,
+      "epoch": 0.8239316239316239,
+      "grad_norm": 1.000747312597075,
+      "kl": 0.0283660888671875,
+      "learning_rate": 3.942307497145378e-08,
+      "loss": 0.0011,
+      "reward": 4.453125,
+      "reward_std": 0.06057656556367874,
+      "rewards/accuracy_reward": 2.9656248092651367,
+      "rewards/format_reward": 1.0,
+      "step": 482,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 392.375,
+      "epoch": 0.8256410256410256,
+      "grad_norm": 0.9181343034858565,
+      "kl": 0.02728271484375,
+      "learning_rate": 3.8702478614051345e-08,
+      "loss": 0.0011,
+      "reward": 4.329166412353516,
+      "reward_std": 0.2530229687690735,
+      "rewards/accuracy_reward": 2.8854165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 483,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.0,
+      "epoch": 0.8273504273504273,
+      "grad_norm": 2.04732355164193,
+      "kl": 0.0291900634765625,
+      "learning_rate": 3.798797596089351e-08,
+      "loss": 0.0012,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 484,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.6875,
+      "epoch": 0.8290598290598291,
+      "grad_norm": 0.6368242332559061,
+      "kl": 0.0252685546875,
+      "learning_rate": 3.727958761784375e-08,
+      "loss": 0.001,
+      "reward": 4.410416603088379,
+      "reward_std": 0.17916667461395264,
+      "rewards/accuracy_reward": 2.910416603088379,
+      "rewards/format_reward": 1.0,
+      "step": 485,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.5,
+      "epoch": 0.8307692307692308,
+      "grad_norm": 0.5064518746403683,
+      "kl": 0.0300140380859375,
+      "learning_rate": 3.6577334014431997e-08,
+      "loss": 0.0012,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 486,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 414.75,
+      "epoch": 0.8324786324786325,
+      "grad_norm": 0.5907784075292527,
+      "kl": 0.0249481201171875,
+      "learning_rate": 3.588123540326571e-08,
+      "loss": 0.001,
+      "reward": 4.353125095367432,
+      "reward_std": 0.1640496551990509,
+      "rewards/accuracy_reward": 2.859375,
+      "rewards/format_reward": 1.0,
+      "step": 487,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.25,
+      "epoch": 0.8341880341880342,
+      "grad_norm": 0.7120049760352247,
+      "kl": 0.027740478515625,
+      "learning_rate": 3.5191311859445795e-08,
+      "loss": 0.0011,
+      "reward": 4.478125095367432,
+      "reward_std": 0.043749988079071045,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 488,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.59375,
+      "epoch": 0.8358974358974359,
+      "grad_norm": 0.9946908848752446,
+      "kl": 0.0288543701171875,
+      "learning_rate": 3.450758327998768e-08,
+      "loss": 0.0012,
+      "reward": 4.438541412353516,
+      "reward_std": 0.12291666120290756,
+      "rewards/accuracy_reward": 2.9510416984558105,
+      "rewards/format_reward": 1.0,
+      "step": 489,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.4375,
+      "epoch": 0.8376068376068376,
+      "grad_norm": 0.8254626948992051,
+      "kl": 0.0259857177734375,
+      "learning_rate": 3.383006938324734e-08,
+      "loss": 0.001,
+      "reward": 4.46875,
+      "reward_std": 0.06250003725290298,
+      "rewards/accuracy_reward": 2.96875,
+      "rewards/format_reward": 1.0,
+      "step": 490,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 395.875,
+      "epoch": 0.8393162393162393,
+      "grad_norm": 0.4865088970061238,
+      "kl": 0.0297698974609375,
+      "learning_rate": 3.315878970835267e-08,
+      "loss": 0.0012,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 491,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.65625,
+      "epoch": 0.841025641025641,
+      "grad_norm": 0.33675691761639437,
+      "kl": 0.0252838134765625,
+      "learning_rate": 3.249376361464021e-08,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 492,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 390.9375,
+      "epoch": 0.8427350427350427,
+      "grad_norm": 0.8764082465905313,
+      "kl": 0.0214691162109375,
+      "learning_rate": 3.183501028109642e-08,
+      "loss": 0.0009,
+      "reward": 4.472916603088379,
+      "reward_std": 0.05416671186685562,
+      "rewards/accuracy_reward": 2.9791669845581055,
+      "rewards/format_reward": 1.0,
+      "step": 493,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.53125,
+      "epoch": 0.8444444444444444,
+      "grad_norm": 0.7231509791832808,
+      "kl": 0.0243072509765625,
+      "learning_rate": 3.1182548705805056e-08,
+      "loss": 0.001,
+      "reward": 4.477083206176758,
+      "reward_std": 0.03291239216923714,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 494,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 403.03125,
+      "epoch": 0.8461538461538461,
+      "grad_norm": 0.6308093875695215,
+      "kl": 0.029052734375,
+      "learning_rate": 3.053639770539884e-08,
+      "loss": 0.0012,
+      "reward": 4.229166507720947,
+      "reward_std": 0.21691906452178955,
+      "rewards/accuracy_reward": 2.7447917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 495,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.15625,
+      "epoch": 0.8478632478632478,
+      "grad_norm": 0.9178341093814093,
+      "kl": 0.026824951171875,
+      "learning_rate": 2.989657591451716e-08,
+      "loss": 0.0011,
+      "reward": 4.3333330154418945,
+      "reward_std": 0.08333335071802139,
+      "rewards/accuracy_reward": 2.839583396911621,
+      "rewards/format_reward": 1.0,
+      "step": 496,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 410.375,
+      "epoch": 0.8495726495726496,
+      "grad_norm": 1.0786230534040917,
+      "kl": 0.023406982421875,
+      "learning_rate": 2.9263101785268252e-08,
+      "loss": 0.0009,
+      "reward": 4.454166889190674,
+      "reward_std": 0.08110042661428452,
+      "rewards/accuracy_reward": 2.972916603088379,
+      "rewards/format_reward": 1.0,
+      "step": 497,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 626.125,
+      "epoch": 0.8512820512820513,
+      "grad_norm": 0.7412471632868922,
+      "kl": 0.0269927978515625,
+      "learning_rate": 2.863599358669755e-08,
+      "loss": 0.0011,
+      "reward": 4.184374809265137,
+      "reward_std": 0.3343588709831238,
+      "rewards/accuracy_reward": 2.8031249046325684,
+      "rewards/format_reward": 0.9375,
+      "step": 498,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 378.5625,
+      "epoch": 0.852991452991453,
+      "grad_norm": 0.5018819802661195,
+      "kl": 0.0360107421875,
+      "learning_rate": 2.8015269404260327e-08,
+      "loss": 0.0014,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 499,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 405.1875,
+      "epoch": 0.8547008547008547,
+      "grad_norm": 0.06099746560594484,
+      "kl": 0.0223846435546875,
+      "learning_rate": 2.740094713930044e-08,
+      "loss": 0.0009,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 500,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 398.75,
+      "epoch": 0.8564102564102564,
+      "grad_norm": 0.774002726691524,
+      "kl": 0.02490234375,
+      "learning_rate": 2.679304450853401e-08,
+      "loss": 0.001,
+      "reward": 4.376041889190674,
+      "reward_std": 0.1729167103767395,
+      "rewards/accuracy_reward": 2.913541793823242,
+      "rewards/format_reward": 1.0,
+      "step": 501,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 387.71875,
+      "epoch": 0.8581196581196581,
+      "grad_norm": 1.0587766556801856,
+      "kl": 0.0275421142578125,
+      "learning_rate": 2.6191579043538333e-08,
+      "loss": 0.0011,
+      "reward": 4.2833333015441895,
+      "reward_std": 0.23071205615997314,
+      "rewards/accuracy_reward": 2.8270833492279053,
+      "rewards/format_reward": 1.0,
+      "step": 502,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.84375,
+      "epoch": 0.8598290598290599,
+      "grad_norm": 0.8292184427267916,
+      "kl": 0.0374755859375,
+      "learning_rate": 2.5596568090246545e-08,
+      "loss": 0.0015,
+      "reward": 4.481249809265137,
+      "reward_std": 0.037499964237213135,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 503,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.21875,
+      "epoch": 0.8615384615384616,
+      "grad_norm": 0.6392244418737919,
+      "kl": 0.0276947021484375,
+      "learning_rate": 2.500802880844699e-08,
+      "loss": 0.0011,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 504,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.75,
+      "epoch": 0.8632478632478633,
+      "grad_norm": 0.6300928042992803,
+      "kl": 0.0283966064453125,
+      "learning_rate": 2.4425978171288802e-08,
+      "loss": 0.0011,
+      "reward": 4.491666793823242,
+      "reward_std": 0.016666710376739502,
+      "rewards/accuracy_reward": 2.991666793823242,
+      "rewards/format_reward": 1.0,
+      "step": 505,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.6875,
+      "epoch": 0.864957264957265,
+      "grad_norm": 0.5588383364318003,
+      "kl": 0.0308074951171875,
+      "learning_rate": 2.3850432964791945e-08,
+      "loss": 0.0012,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 506,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.21875,
+      "epoch": 0.8666666666666667,
+      "grad_norm": 0.6349578626245009,
+      "kl": 0.0244598388671875,
+      "learning_rate": 2.3281409787363648e-08,
+      "loss": 0.001,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 507,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.59375,
+      "epoch": 0.8683760683760684,
+      "grad_norm": 0.4345623635426547,
+      "kl": 0.029541015625,
+      "learning_rate": 2.2718925049319048e-08,
+      "loss": 0.0012,
+      "reward": 4.3645830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.8645834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 508,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.96875,
+      "epoch": 0.8700854700854701,
+      "grad_norm": 0.42837645323003176,
+      "kl": 0.0258026123046875,
+      "learning_rate": 2.2162994972408643e-08,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 509,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.40625,
+      "epoch": 0.8717948717948718,
+      "grad_norm": 1.1608979963539192,
+      "kl": 0.024993896484375,
+      "learning_rate": 2.1613635589349756e-08,
+      "loss": 0.001,
+      "reward": 4.4395833015441895,
+      "reward_std": 0.0894479975104332,
+      "rewards/accuracy_reward": 2.964583396911621,
+      "rewards/format_reward": 1.0,
+      "step": 510,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.15625,
+      "epoch": 0.8735042735042735,
+      "grad_norm": 0.7865982874916022,
+      "kl": 0.02239990234375,
+      "learning_rate": 2.1070862743364836e-08,
+      "loss": 0.0009,
+      "reward": 4.431250095367432,
+      "reward_std": 0.13749998807907104,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 511,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.71875,
+      "epoch": 0.8752136752136752,
+      "grad_norm": 1.1249159542031026,
+      "kl": 0.0301513671875,
+      "learning_rate": 2.0534692087724015e-08,
+      "loss": 0.0012,
+      "reward": 4.479166507720947,
+      "reward_std": 0.04166668653488159,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 512,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 405.0625,
+      "epoch": 0.8769230769230769,
+      "grad_norm": 0.9696939778851213,
+      "kl": 0.0274200439453125,
+      "learning_rate": 2.0005139085293942e-08,
+      "loss": 0.0011,
+      "reward": 4.335416793823242,
+      "reward_std": 0.2541666626930237,
+      "rewards/accuracy_reward": 2.8854167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 513,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.0625,
+      "epoch": 0.8786324786324786,
+      "grad_norm": 0.5336560789257739,
+      "kl": 0.02752685546875,
+      "learning_rate": 1.9482219008091883e-08,
+      "loss": 0.0011,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 514,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 388.90625,
+      "epoch": 0.8803418803418803,
+      "grad_norm": 0.6680138176927308,
+      "kl": 0.025543212890625,
+      "learning_rate": 1.8965946936845027e-08,
+      "loss": 0.001,
+      "reward": 4.487500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 515,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.84375,
+      "epoch": 0.882051282051282,
+      "grad_norm": 3.3701218869888256,
+      "kl": 0.0248870849609375,
+      "learning_rate": 1.845633776055591e-08,
+      "loss": 0.001,
+      "reward": 4.491666793823242,
+      "reward_std": 0.016666710376739502,
+      "rewards/accuracy_reward": 2.991666555404663,
+      "rewards/format_reward": 1.0,
+      "step": 516,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.875,
+      "epoch": 0.8837606837606837,
+      "grad_norm": 0.4904942101650243,
+      "kl": 0.024993896484375,
+      "learning_rate": 1.7953406176072632e-08,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 517,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 393.6875,
+      "epoch": 0.8854700854700854,
+      "grad_norm": 0.666353371538163,
+      "kl": 0.0282745361328125,
+      "learning_rate": 1.7457166687665447e-08,
+      "loss": 0.0011,
+      "reward": 4.356249809265137,
+      "reward_std": 0.2124999761581421,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 518,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 406.65625,
+      "epoch": 0.8871794871794871,
+      "grad_norm": 0.9775208005184133,
+      "kl": 0.0290679931640625,
+      "learning_rate": 1.6967633606608077e-08,
+      "loss": 0.0012,
+      "reward": 4.301041603088379,
+      "reward_std": 0.2985089123249054,
+      "rewards/accuracy_reward": 2.851041793823242,
+      "rewards/format_reward": 1.0,
+      "step": 519,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.5625,
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.6061840117465481,
+      "kl": 0.027008056640625,
+      "learning_rate": 1.6484821050765207e-08,
+      "loss": 0.0011,
+      "reward": 4.478125095367432,
+      "reward_std": 0.031249994412064552,
+      "rewards/accuracy_reward": 2.9906249046325684,
+      "rewards/format_reward": 1.0,
+      "step": 520,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.75,
+      "all_wrong": 0.0,
+      "completion_length": 400.46875,
+      "epoch": 0.8905982905982905,
+      "grad_norm": 0.7638069726340038,
+      "kl": 0.024017333984375,
+      "learning_rate": 1.600874294418528e-08,
+      "loss": 0.001,
+      "reward": 4.21875,
+      "reward_std": 0.41249996423721313,
+      "rewards/accuracy_reward": 2.8125,
+      "rewards/format_reward": 1.0,
+      "step": 521,
+      "temporal_rewards": 0.75
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.25,
+      "epoch": 0.8923076923076924,
+      "grad_norm": 1.3097421518755374,
+      "kl": 0.0276947021484375,
+      "learning_rate": 1.553941301669892e-08,
+      "loss": 0.0011,
+      "reward": 4.435416221618652,
+      "reward_std": 0.11958987265825272,
+      "rewards/accuracy_reward": 2.9479167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 522,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 407.0625,
+      "epoch": 0.8940170940170941,
+      "grad_norm": 0.49855622339044864,
+      "kl": 0.022064208984375,
+      "learning_rate": 1.507684480352292e-08,
+      "loss": 0.0009,
+      "reward": 4.484375,
+      "reward_std": 0.03125,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 523,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 379.59375,
+      "epoch": 0.8957264957264958,
+      "grad_norm": 1.174186306776606,
+      "kl": 0.02764892578125,
+      "learning_rate": 1.4621051644870097e-08,
+      "loss": 0.0011,
+      "reward": 4.4739580154418945,
+      "reward_std": 0.04151713848114014,
+      "rewards/accuracy_reward": 2.9864583015441895,
+      "rewards/format_reward": 1.0,
+      "step": 524,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.90625,
+      "epoch": 0.8974358974358975,
+      "grad_norm": 0.8816390579538569,
+      "kl": 0.025970458984375,
+      "learning_rate": 1.4172046685564209e-08,
+      "loss": 0.001,
+      "reward": 4.481249809265137,
+      "reward_std": 0.03750002384185791,
+      "rewards/accuracy_reward": 2.9937500953674316,
+      "rewards/format_reward": 1.0,
+      "step": 525,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 406.40625,
+      "epoch": 0.8991452991452992,
+      "grad_norm": 0.5992424285374786,
+      "kl": 0.0266265869140625,
+      "learning_rate": 1.3729842874661362e-08,
+      "loss": 0.0011,
+      "reward": 4.356249809265137,
+      "reward_std": 0.2124999761581421,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 526,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 399.4375,
+      "epoch": 0.9008547008547009,
+      "grad_norm": 0.6452040265001713,
+      "kl": 0.0255889892578125,
+      "learning_rate": 1.3294452965076031e-08,
+      "loss": 0.001,
+      "reward": 4.264583587646484,
+      "reward_std": 0.2638741433620453,
+      "rewards/accuracy_reward": 2.8020834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 527,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 409.3125,
+      "epoch": 0.9025641025641026,
+      "grad_norm": 1.2497139002445767,
+      "kl": 0.024261474609375,
+      "learning_rate": 1.2865889513213628e-08,
+      "loss": 0.001,
+      "reward": 4.444791316986084,
+      "reward_std": 0.08224005997180939,
+      "rewards/accuracy_reward": 2.9635415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 528,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.625,
+      "epoch": 0.9042735042735043,
+      "grad_norm": 0.6006902932056047,
+      "kl": 0.027252197265625,
+      "learning_rate": 1.2444164878608304e-08,
+      "loss": 0.0011,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 529,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 402.625,
+      "epoch": 0.905982905982906,
+      "grad_norm": 0.9335016222521152,
+      "kl": 0.0229644775390625,
+      "learning_rate": 1.2029291223566412e-08,
+      "loss": 0.0009,
+      "reward": 4.3729166984558105,
+      "reward_std": 0.17916667461395264,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 530,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.375,
+      "epoch": 0.9076923076923077,
+      "grad_norm": 0.8815265597625283,
+      "kl": 0.024383544921875,
+      "learning_rate": 1.162128051281594e-08,
+      "loss": 0.001,
+      "reward": 4.466666221618652,
+      "reward_std": 0.04751306027173996,
+      "rewards/accuracy_reward": 2.9666666984558105,
+      "rewards/format_reward": 1.0,
+      "step": 531,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 404.25,
+      "epoch": 0.9094017094017094,
+      "grad_norm": 0.7213207029467679,
+      "kl": 0.0254669189453125,
+      "learning_rate": 1.1220144513161195e-08,
+      "loss": 0.001,
+      "reward": 4.351041316986084,
+      "reward_std": 0.22291666269302368,
+      "rewards/accuracy_reward": 2.9010415077209473,
+      "rewards/format_reward": 1.0,
+      "step": 532,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.75,
+      "epoch": 0.9111111111111111,
+      "grad_norm": 1.0323374755754398,
+      "kl": 0.023468017578125,
+      "learning_rate": 1.082589479314372e-08,
+      "loss": 0.0009,
+      "reward": 4.463541030883789,
+      "reward_std": 0.07291672378778458,
+      "rewards/accuracy_reward": 2.976041793823242,
+      "rewards/format_reward": 1.0,
+      "step": 533,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.625,
+      "epoch": 0.9128205128205128,
+      "grad_norm": 0.7827046261658915,
+      "kl": 0.0265045166015625,
+      "learning_rate": 1.0438542722708444e-08,
+      "loss": 0.0011,
+      "reward": 4.463541507720947,
+      "reward_std": 0.07291668653488159,
+      "rewards/accuracy_reward": 2.9635417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 534,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 429.125,
+      "epoch": 0.9145299145299145,
+      "grad_norm": 0.9135744352117208,
+      "kl": 0.023590087890625,
+      "learning_rate": 1.0058099472876003e-08,
+      "loss": 0.0009,
+      "reward": 4.393750190734863,
+      "reward_std": 0.2124999761581421,
+      "rewards/accuracy_reward": 2.90625,
+      "rewards/format_reward": 1.0,
+      "step": 535,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.3125,
+      "epoch": 0.9162393162393162,
+      "grad_norm": 0.6684583950429397,
+      "kl": 0.0234222412109375,
+      "learning_rate": 9.684576015420275e-09,
+      "loss": 0.0009,
+      "reward": 4.477083206176758,
+      "reward_std": 0.035267096012830734,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 536,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 400.78125,
+      "epoch": 0.9179487179487179,
+      "grad_norm": 0.8699432352380082,
+      "kl": 0.0243682861328125,
+      "learning_rate": 9.31798312255233e-09,
+      "loss": 0.001,
+      "reward": 4.2635416984558105,
+      "reward_std": 0.2880074083805084,
+      "rewards/accuracy_reward": 2.8072915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 537,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.625,
+      "epoch": 0.9196581196581196,
+      "grad_norm": 0.9418517715721126,
+      "kl": 0.0272216796875,
+      "learning_rate": 8.958331366609423e-09,
+      "loss": 0.0011,
+      "reward": 4.463541507720947,
+      "reward_std": 0.07291672378778458,
+      "rewards/accuracy_reward": 2.9635417461395264,
+      "rewards/format_reward": 1.0,
+      "step": 538,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.65625,
+      "epoch": 0.9213675213675213,
+      "grad_norm": 0.9346836471766797,
+      "kl": 0.0279083251953125,
+      "learning_rate": 8.605631119750295e-09,
+      "loss": 0.0011,
+      "reward": 4.460416793823242,
+      "reward_std": 0.07916663587093353,
+      "rewards/accuracy_reward": 2.9791667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 539,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.90625,
+      "epoch": 0.9230769230769231,
+      "grad_norm": 1.0164863309484913,
+      "kl": 0.0298614501953125,
+      "learning_rate": 8.259892553655945e-09,
+      "loss": 0.0012,
+      "reward": 4.459374904632568,
+      "reward_std": 0.08124995231628418,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 540,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 425.78125,
+      "epoch": 0.9247863247863248,
+      "grad_norm": 0.7281505847109301,
+      "kl": 0.0302734375,
+      "learning_rate": 7.921125639236415e-09,
+      "loss": 0.0012,
+      "reward": 4.476041316986084,
+      "reward_std": 0.03735041618347168,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 541,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.15625,
+      "epoch": 0.9264957264957265,
+      "grad_norm": 0.6299183215864748,
+      "kl": 0.029541015625,
+      "learning_rate": 7.589340146343077e-09,
+      "loss": 0.0012,
+      "reward": 4.487500190734863,
+      "reward_std": 0.025000017136335373,
+      "rewards/accuracy_reward": 2.9937500953674316,
+      "rewards/format_reward": 1.0,
+      "step": 542,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.125,
+      "epoch": 0.9282051282051282,
+      "grad_norm": 0.49855742278868825,
+      "kl": 0.0279083251953125,
+      "learning_rate": 7.2645456434869965e-09,
+      "loss": 0.0011,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 543,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.5,
+      "epoch": 0.9299145299145299,
+      "grad_norm": 0.680183525032706,
+      "kl": 0.0298004150390625,
+      "learning_rate": 6.946751497562908e-09,
+      "loss": 0.0012,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 544,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 381.9375,
+      "epoch": 0.9316239316239316,
+      "grad_norm": 1.042222796586122,
+      "kl": 0.026123046875,
+      "learning_rate": 6.635966873579063e-09,
+      "loss": 0.001,
+      "reward": 4.461458206176758,
+      "reward_std": 0.06651715189218521,
+      "rewards/accuracy_reward": 2.9739582538604736,
+      "rewards/format_reward": 1.0,
+      "step": 545,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 443.21875,
+      "epoch": 0.9333333333333333,
+      "grad_norm": 1.1281124517746888,
+      "kl": 0.0279541015625,
+      "learning_rate": 6.332200734393056e-09,
+      "loss": 0.0011,
+      "reward": 4.420833587646484,
+      "reward_std": 0.1477670818567276,
+      "rewards/accuracy_reward": 2.9395833015441895,
+      "rewards/format_reward": 1.0,
+      "step": 546,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.34375,
+      "epoch": 0.935042735042735,
+      "grad_norm": 0.4743133189783736,
+      "kl": 0.0241546630859375,
+      "learning_rate": 6.0354618404531156e-09,
+      "loss": 0.001,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 547,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.25,
+      "epoch": 0.9367521367521368,
+      "grad_norm": 0.07631073866658106,
+      "kl": 0.0291748046875,
+      "learning_rate": 5.745758749545749e-09,
+      "loss": 0.0012,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 548,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 386.3125,
+      "epoch": 0.9384615384615385,
+      "grad_norm": 1.1235875382897016,
+      "kl": 0.02593994140625,
+      "learning_rate": 5.463099816548577e-09,
+      "loss": 0.001,
+      "reward": 4.329166412353516,
+      "reward_std": 0.2666666507720947,
+      "rewards/accuracy_reward": 2.8854165077209473,
+      "rewards/format_reward": 1.0,
+      "step": 549,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 414.15625,
+      "epoch": 0.9401709401709402,
+      "grad_norm": 0.7652454193912838,
+      "kl": 0.031005859375,
+      "learning_rate": 5.187493193189784e-09,
+      "loss": 0.0012,
+      "reward": 4.360416412353516,
+      "reward_std": 0.17505337297916412,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 550,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.125,
+      "epoch": 0.9418803418803419,
+      "grad_norm": 0.6320882131800125,
+      "kl": 0.0244598388671875,
+      "learning_rate": 4.918946827812659e-09,
+      "loss": 0.001,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 551,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 483.5,
+      "epoch": 0.9435897435897436,
+      "grad_norm": 0.9707475871048816,
+      "kl": 0.0222930908203125,
+      "learning_rate": 4.657468465146641e-09,
+      "loss": 0.0009,
+      "reward": 4.45937442779541,
+      "reward_std": 0.08125004917383194,
+      "rewards/accuracy_reward": 2.965625047683716,
+      "rewards/format_reward": 1.0,
+      "step": 552,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.0,
+      "epoch": 0.9452991452991453,
+      "grad_norm": 0.9200913247493554,
+      "kl": 0.0263519287109375,
+      "learning_rate": 4.4030656460838086e-09,
+      "loss": 0.0011,
+      "reward": 4.471875190734863,
+      "reward_std": 0.05625007674098015,
+      "rewards/accuracy_reward": 2.9718751907348633,
+      "rewards/format_reward": 1.0,
+      "step": 553,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.5625,
+      "epoch": 0.947008547008547,
+      "grad_norm": 1.0579659491698534,
+      "kl": 0.0302734375,
+      "learning_rate": 4.155745707461466e-09,
+      "loss": 0.0012,
+      "reward": 4.444791793823242,
+      "reward_std": 0.11041674762964249,
+      "rewards/accuracy_reward": 2.976041793823242,
+      "rewards/format_reward": 0.96875,
+      "step": 554,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 427.46875,
+      "epoch": 0.9487179487179487,
+      "grad_norm": 0.7465404047009814,
+      "kl": 0.025909423828125,
+      "learning_rate": 3.915515781850564e-09,
+      "loss": 0.001,
+      "reward": 4.339583396911621,
+      "reward_std": 0.22952096164226532,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 555,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 412.375,
+      "epoch": 0.9504273504273504,
+      "grad_norm": 0.606745142628321,
+      "kl": 0.0250701904296875,
+      "learning_rate": 3.6823827973499754e-09,
+      "loss": 0.001,
+      "reward": 4.478124618530273,
+      "reward_std": 0.03417319804430008,
+      "rewards/accuracy_reward": 2.984375238418579,
+      "rewards/format_reward": 1.0,
+      "step": 556,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.4375,
+      "epoch": 0.9521367521367521,
+      "grad_norm": 1.129447578094146,
+      "kl": 0.029449462890625,
+      "learning_rate": 3.4563534773866256e-09,
+      "loss": 0.0012,
+      "reward": 4.3229169845581055,
+      "reward_std": 0.08037615567445755,
+      "rewards/accuracy_reward": 2.8541667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 557,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 408.125,
+      "epoch": 0.9538461538461539,
+      "grad_norm": 0.6423376389060305,
+      "kl": 0.02215576171875,
+      "learning_rate": 3.2374343405217884e-09,
+      "loss": 0.0009,
+      "reward": 4.484375,
+      "reward_std": 0.031250037252902985,
+      "rewards/accuracy_reward": 2.984375,
+      "rewards/format_reward": 1.0,
+      "step": 558,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 385.0625,
+      "epoch": 0.9555555555555556,
+      "grad_norm": 0.7605920224485164,
+      "kl": 0.0239715576171875,
+      "learning_rate": 3.025631700262876e-09,
+      "loss": 0.001,
+      "reward": 4.488541603088379,
+      "reward_std": 0.022916674613952637,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 559,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 392.65625,
+      "epoch": 0.9572649572649573,
+      "grad_norm": 0.9158835438183363,
+      "kl": 0.02349853515625,
+      "learning_rate": 2.820951664881499e-09,
+      "loss": 0.0009,
+      "reward": 4.410416603088379,
+      "reward_std": 0.12633545696735382,
+      "rewards/accuracy_reward": 2.9166665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 560,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 389.65625,
+      "epoch": 0.958974358974359,
+      "grad_norm": 0.09615223095864138,
+      "kl": 0.0247955322265625,
+      "learning_rate": 2.6234001372372193e-09,
+      "loss": 0.001,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 561,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.78125,
+      "epoch": 0.9606837606837607,
+      "grad_norm": 0.8865144776528523,
+      "kl": 0.0248870849609375,
+      "learning_rate": 2.4329828146074096e-09,
+      "loss": 0.001,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833373069763184,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 562,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 398.8125,
+      "epoch": 0.9623931623931624,
+      "grad_norm": 0.7798733510814788,
+      "kl": 0.0235137939453125,
+      "learning_rate": 2.2497051885228824e-09,
+      "loss": 0.0009,
+      "reward": 4.479166507720947,
+      "reward_std": 0.03208985552191734,
+      "rewards/accuracy_reward": 2.991666555404663,
+      "rewards/format_reward": 1.0,
+      "step": 563,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.96875,
+      "epoch": 0.9641025641025641,
+      "grad_norm": 0.7842532438183228,
+      "kl": 0.023223876953125,
+      "learning_rate": 2.073572544609492e-09,
+      "loss": 0.0009,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947917461395264,
+      "rewards/format_reward": 1.0,
+      "step": 564,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 0.875,
+      "all_wrong": 0.0,
+      "completion_length": 381.5,
+      "epoch": 0.9658119658119658,
+      "grad_norm": 0.9382371025582589,
+      "kl": 0.0290374755859375,
+      "learning_rate": 1.904589962435782e-09,
+      "loss": 0.0012,
+      "reward": 4.338541507720947,
+      "reward_std": 0.24791665375232697,
+      "rewards/accuracy_reward": 2.8885414600372314,
+      "rewards/format_reward": 1.0,
+      "step": 565,
+      "temporal_rewards": 0.875
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.96875,
+      "epoch": 0.9675213675213675,
+      "grad_norm": 0.7584072504574466,
+      "kl": 0.024383544921875,
+      "learning_rate": 1.7427623153664362e-09,
+      "loss": 0.001,
+      "reward": 4.414583206176758,
+      "reward_std": 0.15474003553390503,
+      "rewards/accuracy_reward": 2.9270832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 566,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 402.03125,
+      "epoch": 0.9692307692307692,
+      "grad_norm": 1.0056864539310673,
+      "kl": 0.0274200439453125,
+      "learning_rate": 1.5880942704217526e-09,
+      "loss": 0.0011,
+      "reward": 4.3958330154418945,
+      "reward_std": 0.2083333432674408,
+      "rewards/accuracy_reward": 2.8958334922790527,
+      "rewards/format_reward": 1.0,
+      "step": 567,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.15625,
+      "epoch": 0.9709401709401709,
+      "grad_norm": 0.08365383657633933,
+      "kl": 0.0247802734375,
+      "learning_rate": 1.4405902881430287e-09,
+      "loss": 0.001,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 568,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 403.90625,
+      "epoch": 0.9726495726495726,
+      "grad_norm": 0.7292384116903354,
+      "kl": 0.03253173828125,
+      "learning_rate": 1.3002546224639145e-09,
+      "loss": 0.0013,
+      "reward": 4.479166507720947,
+      "reward_std": 0.04166668653488159,
+      "rewards/accuracy_reward": 2.9791665077209473,
+      "rewards/format_reward": 1.0,
+      "step": 569,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 404.46875,
+      "epoch": 0.9743589743589743,
+      "grad_norm": 0.6276942817330724,
+      "kl": 0.0238800048828125,
+      "learning_rate": 1.167091320587843e-09,
+      "loss": 0.001,
+      "reward": 4.420833587646484,
+      "reward_std": 0.1454124003648758,
+      "rewards/accuracy_reward": 2.9270832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 570,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.625,
+      "epoch": 0.976068376068376,
+      "grad_norm": 0.8671312204972568,
+      "kl": 0.0216522216796875,
+      "learning_rate": 1.0411042228711253e-09,
+      "loss": 0.0009,
+      "reward": 4.479166507720947,
+      "reward_std": 0.041666723787784576,
+      "rewards/accuracy_reward": 2.9791667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 571,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 393.1875,
+      "epoch": 0.9777777777777777,
+      "grad_norm": 0.6347794402335961,
+      "kl": 0.024505615234375,
+      "learning_rate": 9.222969627123433e-10,
+      "loss": 0.001,
+      "reward": 4.362500190734863,
+      "reward_std": 0.02499997615814209,
+      "rewards/accuracy_reward": 2.875,
+      "rewards/format_reward": 1.0,
+      "step": 572,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 417.03125,
+      "epoch": 0.9794871794871794,
+      "grad_norm": 0.7091624044730901,
+      "kl": 0.027435302734375,
+      "learning_rate": 8.106729664475176e-10,
+      "loss": 0.0011,
+      "reward": 4.425000190734863,
+      "reward_std": 0.1499999761581421,
+      "rewards/accuracy_reward": 2.9375,
+      "rewards/format_reward": 1.0,
+      "step": 573,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 433.40625,
+      "epoch": 0.9811965811965812,
+      "grad_norm": 0.7280710308245518,
+      "kl": 0.0217132568359375,
+      "learning_rate": 7.062354532512416e-10,
+      "loss": 0.0009,
+      "reward": 4.4822916984558105,
+      "reward_std": 0.03541666269302368,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 574,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 399.4375,
+      "epoch": 0.9829059829059829,
+      "grad_norm": 1.1497549033076384,
+      "kl": 0.0286865234375,
+      "learning_rate": 6.089874350439505e-10,
+      "loss": 0.0011,
+      "reward": 4.441666603088379,
+      "reward_std": 0.1035892590880394,
+      "rewards/accuracy_reward": 2.9416663646698,
+      "rewards/format_reward": 1.0,
+      "step": 575,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 417.3125,
+      "epoch": 0.9846153846153847,
+      "grad_norm": 0.08711618026437022,
+      "kl": 0.0268096923828125,
+      "learning_rate": 5.189317164049633e-10,
+      "loss": 0.0011,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 576,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 396.1875,
+      "epoch": 0.9863247863247864,
+      "grad_norm": 0.8654050681328606,
+      "kl": 0.023651123046875,
+      "learning_rate": 4.36070894491658e-10,
+      "loss": 0.0009,
+      "reward": 4.431249618530273,
+      "reward_std": 0.08806557953357697,
+      "rewards/accuracy_reward": 2.937500238418579,
+      "rewards/format_reward": 1.0,
+      "step": 577,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 405.625,
+      "epoch": 0.9880341880341881,
+      "grad_norm": 0.43379863376644834,
+      "kl": 0.025146484375,
+      "learning_rate": 3.6040735896455953e-10,
+      "loss": 0.001,
+      "reward": 4.4895830154418945,
+      "reward_std": 0.020833352580666542,
+      "rewards/accuracy_reward": 2.9895832538604736,
+      "rewards/format_reward": 1.0,
+      "step": 578,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.03125,
+      "epoch": 0.9897435897435898,
+      "grad_norm": 0.6959270236791816,
+      "kl": 0.03570556640625,
+      "learning_rate": 2.9194329191833953e-10,
+      "loss": 0.0014,
+      "reward": 4.447916507720947,
+      "reward_std": 0.07025588303804398,
+      "rewards/accuracy_reward": 2.9479167461395264,
+      "rewards/format_reward": 1.0,
+      "step": 579,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 417.53125,
+      "epoch": 0.9914529914529915,
+      "grad_norm": 0.5938852480938382,
+      "kl": 0.029693603515625,
+      "learning_rate": 2.3068066781908867e-10,
+      "loss": 0.0012,
+      "reward": 4.482291221618652,
+      "reward_std": 0.024850429967045784,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 580,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 391.34375,
+      "epoch": 0.9931623931623932,
+      "grad_norm": 0.6607197881640254,
+      "kl": 0.02301025390625,
+      "learning_rate": 1.7662125344714008e-10,
+      "loss": 0.0009,
+      "reward": 4.483333587646484,
+      "reward_std": 0.03333333879709244,
+      "rewards/accuracy_reward": 2.9895834922790527,
+      "rewards/format_reward": 1.0,
+      "step": 581,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 397.84375,
+      "epoch": 0.9948717948717949,
+      "grad_norm": 0.46405819086702893,
+      "kl": 0.0242462158203125,
+      "learning_rate": 1.297666078462767e-10,
+      "loss": 0.001,
+      "reward": 4.493750095367432,
+      "reward_std": 0.012499988079071045,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 582,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 401.6875,
+      "epoch": 0.9965811965811966,
+      "grad_norm": 0.5806852103465906,
+      "kl": 0.028839111328125,
+      "learning_rate": 9.011808227865625e-11,
+      "loss": 0.0012,
+      "reward": 4.494791507720947,
+      "reward_std": 0.010416686534881592,
+      "rewards/accuracy_reward": 2.9947915077209473,
+      "rewards/format_reward": 1.0,
+      "step": 583,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 400.34375,
+      "epoch": 0.9982905982905983,
+      "grad_norm": 0.6419864019288467,
+      "kl": 0.024993896484375,
+      "learning_rate": 5.7676820185953434e-11,
+      "loss": 0.001,
+      "reward": 4.472916603088379,
+      "reward_std": 0.041245777159929276,
+      "rewards/accuracy_reward": 2.9791667461395264,
+      "rewards/format_reward": 1.0,
+      "step": 584,
+      "temporal_rewards": 1.0
+    },
+    {
+      "all_correct": 1.0,
+      "all_wrong": 0.0,
+      "completion_length": 384.75,
+      "epoch": 1.0,
+      "grad_norm": 0.6290663340433991,
+      "kl": 0.02978515625,
+      "learning_rate": 3.244375715633074e-11,
+      "loss": 0.0012,
+      "reward": 4.5,
+      "reward_std": 0.0,
+      "rewards/accuracy_reward": 3.0,
+      "rewards/format_reward": 1.0,
+      "step": 585,
+      "temporal_rewards": 0.75
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 585,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 290,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}