diff --git "a/checkpoint-2668/trainer_state.json" "b/checkpoint-2668/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/checkpoint-2668/trainer_state.json"
@@ -0,0 +1,38383 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9992509363295881,
+  "global_step": 2668,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 11.3968,
+      "theoretical_loss": 10.87642657795271,
+      "tokens_seen": 1048576
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 11.3956,
+      "theoretical_loss": 9.382678282406216,
+      "tokens_seen": 2097152
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.555555555555555e-05,
+      "loss": 10.5571,
+      "theoretical_loss": 8.634232609231233,
+      "tokens_seen": 3145728
+    },
+    {
+      "epoch": 0.0,
+      "objective/train/advantage_avg": 0.4819035232067108,
+      "objective/train/docs_used": 13098,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 9.65994930267334,
+      "objective/train/original_loss": 9.659950256347656,
+      "objective/train/theoretical_loss": 8.563481156106828,
+      "objective/train/tokens_used": 23736800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2415286898612976,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494179725646973,
+      "objective/train/weighted_lm_loss": 10.137272834777832,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9525310397148132,
+      "theoretical_loss": 8.563481156106828,
+      "tokens_seen": 3276800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 10.1633,
+      "theoretical_loss": 8.152440604135377,
+      "tokens_seen": 4194304
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.259259259259259e-05,
+      "loss": 10.086,
+      "theoretical_loss": 7.804563746449924,
+      "tokens_seen": 5242880
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0001111111111111111,
+      "loss": 9.6408,
+      "theoretical_loss": 7.536027470795679,
+      "tokens_seen": 6291456
+    },
+    {
+      "epoch": 0.0,
+      "objective/train/advantage_avg": 0.45301443338394165,
+      "objective/train/docs_used": 15224,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 9.799736976623535,
+      "objective/train/original_loss": 9.799737930297852,
+      "objective/train/theoretical_loss": 7.477757209543791,
+      "objective/train/tokens_used": 27013600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23901385068893433,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.046515703201294,
+      "objective/train/weighted_lm_loss": 10.25350570678711,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9514407515525818,
+      "theoretical_loss": 7.477757209543791,
+      "tokens_seen": 6553600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00012962962962962963,
+      "loss": 9.8744,
+      "theoretical_loss": 7.319437165569436,
+      "tokens_seen": 7340032
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 9.604,
+      "theoretical_loss": 7.139227903207399,
+      "tokens_seen": 8388608
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 9.5326,
+      "theoretical_loss": 6.985769514638539,
+      "tokens_seen": 9437184
+    },
+    {
+      "epoch": 0.0,
+      "objective/train/advantage_avg": 0.47840288281440735,
+      "objective/train/docs_used": 16449,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 9.037789344787598,
+      "objective/train/original_loss": 9.037790298461914,
+      "objective/train/theoretical_loss": 6.9337529803906595,
+      "objective/train/tokens_used": 30290400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23556047677993774,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490374565124512,
+      "objective/train/weighted_lm_loss": 9.48002815246582,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9567553997039795,
+      "theoretical_loss": 6.9337529803906595,
+      "tokens_seen": 9830400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00018518518518518518,
+      "loss": 9.4931,
+      "theoretical_loss": 6.85271964810239,
+      "tokens_seen": 10485760
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002037037037037037,
+      "loss": 9.2078,
+      "theoretical_loss": 6.735696451044834,
+      "tokens_seen": 11534336
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002222222222222222,
+      "loss": 9.1417,
+      "theoretical_loss": 6.631555583663063,
+      "tokens_seen": 12582912
+    },
+    {
+      "epoch": 0.0,
+      "objective/train/advantage_avg": 0.48848089575767517,
+      "objective/train/docs_used": 18197,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 8.314473152160645,
+      "objective/train/original_loss": 8.314474105834961,
+      "objective/train/theoretical_loss": 6.583564719922174,
+      "objective/train/tokens_used": 33567200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2417714148759842,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500770807266235,
+      "objective/train/weighted_lm_loss": 8.729887962341309,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9551335573196411,
+      "theoretical_loss": 6.583564719922174,
+      "tokens_seen": 13107200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00024074074074074072,
+      "loss": 8.9637,
+      "theoretical_loss": 6.537970167599786,
+      "tokens_seen": 13631488
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00025925925925925926,
+      "loss": 8.8478,
+      "theoretical_loss": 6.453173753851489,
+      "tokens_seen": 14680064
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002777777777777778,
+      "loss": 8.6147,
+      "theoretical_loss": 6.3757961938167265,
+      "tokens_seen": 15728640
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.48041555285453796,
+      "objective/train/docs_used": 19928,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 7.850920677185059,
+      "objective/train/original_loss": 7.850921154022217,
+      "objective/train/theoretical_loss": 6.330712056611843,
+      "objective/train/tokens_used": 36844000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23706857860088348,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492464303970337,
+      "objective/train/weighted_lm_loss": 8.236246109008789,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9536896347999573,
+      "theoretical_loss": 6.330712056611843,
+      "tokens_seen": 16384000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002962962962962963,
+      "loss": 8.4719,
+      "theoretical_loss": 6.304755024141699,
+      "tokens_seen": 16777216
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003148148148148148,
+      "loss": 8.2341,
+      "theoretical_loss": 6.239181372596676,
+      "tokens_seen": 17825792
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 8.0206,
+      "theoretical_loss": 6.17836807379203,
+      "tokens_seen": 18874368
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.4757058024406433,
+      "objective/train/docs_used": 21444,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 7.8217854499816895,
+      "objective/train/original_loss": 7.821784496307373,
+      "objective/train/theoretical_loss": 6.135527723436086,
+      "objective/train/tokens_used": 40120800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23544126749038696,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487672090530396,
+      "objective/train/weighted_lm_loss": 8.202380180358887,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9515462517738342,
+      "theoretical_loss": 6.135527723436086,
+      "tokens_seen": 19660800
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003518518518518519,
+      "loss": 7.9621,
+      "theoretical_loss": 6.121732500517281,
+      "tokens_seen": 19922944
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00037037037037037035,
+      "loss": 7.7465,
+      "theoretical_loss": 6.068789398864208,
+      "tokens_seen": 20971520
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0003888888888888889,
+      "loss": 7.6596,
+      "theoretical_loss": 6.019130679617959,
+      "tokens_seen": 22020096
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.4673197567462921,
+      "objective/train/docs_used": 23342,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.7955641746521,
+      "objective/train/original_loss": 6.795564651489258,
+      "objective/train/theoretical_loss": 5.978100075365368,
+      "objective/train/tokens_used": 43397600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22965674102306366,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478991270065308,
+      "objective/train/weighted_lm_loss": 7.11885404586792,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9708001017570496,
+      "theoretical_loss": 5.978100075365368,
+      "tokens_seen": 22937600
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004074074074074074,
+      "loss": 7.534,
+      "theoretical_loss": 5.972410144955672,
+      "tokens_seen": 23068672
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00042592592592592595,
+      "loss": 7.4855,
+      "theoretical_loss": 5.928331780102846,
+      "tokens_seen": 24117248
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004444444444444444,
+      "loss": 7.5487,
+      "theoretical_loss": 5.886640662049593,
+      "tokens_seen": 25165824
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.47823473811149597,
+      "objective/train/docs_used": 25475,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 7.412741184234619,
+      "objective/train/original_loss": 7.412740707397461,
+      "objective/train/theoretical_loss": 5.847115817761683,
+      "objective/train/tokens_used": 46674400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23657572269439697,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490257740020752,
+      "objective/train/weighted_lm_loss": 7.774959564208984,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9553595781326294,
+      "theoretical_loss": 5.847115817761683,
+      "tokens_seen": 26214400
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.000462962962962963,
+      "loss": 7.4963,
+      "theoretical_loss": 5.847115817761683,
+      "tokens_seen": 26214400
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00048148148148148144,
+      "loss": 7.3715,
+      "theoretical_loss": 5.809564554032628,
+      "tokens_seen": 27262976
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0005,
+      "loss": 7.5494,
+      "theoretical_loss": 5.773817911814618,
+      "tokens_seen": 28311552
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004998108210367007,
+      "loss": 7.3456,
+      "theoretical_loss": 5.739726989373027,
+      "tokens_seen": 29360128
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.4513802230358124,
+      "objective/train/docs_used": 27675,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.641174793243408,
+      "objective/train/original_loss": 6.641175270080566,
+      "objective/train/theoretical_loss": 5.735575307377884,
+      "objective/train/tokens_used": 49951200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2184389978647232,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0462480783462524,
+      "objective/train/weighted_lm_loss": 6.950745105743408,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9532368183135986,
+      "theoretical_loss": 5.735575307377884,
+      "tokens_seen": 29491200
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004996216420734014,
+      "loss": 7.4153,
+      "theoretical_loss": 5.707159943639638,
+      "tokens_seen": 30408704
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004994324631101022,
+      "loss": 7.4387,
+      "theoretical_loss": 5.6759995259903135,
+      "tokens_seen": 31457280
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004992432841468029,
+      "loss": 7.3125,
+      "theoretical_loss": 5.646141042853927,
+      "tokens_seen": 32505856
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.4938547611236572,
+      "objective/train/docs_used": 29692,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.995054244995117,
+      "objective/train/original_loss": 6.995054244995117,
+      "objective/train/theoretical_loss": 5.638868635567113,
+      "objective/train/tokens_used": 53228000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24502605199813843,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506311655044556,
+      "objective/train/weighted_lm_loss": 7.349433898925781,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9657517075538635,
+      "theoretical_loss": 5.638868635567113,
+      "tokens_seen": 32768000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004990541051835036,
+      "loss": 7.3289,
+      "theoretical_loss": 5.61749065678978,
+      "tokens_seen": 33554432
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004988649262202043,
+      "loss": 7.2839,
+      "theoretical_loss": 5.589963962496837,
+      "tokens_seen": 34603008
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004986757472569051,
+      "loss": 7.2524,
+      "theoretical_loss": 5.563484786407864,
+      "tokens_seen": 35651584
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.48527762293815613,
+      "objective/train/docs_used": 31846,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 7.310849666595459,
+      "objective/train/original_loss": 7.310849189758301,
+      "objective/train/theoretical_loss": 5.553810873340668,
+      "objective/train/tokens_used": 56504800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24185144901275635,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497572422027588,
+      "objective/train/weighted_lm_loss": 7.675657272338867,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9533452987670898,
+      "theoretical_loss": 5.553810873340668,
+      "tokens_seen": 36044800
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004984865682936058,
+      "loss": 7.1968,
+      "theoretical_loss": 5.537984169317745,
+      "tokens_seen": 36700160
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004982973893303065,
+      "loss": 7.129,
+      "theoretical_loss": 5.513399499781949,
+      "tokens_seen": 37748736
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004981082103670072,
+      "loss": 7.1462,
+      "theoretical_loss": 5.4896737724343065,
+      "tokens_seen": 38797312
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.4853717088699341,
+      "objective/train/docs_used": 33055,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.262423038482666,
+      "objective/train/original_loss": 6.262422561645508,
+      "objective/train/theoretical_loss": 5.478116572052198,
+      "objective/train/tokens_used": 59781600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24034540355205536,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497589111328125,
+      "objective/train/weighted_lm_loss": 6.57367467880249,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9534735083580017,
+      "theoretical_loss": 5.478116572052198,
+      "tokens_seen": 39321600
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.000497919031403708,
+      "loss": 7.0583,
+      "theoretical_loss": 5.466754950375066,
+      "tokens_seen": 39845888
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004977298524404087,
+      "loss": 6.9816,
+      "theoretical_loss": 5.444595414709691,
+      "tokens_seen": 40894464
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0004975406734771094,
+      "loss": 7.0311,
+      "theoretical_loss": 5.423151487427312,
+      "tokens_seen": 41943040
+    },
+    {
+      "epoch": 0.01,
+      "objective/train/advantage_avg": 0.48702144622802734,
+      "objective/train/docs_used": 34814,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.590912818908691,
+      "objective/train/original_loss": 6.590912818908691,
+      "objective/train/theoretical_loss": 5.410094451075121,
+      "objective/train/tokens_used": 63058400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24035364389419556,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499237775802612,
+      "objective/train/weighted_lm_loss": 6.920047760009766,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9549703001976013,
+      "theoretical_loss": 5.410094451075121,
+      "tokens_seen": 42598400
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00049735149451381,
+      "loss": 7.0719,
+      "theoretical_loss": 5.402383016282556,
+      "tokens_seen": 42991616
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004971623155505107,
+      "loss": 6.9474,
+      "theoretical_loss": 5.382253012327088,
+      "tokens_seen": 44040192
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004969731365872115,
+      "loss": 6.9685,
+      "theoretical_loss": 5.362727332334602,
+      "tokens_seen": 45088768
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.49159982800483704,
+      "objective/train/docs_used": 36830,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.507728099822998,
+      "objective/train/original_loss": 6.50772762298584,
+      "objective/train/theoretical_loss": 5.348460575231594,
+      "objective/train/tokens_used": 66335200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2427477091550827,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503939390182495,
+      "objective/train/weighted_lm_loss": 6.835729122161865,
+      "objective/train/weights_max": 1.0512152910232544,
+      "objective/train/weights_min": 0.9736581444740295,
+      "theoretical_loss": 5.348460575231594,
+      "tokens_seen": 45875200
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004967839576239122,
+      "loss": 6.8813,
+      "theoretical_loss": 5.343774399657292,
+      "tokens_seen": 46137344
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004965947786606129,
+      "loss": 6.7701,
+      "theoretical_loss": 5.325364958105951,
+      "tokens_seen": 47185920
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004964055996973137,
+      "loss": 6.8432,
+      "theoretical_loss": 5.307471854308661,
+      "tokens_seen": 48234496
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.4919637143611908,
+      "objective/train/docs_used": 38907,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.092850685119629,
+      "objective/train/original_loss": 6.092850208282471,
+      "objective/train/theoretical_loss": 5.292219058433327,
+      "objective/train/tokens_used": 69612000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2443958818912506,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504387617111206,
+      "objective/train/weighted_lm_loss": 6.401121616363525,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9526038765907288,
+      "theoretical_loss": 5.292219058433327,
+      "tokens_seen": 49152000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004962164207340144,
+      "loss": 6.7243,
+      "theoretical_loss": 5.290069844712654,
+      "tokens_seen": 49283072
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004960272417707151,
+      "loss": 6.8188,
+      "theoretical_loss": 5.273135423980159,
+      "tokens_seen": 50331648
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004958380628074158,
+      "loss": 6.7243,
+      "theoretical_loss": 5.256646672015468,
+      "tokens_seen": 51380224
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.4699273407459259,
+      "objective/train/docs_used": 40119,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.565382480621338,
+      "objective/train/original_loss": 6.56538200378418,
+      "objective/train/theoretical_loss": 5.240583117265738,
+      "objective/train/tokens_used": 72888800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2322714626789093,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481733083724976,
+      "objective/train/weighted_lm_loss": 6.87912654876709,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9521334767341614,
+      "theoretical_loss": 5.240583117265738,
+      "tokens_seen": 52428800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004956488838441165,
+      "loss": 6.7436,
+      "theoretical_loss": 5.240583117265738,
+      "tokens_seen": 52428800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004954597048808173,
+      "loss": 6.7854,
+      "theoretical_loss": 5.224925614276991,
+      "tokens_seen": 53477376
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.000495270525917518,
+      "loss": 6.7126,
+      "theoretical_loss": 5.209656233771442,
+      "tokens_seen": 54525952
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004950813469542187,
+      "loss": 6.7657,
+      "theoretical_loss": 5.194758163752068,
+      "tokens_seen": 55574528
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.48516738414764404,
+      "objective/train/docs_used": 42175,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.86571741104126,
+      "objective/train/original_loss": 5.865716934204102,
+      "objective/train/theoretical_loss": 5.192921216021549,
+      "objective/train/tokens_used": 76165600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24054694175720215,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497394800186157,
+      "objective/train/weighted_lm_loss": 6.157922744750977,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9579119682312012,
+      "theoretical_loss": 5.192921216021549,
+      "tokens_seen": 55705600
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004948921679909194,
+      "loss": 6.667,
+      "theoretical_loss": 5.180215620343211,
+      "tokens_seen": 56623104
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004947029890276201,
+      "loss": 6.726,
+      "theoretical_loss": 5.166013767248007,
+      "tokens_seen": 57671680
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004945138100643209,
+      "loss": 6.6426,
+      "theoretical_loss": 5.152138642849951,
+      "tokens_seen": 58720256
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.45703786611557007,
+      "objective/train/docs_used": 44036,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.240392208099365,
+      "objective/train/original_loss": 6.240392684936523,
+      "objective/train/theoretical_loss": 5.148719354852201,
+      "objective/train/tokens_used": 79442400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24004234373569489,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0469226837158203,
+      "objective/train/weighted_lm_loss": 6.5345845222473145,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9527196884155273,
+      "theoretical_loss": 5.148719354852201,
+      "tokens_seen": 58982400
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004943246311010216,
+      "loss": 6.6952,
+      "theoretical_loss": 5.138577094110906,
+      "tokens_seen": 59768832
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004941354521377223,
+      "loss": 6.6242,
+      "theoretical_loss": 5.12531671652499,
+      "tokens_seen": 60817408
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004939462731744231,
+      "loss": 6.6385,
+      "theoretical_loss": 5.112345799479678,
+      "tokens_seen": 61865984
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.4917111396789551,
+      "objective/train/docs_used": 45869,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.257774353027344,
+      "objective/train/original_loss": 6.257774353027344,
+      "objective/train/theoretical_loss": 5.107554053900861,
+      "objective/train/tokens_used": 82719200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2443944662809372,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504134893417358,
+      "objective/train/weighted_lm_loss": 6.572638511657715,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.964363157749176,
+      "theoretical_loss": 5.107554053900861,
+      "tokens_seen": 62259200
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004937570942111238,
+      "loss": 6.5263,
+      "theoretical_loss": 5.0996532764547,
+      "tokens_seen": 62914560
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004935679152478245,
+      "loss": 6.5435,
+      "theoretical_loss": 5.087228679557634,
+      "tokens_seen": 63963136
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004933787362845251,
+      "loss": 6.5413,
+      "theoretical_loss": 5.075062097954335,
+      "tokens_seen": 65011712
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.47832614183425903,
+      "objective/train/docs_used": 47778,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.022909641265869,
+      "objective/train/original_loss": 6.022909164428711,
+      "objective/train/theoretical_loss": 5.069072608639006,
+      "objective/train/tokens_used": 85996000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2356715351343155,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490304231643677,
+      "objective/train/weighted_lm_loss": 6.317652702331543,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.952083170413971,
+      "theoretical_loss": 5.069072608639006,
+      "tokens_seen": 65536000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004931895573212258,
+      "loss": 6.4814,
+      "theoretical_loss": 5.063144139803664,
+      "tokens_seen": 66060288
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004930003783579266,
+      "loss": 6.5092,
+      "theoretical_loss": 5.051465897350656,
+      "tokens_seen": 67108864
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004928111993946273,
+      "loss": 6.4835,
+      "theoretical_loss": 5.040018914871285,
+      "tokens_seen": 68157440
+    },
+    {
+      "epoch": 0.02,
+      "objective/train/advantage_avg": 0.4900747239589691,
+      "objective/train/docs_used": 49496,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.184676170349121,
+      "objective/train/original_loss": 6.184676647186279,
+      "objective/train/theoretical_loss": 5.032978401333766,
+      "objective/train/tokens_used": 89272800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24198560416698456,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502376556396484,
+      "objective/train/weighted_lm_loss": 6.495528697967529,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9738534092903137,
+      "theoretical_loss": 5.032978401333766,
+      "tokens_seen": 68812800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.000492622020431328,
+      "loss": 6.5187,
+      "theoretical_loss": 5.028795159195919,
+      "tokens_seen": 69206016
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004924328414680287,
+      "loss": 6.431,
+      "theoretical_loss": 5.01778699256848,
+      "tokens_seen": 70254592
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004922436625047294,
+      "loss": 6.4495,
+      "theoretical_loss": 5.006987147624395,
+      "tokens_seen": 71303168
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.48679879307746887,
+      "objective/train/docs_used": 51476,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.056151390075684,
+      "objective/train/original_loss": 6.056151390075684,
+      "objective/train/theoretical_loss": 4.999019799720424,
+      "objective/train/tokens_used": 92549600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23905406892299652,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498950481414795,
+      "objective/train/weighted_lm_loss": 6.357154846191406,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9834248423576355,
+      "theoretical_loss": 4.999019799720424,
+      "tokens_seen": 72089600
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004920544835414302,
+      "loss": 6.4097,
+      "theoretical_loss": 4.996388704293487,
+      "tokens_seen": 72351744
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004918653045781309,
+      "loss": 6.3944,
+      "theoretical_loss": 4.985985068454193,
+      "tokens_seen": 73400320
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004916761256148316,
+      "loss": 6.3967,
+      "theoretical_loss": 4.9757699521834,
+      "tokens_seen": 74448896
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.48649123311042786,
+      "objective/train/docs_used": 53412,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.1873979568481445,
+      "objective/train/original_loss": 6.187397480010986,
+      "objective/train/theoretical_loss": 4.966981646847723,
+      "objective/train/tokens_used": 95826400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23994770646095276,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498689413070679,
+      "objective/train/weighted_lm_loss": 6.4954962730407715,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9554786682128906,
+      "theoretical_loss": 4.966981646847723,
+      "tokens_seen": 75366400
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004914869466515324,
+      "loss": 6.4082,
+      "theoretical_loss": 4.96573735546202,
+      "tokens_seen": 75497472
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004912977676882331,
+      "loss": 6.3538,
+      "theoretical_loss": 4.955881549210428,
+      "tokens_seen": 76546048
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004911085887249338,
+      "loss": 6.2587,
+      "theoretical_loss": 4.946197059540362,
+      "tokens_seen": 77594624
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.4663962125778198,
+      "objective/train/docs_used": 55300,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.6434221267700195,
+      "objective/train/original_loss": 5.6434221267700195,
+      "objective/train/theoretical_loss": 4.936678653120895,
+      "objective/train/tokens_used": 99103200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23964135348796844,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478569269180298,
+      "objective/train/weighted_lm_loss": 5.911611557006836,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.951373279094696,
+      "theoretical_loss": 4.936678653120895,
+      "tokens_seen": 78643200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004909194097616345,
+      "loss": 6.2099,
+      "theoretical_loss": 4.936678653120895,
+      "tokens_seen": 78643200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004907302307983352,
+      "loss": 6.3581,
+      "theoretical_loss": 4.927321323566017,
+      "tokens_seen": 79691776
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000490541051835036,
+      "loss": 6.2595,
+      "theoretical_loss": 4.918120278760069,
+      "tokens_seen": 80740352
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004903518728717367,
+      "loss": 6.2955,
+      "theoretical_loss": 4.909070929045194,
+      "tokens_seen": 81788928
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.46273210644721985,
+      "objective/train/docs_used": 57273,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.127193450927734,
+      "objective/train/original_loss": 6.127194404602051,
+      "objective/train/theoretical_loss": 4.907950205325841,
+      "objective/train/tokens_used": 102380000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23514951765537262,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474683046340942,
+      "objective/train/weighted_lm_loss": 6.427692413330078,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9521082639694214,
+      "theoretical_loss": 4.907950205325841,
+      "tokens_seen": 81920000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004901626939084374,
+      "loss": 6.2293,
+      "theoretical_loss": 4.90016887620194,
+      "tokens_seen": 82837504
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004899735149451381,
+      "loss": 6.2417,
+      "theoretical_loss": 4.891409903160486,
+      "tokens_seen": 83886080
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004897843359818388,
+      "loss": 6.1855,
+      "theoretical_loss": 4.882789964385566,
+      "tokens_seen": 84934656
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.47956690192222595,
+      "objective/train/docs_used": 58950,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.768993377685547,
+      "objective/train/original_loss": 5.768993377685547,
+      "objective/train/theoretical_loss": 4.880656245308686,
+      "objective/train/tokens_used": 105656800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23697242140769958,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491610765457153,
+      "objective/train/weighted_lm_loss": 6.05217981338501,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9515382647514343,
+      "theoretical_loss": 4.880656245308686,
+      "tokens_seen": 85196800
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004895951570185396,
+      "loss": 6.2568,
+      "theoretical_loss": 4.874305176883285,
+      "tokens_seen": 85983232
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004894059780552403,
+      "loss": 6.1378,
+      "theoretical_loss": 4.865951811782555,
+      "tokens_seen": 87031808
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004892167990919411,
+      "loss": 6.1333,
+      "theoretical_loss": 4.857726286448001,
+      "tokens_seen": 88080384
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.4823387563228607,
+      "objective/train/docs_used": 60915,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.946232795715332,
+      "objective/train/original_loss": 5.946232795715332,
+      "objective/train/theoretical_loss": 4.854673965977539,
+      "objective/train/tokens_used": 108933600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23662100732326508,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494364500045776,
+      "objective/train/weighted_lm_loss": 6.240575313568115,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9716301560401917,
+      "theoretical_loss": 4.854673965977539,
+      "tokens_seen": 88473600
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004890276201286417,
+      "loss": 6.0885,
+      "theoretical_loss": 4.849625157084915,
+      "tokens_seen": 89128960
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004888384411653424,
+      "loss": 6.0157,
+      "theoretical_loss": 4.8416451118001484,
+      "tokens_seen": 90177536
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004886492622020431,
+      "loss": 6.0435,
+      "theoretical_loss": 4.833782964085925,
+      "tokens_seen": 91226112
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.4862677752971649,
+      "objective/train/docs_used": 62413,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.789903163909912,
+      "objective/train/original_loss": 5.789902687072754,
+      "objective/train/theoretical_loss": 4.829895138804573,
+      "objective/train/tokens_used": 112210400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24461686611175537,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498701333999634,
+      "objective/train/weighted_lm_loss": 6.078371524810791,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9515182375907898,
+      "theoretical_loss": 4.829895138804573,
+      "tokens_seen": 91750400
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004884600832387438,
+      "loss": 6.0701,
+      "theoretical_loss": 4.826035646696238,
+      "tokens_seen": 92274688
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004882709042754446,
+      "loss": 6.0581,
+      "theoretical_loss": 4.8184002058880395,
+      "tokens_seen": 93323264
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00048808172531214527,
+      "loss": 6.0027,
+      "theoretical_loss": 4.810873796001641,
+      "tokens_seen": 94371840
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.4866400361061096,
+      "objective/train/docs_used": 64216,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 6.136915683746338,
+      "objective/train/original_loss": 6.136915683746338,
+      "objective/train/theoretical_loss": 4.80622393427368,
+      "objective/train/tokens_used": 115487200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24255988001823425,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498968362808228,
+      "objective/train/weighted_lm_loss": 6.4431023597717285,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.951479434967041,
+      "theoretical_loss": 4.80622393427368,
+      "tokens_seen": 95027200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000487892546348846,
+      "loss": 6.0778,
+      "theoretical_loss": 4.803453674356847,
+      "tokens_seen": 95420416
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004877033673855467,
+      "loss": 6.023,
+      "theoretical_loss": 4.796137196443157,
+      "tokens_seen": 96468992
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0004875141884222474,
+      "loss": 6.0011,
+      "theoretical_loss": 4.788921811384128,
+      "tokens_seen": 97517568
+    },
+    {
+      "epoch": 0.03,
+      "objective/train/advantage_avg": 0.48324474692344666,
+      "objective/train/docs_used": 66562,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.525176525115967,
+      "objective/train/original_loss": 5.525176525115967,
+      "objective/train/theoretical_loss": 4.783575130772016,
+      "objective/train/tokens_used": 118764000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2386062890291214,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495374202728271,
+      "objective/train/weighted_lm_loss": 5.799572944641113,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9542084336280823,
+      "theoretical_loss": 4.783575130772016,
+      "tokens_seen": 98304000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004873250094589482,
+      "loss": 5.9655,
+      "theoretical_loss": 4.781805057657483,
+      "tokens_seen": 98566144
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004871358304956489,
+      "loss": 5.9567,
+      "theoretical_loss": 4.774784559054009,
+      "tokens_seen": 99614720
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048694665153234965,
+      "loss": 6.0355,
+      "theoretical_loss": 4.76785802085957,
+      "tokens_seen": 100663296
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.466911256313324,
+      "objective/train/docs_used": 67858,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.060521125793457,
+      "objective/train/original_loss": 5.060521125793457,
+      "objective/train/theoretical_loss": 4.761872632268167,
+      "objective/train/tokens_used": 122040800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2336144745349884,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478785037994385,
+      "objective/train/weighted_lm_loss": 5.305319786071777,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9513893127441406,
+      "theoretical_loss": 4.761872632268167,
+      "tokens_seen": 101580800
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048675747256905034,
+      "loss": 5.966,
+      "theoretical_loss": 4.761023226245718,
+      "tokens_seen": 101711872
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048656829360575103,
+      "loss": 5.9966,
+      "theoretical_loss": 4.754278032855497,
+      "tokens_seen": 102760448
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004863791146424518,
+      "loss": 6.0478,
+      "theoretical_loss": 4.747620369572012,
+      "tokens_seen": 103809024
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.4873834550380707,
+      "objective/train/docs_used": 69339,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.778015613555908,
+      "objective/train/original_loss": 5.778016090393066,
+      "objective/train/theoretical_loss": 4.741048233458233,
+      "objective/train/tokens_used": 125317600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23935331404209137,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499550104141235,
+      "objective/train/weighted_lm_loss": 6.066779613494873,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9623346328735352,
+      "theoretical_loss": 4.741048233458233,
+      "tokens_seen": 104857600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004861899356791525,
+      "loss": 5.9699,
+      "theoretical_loss": 4.741048233458233,
+      "tokens_seen": 104857600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004860007567158532,
+      "loss": 5.9896,
+      "theoretical_loss": 4.734559686857368,
+      "tokens_seen": 105906176
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004858115777525539,
+      "loss": 6.0698,
+      "theoretical_loss": 4.728152854643862,
+      "tokens_seen": 106954752
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004856223987892546,
+      "loss": 6.0114,
+      "theoretical_loss": 4.721825921615813,
+      "tokens_seen": 108003328
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.48563089966773987,
+      "objective/train/docs_used": 71265,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.9209771156311035,
+      "objective/train/original_loss": 5.920976638793945,
+      "objective/train/theoretical_loss": 4.721040584744811,
+      "objective/train/tokens_used": 128594400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2397887110710144,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497820377349854,
+      "objective/train/weighted_lm_loss": 6.215074062347412,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9557585120201111,
+      "theoretical_loss": 4.721040584744811,
+      "tokens_seen": 108134400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048543321982595536,
+      "loss": 5.974,
+      "theoretical_loss": 4.71557713002025,
+      "tokens_seen": 109051904
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048524404086265605,
+      "loss": 5.9541,
+      "theoretical_loss": 4.709404777203279,
+      "tokens_seen": 110100480
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004850548618993568,
+      "loss": 5.9167,
+      "theoretical_loss": 4.703307213377671,
+      "tokens_seen": 111149056
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.48972105979919434,
+      "objective/train/docs_used": 72747,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.520245552062988,
+      "objective/train/original_loss": 5.520245552062988,
+      "objective/train/theoretical_loss": 4.701794319727625,
+      "objective/train/tokens_used": 131871200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24246089160442352,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502045154571533,
+      "objective/train/weighted_lm_loss": 5.797506809234619,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9541246891021729,
+      "theoretical_loss": 4.701794319727625,
+      "tokens_seen": 111411200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048486568293605755,
+      "loss": 5.947,
+      "theoretical_loss": 4.697282839501012,
+      "tokens_seen": 112197632
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048467650397275824,
+      "loss": 5.9188,
+      "theoretical_loss": 4.691330105257913,
+      "tokens_seen": 113246208
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.000484487325009459,
+      "loss": 5.8738,
+      "theoretical_loss": 4.685447507140298,
+      "tokens_seen": 114294784
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.4893937110900879,
+      "objective/train/docs_used": 74963,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.727111339569092,
+      "objective/train/original_loss": 5.727111339569092,
+      "objective/train/theoretical_loss": 4.683259315731689,
+      "objective/train/tokens_used": 135148000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24246010184288025,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050171971321106,
+      "objective/train/weighted_lm_loss": 6.014029026031494,
+      "objective/train/weights_max": 1.0512195825576782,
+      "objective/train/weights_min": 0.9718445539474487,
+      "theoretical_loss": 4.683259315731689,
+      "tokens_seen": 114688000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004842981460461597,
+      "loss": 5.8587,
+      "theoretical_loss": 4.679633586620149,
+      "tokens_seen": 115343360
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004841089670828604,
+      "loss": 5.857,
+      "theoretical_loss": 4.673886928409454,
+      "tokens_seen": 116391936
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004839197881195611,
+      "loss": 5.8442,
+      "theoretical_loss": 4.668206158802439,
+      "tokens_seen": 117440512
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.48216262459754944,
+      "objective/train/docs_used": 77191,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.769596099853516,
+      "objective/train/original_loss": 5.769596099853516,
+      "objective/train/theoretical_loss": 4.665390063922041,
+      "objective/train/tokens_used": 138424800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23990829288959503,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494357347488403,
+      "objective/train/weighted_lm_loss": 6.053895950317383,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9527034759521484,
+      "theoretical_loss": 4.665390063922041,
+      "tokens_seen": 117964800
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004837306091562618,
+      "loss": 5.8264,
+      "theoretical_loss": 4.662589944095533,
+      "tokens_seen": 118489088
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048354143019296256,
+      "loss": 5.8773,
+      "theoretical_loss": 4.657036989080726,
+      "tokens_seen": 119537664
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048335225122966326,
+      "loss": 5.8006,
+      "theoretical_loss": 4.651546035608336,
+      "tokens_seen": 120586240
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.4687286913394928,
+      "objective/train/docs_used": 78964,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.389880657196045,
+      "objective/train/original_loss": 5.389880657196045,
+      "objective/train/theoretical_loss": 4.648145130215498,
+      "objective/train/tokens_used": 141701600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23362566530704498,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0480601787567139,
+      "objective/train/weighted_lm_loss": 5.650588035583496,
+      "objective/train/weights_max": 1.0512198209762573,
+      "objective/train/weights_min": 0.9520321488380432,
+      "theoretical_loss": 4.648145130215498,
+      "tokens_seen": 121241600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048316307226636395,
+      "loss": 5.7878,
+      "theoretical_loss": 4.646115861215389,
+      "tokens_seen": 121634816
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004829738933030647,
+      "loss": 5.7865,
+      "theoretical_loss": 4.640745277816107,
+      "tokens_seen": 122683392
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00048278471433976544,
+      "loss": 5.8501,
+      "theoretical_loss": 4.635433130451148,
+      "tokens_seen": 123731968
+    },
+    {
+      "epoch": 0.04,
+      "objective/train/advantage_avg": 0.4775085151195526,
+      "objective/train/docs_used": 81017,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.654141426086426,
+      "objective/train/original_loss": 5.654140472412109,
+      "objective/train/theoretical_loss": 4.631486691835402,
+      "objective/train/tokens_used": 144978400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23175130784511566,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489286184310913,
+      "objective/train/weighted_lm_loss": 5.932117938995361,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9547845721244812,
+      "theoretical_loss": 4.631486691835402,
+      "tokens_seen": 124518400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004825955353764662,
+      "loss": 5.8575,
+      "theoretical_loss": 4.630178296092535,
+      "tokens_seen": 124780544
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004824063564131669,
+      "loss": 5.8373,
+      "theoretical_loss": 4.624979682501314,
+      "tokens_seen": 125829120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004822171774498676,
+      "loss": 5.7121,
+      "theoretical_loss": 4.619836227135212,
+      "tokens_seen": 126877696
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4863889813423157,
+      "objective/train/docs_used": 82924,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.5550537109375,
+      "objective/train/original_loss": 5.5550537109375,
+      "objective/train/theoretical_loss": 4.615380137211477,
+      "objective/train/tokens_used": 148255200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23805738985538483,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498487949371338,
+      "objective/train/weighted_lm_loss": 5.832069396972656,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 1.0026726722717285,
+      "theoretical_loss": 4.615380137211477,
+      "tokens_seen": 127795200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004820279984865683,
+      "loss": 5.8039,
+      "theoretical_loss": 4.6147468961037195,
+      "tokens_seen": 127926272
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000481838819523269,
+      "loss": 5.8314,
+      "theoretical_loss": 4.609710683168146,
+      "tokens_seen": 128974848
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004816496405599697,
+      "loss": 5.7879,
+      "theoretical_loss": 4.604726608784391,
+      "tokens_seen": 130023424
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.48750680685043335,
+      "objective/train/docs_used": 84906,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.394794940948486,
+      "objective/train/original_loss": 5.39479398727417,
+      "objective/train/theoretical_loss": 4.599793719186264,
+      "objective/train/tokens_used": 151532000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24220028519630432,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049981713294983,
+      "objective/train/weighted_lm_loss": 5.664059162139893,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.952854573726654,
+      "theoretical_loss": 4.599793719186264,
+      "tokens_seen": 131072000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00048146046159667046,
+      "loss": 5.6343,
+      "theoretical_loss": 4.599793719186264,
+      "tokens_seen": 131072000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00048127128263337115,
+      "loss": 5.8198,
+      "theoretical_loss": 4.594911085507325,
+      "tokens_seen": 132120576
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004810821036700719,
+      "loss": 5.7462,
+      "theoretical_loss": 4.5900778029393425,
+      "tokens_seen": 133169152
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004808929247067726,
+      "loss": 5.7185,
+      "theoretical_loss": 4.585292989925557,
+      "tokens_seen": 134217728
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4873538017272949,
+      "objective/train/docs_used": 86934,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.74575138092041,
+      "objective/train/original_loss": 5.74575138092041,
+      "objective/train/theoretical_loss": 4.584698253288433,
+      "objective/train/tokens_used": 154808800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24090476334095,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499600172042847,
+      "objective/train/weighted_lm_loss": 6.0322418212890625,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9532478451728821,
+      "theoretical_loss": 4.584698253288433,
+      "tokens_seen": 134348800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004807037457434733,
+      "loss": 5.7085,
+      "theoretical_loss": 4.580555787387068,
+      "tokens_seen": 135266304
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004805145667801741,
+      "loss": 5.6594,
+      "theoretical_loss": 4.575865357980726,
+      "tokens_seen": 136314880
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004803253878168748,
+      "loss": 5.6742,
+      "theoretical_loss": 4.571220885387013,
+      "tokens_seen": 137363456
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4891941249370575,
+      "objective/train/docs_used": 89023,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.547139644622803,
+      "objective/train/original_loss": 5.5471391677856445,
+      "objective/train/theoretical_loss": 4.570066854274275,
+      "objective/train/tokens_used": 158085600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.241221621632576,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501456260681152,
+      "objective/train/weighted_lm_loss": 5.825089931488037,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9656258821487427,
+      "theoretical_loss": 4.570066854274275,
+      "tokens_seen": 137625600
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00048013620885357553,
+      "loss": 5.6366,
+      "theoretical_loss": 4.566621573626489,
+      "tokens_seen": 138412032
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004799470298902762,
+      "loss": 5.6921,
+      "theoretical_loss": 4.562066646403457,
+      "tokens_seen": 139460608
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004797578509269769,
+      "loss": 5.7071,
+      "theoretical_loss": 4.557555346475546,
+      "tokens_seen": 140509184
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4865155816078186,
+      "objective/train/docs_used": 91007,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.0053534507751465,
+      "objective/train/original_loss": 5.005353927612305,
+      "objective/train/theoretical_loss": 4.5558747052997965,
+      "objective/train/tokens_used": 161362400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24105681478977203,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498768091201782,
+      "objective/train/weighted_lm_loss": 5.255599498748779,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9540678262710571,
+      "theoretical_loss": 4.5558747052997965,
+      "tokens_seen": 140902400
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047956867196367767,
+      "loss": 5.6781,
+      "theoretical_loss": 4.553086935048029,
+      "tokens_seen": 141557760
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047937949300037836,
+      "loss": 5.7415,
+      "theoretical_loss": 4.5486606911917145,
+      "tokens_seen": 142606336
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047919031403707905,
+      "loss": 5.6154,
+      "theoretical_loss": 4.544275911283326,
+      "tokens_seen": 143654912
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4804496467113495,
+      "objective/train/docs_used": 93093,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.170466899871826,
+      "objective/train/original_loss": 5.170466423034668,
+      "objective/train/theoretical_loss": 4.542098855026559,
+      "objective/train/tokens_used": 164639200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2387777715921402,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492587089538574,
+      "objective/train/weighted_lm_loss": 5.424218654632568,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9516282677650452,
+      "theoretical_loss": 4.542098855026559,
+      "tokens_seen": 144179200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004790011350737798,
+      "loss": 5.6278,
+      "theoretical_loss": 4.539931908467359,
+      "tokens_seen": 144703488
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004788119561104805,
+      "loss": 5.656,
+      "theoretical_loss": 4.53562801213843,
+      "tokens_seen": 145752064
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047862277714718124,
+      "loss": 5.6628,
+      "theoretical_loss": 4.531363567443194,
+      "tokens_seen": 146800640
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4876106083393097,
+      "objective/train/docs_used": 95084,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.640732765197754,
+      "objective/train/original_loss": 5.640732288360596,
+      "objective/train/theoretical_loss": 4.5287180387305765,
+      "objective/train/tokens_used": 167916000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2436685711145401,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049999713897705,
+      "objective/train/weighted_lm_loss": 5.9231648445129395,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9515953063964844,
+      "theoretical_loss": 4.5287180387305765,
+      "tokens_seen": 147456000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047843359818388194,
+      "loss": 5.642,
+      "theoretical_loss": 4.527137934800969,
+      "tokens_seen": 147849216
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004782444192205827,
+      "loss": 5.5955,
+      "theoretical_loss": 4.522950489442225,
+      "tokens_seen": 148897792
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047805524025728343,
+      "loss": 5.5843,
+      "theoretical_loss": 4.518800620964164,
+      "tokens_seen": 149946368
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4914400279521942,
+      "objective/train/docs_used": 96518,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.291038513183594,
+      "objective/train/original_loss": 5.291038513183594,
+      "objective/train/theoretical_loss": 4.515712520110756,
+      "objective/train/tokens_used": 171192800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24376289546489716,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.05038321018219,
+      "objective/train/weighted_lm_loss": 5.557369709014893,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9825595021247864,
+      "theoretical_loss": 4.515712520110756,
+      "tokens_seen": 150732800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0004778660612939841,
+      "loss": 5.5918,
+      "theoretical_loss": 4.514687732902628,
+      "tokens_seen": 150994944
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047767688233068487,
+      "loss": 5.6056,
+      "theoretical_loss": 4.510611242319637,
+      "tokens_seen": 152043520
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00047748770336738557,
+      "loss": 5.6134,
+      "theoretical_loss": 4.506570579405888,
+      "tokens_seen": 153092096
+    },
+    {
+      "epoch": 0.05,
+      "objective/train/advantage_avg": 0.4901806712150574,
+      "objective/train/docs_used": 98118,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.289200782775879,
+      "objective/train/original_loss": 5.289201736450195,
+      "objective/train/theoretical_loss": 4.503063951009098,
+      "objective/train/tokens_used": 174469600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24192149937152863,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502479076385498,
+      "objective/train/weighted_lm_loss": 5.555331707000732,
+      "objective/train/weights_max": 1.0512194633483887,
+      "objective/train/weights_min": 0.9558950066566467,
+      "theoretical_loss": 4.503063951009098,
+      "tokens_seen": 154009600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047729852440408626,
+      "loss": 5.6166,
+      "theoretical_loss": 4.502565187097554,
+      "tokens_seen": 154140672
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000477109345440787,
+      "loss": 5.5655,
+      "theoretical_loss": 4.498594520706801,
+      "tokens_seen": 155189248
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004769201664774877,
+      "loss": 5.5982,
+      "theoretical_loss": 4.494658047565416,
+      "tokens_seen": 156237824
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.4884991943836212,
+      "objective/train/docs_used": 100657,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.095714569091797,
+      "objective/train/original_loss": 5.095714092254639,
+      "objective/train/theoretical_loss": 4.490755246681026,
+      "objective/train/tokens_used": 177746400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2406940460205078,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500733852386475,
+      "objective/train/weighted_lm_loss": 5.351465225219727,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9665477275848389,
+      "theoretical_loss": 4.490755246681026,
+      "tokens_seen": 157286400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004767309875141884,
+      "loss": 5.6162,
+      "theoretical_loss": 4.490755246681026,
+      "tokens_seen": 157286400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047654180855088914,
+      "loss": 5.5682,
+      "theoretical_loss": 4.48688560840535,
+      "tokens_seen": 158334976
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047635262958758983,
+      "loss": 5.5178,
+      "theoretical_loss": 4.483048634114016,
+      "tokens_seen": 159383552
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004761634506242906,
+      "loss": 5.5363,
+      "theoretical_loss": 4.479243835897444,
+      "tokens_seen": 160432128
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.48170924186706543,
+      "objective/train/docs_used": 101862,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.535853862762451,
+      "objective/train/original_loss": 5.535854339599609,
+      "objective/train/theoretical_loss": 4.478770474607726,
+      "objective/train/tokens_used": 181023200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23878274857997894,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049384593963623,
+      "objective/train/weighted_lm_loss": 5.808737754821777,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.9529873728752136,
+      "theoretical_loss": 4.478770474607726,
+      "tokens_seen": 160563200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047597427166099133,
+      "loss": 5.5977,
+      "theoretical_loss": 4.475470736262361,
+      "tokens_seen": 161480704
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000475785092697692,
+      "loss": 5.5844,
+      "theoretical_loss": 4.471728867843497,
+      "tokens_seen": 162529280
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047559591373439277,
+      "loss": 5.5151,
+      "theoretical_loss": 4.4680177731250765,
+      "tokens_seen": 163577856
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.47214475274086,
+      "objective/train/docs_used": 104000,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.165049076080322,
+      "objective/train/original_loss": 5.165048599243164,
+      "objective/train/theoretical_loss": 4.467094755136979,
+      "objective/train/tokens_used": 184300000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22914351522922516,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0483790636062622,
+      "objective/train/weighted_lm_loss": 5.412636756896973,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9813255667686462,
+      "theoretical_loss": 4.467094755136979,
+      "tokens_seen": 163840000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047540673477109346,
+      "loss": 5.4748,
+      "theoretical_loss": 4.464337004171679,
+      "tokens_seen": 164626432
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004752175558077942,
+      "loss": 5.4863,
+      "theoretical_loss": 4.460686122368132,
+      "tokens_seen": 165675008
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004750283768444949,
+      "loss": 5.5302,
+      "theoretical_loss": 4.457064698168051,
+      "tokens_seen": 166723584
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.4795248210430145,
+      "objective/train/docs_used": 106106,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.443030834197998,
+      "objective/train/original_loss": 5.443031311035156,
+      "objective/train/theoretical_loss": 4.455714172485305,
+      "objective/train/tokens_used": 187576800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23740240931510925,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491594076156616,
+      "objective/train/weighted_lm_loss": 5.712173938751221,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9545544385910034,
+      "theoretical_loss": 4.455714172485305,
+      "tokens_seen": 167116800
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004748391978811956,
+      "loss": 5.4637,
+      "theoretical_loss": 4.453472310850701,
+      "tokens_seen": 167772160
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047465001891789635,
+      "loss": 5.4558,
+      "theoretical_loss": 4.449908548285846,
+      "tokens_seen": 168820736
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047446083995459704,
+      "loss": 5.4025,
+      "theoretical_loss": 4.446373006706281,
+      "tokens_seen": 169869312
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.4749578535556793,
+      "objective/train/docs_used": 107805,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.134139060974121,
+      "objective/train/original_loss": 5.134139537811279,
+      "objective/train/theoretical_loss": 4.44461569484119,
+      "objective/train/tokens_used": 190853600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2378183901309967,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487042665481567,
+      "objective/train/weighted_lm_loss": 5.386655330657959,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9524388313293457,
+      "theoretical_loss": 4.44461569484119,
+      "tokens_seen": 170393600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047427166099129773,
+      "loss": 5.4333,
+      "theoretical_loss": 4.442865290487752,
+      "tokens_seen": 170917888
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004740824820279985,
+      "loss": 5.3058,
+      "theoretical_loss": 4.439385011935977,
+      "tokens_seen": 171966464
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004738933030646992,
+      "loss": 5.412,
+      "theoretical_loss": 4.435931791080489,
+      "tokens_seen": 173015040
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.4863138794898987,
+      "objective/train/docs_used": 109422,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.005147457122803,
+      "objective/train/original_loss": 5.005147933959961,
+      "objective/train/theoretical_loss": 4.433787102483406,
+      "objective/train/tokens_used": 194130400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24057146906852722,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049854040145874,
+      "objective/train/weighted_lm_loss": 5.255906105041504,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9543647170066833,
+      "theoretical_loss": 4.433787102483406,
+      "tokens_seen": 173670400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004737041241014,
+      "loss": 5.3846,
+      "theoretical_loss": 4.43250525547506,
+      "tokens_seen": 174063616
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047351494513810067,
+      "loss": 5.4827,
+      "theoretical_loss": 4.429105040004445,
+      "tokens_seen": 175112192
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047332576617480136,
+      "loss": 5.4385,
+      "theoretical_loss": 4.4257307866972155,
+      "tokens_seen": 176160768
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.474359929561615,
+      "objective/train/docs_used": 111276,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.441802024841309,
+      "objective/train/original_loss": 5.441802024841309,
+      "objective/train/theoretical_loss": 4.42321692297592,
+      "objective/train/tokens_used": 197407200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23385858535766602,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486245155334473,
+      "objective/train/weighted_lm_loss": 5.70626163482666,
+      "objective/train/weights_max": 1.051215410232544,
+      "objective/train/weights_min": 0.9550078511238098,
+      "theoretical_loss": 4.42321692297592,
+      "tokens_seen": 176947200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004731365872115021,
+      "loss": 5.5213,
+      "theoretical_loss": 4.422382144544446,
+      "tokens_seen": 177209344
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0004729474082482028,
+      "loss": 5.426,
+      "theoretical_loss": 4.419058769324055,
+      "tokens_seen": 178257920
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047275822928490355,
+      "loss": 5.4245,
+      "theoretical_loss": 4.415760323430568,
+      "tokens_seen": 179306496
+    },
+    {
+      "epoch": 0.06,
+      "objective/train/advantage_avg": 0.49394339323043823,
+      "objective/train/docs_used": 113383,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.963852882385254,
+      "objective/train/original_loss": 4.963852882385254,
+      "objective/train/theoretical_loss": 4.412894372625901,
+      "objective/train/tokens_used": 200684000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24598737061023712,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506449937820435,
+      "objective/train/weighted_lm_loss": 5.2148284912109375,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9575862288475037,
+      "theoretical_loss": 4.412894372625901,
+      "tokens_seen": 180224000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047256905032160425,
+      "loss": 5.4082,
+      "theoretical_loss": 4.412486475710132,
+      "tokens_seen": 180355072
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00047237987135830494,
+      "loss": 5.3975,
+      "theoretical_loss": 4.409236901300563,
+      "tokens_seen": 181403648
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004721906923950057,
+      "loss": 5.3623,
+      "theoretical_loss": 4.406011281476267,
+      "tokens_seen": 182452224
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.48171699047088623,
+      "objective/train/docs_used": 115260,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.099734306335449,
+      "objective/train/original_loss": 5.099733829498291,
+      "objective/train/theoretical_loss": 4.40280930349784,
+      "objective/train/tokens_used": 203960800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2392299622297287,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049387812614441,
+      "objective/train/weighted_lm_loss": 5.351738929748535,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9590397477149963,
+      "theoretical_loss": 4.40280930349784,
+      "tokens_seen": 183500800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004720015134317064,
+      "loss": 5.4224,
+      "theoretical_loss": 4.40280930349784,
+      "tokens_seen": 183500800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004718123344684071,
+      "loss": 5.4357,
+      "theoretical_loss": 4.3996306604662,
+      "tokens_seen": 184549376
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004716231555051078,
+      "loss": 5.431,
+      "theoretical_loss": 4.396475051181074,
+      "tokens_seen": 185597952
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00047143397654180857,
+      "loss": 5.3839,
+      "theoretical_loss": 4.393342180003689,
+      "tokens_seen": 186646528
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.4751421809196472,
+      "objective/train/docs_used": 117211,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.888144493103027,
+      "objective/train/original_loss": 4.888144493103027,
+      "objective/train/theoretical_loss": 4.392952155367621,
+      "objective/train/tokens_used": 207237600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24074752628803253,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487377643585205,
+      "objective/train/weighted_lm_loss": 5.126180648803711,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9516778588294983,
+      "theoretical_loss": 4.392952155367621,
+      "tokens_seen": 186777600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004712447975785093,
+      "loss": 5.3899,
+      "theoretical_loss": 4.390231756723523,
+      "tokens_seen": 187695104
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00047105561861521,
+      "loss": 5.3971,
+      "theoretical_loss": 4.387143496428978,
+      "tokens_seen": 188743680
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004708664396519107,
+      "loss": 5.4104,
+      "theoretical_loss": 4.384077119381821,
+      "tokens_seen": 189792256
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.4631696939468384,
+      "objective/train/docs_used": 119241,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.791223526000977,
+      "objective/train/original_loss": 4.791223526000977,
+      "objective/train/theoretical_loss": 4.383313912078293,
+      "objective/train/tokens_used": 210514400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23190495371818542,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474956035614014,
+      "objective/train/weighted_lm_loss": 5.014393329620361,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9541125297546387,
+      "theoretical_loss": 4.383313912078293,
+      "tokens_seen": 190054400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00047067726068861145,
+      "loss": 5.4451,
+      "theoretical_loss": 4.381032350895292,
+      "tokens_seen": 190840832
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00047048808172531214,
+      "loss": 5.3872,
+      "theoretical_loss": 4.378008921215717,
+      "tokens_seen": 191889408
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004702989027620129,
+      "loss": 5.3645,
+      "theoretical_loss": 4.375006565407541,
+      "tokens_seen": 192937984
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.4861815869808197,
+      "objective/train/docs_used": 121008,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.046594619750977,
+      "objective/train/original_loss": 5.046595096588135,
+      "objective/train/theoretical_loss": 4.373886061826036,
+      "objective/train/tokens_used": 213791200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2395814061164856,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498359203338623,
+      "objective/train/weighted_lm_loss": 5.298506259918213,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9604629278182983,
+      "theoretical_loss": 4.373886061826036,
+      "tokens_seen": 193331200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004701097237987136,
+      "loss": 5.3806,
+      "theoretical_loss": 4.372025023241637,
+      "tokens_seen": 193986560
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004699205448354143,
+      "loss": 5.4043,
+      "theoretical_loss": 4.3690640390867985,
+      "tokens_seen": 195035136
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000469731365872115,
+      "loss": 5.2706,
+      "theoretical_loss": 4.366123361804301,
+      "tokens_seen": 196083712
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.49126356840133667,
+      "objective/train/docs_used": 122985,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.289262771606445,
+      "objective/train/original_loss": 5.289262294769287,
+      "objective/train/theoretical_loss": 4.364660560962464,
+      "objective/train/tokens_used": 217068000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2440873384475708,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503672361373901,
+      "objective/train/weighted_lm_loss": 5.555089473724365,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9654108881950378,
+      "theoretical_loss": 4.364660560962464,
+      "tokens_seen": 196608000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004695421869088157,
+      "loss": 5.2876,
+      "theoretical_loss": 4.363202744645427,
+      "tokens_seen": 197132288
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046935300794551647,
+      "loss": 5.3211,
+      "theoretical_loss": 4.360301945151863,
+      "tokens_seen": 198180864
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004691638289822172,
+      "loss": 5.2849,
+      "theoretical_loss": 4.357420725058867,
+      "tokens_seen": 199229440
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.4830451011657715,
+      "objective/train/docs_used": 124865,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.945188522338867,
+      "objective/train/original_loss": 4.945188522338867,
+      "objective/train/theoretical_loss": 4.355629800949043,
+      "objective/train/tokens_used": 220344800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23967084288597107,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495227575302124,
+      "objective/train/weighted_lm_loss": 5.192099094390869,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.952029287815094,
+      "theoretical_loss": 4.355629800949043,
+      "tokens_seen": 199884800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004689746500189179,
+      "loss": 5.3328,
+      "theoretical_loss": 4.354558850201118,
+      "tokens_seen": 200278016
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046878547105561866,
+      "loss": 5.2951,
+      "theoretical_loss": 4.351716090421165,
+      "tokens_seen": 201326592
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046859629209231935,
+      "loss": 5.2508,
+      "theoretical_loss": 4.348892219480378,
+      "tokens_seen": 202375168
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.47592583298683167,
+      "objective/train/docs_used": 126478,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.113393783569336,
+      "objective/train/original_loss": 5.113393783569336,
+      "objective/train/theoretical_loss": 4.3467865781424315,
+      "objective/train/tokens_used": 223621600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24106524884700775,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04881751537323,
+      "objective/train/weighted_lm_loss": 5.362763404846191,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9515713453292847,
+      "theoretical_loss": 4.3467865781424315,
+      "tokens_seen": 203161600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046840711312902004,
+      "loss": 5.2435,
+      "theoretical_loss": 4.346087014972328,
+      "tokens_seen": 203423744
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004682179341657208,
+      "loss": 5.3514,
+      "theoretical_loss": 4.343300258238523,
+      "tokens_seen": 204472320
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004680287552024215,
+      "loss": 5.286,
+      "theoretical_loss": 4.34053173428641,
+      "tokens_seen": 205520896
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.4761151969432831,
+      "objective/train/docs_used": 128257,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.176480770111084,
+      "objective/train/original_loss": 5.176480770111084,
+      "objective/train/theoretical_loss": 4.33812406612692,
+      "objective/train/tokens_used": 226898400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2329566329717636,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048795461654663,
+      "objective/train/weighted_lm_loss": 5.43222713470459,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9516546130180359,
+      "theoretical_loss": 4.33812406612692,
+      "tokens_seen": 206438400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046783957623912223,
+      "loss": 5.3401,
+      "theoretical_loss": 4.337781231709587,
+      "tokens_seen": 206569472
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004676503972758229,
+      "loss": 5.3552,
+      "theoretical_loss": 4.3350485426101395,
+      "tokens_seen": 207618048
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0004674612183125236,
+      "loss": 5.2876,
+      "theoretical_loss": 4.332333462523044,
+      "tokens_seen": 208666624
+    },
+    {
+      "epoch": 0.07,
+      "objective/train/advantage_avg": 0.48480576276779175,
+      "objective/train/docs_used": 130307,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.197201728820801,
+      "objective/train/original_loss": 5.197201728820801,
+      "objective/train/theoretical_loss": 4.3296357903425715,
+      "objective/train/tokens_used": 230175200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.240909144282341,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049705147743225,
+      "objective/train/weighted_lm_loss": 5.455105781555176,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9520548582077026,
+      "theoretical_loss": 4.3296357903425715,
+      "tokens_seen": 209715200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00046727203934922437,
+      "loss": 5.273,
+      "theoretical_loss": 4.3296357903425715,
+      "tokens_seen": 209715200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046708286038592506,
+      "loss": 5.3009,
+      "theoretical_loss": 4.326955328250631,
+      "tokens_seen": 210763776
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046689368142262586,
+      "loss": 5.1924,
+      "theoretical_loss": 4.324291881646978,
+      "tokens_seen": 211812352
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046670450245932656,
+      "loss": 5.2265,
+      "theoretical_loss": 4.321645259081256,
+      "tokens_seen": 212860928
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.48363375663757324,
+      "objective/train/docs_used": 132385,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.02983283996582,
+      "objective/train/original_loss": 5.02983283996582,
+      "objective/train/theoretical_loss": 4.321315604786012,
+      "objective/train/tokens_used": 233452000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23789982497692108,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495727062225342,
+      "objective/train/weighted_lm_loss": 5.278566360473633,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9722732901573181,
+      "theoretical_loss": 4.321315604786012,
+      "tokens_seen": 212992000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046651532349602725,
+      "loss": 5.2079,
+      "theoretical_loss": 4.3190152721867925,
+      "tokens_seen": 213909504
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000466326144532728,
+      "loss": 5.2469,
+      "theoretical_loss": 4.3164017356160995,
+      "tokens_seen": 214958080
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004661369655694287,
+      "loss": 5.1772,
+      "theoretical_loss": 4.313804466978039,
+      "tokens_seen": 216006656
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.48313969373703003,
+      "objective/train/docs_used": 133646,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.160606861114502,
+      "objective/train/original_loss": 5.160606384277344,
+      "objective/train/theoretical_loss": 4.313157670585552,
+      "objective/train/tokens_used": 236728800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2380112111568451,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495237112045288,
+      "objective/train/weighted_lm_loss": 5.417488098144531,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9516239166259766,
+      "theoretical_loss": 4.313157670585552,
+      "tokens_seen": 216268800
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004659477866061294,
+      "loss": 5.2124,
+      "theoretical_loss": 4.311223286776586,
+      "tokens_seen": 217055232
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046575860764283013,
+      "loss": 5.292,
+      "theoretical_loss": 4.3086580183511565,
+      "tokens_seen": 218103808
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004655694286795308,
+      "loss": 5.2061,
+      "theoretical_loss": 4.306108487818438,
+      "tokens_seen": 219152384
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.48529815673828125,
+      "objective/train/docs_used": 136163,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.18554162979126,
+      "objective/train/original_loss": 5.18554162979126,
+      "objective/train/theoretical_loss": 4.305156436273988,
+      "objective/train/tokens_used": 240005600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24352312088012695,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497677326202393,
+      "objective/train/weighted_lm_loss": 5.44387149810791,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9514811038970947,
+      "theoretical_loss": 4.305156436273988,
+      "tokens_seen": 219545600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046538024971623157,
+      "loss": 5.2285,
+      "theoretical_loss": 4.3035745240156915,
+      "tokens_seen": 220200960
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046519107075293227,
+      "loss": 5.2309,
+      "theoretical_loss": 4.301055958445467,
+      "tokens_seen": 221249536
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046500189178963296,
+      "loss": 5.2038,
+      "theoretical_loss": 4.2985526252217054,
+      "tokens_seen": 222298112
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.4832799434661865,
+      "objective/train/docs_used": 137875,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.737259864807129,
+      "objective/train/original_loss": 4.737259387969971,
+      "objective/train/theoretical_loss": 4.297306619601446,
+      "objective/train/tokens_used": 243282400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23784860968589783,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049536943435669,
+      "objective/train/weighted_lm_loss": 4.9707770347595215,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9518852829933167,
+      "theoretical_loss": 4.297306619601446,
+      "tokens_seen": 222822400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004648127128263337,
+      "loss": 5.2808,
+      "theoretical_loss": 4.296064361017181,
+      "tokens_seen": 223346688
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046462353386303445,
+      "loss": 5.2182,
+      "theoretical_loss": 4.293591005012228,
+      "tokens_seen": 224395264
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004644343548997352,
+      "loss": 5.2337,
+      "theoretical_loss": 4.291132398844749,
+      "tokens_seen": 225443840
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.4908119738101959,
+      "objective/train/docs_used": 139547,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.02741003036499,
+      "objective/train/original_loss": 5.027409553527832,
+      "objective/train/theoretical_loss": 4.289603190747359,
+      "objective/train/tokens_used": 246559200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24388805031776428,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503208637237549,
+      "objective/train/weighted_lm_loss": 5.2804741859436035,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.951794445514679,
+      "theoretical_loss": 4.289603190747359,
+      "tokens_seen": 226099200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004642451759364359,
+      "loss": 5.2597,
+      "theoretical_loss": 4.2886883865614305,
+      "tokens_seen": 226492416
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004640559969731366,
+      "loss": 5.2596,
+      "theoretical_loss": 4.286258814570154,
+      "tokens_seen": 227540992
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046386681800983734,
+      "loss": 5.287,
+      "theoretical_loss": 4.283843531593567,
+      "tokens_seen": 228589568
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.4877687394618988,
+      "objective/train/docs_used": 141330,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.088724136352539,
+      "objective/train/original_loss": 5.088723182678223,
+      "objective/train/theoretical_loss": 4.282041356805376,
+      "objective/train/tokens_used": 249836000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24049794673919678,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049999475479126,
+      "objective/train/weighted_lm_loss": 5.342431545257568,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9596543908119202,
+      "theoretical_loss": 4.282041356805376,
+      "tokens_seen": 229376000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046367763904653803,
+      "loss": 5.2102,
+      "theoretical_loss": 4.281442388623764,
+      "tokens_seen": 229638144
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004634884600832387,
+      "loss": 5.1973,
+      "theoretical_loss": 4.279055238878065,
+      "tokens_seen": 230686720
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046329928111993947,
+      "loss": 5.1969,
+      "theoretical_loss": 4.276681937755853,
+      "tokens_seen": 231735296
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.4821692407131195,
+      "objective/train/docs_used": 143449,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.025097370147705,
+      "objective/train/original_loss": 5.025097846984863,
+      "objective/train/theoretical_loss": 4.274616547428058,
+      "objective/train/tokens_used": 253112800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23833133280277252,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494284629821777,
+      "objective/train/weighted_lm_loss": 5.27445125579834,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9557837247848511,
+      "theoretical_loss": 4.274616547428058,
+      "tokens_seen": 232652800
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00046311010215664016,
+      "loss": 5.242,
+      "theoretical_loss": 4.274322342796429,
+      "tokens_seen": 232783872
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004629209231933409,
+      "loss": 5.2641,
+      "theoretical_loss": 4.271976313637885,
+      "tokens_seen": 233832448
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004627317442300416,
+      "loss": 5.1358,
+      "theoretical_loss": 4.269643711976926,
+      "tokens_seen": 234881024
+    },
+    {
+      "epoch": 0.08,
+      "objective/train/advantage_avg": 0.46489331126213074,
+      "objective/train/docs_used": 144727,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.503349781036377,
+      "objective/train/original_loss": 4.503350257873535,
+      "objective/train/theoretical_loss": 4.267324401529657,
+      "objective/train/tokens_used": 256389600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22985953092575073,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0476576089859009,
+      "objective/train/weighted_lm_loss": 4.7209906578063965,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9633262157440186,
+      "theoretical_loss": 4.267324401529657,
+      "tokens_seen": 235929600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004625425652667423,
+      "loss": 5.1814,
+      "theoretical_loss": 4.267324401529657,
+      "tokens_seen": 235929600
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0004623533863034431,
+      "loss": 5.1582,
+      "theoretical_loss": 4.265018247993272,
+      "tokens_seen": 236978176
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004621642073401438,
+      "loss": 5.133,
+      "theoretical_loss": 4.262725119008646,
+      "tokens_seen": 238026752
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046197502837684454,
+      "loss": 5.17,
+      "theoretical_loss": 4.260444884123785,
+      "tokens_seen": 239075328
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.48313987255096436,
+      "objective/train/docs_used": 146731,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.778027534484863,
+      "objective/train/original_loss": 4.778027534484863,
+      "objective/train/theoretical_loss": 4.260160754955504,
+      "objective/train/tokens_used": 259666400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24219833314418793,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495449304580688,
+      "objective/train/weighted_lm_loss": 5.0156965255737305,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9516287446022034,
+      "theoretical_loss": 4.260160754955504,
+      "tokens_seen": 239206400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046178584941354524,
+      "loss": 5.1438,
+      "theoretical_loss": 4.258177414758135,
+      "tokens_seen": 240123904
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046159667045024593,
+      "loss": 5.2066,
+      "theoretical_loss": 4.25592258416769,
+      "tokens_seen": 241172480
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004614074914869467,
+      "loss": 5.1412,
+      "theoretical_loss": 4.253680267410921,
+      "tokens_seen": 242221056
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.48830899596214294,
+      "objective/train/docs_used": 148718,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.019001483917236,
+      "objective/train/original_loss": 5.019001007080078,
+      "objective/train/theoretical_loss": 4.253121629035574,
+      "objective/train/tokens_used": 262943200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2425418645143509,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500637292861938,
+      "objective/train/weighted_lm_loss": 5.270970344543457,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9595874547958374,
+      "theoretical_loss": 4.253121629035574,
+      "tokens_seen": 242483200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046121831252364737,
+      "loss": 5.2042,
+      "theoretical_loss": 4.251450341315464,
+      "tokens_seen": 243269632
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046102913356034806,
+      "loss": 5.1482,
+      "theoretical_loss": 4.249232684445579,
+      "tokens_seen": 244318208
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004608399545970488,
+      "loss": 5.1712,
+      "theoretical_loss": 4.247027177070329,
+      "tokens_seen": 245366784
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.4830223023891449,
+      "objective/train/docs_used": 150524,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.851802825927734,
+      "objective/train/original_loss": 4.851802825927734,
+      "objective/train/theoretical_loss": 4.246203219947814,
+      "objective/train/tokens_used": 266220000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24083028733730316,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049526333808899,
+      "objective/train/weighted_lm_loss": 5.092092990875244,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9516807198524475,
+      "theoretical_loss": 4.246203219947814,
+      "tokens_seen": 245760000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004606507756337495,
+      "loss": 5.1937,
+      "theoretical_loss": 4.24483370113249,
+      "tokens_seen": 246415360
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046046159667045025,
+      "loss": 5.1309,
+      "theoretical_loss": 4.242652140218147,
+      "tokens_seen": 247463936
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00046027241770715095,
+      "loss": 5.1674,
+      "theoretical_loss": 4.240482379526973,
+      "tokens_seen": 248512512
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.48063239455223083,
+      "objective/train/docs_used": 152460,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.242099761962891,
+      "objective/train/original_loss": 5.242099285125732,
+      "objective/train/theoretical_loss": 4.2394018888240215,
+      "objective/train/tokens_used": 269496800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23866912722587585,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492764711380005,
+      "objective/train/weighted_lm_loss": 5.502182483673096,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9536293148994446,
+      "theoretical_loss": 4.2394018888240215,
+      "tokens_seen": 249036800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004600832387438517,
+      "loss": 5.155,
+      "theoretical_loss": 4.2383243058431646,
+      "tokens_seen": 249561088
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045989405978055244,
+      "loss": 5.1044,
+      "theoretical_loss": 4.23617780750703,
+      "tokens_seen": 250609664
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045970488081725313,
+      "loss": 5.1227,
+      "theoretical_loss": 4.23404277438719,
+      "tokens_seen": 251658240
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.4906507432460785,
+      "objective/train/docs_used": 154232,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.827680587768555,
+      "objective/train/original_loss": 4.827680587768555,
+      "objective/train/theoretical_loss": 4.232714152537391,
+      "objective/train/tokens_used": 272773600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24195529520511627,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502949953079224,
+      "objective/train/weighted_lm_loss": 5.070379257202148,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9697064161300659,
+      "theoretical_loss": 4.232714152537391,
+      "tokens_seen": 252313600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004595157018539539,
+      "loss": 5.0412,
+      "theoretical_loss": 4.231919097853398,
+      "tokens_seen": 252706816
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004593265228906546,
+      "loss": 5.0234,
+      "theoretical_loss": 4.2298066707499515,
+      "tokens_seen": 253755392
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045913734392735527,
+      "loss": 5.1059,
+      "theoretical_loss": 4.227705387369683,
+      "tokens_seen": 254803968
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.48569464683532715,
+      "objective/train/docs_used": 156109,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.89478063583374,
+      "objective/train/original_loss": 4.894780158996582,
+      "objective/train/theoretical_loss": 4.226136675116626,
+      "objective/train/tokens_used": 276050400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24085675179958344,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497938394546509,
+      "objective/train/weighted_lm_loss": 5.138565540313721,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9536014795303345,
+      "theoretical_loss": 4.226136675116626,
+      "tokens_seen": 255590400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.000458948164964056,
+      "loss": 5.1322,
+      "theoretical_loss": 4.225615143428513,
+      "tokens_seen": 255852544
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004587589860007567,
+      "loss": 5.0152,
+      "theoretical_loss": 4.223535836040548,
+      "tokens_seen": 256901120
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045856980703745746,
+      "loss": 5.0449,
+      "theoretical_loss": 4.221467363693727,
+      "tokens_seen": 257949696
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.4772140085697174,
+      "objective/train/docs_used": 158136,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.774804592132568,
+      "objective/train/original_loss": 4.774805068969727,
+      "objective/train/theoretical_loss": 4.219666259736535,
+      "objective/train/tokens_used": 279327200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2351672351360321,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489166975021362,
+      "objective/train/weighted_lm_loss": 5.007704257965088,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9616609215736389,
+      "theoretical_loss": 4.219666259736535,
+      "tokens_seen": 258867200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045838062807415815,
+      "loss": 4.8683,
+      "theoretical_loss": 4.219409626225975,
+      "tokens_seen": 258998272
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045819144911085884,
+      "loss": 5.0815,
+      "theoretical_loss": 4.217362524801874,
+      "tokens_seen": 260046848
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004580022701475596,
+      "loss": 5.0467,
+      "theoretical_loss": 4.215325961889821,
+      "tokens_seen": 261095424
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.47997015714645386,
+      "objective/train/docs_used": 160243,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.758581161499023,
+      "objective/train/original_loss": 4.758580684661865,
+      "objective/train/theoretical_loss": 4.213299841239684,
+      "objective/train/tokens_used": 282604000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2388996034860611,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492112636566162,
+      "objective/train/weighted_lm_loss": 4.9929280281066895,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9515440464019775,
+      "theoretical_loss": 4.213299841239684,
+      "tokens_seen": 262144000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045781309118426034,
+      "loss": 4.9857,
+      "theoretical_loss": 4.213299841239684,
+      "tokens_seen": 262144000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00045762391222096103,
+      "loss": 4.9844,
+      "theoretical_loss": 4.211284067860909,
+      "tokens_seen": 263192576
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004574347332576618,
+      "loss": 4.9032,
+      "theoretical_loss": 4.209278548001103,
+      "tokens_seen": 264241152
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0004572455542943625,
+      "loss": 4.9459,
+      "theoretical_loss": 4.207283189125054,
+      "tokens_seen": 265289728
+    },
+    {
+      "epoch": 0.09,
+      "objective/train/advantage_avg": 0.4564594626426697,
+      "objective/train/docs_used": 161560,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.229607582092285,
+      "objective/train/original_loss": 4.229607582092285,
+      "objective/train/theoretical_loss": 4.20703447914773,
+      "objective/train/tokens_used": 285880800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24206334352493286,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.046875238418579,
+      "objective/train/weighted_lm_loss": 4.431016445159912,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9516088366508484,
+      "theoretical_loss": 4.20703447914773,
+      "tokens_seen": 265420800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004570563753310632,
+      "loss": 4.9257,
+      "theoretical_loss": 4.2052978998941954,
+      "tokens_seen": 266338304
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004568671963677639,
+      "loss": 4.9745,
+      "theoretical_loss": 4.203322590146491,
+      "tokens_seen": 267386880
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004566780174044646,
+      "loss": 4.8664,
+      "theoretical_loss": 4.2013571708767365,
+      "tokens_seen": 268435456
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.47331157326698303,
+      "objective/train/docs_used": 163521,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.584531307220459,
+      "objective/train/original_loss": 4.584530830383301,
+      "objective/train/theoretical_loss": 4.200867351124762,
+      "objective/train/tokens_used": 289157600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23217462003231049,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485113859176636,
+      "objective/train/weighted_lm_loss": 4.808891773223877,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9518424868583679,
+      "theoretical_loss": 4.200867351124762,
+      "tokens_seen": 268697600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045648883844116536,
+      "loss": 4.873,
+      "theoretical_loss": 4.199401554217266,
+      "tokens_seen": 269484032
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045629965947786605,
+      "loss": 4.9196,
+      "theoretical_loss": 4.19745565341906,
+      "tokens_seen": 270532608
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004561104805145668,
+      "loss": 4.8289,
+      "theoretical_loss": 4.195519382833226,
+      "tokens_seen": 271581184
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.47363853454589844,
+      "objective/train/docs_used": 165284,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.5816330909729,
+      "objective/train/original_loss": 4.5816330909729,
+      "objective/train/theoretical_loss": 4.194795746858309,
+      "objective/train/tokens_used": 292434400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2301483005285263,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485334396362305,
+      "objective/train/weighted_lm_loss": 4.80542516708374,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.955842137336731,
+      "theoretical_loss": 4.194795746858309,
+      "tokens_seen": 271974400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004559213015512675,
+      "loss": 4.8413,
+      "theoretical_loss": 4.193592657892869,
+      "tokens_seen": 272629760
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004557321225879682,
+      "loss": 4.9962,
+      "theoretical_loss": 4.191675395095324,
+      "tokens_seen": 273678336
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000455542943624669,
+      "loss": 4.9632,
+      "theoretical_loss": 4.189767511984741,
+      "tokens_seen": 274726912
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.4624802768230438,
+      "objective/train/docs_used": 166979,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.361681938171387,
+      "objective/train/original_loss": 4.36168098449707,
+      "objective/train/theoretical_loss": 4.188817062326644,
+      "objective/train/tokens_used": 295711200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.244588240981102,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474902391433716,
+      "objective/train/weighted_lm_loss": 4.574804306030273,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9531933069229126,
+      "theoretical_loss": 4.188817062326644,
+      "tokens_seen": 275251200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004553537646613697,
+      "loss": 5.0148,
+      "theoretical_loss": 4.187868927135035,
+      "tokens_seen": 275775488
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004551645856980704,
+      "loss": 4.896,
+      "theoretical_loss": 4.185979560133161,
+      "tokens_seen": 276824064
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004549754067347711,
+      "loss": 5.0797,
+      "theoretical_loss": 4.184099331562732,
+      "tokens_seen": 277872640
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.480182021856308,
+      "objective/train/docs_used": 168865,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 5.012778282165527,
+      "objective/train/original_loss": 5.012779235839844,
+      "objective/train/theoretical_loss": 4.182928794423724,
+      "objective/train/tokens_used": 298988000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23854205012321472,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049230694770813,
+      "objective/train/weighted_lm_loss": 5.2581329345703125,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9522960782051086,
+      "theoretical_loss": 4.182928794423724,
+      "tokens_seen": 278528000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004547862277714718,
+      "loss": 4.9065,
+      "theoretical_loss": 4.182228162987963,
+      "tokens_seen": 278921216
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045459704880817256,
+      "loss": 4.902,
+      "theoretical_loss": 4.18036597693793,
+      "tokens_seen": 279969792
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045440786984487326,
+      "loss": 4.9617,
+      "theoretical_loss": 4.178512696891136,
+      "tokens_seen": 281018368
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.4830773174762726,
+      "objective/train/docs_used": 170536,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.846111297607422,
+      "objective/train/original_loss": 4.846111297607422,
+      "objective/train/theoretical_loss": 4.177128535915539,
+      "objective/train/tokens_used": 302264800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24183543026447296,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049536943435669,
+      "objective/train/weighted_lm_loss": 5.087429523468018,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9517684578895569,
+      "theoretical_loss": 4.177128535915539,
+      "tokens_seen": 281804800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045421869088157395,
+      "loss": 4.9619,
+      "theoretical_loss": 4.176668247260391,
+      "tokens_seen": 282066944
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004540295119182747,
+      "loss": 4.9715,
+      "theoretical_loss": 4.174832553377978,
+      "tokens_seen": 283115520
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004538403329549754,
+      "loss": 5.0139,
+      "theoretical_loss": 4.173005541481111,
+      "tokens_seen": 284164096
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.4926310181617737,
+      "objective/train/docs_used": 172212,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.892210483551025,
+      "objective/train/original_loss": 4.892210006713867,
+      "objective/train/theoretical_loss": 4.171413970703851,
+      "objective/train/tokens_used": 305541600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24494759738445282,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505083799362183,
+      "objective/train/weighted_lm_loss": 5.139614105224609,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9525986909866333,
+      "theoretical_loss": 4.171413970703851,
+      "tokens_seen": 285081600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045365115399167614,
+      "loss": 4.9594,
+      "theoretical_loss": 4.1711871386976815,
+      "tokens_seen": 285212672
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045346197502837683,
+      "loss": 4.9551,
+      "theoretical_loss": 4.16937727303227,
+      "tokens_seen": 286261248
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004532727960650776,
+      "loss": 4.9784,
+      "theoretical_loss": 4.167575873352437,
+      "tokens_seen": 287309824
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.49215155839920044,
+      "objective/train/docs_used": 173965,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.988898754119873,
+      "objective/train/original_loss": 4.988898277282715,
+      "objective/train/theoretical_loss": 4.165782869375278,
+      "objective/train/tokens_used": 308818400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.244205504655838,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504565238952637,
+      "objective/train/weighted_lm_loss": 5.240926265716553,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.956809401512146,
+      "theoretical_loss": 4.165782869375278,
+      "tokens_seen": 288358400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004530836171017783,
+      "loss": 4.9721,
+      "theoretical_loss": 4.165782869375278,
+      "tokens_seen": 288358400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000452894438138479,
+      "loss": 4.9523,
+      "theoretical_loss": 4.163998191654223,
+      "tokens_seen": 289406976
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004527052591751797,
+      "loss": 4.9486,
+      "theoretical_loss": 4.162221771566105,
+      "tokens_seen": 290455552
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045251608021188046,
+      "loss": 4.9565,
+      "theoretical_loss": 4.160453541298465,
+      "tokens_seen": 291504128
+    },
+    {
+      "epoch": 0.1,
+      "objective/train/advantage_avg": 0.48595374822616577,
+      "objective/train/docs_used": 176091,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.911673069000244,
+      "objective/train/original_loss": 4.911673069000244,
+      "objective/train/theoretical_loss": 4.160233085015529,
+      "objective/train/tokens_used": 312095200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2406431883573532,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498186349868774,
+      "objective/train/weighted_lm_loss": 5.156929969787598,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9550408124923706,
+      "theoretical_loss": 4.160233085015529,
+      "tokens_seen": 291635200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00045232690124858115,
+      "loss": 4.9944,
+      "theoretical_loss": 4.158693433837098,
+      "tokens_seen": 292552704
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0004521377222852819,
+      "loss": 4.9663,
+      "theoretical_loss": 4.156941382953835,
+      "tokens_seen": 293601280
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004519485433219826,
+      "loss": 4.899,
+      "theoretical_loss": 4.155197323194555,
+      "tokens_seen": 294649856
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4910581409931183,
+      "objective/train/docs_used": 178137,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.6035237312316895,
+      "objective/train/original_loss": 4.603524208068848,
+      "objective/train/theoretical_loss": 4.154762549270199,
+      "objective/train/tokens_used": 315372000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24331238865852356,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503426790237427,
+      "objective/train/weighted_lm_loss": 4.835586071014404,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9553537964820862,
+      "theoretical_loss": 4.154762549270199,
+      "tokens_seen": 294912000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004517593643586833,
+      "loss": 4.9008,
+      "theoretical_loss": 4.153461189867425,
+      "tokens_seen": 295698432
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00045157018539538404,
+      "loss": 4.9441,
+      "theoretical_loss": 4.151732919031354,
+      "tokens_seen": 296747008
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00045138100643208473,
+      "loss": 4.9052,
+      "theoretical_loss": 4.150012447484665,
+      "tokens_seen": 297795584
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4841580390930176,
+      "objective/train/docs_used": 180121,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.756556034088135,
+      "objective/train/original_loss": 4.756556510925293,
+      "objective/train/theoretical_loss": 4.149369268635046,
+      "objective/train/tokens_used": 318648800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24232666194438934,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496474504470825,
+      "objective/train/weighted_lm_loss": 4.992458820343018,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9520720839500427,
+      "theoretical_loss": 4.149369268635046,
+      "tokens_seen": 298188800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004511918274687855,
+      "loss": 4.8953,
+      "theoretical_loss": 4.148299712753977,
+      "tokens_seen": 298844160
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004510026485054862,
+      "loss": 4.8506,
+      "theoretical_loss": 4.146594653083293,
+      "tokens_seen": 299892736
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004508134695421869,
+      "loss": 4.9196,
+      "theoretical_loss": 4.144897207423284,
+      "tokens_seen": 300941312
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4888658821582794,
+      "objective/train/docs_used": 182298,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.590531349182129,
+      "objective/train/original_loss": 4.590531349182129,
+      "objective/train/theoretical_loss": 4.144051320960009,
+      "objective/train/tokens_used": 321925600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2443903088569641,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501290559768677,
+      "objective/train/weighted_lm_loss": 4.820474624633789,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9515647888183594,
+      "theoretical_loss": 4.144051320960009,
+      "tokens_seen": 301465600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00045062429057888767,
+      "loss": 4.8532,
+      "theoretical_loss": 4.143207315420783,
+      "tokens_seen": 301989888
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00045043511161558836,
+      "loss": 4.7713,
+      "theoretical_loss": 4.141524917408454,
+      "tokens_seen": 303038464
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004502459326522891,
+      "loss": 4.8744,
+      "theoretical_loss": 4.1398499543946565,
+      "tokens_seen": 304087040
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.48735523223876953,
+      "objective/train/docs_used": 183436,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.56964635848999,
+      "objective/train/original_loss": 4.569646835327148,
+      "objective/train/theoretical_loss": 4.138806852152502,
+      "objective/train/tokens_used": 325202400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2419733703136444,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049965500831604,
+      "objective/train/weighted_lm_loss": 4.798412799835205,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9514796137809753,
+      "theoretical_loss": 4.138806852152502,
+      "tokens_seen": 304742400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004500567536889898,
+      "loss": 4.8162,
+      "theoretical_loss": 4.138182368053505,
+      "tokens_seen": 305135616
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004498675747256905,
+      "loss": 4.774,
+      "theoretical_loss": 4.136522100715087,
+      "tokens_seen": 306184192
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044967839576239124,
+      "loss": 4.7775,
+      "theoretical_loss": 4.134869095355876,
+      "tokens_seen": 307232768
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4952714741230011,
+      "objective/train/docs_used": 185431,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.745488166809082,
+      "objective/train/original_loss": 4.745488166809082,
+      "objective/train/theoretical_loss": 4.133634073066595,
+      "objective/train/tokens_used": 328479200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2461199015378952,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0507783889770508,
+      "objective/train/weighted_lm_loss": 4.98633337020874,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9608399868011475,
+      "theoretical_loss": 4.133634073066595,
+      "tokens_seen": 308019200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044948921679909194,
+      "loss": 4.852,
+      "theoretical_loss": 4.1332232955893105,
+      "tokens_seen": 308281344
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044930003783579263,
+      "loss": 4.8169,
+      "theoretical_loss": 4.131584645656535,
+      "tokens_seen": 309329920
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004491108588724934,
+      "loss": 4.7574,
+      "theoretical_loss": 4.129953090417319,
+      "tokens_seen": 310378496
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4933873116970062,
+      "objective/train/docs_used": 187155,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.723814010620117,
+      "objective/train/original_loss": 4.723814010620117,
+      "objective/train/theoretical_loss": 4.128531256565763,
+      "objective/train/tokens_used": 331756000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24465975165367126,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505824089050293,
+      "objective/train/weighted_lm_loss": 4.962899684906006,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9555627107620239,
+      "theoretical_loss": 4.128531256565763,
+      "tokens_seen": 311296000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044892167990919407,
+      "loss": 4.7497,
+      "theoretical_loss": 4.128328575341129,
+      "tokens_seen": 311427072
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044873250094589487,
+      "loss": 4.7832,
+      "theoretical_loss": 4.12671104649836,
+      "tokens_seen": 312475648
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044854332198259557,
+      "loss": 4.7443,
+      "theoretical_loss": 4.125100450551725,
+      "tokens_seen": 313524224
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4791731834411621,
+      "objective/train/docs_used": 189293,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.741052150726318,
+      "objective/train/original_loss": 4.741052150726318,
+      "objective/train/theoretical_loss": 4.123496734747793,
+      "objective/train/tokens_used": 335032800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24330000579357147,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491536855697632,
+      "objective/train/weighted_lm_loss": 4.974308967590332,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9513964653015137,
+      "theoretical_loss": 4.123496734747793,
+      "tokens_seen": 314572800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044835414301929626,
+      "loss": 4.7864,
+      "theoretical_loss": 4.123496734747793,
+      "tokens_seen": 314572800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.000448164964055997,
+      "loss": 4.766,
+      "theoretical_loss": 4.121899846908677,
+      "tokens_seen": 315621376
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004479757850926977,
+      "loss": 4.7524,
+      "theoretical_loss": 4.120309735423871,
+      "tokens_seen": 316669952
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044778660612939845,
+      "loss": 4.7824,
+      "theoretical_loss": 4.118726349242221,
+      "tokens_seen": 317718528
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.48897671699523926,
+      "objective/train/docs_used": 191279,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.168673992156982,
+      "objective/train/original_loss": 4.168674468994141,
+      "objective/train/theoretical_loss": 4.118528896321316,
+      "objective/train/tokens_used": 338309600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24297229945659637,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501326322555542,
+      "objective/train/weighted_lm_loss": 4.377741813659668,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9516782164573669,
+      "theoretical_loss": 4.118528896321316,
+      "tokens_seen": 317849600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044759742716609914,
+      "loss": 4.7589,
+      "theoretical_loss": 4.117149637864041,
+      "tokens_seen": 318767104
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00044740824820279983,
+      "loss": 4.7901,
+      "theoretical_loss": 4.115579551333372,
+      "tokens_seen": 319815680
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004472190692395006,
+      "loss": 4.8469,
+      "theoretical_loss": 4.114016040230357,
+      "tokens_seen": 320864256
+    },
+    {
+      "epoch": 0.11,
+      "objective/train/advantage_avg": 0.4896620512008667,
+      "objective/train/docs_used": 193378,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6810662746429443,
+      "objective/train/original_loss": 3.6810660362243652,
+      "objective/train/theoretical_loss": 4.113626184124224,
+      "objective/train/tokens_used": 341586400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2405911087989807,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501891374588013,
+      "objective/train/weighted_lm_loss": 3.866628646850586,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9788739681243896,
+      "theoretical_loss": 4.113626184124224,
+      "tokens_seen": 321126400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0004470298902762013,
+      "loss": 4.7207,
+      "theoretical_loss": 4.112459055663768,
+      "tokens_seen": 321912832
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044684071131290197,
+      "loss": 4.8422,
+      "theoretical_loss": 4.110908549263647,
+      "tokens_seen": 322961408
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004466515323496027,
+      "loss": 4.7674,
+      "theoretical_loss": 4.109364473174075,
+      "tokens_seen": 324009984
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.4944951832294464,
+      "objective/train/docs_used": 195243,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.5325846672058105,
+      "objective/train/original_loss": 4.532584190368652,
+      "objective/train/theoretical_loss": 4.108787092774909,
+      "objective/train/tokens_used": 344863200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.246404230594635,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0507020950317383,
+      "objective/train/weighted_lm_loss": 4.762205600738525,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9522090554237366,
+      "theoretical_loss": 4.108787092774909,
+      "tokens_seen": 324403200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044646235338630346,
+      "loss": 4.8064,
+      "theoretical_loss": 4.107826780046074,
+      "tokens_seen": 325058560
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004462731744230042,
+      "loss": 4.8592,
+      "theoretical_loss": 4.106295423030614,
+      "tokens_seen": 326107136
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004460839954597049,
+      "loss": 4.8731,
+      "theoretical_loss": 4.104770355771754,
+      "tokens_seen": 327155712
+    },
+    {
+      "debugging/Self-BLEU-5": 0.5365128506817183,
+      "debugging/distinct-1-grams": 0.7612814402327299,
+      "debugging/distinct-2-grams": 0.9694583753853511,
+      "debugging/entropy-1-grams": 6.003629944255698,
+      "debugging/entropy-2-grams": 7.054987089269872,
+      "debugging/length": 495.25,
+      "debugging/num_segments": 16,
+      "debugging/raw_token_scores_avg": 0.04385810345411301,
+      "debugging/raw_token_scores_std": 0.15687797963619232,
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.45616579055786133,
+      "objective/train/docs_used": 197327,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.436026573181152,
+      "objective/train/original_loss": 4.436026573181152,
+      "objective/train/theoretical_loss": 4.10401016644798,
+      "objective/train/tokens_used": 348140000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23268143832683563,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.046798825263977,
+      "objective/train/weighted_lm_loss": 4.649384498596191,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9514419436454773,
+      "theoretical_loss": 4.10401016644798,
+      "tokens_seen": 327680000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004458948164964056,
+      "loss": 4.7522,
+      "theoretical_loss": 4.103251532399884,
+      "tokens_seen": 328204288
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044570563753310635,
+      "loss": 4.8371,
+      "theoretical_loss": 4.101738907525098,
+      "tokens_seen": 329252864
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044551645856980704,
+      "loss": 4.8124,
+      "theoretical_loss": 4.100232436230659,
+      "tokens_seen": 330301440
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.4855183959007263,
+      "objective/train/docs_used": 199093,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.6984477043151855,
+      "objective/train/original_loss": 4.698448181152344,
+      "objective/train/theoretical_loss": 4.099293996766681,
+      "objective/train/tokens_used": 351416800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24312277138233185,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497876405715942,
+      "objective/train/weighted_lm_loss": 4.9305100440979,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9514390826225281,
+      "theoretical_loss": 4.099293996766681,
+      "tokens_seen": 330956800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004453272796065078,
+      "loss": 4.7747,
+      "theoretical_loss": 4.098732074066591,
+      "tokens_seen": 331350016
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004451381006432085,
+      "loss": 4.7442,
+      "theoretical_loss": 4.097237777043363,
+      "tokens_seen": 332398592
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004449489216799092,
+      "loss": 4.7144,
+      "theoretical_loss": 4.095749501625689,
+      "tokens_seen": 333447168
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.4659195840358734,
+      "objective/train/docs_used": 200392,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.83096170425415,
+      "objective/train/original_loss": 4.830961227416992,
+      "objective/train/theoretical_loss": 4.09463722080479,
+      "objective/train/tokens_used": 354693600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2294236719608307,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0477579832077026,
+      "objective/train/weighted_lm_loss": 5.058286190032959,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9520472288131714,
+      "theoretical_loss": 4.09463722080479,
+      "tokens_seen": 334233600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004447597427166099,
+      "loss": 4.719,
+      "theoretical_loss": 4.094267204726426,
+      "tokens_seen": 334495744
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004445705637533106,
+      "loss": 4.822,
+      "theoretical_loss": 4.092790843700574,
+      "tokens_seen": 335544320
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004443813847900113,
+      "loss": 4.7045,
+      "theoretical_loss": 4.091320376339368,
+      "tokens_seen": 336592896
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.48759955167770386,
+      "objective/train/docs_used": 202247,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.562262535095215,
+      "objective/train/original_loss": 4.562261581420898,
+      "objective/train/theoretical_loss": 4.0900385191913164,
+      "objective/train/tokens_used": 357970400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2414817214012146,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499873161315918,
+      "objective/train/weighted_lm_loss": 4.790578365325928,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.959564745426178,
+      "theoretical_loss": 4.0900385191913164,
+      "tokens_seen": 337510400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004441922058267121,
+      "loss": 4.7015,
+      "theoretical_loss": 4.089855760864484,
+      "tokens_seen": 337641472
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004440030268634128,
+      "loss": 4.6724,
+      "theoretical_loss": 4.0883969559223186,
+      "tokens_seen": 338690048
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044381384790011355,
+      "loss": 4.6783,
+      "theoretical_loss": 4.086943920578378,
+      "tokens_seen": 339738624
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.48911985754966736,
+      "objective/train/docs_used": 204260,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.2867255210876465,
+      "objective/train/original_loss": 4.286725997924805,
+      "objective/train/theoretical_loss": 4.085496614311752,
+      "objective/train/tokens_used": 361247200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2409982979297638,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501370429992676,
+      "objective/train/weighted_lm_loss": 4.502540111541748,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9587234258651733,
+      "theoretical_loss": 4.085496614311752,
+      "tokens_seen": 340787200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044362466893681425,
+      "loss": 4.7008,
+      "theoretical_loss": 4.085496614311752,
+      "tokens_seen": 340787200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044343548997351494,
+      "loss": 4.6856,
+      "theoretical_loss": 4.084054997009675,
+      "tokens_seen": 341835776
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004432463110102157,
+      "loss": 4.707,
+      "theoretical_loss": 4.082619028962182,
+      "tokens_seen": 342884352
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004430571320469164,
+      "loss": 4.73,
+      "theoretical_loss": 4.081188670856844,
+      "tokens_seen": 343932928
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.4761353135108948,
+      "objective/train/docs_used": 206338,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.324362754821777,
+      "objective/train/original_loss": 4.3243632316589355,
+      "objective/train/theoretical_loss": 4.081010268600093,
+      "objective/train/tokens_used": 364524000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23528918623924255,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048809289932251,
+      "objective/train/weighted_lm_loss": 4.536293983459473,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.951631486415863,
+      "theoretical_loss": 4.081010268600093,
+      "tokens_seen": 344064000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044286795308361713,
+      "loss": 4.7097,
+      "theoretical_loss": 4.079763883773593,
+      "tokens_seen": 344981504
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004426787741203178,
+      "loss": 4.7134,
+      "theoretical_loss": 4.078344629179623,
+      "tokens_seen": 346030080
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0004424895951570185,
+      "loss": 4.7597,
+      "theoretical_loss": 4.076930868924384,
+      "tokens_seen": 347078656
+    },
+    {
+      "epoch": 0.12,
+      "objective/train/advantage_avg": 0.466165155172348,
+      "objective/train/docs_used": 208654,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.435503005981445,
+      "objective/train/original_loss": 4.435503959655762,
+      "objective/train/theoretical_loss": 4.076578282916229,
+      "objective/train/tokens_used": 367800800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23283718526363373,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0477997064590454,
+      "objective/train/weighted_lm_loss": 4.647334098815918,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9514264464378357,
+      "theoretical_loss": 4.076578282916229,
+      "tokens_seen": 347340800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044230041619371926,
+      "loss": 4.791,
+      "theoretical_loss": 4.075522565234643,
+      "tokens_seen": 348127232
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00044211123723041996,
+      "loss": 4.7082,
+      "theoretical_loss": 4.074119680709633,
+      "tokens_seen": 349175808
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004419220582671207,
+      "loss": 4.6896,
+      "theoretical_loss": 4.072722178316271,
+      "tokens_seen": 350224384
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4762899577617645,
+      "objective/train/docs_used": 210524,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.206195831298828,
+      "objective/train/original_loss": 4.206194877624512,
+      "objective/train/theoretical_loss": 4.072199495003675,
+      "objective/train/tokens_used": 371077600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24041838943958282,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488507747650146,
+      "objective/train/weighted_lm_loss": 4.409471035003662,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9514844417572021,
+      "theoretical_loss": 4.072199495003675,
+      "tokens_seen": 350617600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00044173287930382145,
+      "loss": 4.7272,
+      "theoretical_loss": 4.071330021384458,
+      "tokens_seen": 351272960
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00044154370034052214,
+      "loss": 4.7532,
+      "theoretical_loss": 4.069943173602451,
+      "tokens_seen": 352321536
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004413545213772229,
+      "loss": 4.661,
+      "theoretical_loss": 4.068561599012304,
+      "tokens_seen": 353370112
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4837128520011902,
+      "objective/train/docs_used": 211739,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.511666774749756,
+      "objective/train/original_loss": 4.511666297912598,
+      "objective/train/theoretical_loss": 4.0678727780229575,
+      "objective/train/tokens_used": 374354400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23984749615192413,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495903491973877,
+      "objective/train/weighted_lm_loss": 4.7349019050598145,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9533966183662415,
+      "theoretical_loss": 4.0678727780229575,
+      "tokens_seen": 353894400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004411653424139236,
+      "loss": 4.7159,
+      "theoretical_loss": 4.0671852620053865,
+      "tokens_seen": 354418688
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004409761634506243,
+      "loss": 4.6523,
+      "theoretical_loss": 4.0658141273179655,
+      "tokens_seen": 355467264
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000440786984487325,
+      "loss": 4.6922,
+      "theoretical_loss": 4.0644481600268625,
+      "tokens_seen": 356515840
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4922027587890625,
+      "objective/train/docs_used": 213839,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.124780654907227,
+      "objective/train/original_loss": 4.124780178070068,
+      "objective/train/theoretical_loss": 4.06359703915628,
+      "objective/train/tokens_used": 377631200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24517571926116943,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050466537475586,
+      "objective/train/weighted_lm_loss": 4.333748817443848,
+      "objective/train/weights_max": 1.0512195825576782,
+      "objective/train/weights_min": 0.958421528339386,
+      "theoretical_loss": 4.06359703915628,
+      "tokens_seen": 357171200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004405978055240257,
+      "loss": 4.6883,
+      "theoretical_loss": 4.06308732554517,
+      "tokens_seen": 357564416
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00044040862656072647,
+      "loss": 4.7466,
+      "theoretical_loss": 4.061731589618044,
+      "tokens_seen": 358612992
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00044021944759742716,
+      "loss": 4.7125,
+      "theoretical_loss": 4.060380918318552,
+      "tokens_seen": 359661568
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4845718443393707,
+      "objective/train/docs_used": 215849,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.4106268882751465,
+      "objective/train/original_loss": 4.410626411437988,
+      "objective/train/theoretical_loss": 4.05937121827939,
+      "objective/train/tokens_used": 380908000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2417263388633728,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496858358383179,
+      "objective/train/weighted_lm_loss": 4.631262302398682,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9544422030448914,
+      "theoretical_loss": 4.05937121827939,
+      "tokens_seen": 360448000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00044003026863412785,
+      "loss": 4.687,
+      "theoretical_loss": 4.059035278043591,
+      "tokens_seen": 360710144
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004398410896708286,
+      "loss": 4.7187,
+      "theoretical_loss": 4.057694635509866,
+      "tokens_seen": 361758720
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00043965191070752935,
+      "loss": 4.7245,
+      "theoretical_loss": 4.056358957749928,
+      "tokens_seen": 362807296
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4675551652908325,
+      "objective/train/docs_used": 217416,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.687634468078613,
+      "objective/train/original_loss": 4.687634468078613,
+      "objective/train/theoretical_loss": 4.055194286696828,
+      "objective/train/tokens_used": 384184800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23009935021400452,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479251146316528,
+      "objective/train/weighted_lm_loss": 4.910377502441406,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9614465832710266,
+      "theoretical_loss": 4.055194286696828,
+      "tokens_seen": 363724800
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004394627317442301,
+      "loss": 4.6763,
+      "theoretical_loss": 4.055028212108276,
+      "tokens_seen": 363855872
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004392735527809308,
+      "loss": 4.6411,
+      "theoretical_loss": 4.053702366237517,
+      "tokens_seen": 364904448
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004390843738176315,
+      "loss": 4.6192,
+      "theoretical_loss": 4.05238138809458,
+      "tokens_seen": 365953024
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.48896151781082153,
+      "objective/train/docs_used": 219277,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.551604270935059,
+      "objective/train/original_loss": 4.551604270935059,
+      "objective/train/theoretical_loss": 4.051065245936996,
+      "objective/train/tokens_used": 387461600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24276012182235718,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501302480697632,
+      "objective/train/weighted_lm_loss": 4.779492378234863,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9522210359573364,
+      "theoretical_loss": 4.051065245936996,
+      "tokens_seen": 367001600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00043889519485433223,
+      "loss": 4.5711,
+      "theoretical_loss": 4.051065245936996,
+      "tokens_seen": 367001600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004387060158910329,
+      "loss": 4.6239,
+      "theoretical_loss": 4.049753908319223,
+      "tokens_seen": 368050176
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004385168369277336,
+      "loss": 4.6925,
+      "theoretical_loss": 4.048447344089038,
+      "tokens_seen": 369098752
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00043832765796443437,
+      "loss": 4.6265,
+      "theoretical_loss": 4.04714552238397,
+      "tokens_seen": 370147328
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.48688071966171265,
+      "objective/train/docs_used": 221307,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.563080310821533,
+      "objective/train/original_loss": 4.563079833984375,
+      "objective/train/theoretical_loss": 4.0469831266037,
+      "objective/train/tokens_used": 390738400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24148398637771606,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499156713485718,
+      "objective/train/weighted_lm_loss": 4.790269374847412,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9574251174926758,
+      "theoretical_loss": 4.0469831266037,
+      "tokens_seen": 370278400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00043813847900113506,
+      "loss": 4.6133,
+      "theoretical_loss": 4.045848412627802,
+      "tokens_seen": 371195904
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004379493000378358,
+      "loss": 4.6978,
+      "theoretical_loss": 4.044555984527107,
+      "tokens_seen": 372244480
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004377601210745365,
+      "loss": 4.6412,
+      "theoretical_loss": 4.04326820806785,
+      "tokens_seen": 373293056
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4824051558971405,
+      "objective/train/docs_used": 223312,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.324045658111572,
+      "objective/train/original_loss": 4.324045658111572,
+      "objective/train/theoretical_loss": 4.042946987281072,
+      "objective/train/tokens_used": 394015200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2413923442363739,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494674444198608,
+      "objective/train/weighted_lm_loss": 4.537526607513428,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.951562762260437,
+      "theoretical_loss": 4.042946987281072,
+      "tokens_seen": 373555200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004375709421112372,
+      "loss": 4.6788,
+      "theoretical_loss": 4.041985053512038,
+      "tokens_seen": 374341632
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.000437381763147938,
+      "loss": 4.5914,
+      "theoretical_loss": 4.040706491394406,
+      "tokens_seen": 375390208
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0004371925841846387,
+      "loss": 4.5749,
+      "theoretical_loss": 4.0394324925191745,
+      "tokens_seen": 376438784
+    },
+    {
+      "epoch": 0.13,
+      "objective/train/advantage_avg": 0.4723070561885834,
+      "objective/train/docs_used": 225129,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.304555892944336,
+      "objective/train/original_loss": 4.304555892944336,
+      "objective/train/theoretical_loss": 4.038955913488913,
+      "objective/train/tokens_used": 397292000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23399347066879272,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484198331832886,
+      "objective/train/weighted_lm_loss": 4.51221227645874,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9514410495758057,
+      "theoretical_loss": 4.038955913488913,
+      "tokens_seen": 376832000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00043700340522133944,
+      "loss": 4.5628,
+      "theoretical_loss": 4.038163027956834,
+      "tokens_seen": 377487360
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043681422625804013,
+      "loss": 4.5568,
+      "theoretical_loss": 4.036898069040989,
+      "tokens_seen": 378535936
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004366250472947408,
+      "loss": 4.5313,
+      "theoretical_loss": 4.03563758736524,
+      "tokens_seen": 379584512
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.4890446662902832,
+      "objective/train/docs_used": 226852,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.509145259857178,
+      "objective/train/original_loss": 4.5091447830200195,
+      "objective/train/theoretical_loss": 4.035009016685741,
+      "objective/train/tokens_used": 400568800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24364469945430756,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501431226730347,
+      "objective/train/weighted_lm_loss": 4.735697269439697,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9592508673667908,
+      "theoretical_loss": 4.035009016685741,
+      "tokens_seen": 380108800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043643586833144157,
+      "loss": 4.6097,
+      "theoretical_loss": 4.034381554780124,
+      "tokens_seen": 380633088
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043624668936814227,
+      "loss": 4.5698,
+      "theoretical_loss": 4.033129943390076,
+      "tokens_seen": 381681664
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043605751040484296,
+      "loss": 4.6048,
+      "theoretical_loss": 4.031882725550463,
+      "tokens_seen": 382730240
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.47916504740715027,
+      "objective/train/docs_used": 228664,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.19334602355957,
+      "objective/train/original_loss": 4.19334602355957,
+      "objective/train/theoretical_loss": 4.031105433316977,
+      "objective/train/tokens_used": 403845600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23511439561843872,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491114854812622,
+      "objective/train/weighted_lm_loss": 4.397870063781738,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9654620289802551,
+      "theoretical_loss": 4.031105433316977,
+      "tokens_seen": 383385600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004358683314415437,
+      "loss": 4.6059,
+      "theoretical_loss": 4.030639873864638,
+      "tokens_seen": 383778816
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004356791524782444,
+      "loss": 4.4924,
+      "theoretical_loss": 4.029401361181049,
+      "tokens_seen": 384827392
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043548997351494515,
+      "loss": 4.5844,
+      "theoretical_loss": 4.028167160590383,
+      "tokens_seen": 385875968
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.48542872071266174,
+      "objective/train/docs_used": 230356,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9225900173187256,
+      "objective/train/original_loss": 3.922590732574463,
+      "objective/train/theoretical_loss": 4.027244323905839,
+      "objective/train/tokens_used": 407122400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24344097077846527,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497803688049316,
+      "objective/train/weighted_lm_loss": 4.117582321166992,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9526301622390747,
+      "theoretical_loss": 4.027244323905839,
+      "tokens_seen": 386662400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043530079455164584,
+      "loss": 4.5285,
+      "theoretical_loss": 4.026937245422756,
+      "tokens_seen": 386924544
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004351116155883466,
+      "loss": 4.4802,
+      "theoretical_loss": 4.025711589244939,
+      "tokens_seen": 387973120
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043492243662504734,
+      "loss": 4.5097,
+      "theoretical_loss": 4.024490165857627,
+      "tokens_seen": 389021696
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.4711974859237671,
+      "objective/train/docs_used": 231398,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.248833656311035,
+      "objective/train/original_loss": 4.248834133148193,
+      "objective/train/theoretical_loss": 4.0234248721847035,
+      "objective/train/tokens_used": 410399200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23104798793792725,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048293948173523,
+      "objective/train/weighted_lm_loss": 4.452199935913086,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9518858790397644,
+      "theoretical_loss": 4.0234248721847035,
+      "tokens_seen": 389939200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043473325766174803,
+      "loss": 4.5464,
+      "theoretical_loss": 4.023272949292743,
+      "tokens_seen": 390070272
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004345440786984488,
+      "loss": 4.5371,
+      "theoretical_loss": 4.022059913810782,
+      "tokens_seen": 391118848
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043435489973514947,
+      "loss": 4.5544,
+      "theoretical_loss": 4.020851033898196,
+      "tokens_seen": 392167424
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.47954094409942627,
+      "objective/train/docs_used": 233309,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.41207218170166,
+      "objective/train/original_loss": 4.412071228027344,
+      "objective/train/theoretical_loss": 4.019646284264807,
+      "objective/train/tokens_used": 413676000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23941875994205475,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491708517074585,
+      "objective/train/weighted_lm_loss": 4.62913703918457,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9515848755836487,
+      "theoretical_loss": 4.019646284264807,
+      "tokens_seen": 393216000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043416572077185016,
+      "loss": 4.6125,
+      "theoretical_loss": 4.019646284264807,
+      "tokens_seen": 393216000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004339765418085509,
+      "loss": 4.6338,
+      "theoretical_loss": 4.01844563984127,
+      "tokens_seen": 394264576
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004337873628452516,
+      "loss": 4.6127,
+      "theoretical_loss": 4.0172490757765535,
+      "tokens_seen": 395313152
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004335981838819523,
+      "loss": 4.632,
+      "theoretical_loss": 4.016056567435475,
+      "tokens_seen": 396361728
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.48889124393463135,
+      "objective/train/docs_used": 234734,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.166934967041016,
+      "objective/train/original_loss": 4.166934967041016,
+      "objective/train/theoretical_loss": 4.0159077878422815,
+      "objective/train/tokens_used": 416952800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2409810870885849,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501141548156738,
+      "objective/train/weighted_lm_loss": 4.375463962554932,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9956961274147034,
+      "theoretical_loss": 4.0159077878422815,
+      "tokens_seen": 396492800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043340900491865305,
+      "loss": 4.5567,
+      "theoretical_loss": 4.014868090396256,
+      "tokens_seen": 397410304
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043321982595535374,
+      "loss": 4.4485,
+      "theoretical_loss": 4.013683620448113,
+      "tokens_seen": 398458880
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004330306469920545,
+      "loss": 4.5947,
+      "theoretical_loss": 4.0125031335888925,
+      "tokens_seen": 399507456
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.476698637008667,
+      "objective/train/docs_used": 236668,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.221770286560059,
+      "objective/train/original_loss": 4.221770763397217,
+      "objective/train/theoretical_loss": 4.0122086314386545,
+      "objective/train/tokens_used": 420229600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23127447068691254,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488451719284058,
+      "objective/train/weighted_lm_loss": 4.427043914794922,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9582767486572266,
+      "theoretical_loss": 4.0122086314386545,
+      "tokens_seen": 399769600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043284146802875524,
+      "loss": 4.554,
+      "theoretical_loss": 4.0113266060227275,
+      "tokens_seen": 400556032
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043265228906545593,
+      "loss": 4.5778,
+      "theoretical_loss": 4.010154014157727,
+      "tokens_seen": 401604608
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004324631101021567,
+      "loss": 4.5306,
+      "theoretical_loss": 4.008985334603709,
+      "tokens_seen": 402653184
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.4728894829750061,
+      "objective/train/docs_used": 238677,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.1277618408203125,
+      "objective/train/original_loss": 4.1277618408203125,
+      "objective/train/theoretical_loss": 4.00854808367405,
+      "objective/train/tokens_used": 423506400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23286591470241547,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048472285270691,
+      "objective/train/weighted_lm_loss": 4.3288140296936035,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9518867135047913,
+      "theoretical_loss": 4.00854808367405,
+      "tokens_seen": 403046400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00043227393113885737,
+      "loss": 4.541,
+      "theoretical_loss": 4.007820544169944,
+      "tokens_seen": 403701760
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004320847521755581,
+      "loss": 4.5066,
+      "theoretical_loss": 4.006659619862954,
+      "tokens_seen": 404750336
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0004318955732122588,
+      "loss": 4.5251,
+      "theoretical_loss": 4.0055025388843175,
+      "tokens_seen": 405798912
+    },
+    {
+      "epoch": 0.14,
+      "objective/train/advantage_avg": 0.4813375473022461,
+      "objective/train/docs_used": 240483,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.646761417388916,
+      "objective/train/original_loss": 4.646761894226074,
+      "objective/train/theoretical_loss": 4.004925432571433,
+      "objective/train/tokens_used": 426783200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23505516350269318,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493284463882446,
+      "objective/train/weighted_lm_loss": 4.875973224639893,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9840477705001831,
+      "theoretical_loss": 4.004925432571433,
+      "tokens_seen": 406323200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004317063942489595,
+      "loss": 4.5157,
+      "theoretical_loss": 4.004349278628525,
+      "tokens_seen": 406847488
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00043151721528566025,
+      "loss": 4.6079,
+      "theoretical_loss": 4.00319981668085,
+      "tokens_seen": 407896064
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00043132803632236095,
+      "loss": 4.617,
+      "theoretical_loss": 4.002054130815253,
+      "tokens_seen": 408944640
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.4804536998271942,
+      "objective/train/docs_used": 242341,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.573429107666016,
+      "objective/train/original_loss": 4.573429107666016,
+      "objective/train/theoretical_loss": 4.0013399848903175,
+      "objective/train/tokens_used": 430060000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23860077559947968,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492582321166992,
+      "objective/train/weighted_lm_loss": 4.798383712768555,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9523076415061951,
+      "theoretical_loss": 4.0013399848903175,
+      "tokens_seen": 409600000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00043113885735906164,
+      "loss": 4.6468,
+      "theoretical_loss": 4.000912198992316,
+      "tokens_seen": 409993216
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004309496783957624,
+      "loss": 4.5594,
+      "theoretical_loss": 3.9997739993572035,
+      "tokens_seen": 411041792
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004307604994324631,
+      "loss": 4.6211,
+      "theoretical_loss": 3.9986395102376453,
+      "tokens_seen": 412090368
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.480744332075119,
+      "objective/train/docs_used": 244062,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.4469990730285645,
+      "objective/train/original_loss": 4.446999549865723,
+      "objective/train/theoretical_loss": 3.997791065488486,
+      "objective/train/tokens_used": 433336800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2378513216972351,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492832660675049,
+      "objective/train/weighted_lm_loss": 4.665361404418945,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9535585641860962,
+      "theoretical_loss": 3.997791065488486,
+      "tokens_seen": 412876800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004305713204691639,
+      "loss": 4.6416,
+      "theoretical_loss": 3.99750871014196,
+      "tokens_seen": 413138944
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004303821415058646,
+      "loss": 4.5362,
+      "theoretical_loss": 3.9963815777570897,
+      "tokens_seen": 414187520
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00043019296254256527,
+      "loss": 4.5415,
+      "theoretical_loss": 3.99525809194667,
+      "tokens_seen": 415236096
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.48422208428382874,
+      "objective/train/docs_used": 245710,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.429144382476807,
+      "objective/train/original_loss": 4.429144859313965,
+      "objective/train/theoretical_loss": 3.9942780167103145,
+      "objective/train/tokens_used": 436613600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23887021839618683,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496364831924438,
+      "objective/train/weighted_lm_loss": 4.65024995803833,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9516666531562805,
+      "theoretical_loss": 3.9942780167103145,
+      "tokens_seen": 416153600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.000430003783579266,
+      "loss": 4.4764,
+      "theoretical_loss": 3.9941382317491225,
+      "tokens_seen": 416284672
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004298146046159667,
+      "loss": 4.5263,
+      "theoretical_loss": 3.9930219763757755,
+      "tokens_seen": 417333248
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00042962542565266746,
+      "loss": 4.5673,
+      "theoretical_loss": 3.9919093052090058,
+      "tokens_seen": 418381824
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.4735833406448364,
+      "objective/train/docs_used": 247828,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.22092866897583,
+      "objective/train/original_loss": 4.220929145812988,
+      "objective/train/theoretical_loss": 3.9908001978004064,
+      "objective/train/tokens_used": 439890400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23547500371932983,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485553741455078,
+      "objective/train/weighted_lm_loss": 4.430475234985352,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9541728496551514,
+      "theoretical_loss": 3.9908001978004064,
+      "tokens_seen": 419430400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00042943624668936815,
+      "loss": 4.5733,
+      "theoretical_loss": 3.9908001978004064,
+      "tokens_seen": 419430400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00042924706772606884,
+      "loss": 4.5431,
+      "theoretical_loss": 3.989694633868981,
+      "tokens_seen": 420478976
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004290578887627696,
+      "loss": 4.5784,
+      "theoretical_loss": 3.988592593299358,
+      "tokens_seen": 421527552
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004288687097994703,
+      "loss": 4.4724,
+      "theoretical_loss": 3.9874940561400294,
+      "tokens_seen": 422576128
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.47702404856681824,
+      "objective/train/docs_used": 249572,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.135619163513184,
+      "objective/train/original_loss": 4.135619163513184,
+      "objective/train/theoretical_loss": 3.9873569843412913,
+      "objective/train/tokens_used": 443167200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2411937266588211,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048928141593933,
+      "objective/train/weighted_lm_loss": 4.336599826812744,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9514898061752319,
+      "theoretical_loss": 3.9873569843412913,
+      "tokens_seen": 422707200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.000428679530836171,
+      "loss": 4.6252,
+      "theoretical_loss": 3.986399002601617,
+      "tokens_seen": 423624704
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004284903518728717,
+      "loss": 4.5332,
+      "theoretical_loss": 3.9853074130551542,
+      "tokens_seen": 424673280
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004283011729095725,
+      "loss": 4.4783,
+      "theoretical_loss": 3.984219268030392,
+      "tokens_seen": 425721856
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.4593813717365265,
+      "objective/train/docs_used": 251147,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.276764392852783,
+      "objective/train/original_loss": 4.276763916015625,
+      "objective/train/theoretical_loss": 3.9839477677140245,
+      "objective/train/tokens_used": 446444000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23159852623939514,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0471152067184448,
+      "objective/train/weighted_lm_loss": 4.481888771057129,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9540482759475708,
+      "theoretical_loss": 3.9839477677140245,
+      "tokens_seen": 425984000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004281119939462732,
+      "loss": 4.5639,
+      "theoretical_loss": 3.983134548214133,
+      "tokens_seen": 426770432
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004279228149829739,
+      "loss": 4.5079,
+      "theoretical_loss": 3.98205323444858,
+      "tokens_seen": 427819008
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004277336360196746,
+      "loss": 4.4224,
+      "theoretical_loss": 3.9809753077297074,
+      "tokens_seen": 428867584
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.47926458716392517,
+      "objective/train/docs_used": 253081,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.053443431854248,
+      "objective/train/original_loss": 4.053443908691406,
+      "objective/train/theoretical_loss": 3.98057195458059,
+      "objective/train/tokens_used": 449720800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23603300750255585,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049126148223877,
+      "objective/train/weighted_lm_loss": 4.253237247467041,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9541853070259094,
+      "theoretical_loss": 3.98057195458059,
+      "tokens_seen": 429260800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00042754445705637536,
+      "loss": 4.5223,
+      "theoretical_loss": 3.979900749205657,
+      "tokens_seen": 429916160
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00042735527809307605,
+      "loss": 4.4297,
+      "theoretical_loss": 3.9788295401751483,
+      "tokens_seen": 430964736
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004271660991297768,
+      "loss": 4.4719,
+      "theoretical_loss": 3.9777616620859186,
+      "tokens_seen": 432013312
+    },
+    {
+      "epoch": 0.15,
+      "objective/train/advantage_avg": 0.4837666153907776,
+      "objective/train/docs_used": 255033,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.001176357269287,
+      "objective/train/original_loss": 4.001176834106445,
+      "objective/train/theoretical_loss": 3.9772289663870657,
+      "objective/train/tokens_used": 452997600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23786011338233948,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495855808258057,
+      "objective/train/weighted_lm_loss": 4.199849605560303,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9561724066734314,
+      "theoretical_loss": 3.9772289663870657,
+      "tokens_seen": 432537600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0004269769201664775,
+      "loss": 4.4716,
+      "theoretical_loss": 3.976697096533171,
+      "tokens_seen": 433061888
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004267877412031782,
+      "loss": 4.4514,
+      "theoretical_loss": 3.975635825258053,
+      "tokens_seen": 434110464
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042659856223987893,
+      "loss": 4.448,
+      "theoretical_loss": 3.9745778301461483,
+      "tokens_seen": 435159040
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.4698527157306671,
+      "objective/train/docs_used": 256972,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.00714635848999,
+      "objective/train/original_loss": 4.007145881652832,
+      "objective/train/theoretical_loss": 3.9739182388865606,
+      "objective/train/tokens_used": 456274400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22894169390201569,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481488704681396,
+      "objective/train/weighted_lm_loss": 4.203254699707031,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9517961740493774,
+      "theoretical_loss": 3.9739182388865606,
+      "tokens_seen": 435814400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004264093832765796,
+      "loss": 4.4264,
+      "theoretical_loss": 3.9735230932259893,
+      "tokens_seen": 436207616
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004262202043132803,
+      "loss": 4.5008,
+      "theoretical_loss": 3.9724715966675896,
+      "tokens_seen": 437256192
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004260310253499811,
+      "loss": 4.4519,
+      "theoretical_loss": 3.9714233227809936,
+      "tokens_seen": 438304768
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.4772937297821045,
+      "objective/train/docs_used": 259026,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.386899948120117,
+      "objective/train/original_loss": 4.386899948120117,
+      "objective/train/theoretical_loss": 3.9706392216810085,
+      "objective/train/tokens_used": 459551200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24028657376766205,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048950433731079,
+      "objective/train/weighted_lm_loss": 4.601118564605713,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9514262080192566,
+      "theoretical_loss": 3.9706392216810085,
+      "tokens_seen": 439091200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004258418463866818,
+      "loss": 4.4169,
+      "theoretical_loss": 3.970378254014844,
+      "tokens_seen": 439353344
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042565266742338256,
+      "loss": 4.4168,
+      "theoretical_loss": 3.96933637295497,
+      "tokens_seen": 440401920
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042546348846008326,
+      "loss": 4.4585,
+      "theoretical_loss": 3.96829766232299,
+      "tokens_seen": 441450496
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.4840179681777954,
+      "objective/train/docs_used": 261126,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.244239330291748,
+      "objective/train/original_loss": 4.244239330291748,
+      "objective/train/theoretical_loss": 3.9673913777809253,
+      "objective/train/tokens_used": 462828000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24010293185710907,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496221780776978,
+      "objective/train/weighted_lm_loss": 4.457010746002197,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9591333270072937,
+      "theoretical_loss": 3.9673913777809253,
+      "tokens_seen": 442368000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042527430949678395,
+      "loss": 4.4311,
+      "theoretical_loss": 3.9672621049749335,
+      "tokens_seen": 442499072
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004250851305334847,
+      "loss": 4.4316,
+      "theoretical_loss": 3.96622968389988,
+      "tokens_seen": 443547648
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004248959515701854,
+      "loss": 4.3984,
+      "theoretical_loss": 3.9652003822186166,
+      "tokens_seen": 444596224
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.4815636873245239,
+      "objective/train/docs_used": 262792,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.1629133224487305,
+      "objective/train/original_loss": 4.1629133224487305,
+      "objective/train/theoretical_loss": 3.9641741831823065,
+      "objective/train/tokens_used": 466104800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24196134507656097,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493861436843872,
+      "objective/train/weighted_lm_loss": 4.367969989776611,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.9516691565513611,
+      "theoretical_loss": 3.9641741831823065,
+      "tokens_seen": 445644800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042470677260688614,
+      "loss": 4.48,
+      "theoretical_loss": 3.9641741831823065,
+      "tokens_seen": 445644800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042451759364358683,
+      "loss": 4.4281,
+      "theoretical_loss": 3.9631510701711816,
+      "tokens_seen": 446693376
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004243284146802875,
+      "loss": 4.4256,
+      "theoretical_loss": 3.9621310266932457,
+      "tokens_seen": 447741952
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042413923571698827,
+      "loss": 4.3659,
+      "theoretical_loss": 3.9611140363829977,
+      "tokens_seen": 448790528
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.481901079416275,
+      "objective/train/docs_used": 264102,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.1385955810546875,
+      "objective/train/original_loss": 4.138594627380371,
+      "objective/train/theoretical_loss": 3.960987126459872,
+      "objective/train/tokens_used": 469381600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2416316270828247,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494182109832764,
+      "objective/train/weighted_lm_loss": 4.344489097595215,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9545145630836487,
+      "theoretical_loss": 3.960987126459872,
+      "tokens_seen": 448921600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042395005675368897,
+      "loss": 4.4184,
+      "theoretical_loss": 3.9601000830001665,
+      "tokens_seen": 449839104
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042376087779038977,
+      "loss": 4.3922,
+      "theoretical_loss": 3.9590891504284635,
+      "tokens_seen": 450887680
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042357169882709046,
+      "loss": 4.2944,
+      "theoretical_loss": 3.9580812226743523,
+      "tokens_seen": 451936256
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.490369588136673,
+      "objective/train/docs_used": 265980,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.172577381134033,
+      "objective/train/original_loss": 4.172577857971191,
+      "objective/train/theoretical_loss": 3.9578297083759195,
+      "objective/train/tokens_used": 472658400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2438024878501892,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050276279449463,
+      "objective/train/weighted_lm_loss": 4.382692337036133,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9516772627830505,
+      "theoretical_loss": 3.9578297083759195,
+      "tokens_seen": 452198400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042338251986379115,
+      "loss": 4.3378,
+      "theoretical_loss": 3.95707628386583,
+      "tokens_seen": 452984832
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004231933409004919,
+      "loss": 4.4524,
+      "theoretical_loss": 3.9560743182512255,
+      "tokens_seen": 454033408
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004230041619371926,
+      "loss": 4.3017,
+      "theoretical_loss": 3.9550753101980103,
+      "tokens_seen": 455081984
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.47568219900131226,
+      "objective/train/docs_used": 267725,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.0070085525512695,
+      "objective/train/original_loss": 4.0070085525512695,
+      "objective/train/theoretical_loss": 3.954701441504068,
+      "objective/train/tokens_used": 475935200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23760542273521423,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487757921218872,
+      "objective/train/weighted_lm_loss": 4.202053546905518,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9515478014945984,
+      "theoretical_loss": 3.954701441504068,
+      "tokens_seen": 455475200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004228149829738933,
+      "loss": 4.3259,
+      "theoretical_loss": 3.954079244191628,
+      "tokens_seen": 456130560
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042262580401059404,
+      "loss": 4.3595,
+      "theoretical_loss": 3.953086104834334,
+      "tokens_seen": 457179136
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042243662504729473,
+      "loss": 4.3055,
+      "theoretical_loss": 3.9520958768440484,
+      "tokens_seen": 458227712
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.47381123900413513,
+      "objective/train/docs_used": 269663,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.464710235595703,
+      "objective/train/original_loss": 4.464710235595703,
+      "objective/train/theoretical_loss": 3.951601849867233,
+      "objective/train/tokens_used": 479212000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23545365035533905,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485777854919434,
+      "objective/train/weighted_lm_loss": 4.680891036987305,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9522637724876404,
+      "theoretical_loss": 3.951601849867233,
+      "tokens_seen": 458752000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0004222474460839955,
+      "loss": 4.2918,
+      "theoretical_loss": 3.951108545053229,
+      "tokens_seen": 459276288
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042205826712069617,
+      "loss": 4.3763,
+      "theoretical_loss": 3.9501240944077494,
+      "tokens_seen": 460324864
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00042186908815739686,
+      "loss": 4.3612,
+      "theoretical_loss": 3.949142509965799,
+      "tokens_seen": 461373440
+    },
+    {
+      "epoch": 0.16,
+      "objective/train/advantage_avg": 0.48686516284942627,
+      "objective/train/docs_used": 271706,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.096804141998291,
+      "objective/train/original_loss": 4.096804618835449,
+      "objective/train/theoretical_loss": 3.948530468589195,
+      "objective/train/tokens_used": 482488800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23930074274539948,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499029159545898,
+      "objective/train/weighted_lm_loss": 4.302978515625,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9692782759666443,
+      "theoretical_loss": 3.948530468589195,
+      "tokens_seen": 462028800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004216799091940976,
+      "loss": 4.3302,
+      "theoretical_loss": 3.9481637768967883,
+      "tokens_seen": 462422016
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00042149073023079836,
+      "loss": 4.3089,
+      "theoretical_loss": 3.9471878804802736,
+      "tokens_seen": 463470592
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004213015512674991,
+      "loss": 4.3075,
+      "theoretical_loss": 3.9462148061048907,
+      "tokens_seen": 464519168
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.48215600848197937,
+      "objective/train/docs_used": 273436,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.740396738052368,
+      "objective/train/original_loss": 3.740396499633789,
+      "objective/train/theoretical_loss": 3.9454868435591504,
+      "objective/train/tokens_used": 485765600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2377597689628601,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494240522384644,
+      "objective/train/weighted_lm_loss": 3.9267635345458984,
+      "objective/train/weights_max": 1.0512155294418335,
+      "objective/train/weights_min": 0.951538622379303,
+      "theoretical_loss": 3.9454868435591504,
+      "tokens_seen": 465305600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004211123723041998,
+      "loss": 4.3019,
+      "theoretical_loss": 3.945244539267303,
+      "tokens_seen": 465567744
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004209231933409005,
+      "loss": 4.2432,
+      "theoretical_loss": 3.9442770655711614,
+      "tokens_seen": 466616320
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00042073401437760124,
+      "loss": 4.2614,
+      "theoretical_loss": 3.9433123707260775,
+      "tokens_seen": 467664896
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.4793383777141571,
+      "objective/train/docs_used": 275552,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.101151943206787,
+      "objective/train/original_loss": 4.101151943206787,
+      "objective/train/theoretical_loss": 3.9424705311086856,
+      "objective/train/tokens_used": 489042400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2382468432188034,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491446256637573,
+      "objective/train/weighted_lm_loss": 4.304407119750977,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9532943367958069,
+      "theoretical_loss": 3.9424705311086856,
+      "tokens_seen": 468582400
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00042054483541430194,
+      "loss": 4.2677,
+      "theoretical_loss": 3.9423504405466074,
+      "tokens_seen": 468713472
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00042035565645100263,
+      "loss": 4.1909,
+      "theoretical_loss": 3.9413912609512485,
+      "tokens_seen": 469762048
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004201664774877034,
+      "loss": 4.3726,
+      "theoretical_loss": 3.940434817961448,
+      "tokens_seen": 470810624
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.4858047068119049,
+      "objective/train/docs_used": 277578,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.086038112640381,
+      "objective/train/original_loss": 4.086038112640381,
+      "objective/train/theoretical_loss": 3.939481097700623,
+      "objective/train/tokens_used": 492319200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407042235136032,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498039722442627,
+      "objective/train/weighted_lm_loss": 4.289696216583252,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9598610401153564,
+      "theoretical_loss": 3.939481097700623,
+      "tokens_seen": 471859200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041997729852440407,
+      "loss": 4.3418,
+      "theoretical_loss": 3.939481097700623,
+      "tokens_seen": 471859200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004197881195611048,
+      "loss": 4.2716,
+      "theoretical_loss": 3.9385300863931914,
+      "tokens_seen": 472907776
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004195989405978055,
+      "loss": 4.3335,
+      "theoretical_loss": 3.9375817703636167,
+      "tokens_seen": 473956352
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004194097616345062,
+      "loss": 4.2623,
+      "theoretical_loss": 3.9366361360354585,
+      "tokens_seen": 475004928
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.4816089868545532,
+      "objective/train/docs_used": 279357,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.476291656494141,
+      "objective/train/original_loss": 4.476291656494141,
+      "objective/train/theoretical_loss": 3.936518119629225,
+      "objective/train/tokens_used": 495596000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2425791174173355,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049393892288208,
+      "objective/train/weighted_lm_loss": 4.69778299331665,
+      "objective/train/weights_max": 1.0512197017669678,
+      "objective/train/weights_min": 0.9523156881332397,
+      "theoretical_loss": 3.936518119629225,
+      "tokens_seen": 475136000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.000419220582671207,
+      "loss": 4.2778,
+      "theoretical_loss": 3.9356931699304427,
+      "tokens_seen": 476053504
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004190314037079077,
+      "loss": 4.3016,
+      "theoretical_loss": 3.9347528586675304,
+      "tokens_seen": 477102080
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041884222474460845,
+      "loss": 4.3464,
+      "theoretical_loss": 3.9338151889620114,
+      "tokens_seen": 478150656
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.4777883291244507,
+      "objective/train/docs_used": 280385,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.414139270782471,
+      "objective/train/original_loss": 4.4141387939453125,
+      "objective/train/theoretical_loss": 3.933581182731271,
+      "objective/train/tokens_used": 498872800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2336207926273346,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489662885665894,
+      "objective/train/weighted_lm_loss": 4.631285190582275,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9555152058601379,
+      "theoretical_loss": 3.933581182731271,
+      "tokens_seen": 478412800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041865304578130914,
+      "loss": 4.3909,
+      "theoretical_loss": 3.9328801476245987,
+      "tokens_seen": 479199232
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041846386681800983,
+      "loss": 4.3807,
+      "theoretical_loss": 3.9319477215605323,
+      "tokens_seen": 480247808
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004182746878547106,
+      "loss": 4.3472,
+      "theoretical_loss": 3.9310178977687045,
+      "tokens_seen": 481296384
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.48086094856262207,
+      "objective/train/docs_used": 282096,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.888185977935791,
+      "objective/train/original_loss": 3.888186454772949,
+      "objective/train/theoretical_loss": 3.930669882107529,
+      "objective/train/tokens_used": 502149600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23717832565307617,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049291729927063,
+      "objective/train/weighted_lm_loss": 4.0802998542785645,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9538412094116211,
+      "theoretical_loss": 3.930669882107529,
+      "tokens_seen": 481689600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004180855088914113,
+      "loss": 4.2477,
+      "theoretical_loss": 3.930090663340782,
+      "tokens_seen": 482344960
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041789632992811197,
+      "loss": 4.267,
+      "theoretical_loss": 3.9291660054603454,
+      "tokens_seen": 483393536
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004177071509648127,
+      "loss": 4.2292,
+      "theoretical_loss": 3.9282439114020375,
+      "tokens_seen": 484442112
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.48390454053878784,
+      "objective/train/docs_used": 284179,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.326482772827148,
+      "objective/train/original_loss": 4.326481819152832,
+      "objective/train/theoretical_loss": 3.927783821854201,
+      "objective/train/tokens_used": 505426400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2400244176387787,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496103763580322,
+      "objective/train/weighted_lm_loss": 4.54107666015625,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9513835310935974,
+      "theoretical_loss": 3.927783821854201,
+      "tokens_seen": 484966400
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004175179720015134,
+      "loss": 4.2245,
+      "theoretical_loss": 3.927324368530723,
+      "tokens_seen": 485490688
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041732879303821416,
+      "loss": 4.1996,
+      "theoretical_loss": 3.926407364300649,
+      "tokens_seen": 486539264
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041713961407491485,
+      "loss": 4.2332,
+      "theoretical_loss": 3.9254928862546303,
+      "tokens_seen": 487587840
+    },
+    {
+      "epoch": 0.17,
+      "objective/train/advantage_avg": 0.4841022193431854,
+      "objective/train/docs_used": 285838,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9023804664611816,
+      "objective/train/original_loss": 3.90238094329834,
+      "objective/train/theoretical_loss": 3.9249226148038927,
+      "objective/train/tokens_used": 508703200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2402951419353485,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496317148208618,
+      "objective/train/weighted_lm_loss": 4.096041202545166,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9679876565933228,
+      "theoretical_loss": 3.9249226148038927,
+      "tokens_seen": 488243200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0004169504351116156,
+      "loss": 4.2304,
+      "theoretical_loss": 3.9245809220232295,
+      "tokens_seen": 488636416
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00041676125614831635,
+      "loss": 4.2336,
+      "theoretical_loss": 3.923671459323953,
+      "tokens_seen": 489684992
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041657207718501704,
+      "loss": 4.1907,
+      "theoretical_loss": 3.9227644859604562,
+      "tokens_seen": 490733568
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.49535855650901794,
+      "objective/train/docs_used": 287192,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.264978885650635,
+      "objective/train/original_loss": 4.264978408813477,
+      "objective/train/theoretical_loss": 3.9220858822757396,
+      "objective/train/tokens_used": 511980000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24591341614723206,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050786018371582,
+      "objective/train/weighted_lm_loss": 4.481633186340332,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9592586159706116,
+      "theoretical_loss": 3.9220858822757396,
+      "tokens_seen": 491520000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004163828982217178,
+      "loss": 4.234,
+      "theoretical_loss": 3.9218599898217583,
+      "tokens_seen": 491782144
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004161937192584185,
+      "loss": 4.2348,
+      "theoretical_loss": 3.92095795888146,
+      "tokens_seen": 492830720
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004160045402951192,
+      "loss": 4.2251,
+      "theoretical_loss": 3.9200583811969785,
+      "tokens_seen": 493879296
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4876641631126404,
+      "objective/train/docs_used": 289259,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9813899993896484,
+      "objective/train/original_loss": 3.9813899993896484,
+      "objective/train/theoretical_loss": 3.9192732538342785,
+      "objective/train/tokens_used": 515256800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24164560437202454,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049994945526123,
+      "objective/train/weighted_lm_loss": 4.1802239418029785,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9596173763275146,
+      "theoretical_loss": 3.9192732538342785,
+      "tokens_seen": 494796800
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004158153613318199,
+      "loss": 4.2636,
+      "theoretical_loss": 3.919161244908785,
+      "tokens_seen": 494927872
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004156261823685206,
+      "loss": 4.2658,
+      "theoretical_loss": 3.918266538239653,
+      "tokens_seen": 495976448
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041543700340522136,
+      "loss": 4.2883,
+      "theoretical_loss": 3.917374249493913,
+      "tokens_seen": 497025024
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4695127606391907,
+      "objective/train/docs_used": 291398,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.011775970458984,
+      "objective/train/original_loss": 4.011776447296143,
+      "objective/train/theoretical_loss": 3.9164843670567215,
+      "objective/train/tokens_used": 518533600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23077881336212158,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048124074935913,
+      "objective/train/weighted_lm_loss": 4.204472064971924,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9517326354980469,
+      "theoretical_loss": 3.9164843670567215,
+      "tokens_seen": 498073600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041524782444192206,
+      "loss": 4.2508,
+      "theoretical_loss": 3.9164843670567215,
+      "tokens_seen": 498073600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041505864547862275,
+      "loss": 4.255,
+      "theoretical_loss": 3.9155968793933273,
+      "tokens_seen": 499122176
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004148694665153235,
+      "loss": 4.2992,
+      "theoretical_loss": 3.9147117750483584,
+      "tokens_seen": 500170752
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041468028755202425,
+      "loss": 4.2444,
+      "theoretical_loss": 3.913829042645107,
+      "tokens_seen": 501219328
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.46639207005500793,
+      "objective/train/docs_used": 293236,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7727935314178467,
+      "objective/train/original_loss": 3.772793769836426,
+      "objective/train/theoretical_loss": 3.913718867308278,
+      "objective/train/tokens_used": 521810400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23303526639938354,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047823190689087,
+      "objective/train/weighted_lm_loss": 3.950061559677124,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9522370100021362,
+      "theoretical_loss": 3.913718867308278,
+      "tokens_seen": 501350400
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041449110858872494,
+      "loss": 4.1459,
+      "theoretical_loss": 3.912948670884827,
+      "tokens_seen": 502267904
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004143019296254257,
+      "loss": 4.1465,
+      "theoretical_loss": 3.912070648546038,
+      "tokens_seen": 503316480
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004141127506621264,
+      "loss": 4.1508,
+      "theoretical_loss": 3.9111949644838386,
+      "tokens_seen": 504365056
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4696812927722931,
+      "objective/train/docs_used": 295292,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.771225690841675,
+      "objective/train/original_loss": 3.7712254524230957,
+      "objective/train/theoretical_loss": 3.910976407525199,
+      "objective/train/tokens_used": 525087200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23411457240581512,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481582880020142,
+      "objective/train/weighted_lm_loss": 3.9577152729034424,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.95467609167099,
+      "theoretical_loss": 3.910976407525199,
+      "tokens_seen": 504627200
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041392357169882713,
+      "loss": 4.1547,
+      "theoretical_loss": 3.910321607629225,
+      "tokens_seen": 505413632
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004137343927355278,
+      "loss": 4.1705,
+      "theoretical_loss": 3.9094505669884168,
+      "tokens_seen": 506462208
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004135452137722285,
+      "loss": 4.1505,
+      "theoretical_loss": 3.9085818316421945,
+      "tokens_seen": 507510784
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4871479272842407,
+      "objective/train/docs_used": 297338,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9234955310821533,
+      "objective/train/original_loss": 3.923495292663574,
+      "objective/train/theoretical_loss": 3.9082566480052314,
+      "objective/train/tokens_used": 528364000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23970387876033783,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499333143234253,
+      "objective/train/weighted_lm_loss": 4.120626449584961,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9618850350379944,
+      "theoretical_loss": 3.9082566480052314,
+      "tokens_seen": 507904000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041335603480892926,
+      "loss": 4.1253,
+      "theoretical_loss": 3.9077153907452367,
+      "tokens_seen": 508559360
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00041316685584562996,
+      "loss": 4.1998,
+      "theoretical_loss": 3.9068512335254724,
+      "tokens_seen": 509607936
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004129776768823307,
+      "loss": 4.145,
+      "theoretical_loss": 3.905989349283435,
+      "tokens_seen": 510656512
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.46928656101226807,
+      "objective/train/docs_used": 299351,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7585744857788086,
+      "objective/train/original_loss": 3.7585747241973877,
+      "objective/train/theoretical_loss": 3.9055592562051764,
+      "objective/train/tokens_used": 531640800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23103711009025574,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481030941009521,
+      "objective/train/weighted_lm_loss": 3.9365973472595215,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9520386457443237,
+      "theoretical_loss": 3.9055592562051764,
+      "tokens_seen": 511180800
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004127884979190314,
+      "loss": 4.1397,
+      "theoretical_loss": 3.9051297273916257,
+      "tokens_seen": 511705088
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004125993189557321,
+      "loss": 4.0981,
+      "theoretical_loss": 3.9042723572938836,
+      "tokens_seen": 512753664
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004124101399924329,
+      "loss": 4.0203,
+      "theoretical_loss": 3.9034172285047597,
+      "tokens_seen": 513802240
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4936114549636841,
+      "objective/train/docs_used": 301377,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.8155317306518555,
+      "objective/train/original_loss": 3.8155317306518555,
+      "objective/train/theoretical_loss": 3.9028839065452745,
+      "objective/train/tokens_used": 534917600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24442671239376068,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506037473678589,
+      "objective/train/weighted_lm_loss": 4.008247375488281,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9937735795974731,
+      "theoretical_loss": 3.9028839065452745,
+      "tokens_seen": 514457600
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004122209610291336,
+      "loss": 4.0773,
+      "theoretical_loss": 3.902564330608904,
+      "tokens_seen": 514850816
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0004120317820658343,
+      "loss": 4.0716,
+      "theoretical_loss": 3.901713653260452,
+      "tokens_seen": 515899392
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.000411842603102535,
+      "loss": 4.114,
+      "theoretical_loss": 3.900865186182421,
+      "tokens_seen": 516947968
+    },
+    {
+      "epoch": 0.18,
+      "objective/train/advantage_avg": 0.4887354075908661,
+      "objective/train/docs_used": 303002,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.991806983947754,
+      "objective/train/original_loss": 3.991806983947754,
+      "objective/train/theoretical_loss": 3.9002302802201427,
+      "objective/train/tokens_used": 538194400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.243209108710289,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501097440719604,
+      "objective/train/weighted_lm_loss": 4.191769123077393,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9525777697563171,
+      "theoretical_loss": 3.9002302802201427,
+      "tokens_seen": 517734400
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004116534241392357,
+      "loss": 4.1111,
+      "theoretical_loss": 3.9000189191661163,
+      "tokens_seen": 517996544
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00041146424517593647,
+      "loss": 4.0989,
+      "theoretical_loss": 3.8991748420705363,
+      "tokens_seen": 519045120
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00041127506621263716,
+      "loss": 4.112,
+      "theoretical_loss": 3.8983329448217905,
+      "tokens_seen": 520093696
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.4678727686405182,
+      "objective/train/docs_used": 304925,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.8752501010894775,
+      "objective/train/original_loss": 3.8752501010894775,
+      "objective/train/theoretical_loss": 3.8975980650160067,
+      "objective/train/tokens_used": 541471200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22843264043331146,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479482412338257,
+      "objective/train/weighted_lm_loss": 4.060460567474365,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9528185129165649,
+      "theoretical_loss": 3.8975980650160067,
+      "tokens_seen": 521011200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00041108588724933785,
+      "loss": 4.0669,
+      "theoretical_loss": 3.8974932174125194,
+      "tokens_seen": 521142272
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004108967082860386,
+      "loss": 4.147,
+      "theoretical_loss": 3.896655649901324,
+      "tokens_seen": 522190848
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004107075293227393,
+      "loss": 4.117,
+      "theoretical_loss": 3.8958202324121984,
+      "tokens_seen": 523239424
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.48702916502952576,
+      "objective/train/docs_used": 306825,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5543291568756104,
+      "objective/train/original_loss": 3.5543293952941895,
+      "objective/train/theoretical_loss": 3.8949869551339704,
+      "objective/train/tokens_used": 544748000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23956939578056335,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049920678138733,
+      "objective/train/weighted_lm_loss": 3.730886936187744,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9572703242301941,
+      "theoretical_loss": 3.8949869551339704,
+      "tokens_seen": 524288000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00041051835035944004,
+      "loss": 4.0828,
+      "theoretical_loss": 3.8949869551339704,
+      "tokens_seen": 524288000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00041032917139614074,
+      "loss": 4.0647,
+      "theoretical_loss": 3.8941558083197467,
+      "tokens_seen": 525336576
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004101399924328415,
+      "loss": 4.0718,
+      "theoretical_loss": 3.8933267822863646,
+      "tokens_seen": 526385152
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040995081346954223,
+      "loss": 4.046,
+      "theoretical_loss": 3.8924998674138487,
+      "tokens_seen": 527433728
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.4876173734664917,
+      "objective/train/docs_used": 308042,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9242730140686035,
+      "objective/train/original_loss": 3.9242730140686035,
+      "objective/train/theoretical_loss": 3.892396651019104,
+      "objective/train/tokens_used": 548024800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24128563702106476,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499881505966187,
+      "objective/train/weighted_lm_loss": 4.1212382316589355,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9571343064308167,
+      "theoretical_loss": 3.892396651019104,
+      "tokens_seen": 527564800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004097616345062429,
+      "loss": 4.1247,
+      "theoretical_loss": 3.8916750541448764,
+      "tokens_seen": 528482304
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004095724555429436,
+      "loss": 4.1589,
+      "theoretical_loss": 3.890852332984242,
+      "tokens_seen": 529530880
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040938327657964437,
+      "loss": 4.1626,
+      "theoretical_loss": 3.890031694498337,
+      "tokens_seen": 530579456
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.47788065671920776,
+      "objective/train/docs_used": 310103,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.8699586391448975,
+      "objective/train/original_loss": 3.8699588775634766,
+      "objective/train/theoretical_loss": 3.889826859195108,
+      "objective/train/tokens_used": 551301600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23559047281742096,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048985481262207,
+      "objective/train/weighted_lm_loss": 4.060449600219727,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9523392915725708,
+      "theoretical_loss": 3.889826859195108,
+      "tokens_seen": 530841600
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040919409761634506,
+      "loss": 4.0974,
+      "theoretical_loss": 3.8892131293146237,
+      "tokens_seen": 531628032
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004090049186530458,
+      "loss": 3.9809,
+      "theoretical_loss": 3.888396628121124,
+      "tokens_seen": 532676608
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004088157396897465,
+      "loss": 4.0358,
+      "theoretical_loss": 3.887582181665909,
+      "tokens_seen": 533725184
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.4851924479007721,
+      "objective/train/docs_used": 311341,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.86273193359375,
+      "objective/train/original_loss": 3.862731695175171,
+      "objective/train/theoretical_loss": 3.887277292104349,
+      "objective/train/tokens_used": 554578400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24329021573066711,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497558116912842,
+      "objective/train/weighted_lm_loss": 4.054152965545654,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9514743685722351,
+      "theoretical_loss": 3.887277292104349,
+      "tokens_seen": 534118400
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004086265607264472,
+      "loss": 4.0574,
+      "theoretical_loss": 3.8867697807565937,
+      "tokens_seen": 534773760
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040843738176314794,
+      "loss": 4.0136,
+      "theoretical_loss": 3.8859594162598396,
+      "tokens_seen": 535822336
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040824820279984864,
+      "loss": 4.1343,
+      "theoretical_loss": 3.8851510791008588,
+      "tokens_seen": 536870912
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.47740688920021057,
+      "objective/train/docs_used": 313016,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9105546474456787,
+      "objective/train/original_loss": 3.910554885864258,
+      "objective/train/theoretical_loss": 3.884747667953053,
+      "objective/train/tokens_used": 557855200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2320510745048523,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489201545715332,
+      "objective/train/weighted_lm_loss": 4.102197170257568,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9539920091629028,
+      "theoretical_loss": 3.884747667953053,
+      "tokens_seen": 537395200
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004080590238365494,
+      "loss": 4.1085,
+      "theoretical_loss": 3.8843447602629277,
+      "tokens_seen": 537919488
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040786984487325013,
+      "loss": 4.0926,
+      "theoretical_loss": 3.883540450786901,
+      "tokens_seen": 538968064
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004076806659099508,
+      "loss": 4.0265,
+      "theoretical_loss": 3.8827381417707327,
+      "tokens_seen": 540016640
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.4817216992378235,
+      "objective/train/docs_used": 314826,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.573957681655884,
+      "objective/train/original_loss": 3.573957920074463,
+      "objective/train/theoretical_loss": 3.8822377105614674,
+      "objective/train/tokens_used": 561132000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2370116412639618,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493767261505127,
+      "objective/train/weighted_lm_loss": 3.7496209144592285,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.9515175819396973,
+      "theoretical_loss": 3.8822377105614674,
+      "tokens_seen": 540672000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040749148694665157,
+      "loss": 4.0104,
+      "theoretical_loss": 3.8819378243690044,
+      "tokens_seen": 541065216
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040730230798335227,
+      "loss": 4.0048,
+      "theoretical_loss": 3.881139489792454,
+      "tokens_seen": 542113792
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00040711312902005296,
+      "loss": 4.0798,
+      "theoretical_loss": 3.880343129307512,
+      "tokens_seen": 543162368
+    },
+    {
+      "epoch": 0.19,
+      "objective/train/advantage_avg": 0.47069650888442993,
+      "objective/train/docs_used": 316612,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.242428302764893,
+      "objective/train/original_loss": 4.242428779602051,
+      "objective/train/theoretical_loss": 3.8797471492187987,
+      "objective/train/tokens_used": 564408800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22920586168766022,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0482345819473267,
+      "objective/train/weighted_lm_loss": 4.447694301605225,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.962023138999939,
+      "theoretical_loss": 3.8797471492187987,
+      "tokens_seen": 543948800
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004069239500567537,
+      "loss": 4.1018,
+      "theoretical_loss": 3.879548734235843,
+      "tokens_seen": 544210944
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0004067347710934544,
+      "loss": 4.0261,
+      "theoretical_loss": 3.878756295953889,
+      "tokens_seen": 545259520
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040654559213015515,
+      "loss": 4.1229,
+      "theoretical_loss": 3.87796580589242,
+      "tokens_seen": 546308096
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4922097623348236,
+      "objective/train/docs_used": 318614,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.817476749420166,
+      "objective/train/original_loss": 3.817476511001587,
+      "objective/train/theoretical_loss": 3.877275718542742,
+      "objective/train/tokens_used": 567685600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2433522641658783,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504580736160278,
+      "objective/train/weighted_lm_loss": 4.011016368865967,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9557735323905945,
+      "theoretical_loss": 3.877275718542742,
+      "tokens_seen": 547225600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040635641316685584,
+      "loss": 4.0408,
+      "theoretical_loss": 3.877177255536089,
+      "tokens_seen": 547356672
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040616723420355653,
+      "loss": 4.0115,
+      "theoretical_loss": 3.8763906364229888,
+      "tokens_seen": 548405248
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004059780552402573,
+      "loss": 3.9969,
+      "theoretical_loss": 3.875605940144217,
+      "tokens_seen": 549453824
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4792472720146179,
+      "objective/train/docs_used": 320433,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.018838405609131,
+      "objective/train/original_loss": 4.018837928771973,
+      "objective/train/theoretical_loss": 3.8748231583434425,
+      "objective/train/tokens_used": 570962400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24296848475933075,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491595268249512,
+      "objective/train/weighted_lm_loss": 4.21675968170166,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9513953924179077,
+      "theoretical_loss": 3.8748231583434425,
+      "tokens_seen": 550502400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.000405788876276958,
+      "loss": 3.9935,
+      "theoretical_loss": 3.8748231583434425,
+      "tokens_seen": 550502400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004055996973136588,
+      "loss": 3.9662,
+      "theoretical_loss": 3.8740422827164784,
+      "tokens_seen": 551550976
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040541051835035947,
+      "loss": 4.0177,
+      "theoretical_loss": 3.873263305010858,
+      "tokens_seen": 552599552
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040522133938706016,
+      "loss": 4.0032,
+      "theoretical_loss": 3.872486217025413,
+      "tokens_seen": 553648128
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.46256640553474426,
+      "objective/train/docs_used": 322451,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.843613386154175,
+      "objective/train/original_loss": 3.843613624572754,
+      "objective/train/theoretical_loss": 3.872389213491709,
+      "objective/train/tokens_used": 574239200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23105382919311523,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474309921264648,
+      "objective/train/weighted_lm_loss": 4.021306037902832,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9536635279655457,
+      "theoretical_loss": 3.872389213491709,
+      "tokens_seen": 553779200
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004050321604237609,
+      "loss": 3.9792,
+      "theoretical_loss": 3.8717110106098627,
+      "tokens_seen": 554696704
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004048429814604616,
+      "loss": 4.0535,
+      "theoretical_loss": 3.870937677664398,
+      "tokens_seen": 555745280
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040465380249716235,
+      "loss": 4.0048,
+      "theoretical_loss": 3.870166210139278,
+      "tokens_seen": 556793856
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4924386441707611,
+      "objective/train/docs_used": 324068,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.743295431137085,
+      "objective/train/original_loss": 3.743295431137085,
+      "objective/train/theoretical_loss": 3.869973633791332,
+      "objective/train/tokens_used": 577516000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24441003799438477,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504863262176514,
+      "objective/train/weighted_lm_loss": 3.932000160217285,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9550192356109619,
+      "theoretical_loss": 3.869973633791332,
+      "tokens_seen": 557056000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040446462353386305,
+      "loss": 4.0371,
+      "theoretical_loss": 3.8693966000344253,
+      "tokens_seen": 557842432
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040427544457056374,
+      "loss": 4.0484,
+      "theoretical_loss": 3.868628839399026,
+      "tokens_seen": 558891008
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004040862656072645,
+      "loss": 4.0689,
+      "theoretical_loss": 3.8678629203311368,
+      "tokens_seen": 559939584
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.48858821392059326,
+      "objective/train/docs_used": 325860,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9442625045776367,
+      "objective/train/original_loss": 3.9442625045776367,
+      "objective/train/theoretical_loss": 3.8675761738553596,
+      "objective/train/tokens_used": 580792800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2418859302997589,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500881671905518,
+      "objective/train/weighted_lm_loss": 4.1417741775512695,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9529458284378052,
+      "theoretical_loss": 3.8675761738553596,
+      "tokens_seen": 560332800
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004038970866439652,
+      "loss": 4.0605,
+      "theoretical_loss": 3.8670988349772912,
+      "tokens_seen": 560988160
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004037079076806659,
+      "loss": 3.9893,
+      "theoretical_loss": 3.8663365755321157,
+      "tokens_seen": 562036736
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004035187287173666,
+      "loss": 4.0399,
+      "theoretical_loss": 3.865576134237943,
+      "tokens_seen": 563085312
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4872007668018341,
+      "objective/train/docs_used": 327873,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9615707397460938,
+      "objective/train/original_loss": 3.9615705013275146,
+      "objective/train/theoretical_loss": 3.8651965929861625,
+      "objective/train/tokens_used": 584069600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23878945410251617,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499337911605835,
+      "objective/train/weighted_lm_loss": 4.16065788269043,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.954364538192749,
+      "theoretical_loss": 3.8651965929861625,
+      "tokens_seen": 563609600
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040332954975406737,
+      "loss": 3.9192,
+      "theoretical_loss": 3.8648175033844323,
+      "tokens_seen": 564133888
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004031403707907681,
+      "loss": 3.9902,
+      "theoretical_loss": 3.8640606753081954,
+      "tokens_seen": 565182464
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004029511918274688,
+      "loss": 4.0045,
+      "theoretical_loss": 3.8633056423924232,
+      "tokens_seen": 566231040
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4880378842353821,
+      "objective/train/docs_used": 329813,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.8092806339263916,
+      "objective/train/original_loss": 3.8092806339263916,
+      "objective/train/theoretical_loss": 3.8628346550591868,
+      "objective/train/tokens_used": 587346400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24268953502178192,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500373840332031,
+      "objective/train/weighted_lm_loss": 3.999559164047241,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9522239565849304,
+      "theoretical_loss": 3.8628346550591868,
+      "tokens_seen": 566886400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004027620128641695,
+      "loss": 3.9948,
+      "theoretical_loss": 3.8625523970665174,
+      "tokens_seen": 567279616
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040257283390087025,
+      "loss": 3.9634,
+      "theoretical_loss": 3.8618009318057234,
+      "tokens_seen": 568328192
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040238365493757095,
+      "loss": 3.984,
+      "theoretical_loss": 3.861051239130771,
+      "tokens_seen": 569376768
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.4942159652709961,
+      "objective/train/docs_used": 331022,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.885915756225586,
+      "objective/train/original_loss": 3.885915517807007,
+      "objective/train/theoretical_loss": 3.8604901284102264,
+      "objective/train/tokens_used": 590623200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24478492140769958,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506659746170044,
+      "objective/train/weighted_lm_loss": 4.08283805847168,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 1.01108717918396,
+      "theoretical_loss": 3.8604901284102264,
+      "tokens_seen": 570163200
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004021944759742717,
+      "loss": 3.956,
+      "theoretical_loss": 3.860303311607516,
+      "tokens_seen": 570425344
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004020052970109724,
+      "loss": 3.9688,
+      "theoretical_loss": 3.859557141846584,
+      "tokens_seen": 571473920
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0004018161180476731,
+      "loss": 3.9664,
+      "theoretical_loss": 3.858812722503022,
+      "tokens_seen": 572522496
+    },
+    {
+      "epoch": 0.2,
+      "objective/train/advantage_avg": 0.48668184876441956,
+      "objective/train/docs_used": 332875,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9940710067749023,
+      "objective/train/original_loss": 3.994070529937744,
+      "objective/train/theoretical_loss": 3.8581627857261136,
+      "objective/train/tokens_used": 593900000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23973610997200012,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498868227005005,
+      "objective/train/weighted_lm_loss": 4.192169189453125,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9601668119430542,
+      "theoretical_loss": 3.8581627857261136,
+      "tokens_seen": 573440000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00040162693908437383,
+      "loss": 3.9147,
+      "theoretical_loss": 3.8580700462759463,
+      "tokens_seen": 573571072
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004014377601210745,
+      "loss": 3.8744,
+      "theoretical_loss": 3.857329105908203,
+      "tokens_seen": 574619648
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004012485811577752,
+      "loss": 3.8891,
+      "theoretical_loss": 3.8565898941860244,
+      "tokens_seen": 575668224
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.48827463388442993,
+      "objective/train/docs_used": 334850,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.9289157390594482,
+      "objective/train/original_loss": 3.928915500640869,
+      "objective/train/theoretical_loss": 3.855852403938689,
+      "objective/train/tokens_used": 597176800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24086636304855347,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500519275665283,
+      "objective/train/weighted_lm_loss": 4.12490701675415,
+      "objective/train/weights_max": 1.0512205362319946,
+      "objective/train/weights_min": 0.9660784602165222,
+      "theoretical_loss": 3.855852403938689,
+      "tokens_seen": 576716800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.000401059402194476,
+      "loss": 3.9544,
+      "theoretical_loss": 3.855852403938689,
+      "tokens_seen": 576716800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004008702232311767,
+      "loss": 3.8938,
+      "theoretical_loss": 3.8551166280381928,
+      "tokens_seen": 577765376
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00040068104426787746,
+      "loss": 3.9262,
+      "theoretical_loss": 3.854382559398911,
+      "tokens_seen": 578813952
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00040049186530457815,
+      "loss": 3.9064,
+      "theoretical_loss": 3.8536501909772745,
+      "tokens_seen": 579862528
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4799477756023407,
+      "objective/train/docs_used": 336483,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.157769680023193,
+      "objective/train/original_loss": 4.157769203186035,
+      "objective/train/theoretical_loss": 3.8535587641219466,
+      "objective/train/tokens_used": 600453600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23627838492393494,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049195647239685,
+      "objective/train/weighted_lm_loss": 4.361729621887207,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9601474404335022,
+      "theoretical_loss": 3.8535587641219466,
+      "tokens_seen": 579993600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00040030268634127884,
+      "loss": 3.9204,
+      "theoretical_loss": 3.852919515771444,
+      "tokens_seen": 580911104
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0004001135073779796,
+      "loss": 3.8705,
+      "theoretical_loss": 3.8521905268209857,
+      "tokens_seen": 581959680
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003999243284146803,
+      "loss": 3.8418,
+      "theoretical_loss": 3.851463217206555,
+      "tokens_seen": 583008256
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4861145317554474,
+      "objective/train/docs_used": 338617,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5503835678100586,
+      "objective/train/original_loss": 3.5503835678100586,
+      "objective/train/theoretical_loss": 3.8512816513922274,
+      "objective/train/tokens_used": 603730400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23959481716156006,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498292446136475,
+      "objective/train/weighted_lm_loss": 3.7280282974243164,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9553146362304688,
+      "theoretical_loss": 3.8512816513922274,
+      "tokens_seen": 583270400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039973514945138103,
+      "loss": 3.9243,
+      "theoretical_loss": 3.85073758004958,
+      "tokens_seen": 584056832
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003995459704880817,
+      "loss": 3.8881,
+      "theoretical_loss": 3.850013608511947,
+      "tokens_seen": 585105408
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003993567915247824,
+      "loss": 3.8762,
+      "theoretical_loss": 3.8492912957956933,
+      "tokens_seen": 586153984
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.49152064323425293,
+      "objective/train/docs_used": 340897,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6887147426605225,
+      "objective/train/original_loss": 3.6887147426605225,
+      "objective/train/theoretical_loss": 3.849020854811377,
+      "objective/train/tokens_used": 607007200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24309617280960083,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503878593444824,
+      "objective/train/weighted_lm_loss": 3.874969959259033,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.955743134021759,
+      "theoretical_loss": 3.849020854811377,
+      "tokens_seen": 586547200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039916761256148317,
+      "loss": 3.8016,
+      "theoretical_loss": 3.848570635142696,
+      "tokens_seen": 587202560
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039897843359818386,
+      "loss": 3.868,
+      "theoretical_loss": 3.8478516198343717,
+      "tokens_seen": 588251136
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003987892546348846,
+      "loss": 3.8427,
+      "theoretical_loss": 3.847134243191375,
+      "tokens_seen": 589299712
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4828517436981201,
+      "objective/train/docs_used": 342928,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4539072513580322,
+      "objective/train/original_loss": 3.4539074897766113,
+      "objective/train/theoretical_loss": 3.8467761672927336,
+      "objective/train/tokens_used": 610284000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23826996982097626,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494961738586426,
+      "objective/train/weighted_lm_loss": 3.62439227104187,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9543166756629944,
+      "theoretical_loss": 3.8467761672927336,
+      "tokens_seen": 589824000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039860007567158536,
+      "loss": 3.8673,
+      "theoretical_loss": 3.8464184985732968,
+      "tokens_seen": 590348288
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039841089670828605,
+      "loss": 3.8051,
+      "theoretical_loss": 3.845704379378372,
+      "tokens_seen": 591396864
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003982217177449868,
+      "loss": 3.8316,
+      "theoretical_loss": 3.8449918790431843,
+      "tokens_seen": 592445440
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4931422472000122,
+      "objective/train/docs_used": 344591,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7263171672821045,
+      "objective/train/original_loss": 3.7263169288635254,
+      "objective/train/theoretical_loss": 3.844547385509876,
+      "objective/train/tokens_used": 613560800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24458102881908417,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505576133728027,
+      "objective/train/weighted_lm_loss": 3.9147326946258545,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.958858847618103,
+      "theoretical_loss": 3.844547385509876,
+      "tokens_seen": 593100800
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003980325387816875,
+      "loss": 3.7537,
+      "theoretical_loss": 3.8442809910423783,
+      "tokens_seen": 593494016
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003978433598183882,
+      "loss": 3.8097,
+      "theoretical_loss": 3.8435717088883696,
+      "tokens_seen": 594542592
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039765418085508893,
+      "loss": 3.8132,
+      "theoretical_loss": 3.842864026131061,
+      "tokens_seen": 595591168
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4828213155269623,
+      "objective/train/docs_used": 346610,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7849457263946533,
+      "objective/train/original_loss": 3.784945487976074,
+      "objective/train/theoretical_loss": 3.8423343098080185,
+      "objective/train/tokens_used": 616837600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23697614669799805,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494866371154785,
+      "objective/train/weighted_lm_loss": 3.9723143577575684,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9641447067260742,
+      "theoretical_loss": 3.8423343098080185,
+      "tokens_seen": 596377600
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003974650018917896,
+      "loss": 3.8631,
+      "theoretical_loss": 3.8421579363575615,
+      "tokens_seen": 596639744
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003972758229284904,
+      "loss": 3.8146,
+      "theoretical_loss": 3.841453433191904,
+      "tokens_seen": 597688320
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039708664396519107,
+      "loss": 3.6873,
+      "theoretical_loss": 3.8407505102947725,
+      "tokens_seen": 598736896
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4851977527141571,
+      "objective/train/docs_used": 348552,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.527412176132202,
+      "objective/train/original_loss": 3.527411937713623,
+      "objective/train/theoretical_loss": 3.8401367441179683,
+      "objective/train/tokens_used": 620114400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23921814560890198,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04973566532135,
+      "objective/train/weighted_lm_loss": 3.7025134563446045,
+      "objective/train/weights_max": 1.0512197017669678,
+      "objective/train/weights_min": 0.9565510153770447,
+      "theoretical_loss": 3.8401367441179683,
+      "tokens_seen": 599654400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039689746500189176,
+      "loss": 3.8363,
+      "theoretical_loss": 3.840049161363223,
+      "tokens_seen": 599785472
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0003967082860385925,
+      "loss": 3.8554,
+      "theoretical_loss": 3.839349380130415,
+      "tokens_seen": 600834048
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00039651910707529326,
+      "loss": 3.8245,
+      "theoretical_loss": 3.838651160365341,
+      "tokens_seen": 601882624
+    },
+    {
+      "epoch": 0.21,
+      "objective/train/advantage_avg": 0.4847736060619354,
+      "objective/train/docs_used": 349996,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6133832931518555,
+      "objective/train/original_loss": 3.6133837699890137,
+      "objective/train/theoretical_loss": 3.837954495872559,
+      "objective/train/tokens_used": 623391200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24165962636470795,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497056245803833,
+      "objective/train/weighted_lm_loss": 3.7934508323669434,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9520853757858276,
+      "theoretical_loss": 3.837954495872559,
+      "tokens_seen": 602931200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039632992811199395,
+      "loss": 3.8619,
+      "theoretical_loss": 3.837954495872559,
+      "tokens_seen": 602931200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003961407491486947,
+      "loss": 3.7791,
+      "theoretical_loss": 3.837259380491929,
+      "tokens_seen": 603979776
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003959515701853954,
+      "loss": 3.8418,
+      "theoretical_loss": 3.836565808098351,
+      "tokens_seen": 605028352
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039576239122209614,
+      "loss": 3.7307,
+      "theoretical_loss": 3.835873772601505,
+      "tokens_seen": 606076928
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.4784153997898102,
+      "objective/train/docs_used": 351917,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.869309663772583,
+      "objective/train/original_loss": 3.869309902191162,
+      "objective/train/theoretical_loss": 3.8357873759254693,
+      "objective/train/tokens_used": 626668000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23981763422489166,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490604639053345,
+      "objective/train/weighted_lm_loss": 4.058266639709473,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9513825178146362,
+      "theoretical_loss": 3.8357873759254693,
+      "tokens_seen": 606208000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039557321225879683,
+      "loss": 3.8473,
+      "theoretical_loss": 3.8351832679455935,
+      "tokens_seen": 607125504
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003953840332954975,
+      "loss": 3.8616,
+      "theoretical_loss": 3.834494288109086,
+      "tokens_seen": 608174080
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039519485433219827,
+      "loss": 3.7887,
+      "theoretical_loss": 3.8338068271044703,
+      "tokens_seen": 609222656
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.4771646559238434,
+      "objective/train/docs_used": 353838,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.676715850830078,
+      "objective/train/original_loss": 3.6767160892486572,
+      "objective/train/theoretical_loss": 3.833635198472356,
+      "objective/train/tokens_used": 629944800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24118247628211975,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489422082901,
+      "objective/train/weighted_lm_loss": 3.8588476181030273,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9538320899009705,
+      "theoretical_loss": 3.833635198472356,
+      "tokens_seen": 609484800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039500567536889897,
+      "loss": 3.734,
+      "theoretical_loss": 3.8331208789779954,
+      "tokens_seen": 610271232
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003948164964055997,
+      "loss": 3.7623,
+      "theoretical_loss": 3.83243643780943,
+      "tokens_seen": 611319808
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003946273174423004,
+      "loss": 3.7609,
+      "theoretical_loss": 3.8317534977118117,
+      "tokens_seen": 612368384
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.48455891013145447,
+      "objective/train/docs_used": 355739,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.41206693649292,
+      "objective/train/original_loss": 3.4120664596557617,
+      "objective/train/theoretical_loss": 3.831497780974214,
+      "objective/train/tokens_used": 633221600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24124765396118164,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496820211410522,
+      "objective/train/weighted_lm_loss": 3.581446647644043,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9515277147293091,
+      "theoretical_loss": 3.831497780974214,
+      "tokens_seen": 612761600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003944381384790011,
+      "loss": 3.712,
+      "theoretical_loss": 3.8310720528312077,
+      "tokens_seen": 613416960
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003942489595157019,
+      "loss": 3.8369,
+      "theoretical_loss": 3.830392097346471,
+      "tokens_seen": 614465536
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003940597805524026,
+      "loss": 3.783,
+      "theoretical_loss": 3.8297136254690005,
+      "tokens_seen": 615514112
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.4844302237033844,
+      "objective/train/docs_used": 357525,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7821826934814453,
+      "objective/train/original_loss": 3.782182216644287,
+      "objective/train/theoretical_loss": 3.829374944082894,
+      "objective/train/tokens_used": 636498400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2419605404138565,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496729612350464,
+      "objective/train/weighted_lm_loss": 3.9696102142333984,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9518074989318848,
+      "theoretical_loss": 3.829374944082894,
+      "tokens_seen": 616038400
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039387060158910334,
+      "loss": 3.7717,
+      "theoretical_loss": 3.829036631442506,
+      "tokens_seen": 616562688
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039368142262580404,
+      "loss": 3.8207,
+      "theoretical_loss": 3.8283611095427723,
+      "tokens_seen": 617611264
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039349224366250473,
+      "loss": 3.8517,
+      "theoretical_loss": 3.827687054077426,
+      "tokens_seen": 618659840
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.48121803998947144,
+      "objective/train/docs_used": 359292,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7164201736450195,
+      "objective/train/original_loss": 3.7164201736450195,
+      "objective/train/theoretical_loss": 3.8272665115687077,
+      "objective/train/tokens_used": 639775200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23925188183784485,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493377447128296,
+      "objective/train/weighted_lm_loss": 3.8987090587615967,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9516848921775818,
+      "theoretical_loss": 3.8272665115687077,
+      "tokens_seen": 619315200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003933030646992055,
+      "loss": 3.7766,
+      "theoretical_loss": 3.8270144593857056,
+      "tokens_seen": 619708416
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039311388573590617,
+      "loss": 3.8282,
+      "theoretical_loss": 3.8263433198382324,
+      "tokens_seen": 620756992
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039292470677260686,
+      "loss": 3.8165,
+      "theoretical_loss": 3.825673629836783,
+      "tokens_seen": 621805568
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.4897088408470154,
+      "objective/train/docs_used": 360813,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4187488555908203,
+      "objective/train/original_loss": 3.4187488555908203,
+      "objective/train/theoretical_loss": 3.8251723102500437,
+      "objective/train/tokens_used": 643052000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24293170869350433,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502057075500488,
+      "objective/train/weighted_lm_loss": 3.590527057647705,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9520784020423889,
+      "theoretical_loss": 3.8251723102500437,
+      "tokens_seen": 622592000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003927355278093076,
+      "loss": 3.8059,
+      "theoretical_loss": 3.8250053838140663,
+      "tokens_seen": 622854144
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003925463488460083,
+      "loss": 3.8233,
+      "theoretical_loss": 3.8243385762335,
+      "tokens_seen": 623902720
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039235716988270905,
+      "loss": 3.7707,
+      "theoretical_loss": 3.8236732015889903,
+      "tokens_seen": 624951296
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.4751550257205963,
+      "objective/train/docs_used": 362724,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.419285535812378,
+      "objective/train/original_loss": 3.419285774230957,
+      "objective/train/theoretical_loss": 3.823092169924938,
+      "objective/train/tokens_used": 646328800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2330601066350937,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048699975013733,
+      "objective/train/weighted_lm_loss": 3.5884759426116943,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9552221894264221,
+      "theoretical_loss": 3.823092169924938,
+      "tokens_seen": 625868800
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039216799091940975,
+      "loss": 3.8137,
+      "theoretical_loss": 3.8230092544047123,
+      "tokens_seen": 625999872
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0003919788119561105,
+      "loss": 3.8197,
+      "theoretical_loss": 3.8223467292348943,
+      "tokens_seen": 627048448
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039178963299281124,
+      "loss": 3.8388,
+      "theoretical_loss": 3.8216856206636014,
+      "tokens_seen": 628097024
+    },
+    {
+      "epoch": 0.22,
+      "objective/train/advantage_avg": 0.47925102710723877,
+      "objective/train/docs_used": 364484,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.616079568862915,
+      "objective/train/original_loss": 3.6160800457000732,
+      "objective/train/theoretical_loss": 3.8210259233045254,
+      "objective/train/tokens_used": 649605600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23632030189037323,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049126148223877,
+      "objective/train/weighted_lm_loss": 3.7934699058532715,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.956553041934967,
+      "theoretical_loss": 3.8210259233045254,
+      "tokens_seen": 629145600
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00039160045402951194,
+      "loss": 3.8423,
+      "theoretical_loss": 3.8210259233045254,
+      "tokens_seen": 629145600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003914112750662127,
+      "loss": 3.7631,
+      "theoretical_loss": 3.8203676318007704,
+      "tokens_seen": 630194176
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003912220961029134,
+      "loss": 3.7999,
+      "theoretical_loss": 3.819710740824646,
+      "tokens_seen": 631242752
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00039103291713961407,
+      "loss": 3.7643,
+      "theoretical_loss": 3.8190552450774584,
+      "tokens_seen": 632291328
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.49162372946739197,
+      "objective/train/docs_used": 365542,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.556671619415283,
+      "objective/train/original_loss": 3.556671142578125,
+      "objective/train/theoretical_loss": 3.8189734059483165,
+      "objective/train/tokens_used": 652882400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2439402937889099,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504025220870972,
+      "objective/train/weighted_lm_loss": 3.735517740249634,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9563419818878174,
+      "theoretical_loss": 3.8189734059483165,
+      "tokens_seen": 632422400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003908437381763148,
+      "loss": 3.7508,
+      "theoretical_loss": 3.818401139289306,
+      "tokens_seen": 633339904
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003906545592130155,
+      "loss": 3.7896,
+      "theoretical_loss": 3.8177484182188737,
+      "tokens_seen": 634388480
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003904653802497162,
+      "loss": 3.7664,
+      "theoretical_loss": 3.8170970766532326,
+      "tokens_seen": 635437056
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.4842968285083771,
+      "objective/train/docs_used": 367606,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4450738430023193,
+      "objective/train/original_loss": 3.4450740814208984,
+      "objective/train/theoretical_loss": 3.816934456201243,
+      "objective/train/tokens_used": 656159200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23944607377052307,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496467351913452,
+      "objective/train/weighted_lm_loss": 3.6150896549224854,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9515578150749207,
+      "theoretical_loss": 3.816934456201243,
+      "tokens_seen": 635699200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00039027620128641695,
+      "loss": 3.7711,
+      "theoretical_loss": 3.816447109407641,
+      "tokens_seen": 636485632
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00039008702232311765,
+      "loss": 3.7285,
+      "theoretical_loss": 3.815798511325341,
+      "tokens_seen": 637534208
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003898978433598184,
+      "loss": 3.7098,
+      "theoretical_loss": 3.8151512772773675,
+      "tokens_seen": 638582784
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.4804910719394684,
+      "objective/train/docs_used": 369550,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.8657212257385254,
+      "objective/train/original_loss": 3.8657212257385254,
+      "objective/train/theoretical_loss": 3.8149089151324036,
+      "objective/train/tokens_used": 659436000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2408989667892456,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492734909057617,
+      "objective/train/weighted_lm_loss": 4.05525541305542,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9521989822387695,
+      "theoretical_loss": 3.8149089151324036,
+      "tokens_seen": 638976000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038970866439651914,
+      "loss": 3.7187,
+      "theoretical_loss": 3.814505402162349,
+      "tokens_seen": 639631360
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038951948543321983,
+      "loss": 3.7472,
+      "theoretical_loss": 3.813860880906316,
+      "tokens_seen": 640679936
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003893303064699206,
+      "loss": 3.6962,
+      "theoretical_loss": 3.813217708462508,
+      "tokens_seen": 641728512
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.4754175543785095,
+      "objective/train/docs_used": 371294,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.896268606185913,
+      "objective/train/original_loss": 3.896268606185913,
+      "objective/train/theoretical_loss": 3.81289662647547,
+      "objective/train/tokens_used": 662712800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23610548675060272,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487416982650757,
+      "objective/train/weighted_lm_loss": 4.083958625793457,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9514708518981934,
+      "theoretical_loss": 3.81289662647547,
+      "tokens_seen": 642252800
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003891411275066213,
+      "loss": 3.7512,
+      "theoretical_loss": 3.8125758798111864,
+      "tokens_seen": 642777088
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.000388951948543322,
+      "loss": 3.7466,
+      "theoretical_loss": 3.8119353899594413,
+      "tokens_seen": 643825664
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003887627695800227,
+      "loss": 3.7158,
+      "theoretical_loss": 3.8112962339410092,
+      "tokens_seen": 644874240
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.48057374358177185,
+      "objective/train/docs_used": 373458,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5815200805664062,
+      "objective/train/original_loss": 3.5815200805664062,
+      "objective/train/theoretical_loss": 3.8108974365706887,
+      "objective/train/tokens_used": 665989600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23741313815116882,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492641925811768,
+      "objective/train/weighted_lm_loss": 3.756553888320923,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.96083664894104,
+      "theoretical_loss": 3.8108974365706887,
+      "tokens_seen": 645529600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003885735906167234,
+      "loss": 3.761,
+      "theoretical_loss": 3.810658406816085,
+      "tokens_seen": 645922816
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038838441165342416,
+      "loss": 3.7984,
+      "theoretical_loss": 3.8100219036711396,
+      "tokens_seen": 646971392
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038819523269012485,
+      "loss": 3.6906,
+      "theoretical_loss": 3.809386719618737,
+      "tokens_seen": 648019968
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.48978403210639954,
+      "objective/train/docs_used": 375609,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.641045331954956,
+      "objective/train/original_loss": 3.641045331954956,
+      "objective/train/theoretical_loss": 3.808911194308436,
+      "objective/train/tokens_used": 669266400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24249985814094543,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502111911773682,
+      "objective/train/weighted_lm_loss": 3.823545217514038,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9532389640808105,
+      "theoretical_loss": 3.808911194308436,
+      "tokens_seen": 648806400
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038800605372682554,
+      "loss": 3.6938,
+      "theoretical_loss": 3.808752849797353,
+      "tokens_seen": 649068544
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003878168747635263,
+      "loss": 3.7689,
+      "theoretical_loss": 3.8081202893712005,
+      "tokens_seen": 650117120
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.000387627695800227,
+      "loss": 3.7645,
+      "theoretical_loss": 3.807489033530046,
+      "tokens_seen": 651165696
+    },
+    {
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.4892757833003998,
+      "objective/train/docs_used": 377261,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.345855712890625,
+      "objective/train/original_loss": 3.345855712890625,
+      "objective/train/theoretical_loss": 3.806937751074268,
+      "objective/train/tokens_used": 672543200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24105043709278107,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501528978347778,
+      "objective/train/weighted_lm_loss": 3.5135161876678467,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 1.0038224458694458,
+      "theoretical_loss": 3.806937751074268,
+      "tokens_seen": 652083200
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003874385168369278,
+      "loss": 3.7125,
+      "theoretical_loss": 3.806859077489038,
+      "tokens_seen": 652214272
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003872493378736285,
+      "loss": 3.6562,
+      "theoretical_loss": 3.806230416488531,
+      "tokens_seen": 653262848
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003870601589103292,
+      "loss": 3.7719,
+      "theoretical_loss": 3.8056030457939114,
+      "tokens_seen": 654311424
+    },
+    {
+      "debugging/Self-BLEU-5": 0.5265375629586004,
+      "debugging/distinct-1-grams": 0.7435820408094715,
+      "debugging/distinct-2-grams": 0.9558103821233092,
+      "debugging/entropy-1-grams": 5.931434510687563,
+      "debugging/entropy-2-grams": 6.886416755326388,
+      "debugging/length": 521.9230769230769,
+      "debugging/num_segments": 13,
+      "debugging/raw_token_scores_avg": 0.022742915898561478,
+      "debugging/raw_token_scores_std": 0.07841178774833679,
+      "epoch": 0.23,
+      "objective/train/advantage_avg": 0.4772515594959259,
+      "objective/train/docs_used": 379091,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.803166627883911,
+      "objective/train/original_loss": 3.803165912628174,
+      "objective/train/theoretical_loss": 3.804976960695429,
+      "objective/train/tokens_used": 675820000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23392102122306824,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489141941070557,
+      "objective/train/weighted_lm_loss": 3.988487958908081,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9569684863090515,
+      "theoretical_loss": 3.804976960695429,
+      "tokens_seen": 655360000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003868709799470299,
+      "loss": 3.7882,
+      "theoretical_loss": 3.804976960695429,
+      "tokens_seen": 655360000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0003866818009837306,
+      "loss": 3.7545,
+      "theoretical_loss": 3.8043521565080236,
+      "tokens_seen": 656408576
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00038649262202043136,
+      "loss": 3.8025,
+      "theoretical_loss": 3.803728628571159,
+      "tokens_seen": 657457152
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038630344305713206,
+      "loss": 3.6804,
+      "theoretical_loss": 3.803106372248654,
+      "tokens_seen": 658505728
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4905237853527069,
+      "objective/train/docs_used": 380902,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.74001145362854,
+      "objective/train/original_loss": 3.740011692047119,
+      "objective/train/theoretical_loss": 3.8030286793887647,
+      "objective/train/tokens_used": 679096800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24173638224601746,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502811670303345,
+      "objective/train/weighted_lm_loss": 3.927738666534424,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.984406590461731,
+      "theoretical_loss": 3.8030286793887647,
+      "tokens_seen": 658636800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038611426409383275,
+      "loss": 3.7401,
+      "theoretical_loss": 3.8024853829285172,
+      "tokens_seen": 659554304
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003859250851305335,
+      "loss": 3.755,
+      "theoretical_loss": 3.801865656022783,
+      "tokens_seen": 660602880
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003857359061672342,
+      "loss": 3.731,
+      "theoretical_loss": 3.801247186967348,
+      "tokens_seen": 661651456
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4816935658454895,
+      "objective/train/docs_used": 382599,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.499560832977295,
+      "objective/train/original_loss": 3.499560832977295,
+      "objective/train/theoretical_loss": 3.8010927657100013,
+      "objective/train/tokens_used": 682373600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24318966269493103,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494053363800049,
+      "objective/train/weighted_lm_loss": 3.671086072921753,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9515833854675293,
+      "theoretical_loss": 3.8010927657100013,
+      "tokens_seen": 661913600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003855467272039349,
+      "loss": 3.7489,
+      "theoretical_loss": 3.8006299712218086,
+      "tokens_seen": 662700032
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038535754824063563,
+      "loss": 3.8024,
+      "theoretical_loss": 3.8000140042693022,
+      "tokens_seen": 663748608
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003851683692773364,
+      "loss": 3.7713,
+      "theoretical_loss": 3.799399281616348,
+      "tokens_seen": 664797184
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4905191957950592,
+      "objective/train/docs_used": 384593,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 4.0451765060424805,
+      "objective/train/original_loss": 4.0451765060424805,
+      "objective/train/theoretical_loss": 3.7991690805043445,
+      "objective/train/tokens_used": 685650400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24210280179977417,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050282597541809,
+      "objective/train/weighted_lm_loss": 4.24802303314209,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9715428352355957,
+      "theoretical_loss": 3.7991690805043445,
+      "tokens_seen": 665190400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038497919031403713,
+      "loss": 3.7883,
+      "theoretical_loss": 3.798785798792688,
+      "tokens_seen": 665845760
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003847900113507378,
+      "loss": 3.7983,
+      "theoretical_loss": 3.798173551351132,
+      "tokens_seen": 666894336
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003846008323874385,
+      "loss": 3.7106,
+      "theoretical_loss": 3.797562534867401,
+      "tokens_seen": 667942912
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.47869381308555603,
+      "objective/train/docs_used": 386337,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6440792083740234,
+      "objective/train/original_loss": 3.6440794467926025,
+      "objective/train/theoretical_loss": 3.797257486858361,
+      "objective/train/tokens_used": 688927200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2353726178407669,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490657091140747,
+      "objective/train/weighted_lm_loss": 3.8236608505249023,
+      "objective/train/weights_max": 1.0512152910232544,
+      "objective/train/weights_min": 0.9515171647071838,
+      "theoretical_loss": 3.797257486858361,
+      "tokens_seen": 668467200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038441165342413926,
+      "loss": 3.7644,
+      "theoretical_loss": 3.796952744939976,
+      "tokens_seen": 668991488
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038422247446083996,
+      "loss": 3.7476,
+      "theoretical_loss": 3.7963441771899418,
+      "tokens_seen": 670040064
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003840332954975407,
+      "loss": 3.7805,
+      "theoretical_loss": 3.795736827260839,
+      "tokens_seen": 671088640
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4898402690887451,
+      "objective/train/docs_used": 388157,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.500314474105835,
+      "objective/train/original_loss": 3.500314235687256,
+      "objective/train/theoretical_loss": 3.795357850053097,
+      "objective/train/tokens_used": 692204000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24193520843982697,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502138137817383,
+      "objective/train/weighted_lm_loss": 3.6766164302825928,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9680190682411194,
+      "theoretical_loss": 3.795357850053097,
+      "tokens_seen": 671744000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003838441165342414,
+      "loss": 3.7275,
+      "theoretical_loss": 3.795130690818514,
+      "tokens_seen": 672137216
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003836549375709421,
+      "loss": 3.6728,
+      "theoretical_loss": 3.7945257635509657,
+      "tokens_seen": 673185792
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038346575860764284,
+      "loss": 3.6878,
+      "theoretical_loss": 3.793922041168204,
+      "tokens_seen": 674234368
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.48224732279777527,
+      "objective/train/docs_used": 390150,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4588170051574707,
+      "objective/train/original_loss": 3.4588167667388916,
+      "objective/train/theoretical_loss": 3.79347003751841,
+      "objective/train/tokens_used": 695480800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23753906786441803,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494320392608643,
+      "objective/train/weighted_lm_loss": 3.6302719116210938,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9518483877182007,
+      "theoretical_loss": 3.79347003751841,
+      "tokens_seen": 675020800
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038327657964434353,
+      "loss": 3.6997,
+      "theoretical_loss": 3.7933195194020994,
+      "tokens_seen": 675282944
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003830874006810442,
+      "loss": 3.7589,
+      "theoretical_loss": 3.7927181940062407,
+      "tokens_seen": 676331520
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.000382898221717745,
+      "loss": 3.6792,
+      "theoretical_loss": 3.792118060755787,
+      "tokens_seen": 677380096
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4679737389087677,
+      "objective/train/docs_used": 392039,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2993521690368652,
+      "objective/train/original_loss": 3.299351930618286,
+      "objective/train/theoretical_loss": 3.7915939187884558,
+      "objective/train/tokens_used": 698757600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23201338946819305,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479761362075806,
+      "objective/train/weighted_lm_loss": 3.4587182998657227,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9521719217300415,
+      "theoretical_loss": 3.7915939187884558,
+      "tokens_seen": 678297600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003827090427544457,
+      "loss": 3.7225,
+      "theoretical_loss": 3.7915191154473287,
+      "tokens_seen": 678428672
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038251986379114647,
+      "loss": 3.668,
+      "theoretical_loss": 3.790921353898745,
+      "tokens_seen": 679477248
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038233068482784716,
+      "loss": 3.6388,
+      "theoretical_loss": 3.790324771949063,
+      "tokens_seen": 680525824
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.4891808032989502,
+      "objective/train/docs_used": 393961,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5404582023620605,
+      "objective/train/original_loss": 3.5404579639434814,
+      "objective/train/theoretical_loss": 3.7897293654583164,
+      "objective/train/tokens_used": 702034400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24321125447750092,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501543283462524,
+      "objective/train/weighted_lm_loss": 3.718618869781494,
+      "objective/train/weights_max": 1.0512158870697021,
+      "objective/train/weights_min": 0.9517624974250793,
+      "theoretical_loss": 3.7897293654583164,
+      "tokens_seen": 681574400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038214150586454785,
+      "loss": 3.6814,
+      "theoretical_loss": 3.7897293654583164,
+      "tokens_seen": 681574400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003819523269012486,
+      "loss": 3.5899,
+      "theoretical_loss": 3.7891351303074123,
+      "tokens_seen": 682622976
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0003817631479379493,
+      "loss": 3.5557,
+      "theoretical_loss": 3.7885420623979886,
+      "tokens_seen": 683671552
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038157396897465004,
+      "loss": 3.6581,
+      "theoretical_loss": 3.787950157652282,
+      "tokens_seen": 684720128
+    },
+    {
+      "epoch": 0.24,
+      "objective/train/advantage_avg": 0.47339844703674316,
+      "objective/train/docs_used": 395905,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.22224497795105,
+      "objective/train/original_loss": 3.222245216369629,
+      "objective/train/theoretical_loss": 3.7878762511417223,
+      "objective/train/tokens_used": 705311200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23162895441055298,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048516869544983,
+      "objective/train/weighted_lm_loss": 3.378674268722534,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9526793956756592,
+      "theoretical_loss": 3.7878762511417223,
+      "tokens_seen": 684851200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00038138479001135074,
+      "loss": 3.6211,
+      "theoretical_loss": 3.78735941201299,
+      "tokens_seen": 685768704
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00038119561104805143,
+      "loss": 3.6447,
+      "theoretical_loss": 3.786769821443141,
+      "tokens_seen": 686817280
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003810064320847522,
+      "loss": 3.6458,
+      "theoretical_loss": 3.7861813819259575,
+      "tokens_seen": 687865856
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.46620890498161316,
+      "objective/train/docs_used": 397858,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2505011558532715,
+      "objective/train/original_loss": 3.2505016326904297,
+      "objective/train/theoretical_loss": 3.7860344514298374,
+      "objective/train/tokens_used": 708588000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23270408809185028,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478036403656006,
+      "objective/train/weighted_lm_loss": 3.4039294719696045,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9517877697944641,
+      "theoretical_loss": 3.7860344514298374,
+      "tokens_seen": 688128000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00038081725312145287,
+      "loss": 3.6586,
+      "theoretical_loss": 3.7855940894647278,
+      "tokens_seen": 688914432
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003806280741581537,
+      "loss": 3.6271,
+      "theoretical_loss": 3.785007940082673,
+      "tokens_seen": 689963008
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00038043889519485437,
+      "loss": 3.6519,
+      "theoretical_loss": 3.7844229298228176,
+      "tokens_seen": 691011584
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.4676517844200134,
+      "objective/train/docs_used": 398758,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.232473850250244,
+      "objective/train/original_loss": 3.2324740886688232,
+      "objective/train/theoretical_loss": 3.7842038438510803,
+      "objective/train/tokens_used": 711864800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22986283898353577,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479334592819214,
+      "objective/train/weighted_lm_loss": 3.3902587890625,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9528036713600159,
+      "theoretical_loss": 3.7842038438510803,
+      "tokens_seen": 691404800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00038024971623155506,
+      "loss": 3.76,
+      "theoretical_loss": 3.7838390547478635,
+      "tokens_seen": 692060160
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003800605372682558,
+      "loss": 3.6894,
+      "theoretical_loss": 3.78325631094006,
+      "tokens_seen": 693108736
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003798713583049565,
+      "loss": 3.6554,
+      "theoretical_loss": 3.782674694501079,
+      "tokens_seen": 694157312
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.4899442195892334,
+      "objective/train/docs_used": 400726,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5794906616210938,
+      "objective/train/original_loss": 3.5794901847839355,
+      "objective/train/theoretical_loss": 3.782384307831949,
+      "objective/train/tokens_used": 715141600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2438521683216095,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050234079360962,
+      "objective/train/weighted_lm_loss": 3.758875846862793,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9520761966705322,
+      "theoretical_loss": 3.782384307831949,
+      "tokens_seen": 694681600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003796821793416572,
+      "loss": 3.7036,
+      "theoretical_loss": 3.782094201551887,
+      "tokens_seen": 695205888
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037949300037835794,
+      "loss": 3.704,
+      "theoretical_loss": 3.7815148282326243,
+      "tokens_seen": 696254464
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037930382141505864,
+      "loss": 3.6473,
+      "theoretical_loss": 3.780936570702478,
+      "tokens_seen": 697303040
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.48783382773399353,
+      "objective/train/docs_used": 402482,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4494855403900146,
+      "objective/train/original_loss": 3.4494853019714355,
+      "objective/train/theoretical_loss": 3.780575724658811,
+      "objective/train/tokens_used": 718418400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24229206144809723,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500150918960571,
+      "objective/train/weighted_lm_loss": 3.621917963027954,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9659635424613953,
+      "theoretical_loss": 3.780575724658811,
+      "tokens_seen": 697958400
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003791146424517594,
+      "loss": 3.6276,
+      "theoretical_loss": 3.780359425139562,
+      "tokens_seen": 698351616
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003789254634884601,
+      "loss": 3.6618,
+      "theoretical_loss": 3.7797833877407947,
+      "tokens_seen": 699400192
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037873628452516077,
+      "loss": 3.5677,
+      "theoretical_loss": 3.779208454721779,
+      "tokens_seen": 700448768
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.4900723993778229,
+      "objective/train/docs_used": 404817,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.499330759048462,
+      "objective/train/original_loss": 3.499330997467041,
+      "objective/train/theoretical_loss": 3.778777977440649,
+      "objective/train/tokens_used": 721695200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24242709577083588,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502395629882812,
+      "objective/train/weighted_lm_loss": 3.675553321838379,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9576201438903809,
+      "theoretical_loss": 3.778777977440649,
+      "tokens_seen": 701235200
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003785471055618615,
+      "loss": 3.6181,
+      "theoretical_loss": 3.7786346223166802,
+      "tokens_seen": 701497344
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037835792659856227,
+      "loss": 3.5818,
+      "theoretical_loss": 3.778061886778111,
+      "tokens_seen": 702545920
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000378168747635263,
+      "loss": 3.6,
+      "theoretical_loss": 3.7774902443770113,
+      "tokens_seen": 703594496
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.4579163193702698,
+      "objective/train/docs_used": 406758,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1486806869506836,
+      "objective/train/original_loss": 3.1486809253692627,
+      "objective/train/theoretical_loss": 3.7769909510727144,
+      "objective/train/tokens_used": 724972000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23327672481536865,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.046976923942566,
+      "objective/train/weighted_lm_loss": 3.3008174896240234,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9533183574676514,
+      "theoretical_loss": 3.7769909510727144,
+      "tokens_seen": 704512000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003779795686719637,
+      "loss": 3.6163,
+      "theoretical_loss": 3.776919691402532,
+      "tokens_seen": 704643072
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003777903897086644,
+      "loss": 3.6061,
+      "theoretical_loss": 3.7763502241619205,
+      "tokens_seen": 705691648
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037760121074536515,
+      "loss": 3.6111,
+      "theoretical_loss": 3.7757818389804023,
+      "tokens_seen": 706740224
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.48214995861053467,
+      "objective/train/docs_used": 408602,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.046311140060425,
+      "objective/train/original_loss": 3.046311140060425,
+      "objective/train/theoretical_loss": 3.775214532201071,
+      "objective/train/tokens_used": 728248800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23837196826934814,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049426555633545,
+      "objective/train/weighted_lm_loss": 3.1969616413116455,
+      "objective/train/weights_max": 1.0512155294418335,
+      "objective/train/weights_min": 0.953264057636261,
+      "theoretical_loss": 3.775214532201071,
+      "tokens_seen": 707788800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037741203178206584,
+      "loss": 3.4984,
+      "theoretical_loss": 3.775214532201071,
+      "tokens_seen": 707788800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00037722285281876653,
+      "loss": 3.5725,
+      "theoretical_loss": 3.774648300184772,
+      "tokens_seen": 708837376
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003770336738554673,
+      "loss": 3.5147,
+      "theoretical_loss": 3.774083139309993,
+      "tokens_seen": 709885952
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000376844494892168,
+      "loss": 3.5496,
+      "theoretical_loss": 3.7735190459727486,
+      "tokens_seen": 710934528
+    },
+    {
+      "epoch": 0.25,
+      "objective/train/advantage_avg": 0.489047646522522,
+      "objective/train/docs_used": 410204,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3076088428497314,
+      "objective/train/original_loss": 3.3076090812683105,
+      "objective/train/theoretical_loss": 3.7734486091880095,
+      "objective/train/tokens_used": 731525600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24238334596157074,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050136923789978,
+      "objective/train/weighted_lm_loss": 3.473520517349243,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9621482491493225,
+      "theoretical_loss": 3.7734486091880095,
+      "tokens_seen": 711065600
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003766553159288687,
+      "loss": 3.5332,
+      "theoretical_loss": 3.7729560165864746,
+      "tokens_seen": 711983104
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0003764661369655694,
+      "loss": 3.6379,
+      "theoretical_loss": 3.7723940475819147,
+      "tokens_seen": 713031680
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003762769580022701,
+      "loss": 3.569,
+      "theoretical_loss": 3.7718331354070127,
+      "tokens_seen": 714080256
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.477344810962677,
+      "objective/train/docs_used": 412084,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.31864595413208,
+      "objective/train/original_loss": 3.31864595413208,
+      "objective/train/theoretical_loss": 3.7716930720782935,
+      "objective/train/tokens_used": 734802400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24045908451080322,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489565134048462,
+      "objective/train/weighted_lm_loss": 3.480764627456665,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.952606737613678,
+      "theoretical_loss": 3.7716930720782935,
+      "tokens_seen": 714342400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003760877790389709,
+      "loss": 3.6623,
+      "theoretical_loss": 3.771273276526805,
+      "tokens_seen": 715128832
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003758986000756716,
+      "loss": 3.6001,
+      "theoretical_loss": 3.770714467423313,
+      "tokens_seen": 716177408
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037570942111237235,
+      "loss": 3.6465,
+      "theoretical_loss": 3.7701567045954367,
+      "tokens_seen": 717225984
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.47307994961738586,
+      "objective/train/docs_used": 413912,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0646326541900635,
+      "objective/train/original_loss": 3.0646326541900635,
+      "objective/train/theoretical_loss": 3.769947812566226,
+      "objective/train/tokens_used": 738079200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23451007902622223,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484997034072876,
+      "objective/train/weighted_lm_loss": 3.2135608196258545,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9514219760894775,
+      "theoretical_loss": 3.769947812566226,
+      "tokens_seen": 717619200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037552024214907305,
+      "loss": 3.6583,
+      "theoretical_loss": 3.76959998455885,
+      "tokens_seen": 718274560
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037533106318577374,
+      "loss": 3.6294,
+      "theoretical_loss": 3.7690443038458943,
+      "tokens_seen": 719323136
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003751418842224745,
+      "loss": 3.5343,
+      "theoretical_loss": 3.7684896590054757,
+      "tokens_seen": 720371712
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.48498988151550293,
+      "objective/train/docs_used": 415834,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3692052364349365,
+      "objective/train/original_loss": 3.3692054748535156,
+      "objective/train/theoretical_loss": 3.7682127239635053,
+      "objective/train/tokens_used": 741356000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24069416522979736,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497223138809204,
+      "objective/train/weighted_lm_loss": 3.5365824699401855,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9525206089019775,
+      "theoretical_loss": 3.7682127239635053,
+      "tokens_seen": 720896000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003749527052591752,
+      "loss": 3.646,
+      "theoretical_loss": 3.767936046602963,
+      "tokens_seen": 721420288
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003747635262958759,
+      "loss": 3.6593,
+      "theoretical_loss": 3.7673834632200824,
+      "tokens_seen": 722468864
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003745743473325766,
+      "loss": 3.675,
+      "theoretical_loss": 3.76683190545482,
+      "tokens_seen": 723517440
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.4824288487434387,
+      "objective/train/docs_used": 417692,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7827279567718506,
+      "objective/train/original_loss": 3.7827279567718506,
+      "objective/train/theoretical_loss": 3.7664877011678484,
+      "objective/train/tokens_used": 744632800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2396303415298462,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049461007118225,
+      "objective/train/weighted_lm_loss": 3.9698286056518555,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9542454481124878,
+      "theoretical_loss": 3.7664877011678484,
+      "tokens_seen": 724172800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003743851683692773,
+      "loss": 3.6335,
+      "theoretical_loss": 3.766281369921316,
+      "tokens_seen": 724566016
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037419598940597806,
+      "loss": 3.6526,
+      "theoretical_loss": 3.765731853249771,
+      "tokens_seen": 725614592
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037400681044267876,
+      "loss": 3.524,
+      "theoretical_loss": 3.7651833520863396,
+      "tokens_seen": 726663168
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.48516714572906494,
+      "objective/train/docs_used": 419961,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.715956211090088,
+      "objective/train/original_loss": 3.715956211090088,
+      "objective/train/theoretical_loss": 3.7647726406323665,
+      "objective/train/tokens_used": 747909600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24163493514060974,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049744963645935,
+      "objective/train/weighted_lm_loss": 3.8999452590942383,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9520505666732788,
+      "theoretical_loss": 3.7647726406323665,
+      "tokens_seen": 727449600
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003738176314793795,
+      "loss": 3.6154,
+      "theoretical_loss": 3.7646358630930385,
+      "tokens_seen": 727711744
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037362845251608025,
+      "loss": 3.5866,
+      "theoretical_loss": 3.7640893829476445,
+      "tokens_seen": 728760320
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037343927355278095,
+      "loss": 3.6157,
+      "theoretical_loss": 3.7635439083435998,
+      "tokens_seen": 729808896
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.47344446182250977,
+      "objective/train/docs_used": 421797,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6491940021514893,
+      "objective/train/original_loss": 3.6491942405700684,
+      "objective/train/theoretical_loss": 3.7630674403356625,
+      "objective/train/tokens_used": 751186400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23705269396305084,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485491752624512,
+      "objective/train/weighted_lm_loss": 3.8254892826080322,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9523929953575134,
+      "theoretical_loss": 3.7630674403356625,
+      "tokens_seen": 730726400
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003732500945894817,
+      "loss": 3.6271,
+      "theoretical_loss": 3.762999435989914,
+      "tokens_seen": 730857472
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003730609156261824,
+      "loss": 3.4846,
+      "theoretical_loss": 3.76245596261107,
+      "tokens_seen": 731906048
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003728717366628831,
+      "loss": 3.5969,
+      "theoretical_loss": 3.7619134849469296,
+      "tokens_seen": 732954624
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.47209614515304565,
+      "objective/train/docs_used": 423825,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4763729572296143,
+      "objective/train/original_loss": 3.4763731956481934,
+      "objective/train/theoretical_loss": 3.7613719997526367,
+      "objective/train/tokens_used": 754463200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23541226983070374,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484060049057007,
+      "objective/train/weighted_lm_loss": 3.644237756729126,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9522672295570374,
+      "theoretical_loss": 3.7613719997526367,
+      "tokens_seen": 734003200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037268255769958383,
+      "loss": 3.6206,
+      "theoretical_loss": 3.7613719997526367,
+      "tokens_seen": 734003200
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003724933787362845,
+      "loss": 3.6467,
+      "theoretical_loss": 3.760831503798527,
+      "tokens_seen": 735051776
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003723041997729852,
+      "loss": 3.6167,
+      "theoretical_loss": 3.760291993870034,
+      "tokens_seen": 736100352
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037211502080968596,
+      "loss": 3.5772,
+      "theoretical_loss": 3.759753466767597,
+      "tokens_seen": 737148928
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.48783084750175476,
+      "objective/train/docs_used": 425209,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.385236978530884,
+      "objective/train/original_loss": 3.3852367401123047,
+      "objective/train/theoretical_loss": 3.7596862198259773,
+      "objective/train/tokens_used": 757740000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24238182604312897,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500152111053467,
+      "objective/train/weighted_lm_loss": 3.554072380065918,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.951784074306488,
+      "theoretical_loss": 3.7596862198259773,
+      "tokens_seen": 737280000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037192584184638666,
+      "loss": 3.5612,
+      "theoretical_loss": 3.7592159193065697,
+      "tokens_seen": 738197504
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0003717366628830874,
+      "loss": 3.6211,
+      "theoretical_loss": 3.758679348317131,
+      "tokens_seen": 739246080
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037154748391978815,
+      "loss": 3.6074,
+      "theoretical_loss": 3.7581437506441926,
+      "tokens_seen": 740294656
+    },
+    {
+      "epoch": 0.26,
+      "objective/train/advantage_avg": 0.4911670982837677,
+      "objective/train/docs_used": 428014,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.293811559677124,
+      "objective/train/original_loss": 3.293811559677124,
+      "objective/train/theoretical_loss": 3.75801000293832,
+      "objective/train/tokens_used": 761016800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2433631718158722,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050353765487671,
+      "objective/train/weighted_lm_loss": 3.4594292640686035,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9623913764953613,
+      "theoretical_loss": 3.75801000293832,
+      "tokens_seen": 740556800
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00037135830495648884,
+      "loss": 3.6303,
+      "theoretical_loss": 3.7576091231473114,
+      "tokens_seen": 741343232
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003711691259931896,
+      "loss": 3.5686,
+      "theoretical_loss": 3.7570754627006018,
+      "tokens_seen": 742391808
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003709799470298903,
+      "loss": 3.5571,
+      "theoretical_loss": 3.756542766192646,
+      "tokens_seen": 743440384
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.4925093352794647,
+      "objective/train/docs_used": 429315,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3616669178009033,
+      "objective/train/original_loss": 3.3616676330566406,
+      "objective/train/theoretical_loss": 3.756343252885055,
+      "objective/train/tokens_used": 764293600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24342967569828033,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504884719848633,
+      "objective/train/weighted_lm_loss": 3.531308650970459,
+      "objective/train/weights_max": 1.0512197017669678,
+      "objective/train/weights_min": 0.9594744443893433,
+      "theoretical_loss": 3.756343252885055,
+      "tokens_seen": 743833600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00037079076806659103,
+      "loss": 3.5356,
+      "theoretical_loss": 3.7560110305264054,
+      "tokens_seen": 744488960
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003706015891032917,
+      "loss": 3.5672,
+      "theoretical_loss": 3.7554802526191393,
+      "tokens_seen": 745537536
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003704124101399924,
+      "loss": 3.4796,
+      "theoretical_loss": 3.7549504294023137,
+      "tokens_seen": 746586112
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.49480339884757996,
+      "objective/train/docs_used": 431156,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.175428628921509,
+      "objective/train/original_loss": 3.175428867340088,
+      "objective/train/theoretical_loss": 3.7546858748477634,
+      "objective/train/tokens_used": 767570400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2462376207113266,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050732135772705,
+      "objective/train/weighted_lm_loss": 3.3367059230804443,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9542807936668396,
+      "theoretical_loss": 3.7546858748477634,
+      "tokens_seen": 747110400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00037022323117669317,
+      "loss": 3.5415,
+      "theoretical_loss": 3.7544215578215177,
+      "tokens_seen": 747634688
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00037003405221339386,
+      "loss": 3.5867,
+      "theoretical_loss": 3.75389363483638,
+      "tokens_seen": 748683264
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003698448732500946,
+      "loss": 3.4893,
+      "theoretical_loss": 3.753366657420483,
+      "tokens_seen": 749731840
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.48980623483657837,
+      "objective/train/docs_used": 433094,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1637654304504395,
+      "objective/train/original_loss": 3.1637656688690186,
+      "objective/train/theoretical_loss": 3.7530377753682695,
+      "objective/train/tokens_used": 770847200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2416664958000183,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502090454101562,
+      "objective/train/weighted_lm_loss": 3.3235599994659424,
+      "objective/train/weights_max": 1.0512202978134155,
+      "objective/train/weights_min": 0.95468670129776,
+      "theoretical_loss": 3.7530377753682695,
+      "tokens_seen": 750387200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003696556942867953,
+      "loss": 3.555,
+      "theoretical_loss": 3.75284062256128,
+      "tokens_seen": 750780416
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.000369466515323496,
+      "loss": 3.5191,
+      "theoretical_loss": 3.7523155272600137,
+      "tokens_seen": 751828992
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003692773363601968,
+      "loss": 3.6015,
+      "theoretical_loss": 3.751791368531631,
+      "tokens_seen": 752877568
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.48759615421295166,
+      "objective/train/docs_used": 434283,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.427870988845825,
+      "objective/train/original_loss": 3.4278712272644043,
+      "objective/train/theoretical_loss": 3.7513988623232883,
+      "objective/train/tokens_used": 774124000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2424042820930481,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499919652938843,
+      "objective/train/weighted_lm_loss": 3.5984747409820557,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9514016509056091,
+      "theoretical_loss": 3.7513988623232883,
+      "tokens_seen": 753664000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003690881573968975,
+      "loss": 3.6279,
+      "theoretical_loss": 3.7512681434047033,
+      "tokens_seen": 753926144
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003688989784335982,
+      "loss": 3.6342,
+      "theoretical_loss": 3.7507458489213477,
+      "tokens_seen": 754974720
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036870979947029893,
+      "loss": 3.5992,
+      "theoretical_loss": 3.7502244821371407,
+      "tokens_seen": 756023296
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.486615926027298,
+      "objective/train/docs_used": 435567,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.396214723587036,
+      "objective/train/original_loss": 3.396214485168457,
+      "objective/train/theoretical_loss": 3.7497690448996552,
+      "objective/train/tokens_used": 777400800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24091613292694092,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498863458633423,
+      "objective/train/weighted_lm_loss": 3.564488410949707,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9564319849014282,
+      "theoretical_loss": 3.7497690448996552,
+      "tokens_seen": 756940800
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003685206205069996,
+      "loss": 3.5721,
+      "theoretical_loss": 3.7497040401210446,
+      "tokens_seen": 757071872
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003683314415437004,
+      "loss": 3.6079,
+      "theoretical_loss": 3.7491845199553238,
+      "tokens_seen": 758120448
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036814226258040107,
+      "loss": 3.6028,
+      "theoretical_loss": 3.748665918735468,
+      "tokens_seen": 759169024
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.4809083640575409,
+      "objective/train/docs_used": 437507,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2098705768585205,
+      "objective/train/original_loss": 3.2098708152770996,
+      "objective/train/theoretical_loss": 3.748148233570115,
+      "objective/train/tokens_used": 780677600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23865434527397156,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493038892745972,
+      "objective/train/weighted_lm_loss": 3.3677401542663574,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9517086148262024,
+      "theoretical_loss": 3.748148233570115,
+      "tokens_seen": 760217600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036795308361710176,
+      "loss": 3.5545,
+      "theoretical_loss": 3.748148233570115,
+      "tokens_seen": 760217600
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003677639046538025,
+      "loss": 3.6647,
+      "theoretical_loss": 3.74763146158097,
+      "tokens_seen": 761266176
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003675747256905032,
+      "loss": 3.6744,
+      "theoretical_loss": 3.747115599902733,
+      "tokens_seen": 762314752
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036738554672720395,
+      "loss": 3.5857,
+      "theoretical_loss": 3.746600645683017,
+      "tokens_seen": 763363328
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.4819650948047638,
+      "objective/train/docs_used": 439068,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3648343086242676,
+      "objective/train/original_loss": 3.364834785461426,
+      "objective/train/theoretical_loss": 3.7465363400696683,
+      "objective/train/tokens_used": 783954400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23789268732070923,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494056940078735,
+      "objective/train/weighted_lm_loss": 3.5312013626098633,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9530982971191406,
+      "theoretical_loss": 3.7465363400696683,
+      "tokens_seen": 763494400
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036719636776390464,
+      "loss": 3.6457,
+      "theoretical_loss": 3.7460865960822782,
+      "tokens_seen": 764411904
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003670071888006054,
+      "loss": 3.6536,
+      "theoretical_loss": 3.745573448273736,
+      "tokens_seen": 765460480
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036681800983730614,
+      "loss": 3.623,
+      "theoretical_loss": 3.7450611994433,
+      "tokens_seen": 766509056
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.4673716723918915,
+      "objective/train/docs_used": 441051,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.6296682357788086,
+      "objective/train/original_loss": 3.6296682357788086,
+      "objective/train/theoretical_loss": 3.7449332773724455,
+      "objective/train/tokens_used": 787231200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22804482281208038,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047896146774292,
+      "objective/train/weighted_lm_loss": 3.8018686771392822,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9860634207725525,
+      "theoretical_loss": 3.7449332773724455,
+      "tokens_seen": 766771200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036662883087400683,
+      "loss": 3.6236,
+      "theoretical_loss": 3.7445498467894947,
+      "tokens_seen": 767557632
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0003664396519107075,
+      "loss": 3.6475,
+      "theoretical_loss": 3.7440393875233893,
+      "tokens_seen": 768606208
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00036625047294740827,
+      "loss": 3.5919,
+      "theoretical_loss": 3.7435298188685184,
+      "tokens_seen": 769654784
+    },
+    {
+      "epoch": 0.27,
+      "objective/train/advantage_avg": 0.4872644245624542,
+      "objective/train/docs_used": 442749,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4281868934631348,
+      "objective/train/original_loss": 3.4281868934631348,
+      "objective/train/theoretical_loss": 3.7433389596691073,
+      "objective/train/tokens_used": 790508000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24073950946331024,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499500036239624,
+      "objective/train/weighted_lm_loss": 3.5999956130981445,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9553505778312683,
+      "theoretical_loss": 3.7433389596691073,
+      "tokens_seen": 770048000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036606129398410897,
+      "loss": 3.6758,
+      "theoretical_loss": 3.7430211380608167,
+      "tokens_seen": 770703360
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003658721150208097,
+      "loss": 3.617,
+      "theoretical_loss": 3.74251334234854,
+      "tokens_seen": 771751936
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003656829360575104,
+      "loss": 3.6863,
+      "theoretical_loss": 3.742006428992198,
+      "tokens_seen": 772800512
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.46843963861465454,
+      "objective/train/docs_used": 444718,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.53401780128479,
+      "objective/train/original_loss": 3.534018039703369,
+      "objective/train/theoretical_loss": 3.7417533023447445,
+      "objective/train/tokens_used": 793784800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23737366497516632,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0480501651763916,
+      "objective/train/weighted_lm_loss": 3.7014524936676025,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9519520401954651,
+      "theoretical_loss": 3.7417533023447445,
+      "tokens_seen": 773324800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003654937570942111,
+      "loss": 3.4944,
+      "theoretical_loss": 3.741500395264481,
+      "tokens_seen": 773849088
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036530457813091185,
+      "loss": 3.5637,
+      "theoretical_loss": 3.7409952384501923,
+      "tokens_seen": 774897664
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036511539916761254,
+      "loss": 3.651,
+      "theoretical_loss": 3.740490955846173,
+      "tokens_seen": 775946240
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.48415154218673706,
+      "objective/train/docs_used": 446660,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4447832107543945,
+      "objective/train/original_loss": 3.4447832107543945,
+      "objective/train/theoretical_loss": 3.7401762219572765,
+      "objective/train/tokens_used": 797061600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2410360723733902,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049640417098999,
+      "objective/train/weighted_lm_loss": 3.616288661956787,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9529085755348206,
+      "theoretical_loss": 3.7401762219572765,
+      "tokens_seen": 776601600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003649262202043133,
+      "loss": 3.6152,
+      "theoretical_loss": 3.739987544761238,
+      "tokens_seen": 776994816
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036473704124101404,
+      "loss": 3.6166,
+      "theoretical_loss": 3.7394850025161026,
+      "tokens_seen": 778043392
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036454786227771473,
+      "loss": 3.6012,
+      "theoretical_loss": 3.738983326443316,
+      "tokens_seen": 779091968
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.4765093922615051,
+      "objective/train/docs_used": 448564,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2798614501953125,
+      "objective/train/original_loss": 3.2798619270324707,
+      "objective/train/theoretical_loss": 3.73860763621633,
+      "objective/train/tokens_used": 800338400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23574241995811462,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048849105834961,
+      "objective/train/weighted_lm_loss": 3.4406769275665283,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9636579751968384,
+      "theoretical_loss": 3.73860763621633,
+      "tokens_seen": 779878400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003643586833144155,
+      "loss": 3.6718,
+      "theoretical_loss": 3.7384825138871944,
+      "tokens_seen": 780140544
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036416950435111617,
+      "loss": 3.5764,
+      "theoretical_loss": 3.737982562203749,
+      "tokens_seen": 781189120
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036398032538781686,
+      "loss": 3.5433,
+      "theoretical_loss": 3.737483468760624,
+      "tokens_seen": 782237696
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.48366644978523254,
+      "objective/train/docs_used": 450552,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.120129108428955,
+      "objective/train/original_loss": 3.120129108428955,
+      "objective/train/theoretical_loss": 3.737047463962579,
+      "objective/train/tokens_used": 803615200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23800888657569885,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495764017105103,
+      "objective/train/weighted_lm_loss": 3.2741003036499023,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9536738991737366,
+      "theoretical_loss": 3.737047463962579,
+      "tokens_seen": 783155200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003637911464245176,
+      "loss": 3.5818,
+      "theoretical_loss": 3.7369852309370275,
+      "tokens_seen": 783286272
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003636019674612183,
+      "loss": 3.5907,
+      "theoretical_loss": 3.736487846123663,
+      "tokens_seen": 784334848
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036341278849791905,
+      "loss": 3.5826,
+      "theoretical_loss": 3.7359913117226684,
+      "tokens_seen": 785383424
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.4790653884410858,
+      "objective/train/docs_used": 452240,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.210500955581665,
+      "objective/train/original_loss": 3.210501194000244,
+      "objective/train/theoretical_loss": 3.735495625147548,
+      "objective/train/tokens_used": 806892000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23576776683330536,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491048097610474,
+      "objective/train/weighted_lm_loss": 3.3677072525024414,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9538201689720154,
+      "theoretical_loss": 3.735495625147548,
+      "tokens_seen": 786432000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036322360953461975,
+      "loss": 3.6123,
+      "theoretical_loss": 3.735495625147548,
+      "tokens_seen": 786432000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036303443057132044,
+      "loss": 3.5839,
+      "theoretical_loss": 3.735000783823107,
+      "tokens_seen": 787480576
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003628452516080212,
+      "loss": 3.5651,
+      "theoretical_loss": 3.7345067851853897,
+      "tokens_seen": 788529152
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003626560726447219,
+      "loss": 3.5895,
+      "theoretical_loss": 3.7340136266816133,
+      "tokens_seen": 789577728
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.4898260533809662,
+      "objective/train/docs_used": 454142,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3126230239868164,
+      "objective/train/original_loss": 3.3126230239868164,
+      "objective/train/theoretical_loss": 3.7339520408138513,
+      "objective/train/tokens_used": 810168800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2416979968547821,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502111911773682,
+      "objective/train/weighted_lm_loss": 3.478757619857788,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9954109191894531,
+      "theoretical_loss": 3.7339520408138513,
+      "tokens_seen": 789708800
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003624668936814227,
+      "loss": 3.569,
+      "theoretical_loss": 3.733521305770105,
+      "tokens_seen": 790626304
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003622777147181234,
+      "loss": 3.5766,
+      "theoretical_loss": 3.7330298199202394,
+      "tokens_seen": 791674880
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036208853575482407,
+      "loss": 3.5995,
+      "theoretical_loss": 3.7325391666123764,
+      "tokens_seen": 792723456
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.4768815040588379,
+      "objective/train/docs_used": 455856,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8263907432556152,
+      "objective/train/original_loss": 2.8263907432556152,
+      "objective/train/theoretical_loss": 3.732416633075869,
+      "objective/train/tokens_used": 813445600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2372640073299408,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488940477371216,
+      "objective/train/weighted_lm_loss": 2.9625203609466553,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9526212215423584,
+      "theoretical_loss": 3.732416633075869,
+      "tokens_seen": 792985600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003618993567915248,
+      "loss": 3.558,
+      "theoretical_loss": 3.7320493433377973,
+      "tokens_seen": 793772032
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003617101778282255,
+      "loss": 3.6053,
+      "theoretical_loss": 3.731560347598646,
+      "tokens_seen": 794820608
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0003615209988649262,
+      "loss": 3.5659,
+      "theoretical_loss": 3.7310721769078636,
+      "tokens_seen": 795869184
+    },
+    {
+      "epoch": 0.28,
+      "objective/train/advantage_avg": 0.48475295305252075,
+      "objective/train/docs_used": 457654,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2081458568573,
+      "objective/train/original_loss": 3.2081456184387207,
+      "objective/train/theoretical_loss": 3.7308893251008413,
+      "objective/train/tokens_used": 816722400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24060019850730896,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496982336044312,
+      "objective/train/weighted_lm_loss": 3.367356061935425,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9561263918876648,
+      "theoretical_loss": 3.7308893251008413,
+      "tokens_seen": 796262400
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00036133181990162695,
+      "loss": 3.5876,
+      "theoretical_loss": 3.730584828789132,
+      "tokens_seen": 796917760
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00036114264093832765,
+      "loss": 3.543,
+      "theoretical_loss": 3.7300983007768105,
+      "tokens_seen": 797966336
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003609534619750284,
+      "loss": 3.5454,
+      "theoretical_loss": 3.729612590415876,
+      "tokens_seen": 799014912
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4876490533351898,
+      "objective/train/docs_used": 459747,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4556379318237305,
+      "objective/train/original_loss": 3.4556384086608887,
+      "objective/train/theoretical_loss": 3.729370041090373,
+      "objective/train/tokens_used": 819999200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24297496676445007,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500001907348633,
+      "objective/train/weighted_lm_loss": 3.628729820251465,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9550496935844421,
+      "theoretical_loss": 3.729370041090373,
+      "tokens_seen": 799539200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003607642830117291,
+      "loss": 3.525,
+      "theoretical_loss": 3.7291276952618655,
+      "tokens_seen": 800063488
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003605751040484298,
+      "loss": 3.5934,
+      "theoretical_loss": 3.7286436128808145,
+      "tokens_seen": 801112064
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00036038592508513053,
+      "loss": 3.5227,
+      "theoretical_loss": 3.7281603408491995,
+      "tokens_seen": 802160640
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4763462245464325,
+      "objective/train/docs_used": 461200,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.19844388961792,
+      "objective/train/original_loss": 3.19844388961792,
+      "objective/train/theoretical_loss": 3.727858706262338,
+      "objective/train/tokens_used": 823276000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2413131445646286,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048860788345337,
+      "objective/train/weighted_lm_loss": 3.3524065017700195,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9517171382904053,
+      "theoretical_loss": 3.727858706262338,
+      "tokens_seen": 802816000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003601967461218313,
+      "loss": 3.5443,
+      "theoretical_loss": 3.72767787675388,
+      "tokens_seen": 803209216
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000360007567158532,
+      "loss": 3.5661,
+      "theoretical_loss": 3.727196218192039,
+      "tokens_seen": 804257792
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003598183881952327,
+      "loss": 3.4753,
+      "theoretical_loss": 3.7267153627711256,
+      "tokens_seen": 805306368
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4879932701587677,
+      "objective/train/docs_used": 463166,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.404329299926758,
+      "objective/train/original_loss": 3.404329299926758,
+      "objective/train/theoretical_loss": 3.7263552468331667,
+      "objective/train/tokens_used": 826552800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24394917488098145,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050039291381836,
+      "objective/train/weighted_lm_loss": 3.575188636779785,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9521428942680359,
+      "theoretical_loss": 3.7263552468331667,
+      "tokens_seen": 806092800
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003596292092319334,
+      "loss": 3.58,
+      "theoretical_loss": 3.7262353081088015,
+      "tokens_seen": 806354944
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035944003026863416,
+      "loss": 3.4629,
+      "theoretical_loss": 3.725756051832878,
+      "tokens_seen": 807403520
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035925085130533485,
+      "loss": 3.5236,
+      "theoretical_loss": 3.7252775915812655,
+      "tokens_seen": 808452096
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.47361043095588684,
+      "objective/train/docs_used": 465044,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0562472343444824,
+      "objective/train/original_loss": 3.0562477111816406,
+      "objective/train/theoretical_loss": 3.724859590000527,
+      "objective/train/tokens_used": 829829600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2366064488887787,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485633611679077,
+      "objective/train/weighted_lm_loss": 3.204601287841797,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9514092803001404,
+      "theoretical_loss": 3.724859590000527,
+      "tokens_seen": 809369600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003590616723420356,
+      "loss": 3.551,
+      "theoretical_loss": 3.724799925001913,
+      "tokens_seen": 809500672
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003588724933787363,
+      "loss": 3.5098,
+      "theoretical_loss": 3.7243230497527553,
+      "tokens_seen": 810549248
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000358683314415437,
+      "loss": 3.4784,
+      "theoretical_loss": 3.723846963501657,
+      "tokens_seen": 811597824
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4856931269168854,
+      "objective/train/docs_used": 466971,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.61726450920105,
+      "objective/train/original_loss": 3.617264986038208,
+      "objective/train/theoretical_loss": 3.7233716639263568,
+      "objective/train/tokens_used": 833106400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407991737127304,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497934818267822,
+      "objective/train/weighted_lm_loss": 3.7969565391540527,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9524025917053223,
+      "theoretical_loss": 3.7233716639263568,
+      "tokens_seen": 812646400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035849413545213773,
+      "loss": 3.4899,
+      "theoretical_loss": 3.7233716639263568,
+      "tokens_seen": 812646400
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003583049564888384,
+      "loss": 3.5225,
+      "theoretical_loss": 3.7228971487144147,
+      "tokens_seen": 813694976
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003581157775255391,
+      "loss": 3.5211,
+      "theoretical_loss": 3.722423415563156,
+      "tokens_seen": 814743552
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003579265985622399,
+      "loss": 3.5231,
+      "theoretical_loss": 3.7219504621796187,
+      "tokens_seen": 815792128
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.47521209716796875,
+      "objective/train/docs_used": 469033,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4922797679901123,
+      "objective/train/original_loss": 3.4922800064086914,
+      "objective/train/theoretical_loss": 3.7218913977202703,
+      "objective/train/tokens_used": 836383200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23987308144569397,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048740267753601,
+      "objective/train/weighted_lm_loss": 3.6617021560668945,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9514144659042358,
+      "theoretical_loss": 3.7218913977202703,
+      "tokens_seen": 815923200
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003577374195989406,
+      "loss": 3.4287,
+      "theoretical_loss": 3.7214782862805,
+      "tokens_seen": 816840704
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035754824063564136,
+      "loss": 3.4614,
+      "theoretical_loss": 3.7210068855921024,
+      "tokens_seen": 817889280
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035735906167234206,
+      "loss": 3.4941,
+      "theoretical_loss": 3.7205362578502834,
+      "tokens_seen": 818937856
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.49092575907707214,
+      "objective/train/docs_used": 471128,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.248918056488037,
+      "objective/train/original_loss": 3.248918056488037,
+      "objective/train/theoretical_loss": 3.7204187214233073,
+      "objective/train/tokens_used": 839660000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24439458549022675,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503349304199219,
+      "objective/train/weighted_lm_loss": 3.412680149078369,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9527466297149658,
+      "theoretical_loss": 3.7204187214233073,
+      "tokens_seen": 819200000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035716988270904275,
+      "loss": 3.4172,
+      "theoretical_loss": 3.7200664008004,
+      "tokens_seen": 819986432
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003569807037457435,
+      "loss": 3.4968,
+      "theoretical_loss": 3.7195973121972585,
+      "tokens_seen": 821035008
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003567915247824442,
+      "loss": 3.5291,
+      "theoretical_loss": 3.7191289898050632,
+      "tokens_seen": 822083584
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4838717579841614,
+      "objective/train/docs_used": 472950,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.253770589828491,
+      "objective/train/original_loss": 3.2537708282470703,
+      "objective/train/theoretical_loss": 3.718953565992031,
+      "objective/train/tokens_used": 842936800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2399124652147293,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496065616607666,
+      "objective/train/weighted_lm_loss": 3.415417194366455,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9515462517738342,
+      "theoretical_loss": 3.718953565992031,
+      "tokens_seen": 822476800
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035660234581914494,
+      "loss": 3.4414,
+      "theoretical_loss": 3.7186614313973645,
+      "tokens_seen": 823132160
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00035641316685584563,
+      "loss": 3.4772,
+      "theoretical_loss": 3.7181946347570074,
+      "tokens_seen": 824180736
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0003562239878925463,
+      "loss": 3.4118,
+      "theoretical_loss": 3.7177285976760834,
+      "tokens_seen": 825229312
+    },
+    {
+      "epoch": 0.29,
+      "objective/train/advantage_avg": 0.4853784739971161,
+      "objective/train/docs_used": 475156,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4621541500091553,
+      "objective/train/original_loss": 3.4621541500091553,
+      "objective/train/theoretical_loss": 3.7174958632829522,
+      "objective/train/tokens_used": 846213600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24138674139976501,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04976487159729,
+      "objective/train/weighted_lm_loss": 3.634368658065796,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9528544545173645,
+      "theoretical_loss": 3.7174958632829522,
+      "tokens_seen": 825753600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003560348089292471,
+      "loss": 3.5352,
+      "theoretical_loss": 3.7172633179558763,
+      "tokens_seen": 826277888
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035584562996594777,
+      "loss": 3.4583,
+      "theoretical_loss": 3.7167987934068156,
+      "tokens_seen": 827326464
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003556564510026485,
+      "loss": 3.4423,
+      "theoretical_loss": 3.7163350218484252,
+      "tokens_seen": 828375040
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.48797664046287537,
+      "objective/train/docs_used": 477026,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.330416202545166,
+      "objective/train/original_loss": 3.330416679382324,
+      "objective/train/theoretical_loss": 3.716045546037287,
+      "objective/train/tokens_used": 849490400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24159426987171173,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500258207321167,
+      "objective/train/weighted_lm_loss": 3.4970216751098633,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9596421718597412,
+      "theoretical_loss": 3.716045546037287,
+      "tokens_seen": 829030400
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035546727203934926,
+      "loss": 3.4401,
+      "theoretical_loss": 3.7158720011092767,
+      "tokens_seen": 829423616
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035527809307604996,
+      "loss": 3.3848,
+      "theoretical_loss": 3.715409729026936,
+      "tokens_seen": 830472192
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003550889141127507,
+      "loss": 3.4305,
+      "theoretical_loss": 3.714948203447919,
+      "tokens_seen": 831520768
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.48684290051460266,
+      "objective/train/docs_used": 478220,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.354376792907715,
+      "objective/train/original_loss": 3.3543763160705566,
+      "objective/train/theoretical_loss": 3.7146025478660274,
+      "objective/train/tokens_used": 852767200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24331338703632355,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499210357666016,
+      "objective/train/weighted_lm_loss": 3.5209054946899414,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9515804052352905,
+      "theoretical_loss": 3.7146025478660274,
+      "tokens_seen": 832307200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003548997351494514,
+      "loss": 3.5074,
+      "theoretical_loss": 3.7144874222276405,
+      "tokens_seen": 832569344
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003547105561861521,
+      "loss": 3.4283,
+      "theoretical_loss": 3.714027383230369,
+      "tokens_seen": 833617920
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035452137722285284,
+      "loss": 3.4665,
+      "theoretical_loss": 3.713568084329175,
+      "tokens_seen": 834666496
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.4813803732395172,
+      "objective/train/docs_used": 480064,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.389320135116577,
+      "objective/train/original_loss": 3.3893203735351562,
+      "objective/train/theoretical_loss": 3.713166803235318,
+      "objective/train/tokens_used": 856044000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24221307039260864,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049368977546692,
+      "objective/train/weighted_lm_loss": 3.5553438663482666,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9520329833030701,
+      "theoretical_loss": 3.713166803235318,
+      "tokens_seen": 835584000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035433219825955353,
+      "loss": 3.4964,
+      "theoretical_loss": 3.7131095234058895,
+      "tokens_seen": 835715072
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003541430192962543,
+      "loss": 3.4202,
+      "theoretical_loss": 3.712651698351051,
+      "tokens_seen": 836763648
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035395384033295497,
+      "loss": 3.4965,
+      "theoretical_loss": 3.7121946070638625,
+      "tokens_seen": 837812224
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.4783816933631897,
+      "objective/train/docs_used": 482017,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7325849533081055,
+      "objective/train/original_loss": 3.7325844764709473,
+      "objective/train/theoretical_loss": 3.7117382474521436,
+      "objective/train/tokens_used": 859320800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23481260240077972,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490317344665527,
+      "objective/train/weighted_lm_loss": 3.9163506031036377,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9517280459403992,
+      "theoretical_loss": 3.7117382474521436,
+      "tokens_seen": 838860800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035376466136965567,
+      "loss": 3.4554,
+      "theoretical_loss": 3.7117382474521436,
+      "tokens_seen": 838860800
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003535754824063564,
+      "loss": 3.4283,
+      "theoretical_loss": 3.7112826174322864,
+      "tokens_seen": 839909376
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035338630344305716,
+      "loss": 3.4463,
+      "theoretical_loss": 3.7108277149292066,
+      "tokens_seen": 840957952
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035319712447975785,
+      "loss": 3.44,
+      "theoretical_loss": 3.7103735378763014,
+      "tokens_seen": 842006528
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.49178850650787354,
+      "objective/train/docs_used": 484166,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.338574171066284,
+      "objective/train/original_loss": 3.338573694229126,
+      "objective/train/theoretical_loss": 3.7103168166503053,
+      "objective/train/tokens_used": 862597600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24451500177383423,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504218339920044,
+      "objective/train/weighted_lm_loss": 3.5066874027252197,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951617419719696,
+      "theoretical_loss": 3.7103168166503053,
+      "tokens_seen": 842137600
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003530079455164586,
+      "loss": 3.4913,
+      "theoretical_loss": 3.7099200842154003,
+      "tokens_seen": 843055104
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003528187665531593,
+      "loss": 3.4763,
+      "theoretical_loss": 3.709467351896726,
+      "tokens_seen": 844103680
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035262958758986004,
+      "loss": 3.4748,
+      "theoretical_loss": 3.709015338878843,
+      "tokens_seen": 845152256
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.47579312324523926,
+      "objective/train/docs_used": 485899,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.143003225326538,
+      "objective/train/original_loss": 3.143002986907959,
+      "objective/train/theoretical_loss": 3.7089024477766817,
+      "objective/train/tokens_used": 865874400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2346218377351761,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487719774246216,
+      "objective/train/weighted_lm_loss": 3.297304630279541,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9735310077667236,
+      "theoretical_loss": 3.7089024477766817,
+      "tokens_seen": 845414400
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035244040862656074,
+      "loss": 3.4219,
+      "theoretical_loss": 3.7085640431286198,
+      "tokens_seen": 846200832
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035225122966326143,
+      "loss": 3.4825,
+      "theoretical_loss": 3.7081134626211796,
+      "tokens_seen": 847249408
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003520620506999622,
+      "loss": 3.4676,
+      "theoretical_loss": 3.7076635953398607,
+      "tokens_seen": 848297984
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.4607677459716797,
+      "objective/train/docs_used": 487462,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2809650897979736,
+      "objective/train/original_loss": 3.2809653282165527,
+      "objective/train/theoretical_loss": 3.7074950785777787,
+      "objective/train/tokens_used": 869151200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22898733615875244,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0472406148910522,
+      "objective/train/weighted_lm_loss": 3.438236713409424,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9514792561531067,
+      "theoretical_loss": 3.7074950785777787,
+      "tokens_seen": 848691200
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00035187287173666287,
+      "loss": 3.4275,
+      "theoretical_loss": 3.7072144392761697,
+      "tokens_seen": 849346560
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003516836927733636,
+      "loss": 3.393,
+      "theoretical_loss": 3.70676599242974,
+      "tokens_seen": 850395136
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003514945138100643,
+      "loss": 3.4647,
+      "theoretical_loss": 3.706318252808291,
+      "tokens_seen": 851443712
+    },
+    {
+      "epoch": 0.3,
+      "objective/train/advantage_avg": 0.47821953892707825,
+      "objective/train/docs_used": 489283,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.037062644958496,
+      "objective/train/original_loss": 3.037062644958496,
+      "objective/train/theoretical_loss": 3.7060946475865455,
+      "objective/train/tokens_used": 872428000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23509417474269867,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490169525146484,
+      "objective/train/weighted_lm_loss": 3.1864781379699707,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9535816311836243,
+      "theoretical_loss": 3.7060946475865455,
+      "tokens_seen": 851968000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.000351305334846765,
+      "loss": 3.5199,
+      "theoretical_loss": 3.705871218427581,
+      "tokens_seen": 852492288
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0003511161558834658,
+      "loss": 3.4919,
+      "theoretical_loss": 3.705424887311368,
+      "tokens_seen": 853540864
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003509269769201665,
+      "loss": 3.5404,
+      "theoretical_loss": 3.704979257491368,
+      "tokens_seen": 854589440
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.4794943332672119,
+      "objective/train/docs_used": 491311,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2601847648620605,
+      "objective/train/original_loss": 3.2601850032806396,
+      "objective/train/theoretical_loss": 3.70470109410946,
+      "objective/train/tokens_used": 875704800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2394295483827591,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491665601730347,
+      "objective/train/weighted_lm_loss": 3.4213621616363525,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9513980746269226,
+      "theoretical_loss": 3.70470109410946,
+      "tokens_seen": 855244800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00035073779795686725,
+      "loss": 3.4952,
+      "theoretical_loss": 3.704534327007211,
+      "tokens_seen": 855638016
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00035054861899356794,
+      "loss": 3.485,
+      "theoretical_loss": 3.7040900939064008,
+      "tokens_seen": 856686592
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00035035944003026864,
+      "loss": 3.459,
+      "theoretical_loss": 3.7036465562442746,
+      "tokens_seen": 857735168
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.4735029935836792,
+      "objective/train/docs_used": 493471,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3861629962921143,
+      "objective/train/original_loss": 3.3861632347106934,
+      "objective/train/theoretical_loss": 3.7033143582138752,
+      "objective/train/tokens_used": 878981600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23431852459907532,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485413074493408,
+      "objective/train/weighted_lm_loss": 3.551286220550537,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9518417119979858,
+      "theoretical_loss": 3.7033143582138752,
+      "tokens_seen": 858521600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003501702610669694,
+      "loss": 3.4133,
+      "theoretical_loss": 3.703203712083961,
+      "tokens_seen": 858783744
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003499810821036701,
+      "loss": 3.5271,
+      "theoretical_loss": 3.702761559496338,
+      "tokens_seen": 859832320
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034979190314037077,
+      "loss": 3.4913,
+      "theoretical_loss": 3.7023200965599967,
+      "tokens_seen": 860880896
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.48700904846191406,
+      "objective/train/docs_used": 495231,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3630502223968506,
+      "objective/train/original_loss": 3.3630504608154297,
+      "objective/train/theoretical_loss": 3.701934380715622,
+      "objective/train/tokens_used": 882258400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24430139362812042,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499428510665894,
+      "objective/train/weighted_lm_loss": 3.531970262527466,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9546670317649841,
+      "theoretical_loss": 3.701934380715622,
+      "tokens_seen": 861798400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003496027241770715,
+      "loss": 3.4939,
+      "theoretical_loss": 3.7018793213611954,
+      "tokens_seen": 861929472
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003494135452137722,
+      "loss": 3.4595,
+      "theoretical_loss": 3.7014392319938265,
+      "tokens_seen": 862978048
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034922436625047296,
+      "loss": 3.5073,
+      "theoretical_loss": 3.700999826559369,
+      "tokens_seen": 864026624
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.4687807261943817,
+      "objective/train/docs_used": 497313,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8510427474975586,
+      "objective/train/original_loss": 2.8510427474975586,
+      "objective/train/theoretical_loss": 3.700561103166857,
+      "objective/train/tokens_used": 885535200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2361258715391159,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0480778217315674,
+      "objective/train/weighted_lm_loss": 2.9898033142089844,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9532948732376099,
+      "theoretical_loss": 3.700561103166857,
+      "tokens_seen": 865075200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034903518728717365,
+      "loss": 3.435,
+      "theoretical_loss": 3.700561103166857,
+      "tokens_seen": 865075200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003488460083238744,
+      "loss": 3.4834,
+      "theoretical_loss": 3.7001230599328334,
+      "tokens_seen": 866123776
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034865682936057515,
+      "loss": 3.4139,
+      "theoretical_loss": 3.6996856949813184,
+      "tokens_seen": 867172352
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034846765039727584,
+      "loss": 3.5175,
+      "theoretical_loss": 3.6992490064437624,
+      "tokens_seen": 868220928
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.4850696623325348,
+      "objective/train/docs_used": 499341,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.129650831222534,
+      "objective/train/original_loss": 3.1296510696411133,
+      "objective/train/theoretical_loss": 3.6991944678441504,
+      "objective/train/tokens_used": 888812000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24183686077594757,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497361421585083,
+      "objective/train/weighted_lm_loss": 3.2843034267425537,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.952808678150177,
+      "theoretical_loss": 3.6991944678441504,
+      "tokens_seen": 868352000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003482784714339766,
+      "loss": 3.402,
+      "theoretical_loss": 3.6988129924590156,
+      "tokens_seen": 869269504
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003480892924706773,
+      "loss": 3.4196,
+      "theoretical_loss": 3.698377651173285,
+      "tokens_seen": 870318080
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000347900113507378,
+      "loss": 3.4628,
+      "theoretical_loss": 3.6979429807400965,
+      "tokens_seen": 871366656
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.48964646458625793,
+      "objective/train/docs_used": 501132,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.557471513748169,
+      "objective/train/original_loss": 3.557471752166748,
+      "objective/train/theoretical_loss": 3.69783441773682,
+      "objective/train/tokens_used": 892088800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24149833619594574,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501922369003296,
+      "objective/train/weighted_lm_loss": 3.736229419708252,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.9738736152648926,
+      "theoretical_loss": 3.69783441773682,
+      "tokens_seen": 871628800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003477109345440787,
+      "loss": 3.5082,
+      "theoretical_loss": 3.6975089793202613,
+      "tokens_seen": 872415232
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003475217555807794,
+      "loss": 3.459,
+      "theoretical_loss": 3.697075645081833,
+      "tokens_seen": 873463808
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003473325766174801,
+      "loss": 3.4345,
+      "theoretical_loss": 3.6966429762000756,
+      "tokens_seen": 874512384
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.48227402567863464,
+      "objective/train/docs_used": 502873,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.550771713256836,
+      "objective/train/original_loss": 3.550771713256836,
+      "objective/train/theoretical_loss": 3.696480896535487,
+      "objective/train/tokens_used": 895365600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23732295632362366,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494335889816284,
+      "objective/train/weighted_lm_loss": 3.7260501384735107,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9638433456420898,
+      "theoretical_loss": 3.696480896535487,
+      "tokens_seen": 874905600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034714339765418086,
+      "loss": 3.4506,
+      "theoretical_loss": 3.696210970857422,
+      "tokens_seen": 875560960
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034695421869088155,
+      "loss": 3.3722,
+      "theoretical_loss": 3.695779627243439,
+      "tokens_seen": 876609536
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003467650397275823,
+      "loss": 3.3784,
+      "theoretical_loss": 3.695348943554793,
+      "tokens_seen": 877658112
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.48700252175331116,
+      "objective/train/docs_used": 504313,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2833023071289062,
+      "objective/train/original_loss": 3.2833027839660645,
+      "objective/train/theoretical_loss": 3.695133848620862,
+      "objective/train/tokens_used": 898642400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24063783884048462,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499235391616821,
+      "objective/train/weighted_lm_loss": 3.4479916095733643,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.9604228734970093,
+      "theoretical_loss": 3.695133848620862,
+      "tokens_seen": 878182400
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034657586076428305,
+      "loss": 3.3717,
+      "theoretical_loss": 3.6949189179952113,
+      "tokens_seen": 878706688
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00034638668180098374,
+      "loss": 3.4457,
+      "theoretical_loss": 3.6944895487754454,
+      "tokens_seen": 879755264
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003461975028376845,
+      "loss": 3.3993,
+      "theoretical_loss": 3.6940608341132375,
+      "tokens_seen": 880803840
+    },
+    {
+      "epoch": 0.31,
+      "objective/train/advantage_avg": 0.4854235053062439,
+      "objective/train/docs_used": 506500,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4923324584960938,
+      "objective/train/original_loss": 3.4923322200775146,
+      "objective/train/theoretical_loss": 3.693793219052748,
+      "objective/train/tokens_used": 901919200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24003635346889496,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049762487411499,
+      "objective/train/weighted_lm_loss": 3.665571928024292,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9516666531562805,
+      "theoretical_loss": 3.693793219052748,
+      "tokens_seen": 881459200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0003460083238743852,
+      "loss": 3.3099,
+      "theoretical_loss": 3.693632772233284,
+      "tokens_seen": 881852416
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034581914491108593,
+      "loss": 3.4134,
+      "theoretical_loss": 3.6932053613671982,
+      "tokens_seen": 882900992
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003456299659477866,
+      "loss": 3.4172,
+      "theoretical_loss": 3.6927785997534794,
+      "tokens_seen": 883949568
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.4926452040672302,
+      "objective/train/docs_used": 508372,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.025479793548584,
+      "objective/train/original_loss": 3.025480031967163,
+      "objective/train/theoretical_loss": 3.6924589535592656,
+      "objective/train/tokens_used": 905196000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24352741241455078,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505025386810303,
+      "objective/train/weighted_lm_loss": 3.178568124771118,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9983458518981934,
+      "theoretical_loss": 3.6924589535592656,
+      "tokens_seen": 884736000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003454407869844873,
+      "loss": 3.4296,
+      "theoretical_loss": 3.692352485637474,
+      "tokens_seen": 884998144
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034525160802118806,
+      "loss": 3.4518,
+      "theoretical_loss": 3.6919270172713414,
+      "tokens_seen": 886046720
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034506242905788876,
+      "loss": 3.4126,
+      "theoretical_loss": 3.6915021929140224,
+      "tokens_seen": 887095296
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.47590452432632446,
+      "objective/train/docs_used": 510118,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.510807991027832,
+      "objective/train/original_loss": 3.510807991027832,
+      "objective/train/theoretical_loss": 3.691130998526281,
+      "objective/train/tokens_used": 908472800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24169528484344482,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048818826675415,
+      "objective/train/weighted_lm_loss": 3.6790857315063477,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9513728022575378,
+      "theoretical_loss": 3.691130998526281,
+      "tokens_seen": 888012800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034487325009458945,
+      "loss": 3.5185,
+      "theoretical_loss": 3.691078010831202,
+      "tokens_seen": 888143872
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003446840711312902,
+      "loss": 3.4558,
+      "theoretical_loss": 3.690654469295275,
+      "tokens_seen": 889192448
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003444948921679909,
+      "loss": 3.4879,
+      "theoretical_loss": 3.6902315665853163,
+      "tokens_seen": 890241024
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.4895252287387848,
+      "objective/train/docs_used": 511934,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.69549822807312,
+      "objective/train/original_loss": 3.695497989654541,
+      "objective/train/theoretical_loss": 3.689809300987042,
+      "objective/train/tokens_used": 911749600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24316494166851044,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050188660621643,
+      "objective/train/weighted_lm_loss": 3.88081955909729,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9516122937202454,
+      "theoretical_loss": 3.689809300987042,
+      "tokens_seen": 891289600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003443057132046917,
+      "loss": 3.4757,
+      "theoretical_loss": 3.689809300987042,
+      "tokens_seen": 891289600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003441165342413924,
+      "loss": 3.3858,
+      "theoretical_loss": 3.6893876707927777,
+      "tokens_seen": 892338176
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003439273552780931,
+      "loss": 3.4611,
+      "theoretical_loss": 3.6889666743014295,
+      "tokens_seen": 893386752
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034373817631479383,
+      "loss": 3.3919,
+      "theoretical_loss": 3.6885463098184434,
+      "tokens_seen": 894435328
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.47695353627204895,
+      "objective/train/docs_used": 513625,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3136649131774902,
+      "objective/train/original_loss": 3.3136653900146484,
+      "objective/train/theoretical_loss": 3.688493808612015,
+      "objective/train/tokens_used": 915026400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2371138483285904,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489006042480469,
+      "objective/train/weighted_lm_loss": 3.475831985473633,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9526435136795044,
+      "theoretical_loss": 3.688493808612015,
+      "tokens_seen": 894566400
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003435489973514945,
+      "loss": 3.4412,
+      "theoretical_loss": 3.6881265756557795,
+      "tokens_seen": 895483904
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034335981838819527,
+      "loss": 3.406,
+      "theoretical_loss": 3.6877074701318735,
+      "tokens_seen": 896532480
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034317063942489596,
+      "loss": 3.4235,
+      "theoretical_loss": 3.6872889915716107,
+      "tokens_seen": 897581056
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.48399674892425537,
+      "objective/train/docs_used": 515235,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2255749702453613,
+      "objective/train/original_loss": 3.2255749702453613,
+      "objective/train/theoretical_loss": 3.6871844696989227,
+      "objective/train/tokens_used": 918303200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23830629885196686,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04961097240448,
+      "objective/train/weighted_lm_loss": 3.38556170463562,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9623337388038635,
+      "theoretical_loss": 3.6871844696989227,
+      "tokens_seen": 897843200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034298146046159666,
+      "loss": 3.4544,
+      "theoretical_loss": 3.6868711383062873,
+      "tokens_seen": 898629632
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003427922814982974,
+      "loss": 3.4239,
+      "theoretical_loss": 3.686453908673583,
+      "tokens_seen": 899678208
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003426031025349981,
+      "loss": 3.4579,
+      "theoretical_loss": 3.6860373010175262,
+      "tokens_seen": 900726784
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.4840245246887207,
+      "objective/train/docs_used": 516962,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5026180744171143,
+      "objective/train/original_loss": 3.5026183128356934,
+      "objective/train/theoretical_loss": 3.685881233162962,
+      "objective/train/tokens_used": 921580000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2395327091217041,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496200323104858,
+      "objective/train/weighted_lm_loss": 3.6757030487060547,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9527707695960999,
+      "theoretical_loss": 3.685881233162962,
+      "tokens_seen": 901120000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003424139235716988,
+      "loss": 3.4299,
+      "theoretical_loss": 3.685621313688465,
+      "tokens_seen": 901775360
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034222474460839954,
+      "loss": 3.4742,
+      "theoretical_loss": 3.6852059450430343,
+      "tokens_seen": 902823936
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003420355656451003,
+      "loss": 3.4374,
+      "theoretical_loss": 3.6847911934441244,
+      "tokens_seen": 903872512
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.4911254346370697,
+      "objective/train/docs_used": 518997,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.090237617492676,
+      "objective/train/original_loss": 3.0902373790740967,
+      "objective/train/theoretical_loss": 3.6845840485272205,
+      "objective/train/tokens_used": 924856800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24378250539302826,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503517389297485,
+      "objective/train/weighted_lm_loss": 3.2452797889709473,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9669274687767029,
+      "theoretical_loss": 3.6845840485272205,
+      "tokens_seen": 904396800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034184638668180103,
+      "loss": 3.4429,
+      "theoretical_loss": 3.6843770572608507,
+      "tokens_seen": 904921088
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003416572077185017,
+      "loss": 3.4243,
+      "theoretical_loss": 3.6839635348685222,
+      "tokens_seen": 905969664
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0003414680287552024,
+      "loss": 3.4806,
+      "theoretical_loss": 3.6835506246486105,
+      "tokens_seen": 907018240
+    },
+    {
+      "epoch": 0.32,
+      "objective/train/advantage_avg": 0.48305195569992065,
+      "objective/train/docs_used": 520740,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1138951778411865,
+      "objective/train/original_loss": 3.1138947010040283,
+      "objective/train/theoretical_loss": 3.6832928659132724,
+      "objective/train/tokens_used": 928133600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23734770715236664,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495115518569946,
+      "objective/train/weighted_lm_loss": 3.2679831981658936,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9549471735954285,
+      "theoretical_loss": 3.6832928659132724,
+      "tokens_seen": 907673600
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034127884979190317,
+      "loss": 3.4425,
+      "theoretical_loss": 3.6831383249887226,
+      "tokens_seen": 908066816
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00034108967082860386,
+      "loss": 3.4278,
+      "theoretical_loss": 3.682726634282564,
+      "tokens_seen": 909115392
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003409004918653046,
+      "loss": 3.4633,
+      "theoretical_loss": 3.682315550929917,
+      "tokens_seen": 910163968
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.4881671071052551,
+      "objective/train/docs_used": 522796,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8828225135803223,
+      "objective/train/original_loss": 2.8828227519989014,
+      "objective/train/theoretical_loss": 3.6820076360319485,
+      "objective/train/tokens_used": 931410400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2397347241640091,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500353574752808,
+      "objective/train/weighted_lm_loss": 3.027292251586914,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9536739587783813,
+      "theoretical_loss": 3.6820076360319485,
+      "tokens_seen": 910950400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003407113129020053,
+      "loss": 3.4252,
+      "theoretical_loss": 3.6819050733366017,
+      "tokens_seen": 911212544
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000340522133938706,
+      "loss": 3.4594,
+      "theoretical_loss": 3.6814951999144547,
+      "tokens_seen": 912261120
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00034033295497540674,
+      "loss": 3.4095,
+      "theoretical_loss": 3.681085929081294,
+      "tokens_seen": 913309696
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.4804491102695465,
+      "objective/train/docs_used": 524442,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4967141151428223,
+      "objective/train/original_loss": 3.4967143535614014,
+      "objective/train/theoretical_loss": 3.6807283101742865,
+      "objective/train/tokens_used": 934687200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23661978542804718,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04924738407135,
+      "objective/train/weighted_lm_loss": 3.6696856021881104,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9522182941436768,
+      "theoretical_loss": 3.6807283101742865,
+      "tokens_seen": 914227200
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00034014377601210744,
+      "loss": 3.4546,
+      "theoretical_loss": 3.680677259260892,
+      "tokens_seen": 914358272
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033995459704880813,
+      "loss": 3.4304,
+      "theoretical_loss": 3.6802691888829453,
+      "tokens_seen": 915406848
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033976541808550893,
+      "loss": 3.5283,
+      "theoretical_loss": 3.679861716383046,
+      "tokens_seen": 916455424
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.49545738101005554,
+      "objective/train/docs_used": 526356,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.091348886489868,
+      "objective/train/original_loss": 3.0913491249084473,
+      "objective/train/theoretical_loss": 3.6794548402026535,
+      "objective/train/tokens_used": 937964000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2462480366230011,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0507975816726685,
+      "objective/train/weighted_lm_loss": 3.2484302520751953,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9557216167449951,
+      "theoretical_loss": 3.6794548402026535,
+      "tokens_seen": 917504000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003395762391222096,
+      "loss": 3.359,
+      "theoretical_loss": 3.6794548402026535,
+      "tokens_seen": 917504000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003393870601589104,
+      "loss": 3.4658,
+      "theoretical_loss": 3.6790485587890642,
+      "tokens_seen": 918552576
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033919788119561107,
+      "loss": 3.4122,
+      "theoretical_loss": 3.6786428705953855,
+      "tokens_seen": 919601152
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033900870223231176,
+      "loss": 3.4613,
+      "theoretical_loss": 3.6782377740805043,
+      "tokens_seen": 920649728
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.48470258712768555,
+      "objective/train/docs_used": 528450,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.134005308151245,
+      "objective/train/original_loss": 3.1340060234069824,
+      "objective/train/theoretical_loss": 3.678187178542029,
+      "objective/train/tokens_used": 941240800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24029278755187988,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496915578842163,
+      "objective/train/weighted_lm_loss": 3.289982795715332,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9536044597625732,
+      "theoretical_loss": 3.678187178542029,
+      "tokens_seen": 920780800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003388195232690125,
+      "loss": 3.4477,
+      "theoretical_loss": 3.6778332677090617,
+      "tokens_seen": 921698304
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003386303443057132,
+      "loss": 3.4984,
+      "theoretical_loss": 3.6774293499514243,
+      "tokens_seen": 922746880
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033844116534241395,
+      "loss": 3.4305,
+      "theoretical_loss": 3.6770260192836544,
+      "tokens_seen": 923795456
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.48579150438308716,
+      "objective/train/docs_used": 529792,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3090968132019043,
+      "objective/train/original_loss": 3.3090968132019043,
+      "objective/train/theoretical_loss": 3.6769252781714576,
+      "objective/train/tokens_used": 944517600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24083971977233887,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049803376197815,
+      "objective/train/weighted_lm_loss": 3.472637176513672,
+      "objective/train/weights_max": 1.0512195825576782,
+      "objective/train/weights_min": 0.9520125389099121,
+      "theoretical_loss": 3.6769252781714576,
+      "tokens_seen": 924057600
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033825198637911464,
+      "loss": 3.3764,
+      "theoretical_loss": 3.6766232741874845,
+      "tokens_seen": 924844032
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033806280741581534,
+      "loss": 3.4332,
+      "theoretical_loss": 3.67622111315029,
+      "tokens_seen": 925892608
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003378736284525161,
+      "loss": 3.3611,
+      "theoretical_loss": 3.6758195346650595,
+      "tokens_seen": 926941184
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.4928480386734009,
+      "objective/train/docs_used": 531599,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.557663679122925,
+      "objective/train/original_loss": 3.557663679122925,
+      "objective/train/theoretical_loss": 3.6756690926156557,
+      "objective/train/tokens_used": 947794400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2444053441286087,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505273342132568,
+      "objective/train/weighted_lm_loss": 3.7376136779785156,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9553889632225037,
+      "theoretical_loss": 3.6756690926156557,
+      "tokens_seen": 927334400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003376844494892168,
+      "loss": 3.275,
+      "theoretical_loss": 3.6754185372303705,
+      "tokens_seen": 927989760
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003374952705259176,
+      "loss": 3.4063,
+      "theoretical_loss": 3.6750181193503604,
+      "tokens_seen": 929038336
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033730609156261827,
+      "loss": 3.2966,
+      "theoretical_loss": 3.6746182795347013,
+      "tokens_seen": 930086912
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.48329272866249084,
+      "objective/train/docs_used": 533595,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.309666156768799,
+      "objective/train/original_loss": 3.309666156768799,
+      "objective/train/theoretical_loss": 3.674418575936782,
+      "objective/train/tokens_used": 951071200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23755574226379395,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495368242263794,
+      "objective/train/weighted_lm_loss": 3.4753262996673584,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9564974308013916,
+      "theoretical_loss": 3.674418575936782,
+      "tokens_seen": 930611200
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033711691259931897,
+      "loss": 3.3508,
+      "theoretical_loss": 3.674219016298571,
+      "tokens_seen": 931135488
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003369277336360197,
+      "loss": 3.351,
+      "theoretical_loss": 3.673820328162628,
+      "tokens_seen": 932184064
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003367385546727204,
+      "loss": 3.367,
+      "theoretical_loss": 3.673422213652986,
+      "tokens_seen": 933232640
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.48411282896995544,
+      "objective/train/docs_used": 535440,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0631942749023438,
+      "objective/train/original_loss": 3.063194751739502,
+      "objective/train/theoretical_loss": 3.6731736827263513,
+      "objective/train/tokens_used": 954348000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23934400081634521,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496280193328857,
+      "objective/train/weighted_lm_loss": 3.2147536277770996,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9552776217460632,
+      "theoretical_loss": 3.6731736827263513,
+      "tokens_seen": 933888000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003365493757094211,
+      "loss": 3.3911,
+      "theoretical_loss": 3.673024671301186,
+      "tokens_seen": 934281216
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033636019674612185,
+      "loss": 3.4291,
+      "theoretical_loss": 3.6726276996441705,
+      "tokens_seen": 935329792
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00033617101778282254,
+      "loss": 3.3124,
+      "theoretical_loss": 3.6722312972242594,
+      "tokens_seen": 936378368
+    },
+    {
+      "epoch": 0.33,
+      "objective/train/advantage_avg": 0.4916326701641083,
+      "objective/train/docs_used": 537222,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.992642879486084,
+      "objective/train/original_loss": 2.992642879486084,
+      "objective/train/theoretical_loss": 3.6719343680973067,
+      "objective/train/tokens_used": 957624800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24388481676578522,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050403118133545,
+      "objective/train/weighted_lm_loss": 3.1425609588623047,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9709485173225403,
+      "theoretical_loss": 3.6719343680973067,
+      "tokens_seen": 937164800
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0003359818388195233,
+      "loss": 3.3708,
+      "theoretical_loss": 3.6718354625891205,
+      "tokens_seen": 937426944
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.000335792659856224,
+      "loss": 3.282,
+      "theoretical_loss": 3.6714401942917485,
+      "tokens_seen": 938475520
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003356034808929247,
+      "loss": 3.3235,
+      "theoretical_loss": 3.6710454908904366,
+      "tokens_seen": 939524096
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.48321402072906494,
+      "objective/train/docs_used": 539286,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.189788818359375,
+      "objective/train/original_loss": 3.189789295196533,
+      "objective/train/theoretical_loss": 3.6707005876762313,
+      "objective/train/tokens_used": 960901600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2379058301448822,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495306253433228,
+      "objective/train/weighted_lm_loss": 3.346953868865967,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9523076415061951,
+      "theoretical_loss": 3.6707005876762313,
+      "tokens_seen": 940441600
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003354143019296254,
+      "loss": 3.3441,
+      "theoretical_loss": 3.6706513509487513,
+      "tokens_seen": 940572672
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033522512296632617,
+      "loss": 3.3747,
+      "theoretical_loss": 3.6702577730355084,
+      "tokens_seen": 941621248
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003350359440030269,
+      "loss": 3.4368,
+      "theoretical_loss": 3.6698647557247472,
+      "tokens_seen": 942669824
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.48219361901283264,
+      "objective/train/docs_used": 541407,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.251582622528076,
+      "objective/train/original_loss": 3.251582622528076,
+      "objective/train/theoretical_loss": 3.6694722975957066,
+      "objective/train/tokens_used": 964178400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23559176921844482,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494168996810913,
+      "objective/train/weighted_lm_loss": 3.411501407623291,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9520928859710693,
+      "theoretical_loss": 3.6694722975957066,
+      "tokens_seen": 943718400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003348467650397276,
+      "loss": 3.3476,
+      "theoretical_loss": 3.6694722975957066,
+      "tokens_seen": 943718400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003346575860764283,
+      "loss": 3.4193,
+      "theoretical_loss": 3.6690803972327988,
+      "tokens_seen": 944766976
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033446840711312905,
+      "loss": 3.3699,
+      "theoretical_loss": 3.6686890532255862,
+      "tokens_seen": 945815552
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033427922814982975,
+      "loss": 3.3711,
+      "theoretical_loss": 3.6682982641687563,
+      "tokens_seen": 946864128
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.48947545886039734,
+      "objective/train/docs_used": 543040,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.059685707092285,
+      "objective/train/original_loss": 3.059685707092285,
+      "objective/train/theoretical_loss": 3.668249454486809,
+      "objective/train/tokens_used": 967455200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24430738389492035,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501893758773804,
+      "objective/train/weighted_lm_loss": 3.213547945022583,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.951458215713501,
+      "theoretical_loss": 3.668249454486809,
+      "tokens_seen": 946995200
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033409004918653044,
+      "loss": 3.3339,
+      "theoretical_loss": 3.6679080286620973,
+      "tokens_seen": 947912704
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003339008702232312,
+      "loss": 3.3752,
+      "theoretical_loss": 3.6675183453104747,
+      "tokens_seen": 948961280
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003337116912599319,
+      "loss": 3.4667,
+      "theoretical_loss": 3.6671292127238067,
+      "tokens_seen": 950009856
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.4804360866546631,
+      "objective/train/docs_used": 545196,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2226321697235107,
+      "objective/train/original_loss": 3.2226319313049316,
+      "objective/train/theoretical_loss": 3.667032015471743,
+      "objective/train/tokens_used": 970732000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24167245626449585,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492719411849976,
+      "objective/train/weighted_lm_loss": 3.3797309398651123,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9517346620559692,
+      "theoretical_loss": 3.667032015471743,
+      "tokens_seen": 950272000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033352251229663263,
+      "loss": 3.4203,
+      "theoretical_loss": 3.66674062951704,
+      "tokens_seen": 951058432
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 3.335,
+      "theoretical_loss": 3.666352594310127,
+      "tokens_seen": 952107008
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.000333144154370034,
+      "loss": 3.3466,
+      "theoretical_loss": 3.6659651057280023,
+      "tokens_seen": 953155584
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.4831368923187256,
+      "objective/train/docs_used": 546810,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0602049827575684,
+      "objective/train/original_loss": 3.0602047443389893,
+      "objective/train/theoretical_loss": 3.66581993815661,
+      "objective/train/tokens_used": 974008800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2421431988477707,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495444536209106,
+      "objective/train/weighted_lm_loss": 3.211397409439087,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9515434503555298,
+      "theoretical_loss": 3.66581993815661,
+      "tokens_seen": 953548800
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033295497540673476,
+      "loss": 3.3687,
+      "theoretical_loss": 3.665578162400558,
+      "tokens_seen": 954204160
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003327657964434355,
+      "loss": 3.3398,
+      "theoretical_loss": 3.66519176296262,
+      "tokens_seen": 955252736
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033257661748013626,
+      "loss": 3.3475,
+      "theoretical_loss": 3.664805906053928,
+      "tokens_seen": 956301312
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.4918384850025177,
+      "objective/train/docs_used": 548880,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3802547454833984,
+      "objective/train/original_loss": 3.3802547454833984,
+      "objective/train/theoretical_loss": 3.664613180624306,
+      "objective/train/tokens_used": 977285600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2429351955652237,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050418734550476,
+      "objective/train/weighted_lm_loss": 3.550429582595825,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9534175992012024,
+      "theoretical_loss": 3.664613180624306,
+      "tokens_seen": 956825600
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033238743851683695,
+      "loss": 3.4054,
+      "theoretical_loss": 3.6644205903191107,
+      "tokens_seen": 957349888
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033219825955353765,
+      "loss": 3.362,
+      "theoretical_loss": 3.664035814407661,
+      "tokens_seen": 958398464
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003320090805902384,
+      "loss": 3.3747,
+      "theoretical_loss": 3.663651576973915,
+      "tokens_seen": 959447040
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.4942702054977417,
+      "objective/train/docs_used": 550512,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2487757205963135,
+      "objective/train/original_loss": 3.2487761974334717,
+      "objective/train/theoretical_loss": 3.663411701427548,
+      "objective/train/tokens_used": 980562400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24505145847797394,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506727695465088,
+      "objective/train/weighted_lm_loss": 3.413585662841797,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9725967645645142,
+      "theoretical_loss": 3.663411701427548,
+      "tokens_seen": 960102400
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003318199016269391,
+      "loss": 3.3048,
+      "theoretical_loss": 3.66326787667703,
+      "tokens_seen": 960495616
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003316307226636398,
+      "loss": 3.401,
+      "theoretical_loss": 3.6628847121809613,
+      "tokens_seen": 961544192
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033144154370034053,
+      "loss": 3.3882,
+      "theoretical_loss": 3.662502082154439,
+      "tokens_seen": 962592768
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.48432281613349915,
+      "objective/train/docs_used": 552388,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.152970314025879,
+      "objective/train/original_loss": 3.152970314025879,
+      "objective/train/theoretical_loss": 3.662215459582027,
+      "objective/train/tokens_used": 983839200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24182836711406708,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496615171432495,
+      "objective/train/weighted_lm_loss": 3.308091640472412,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9514780640602112,
+      "theoretical_loss": 3.662215459582027,
+      "tokens_seen": 963379200
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0003312523647370412,
+      "loss": 3.3735,
+      "theoretical_loss": 3.662119985270947,
+      "tokens_seen": 963641344
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033106318577374197,
+      "loss": 3.4034,
+      "theoretical_loss": 3.6617384202087004,
+      "tokens_seen": 964689920
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00033087400681044266,
+      "loss": 3.4614,
+      "theoretical_loss": 3.6613573856506236,
+      "tokens_seen": 965738496
+    },
+    {
+      "epoch": 0.34,
+      "objective/train/advantage_avg": 0.49010223150253296,
+      "objective/train/docs_used": 553451,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1867620944976807,
+      "objective/train/original_loss": 3.1867618560791016,
+      "objective/train/theoretical_loss": 3.661024414559681,
+      "objective/train/tokens_used": 987116000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24266354739665985,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050243854522705,
+      "objective/train/weighted_lm_loss": 3.3466124534606934,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9682541489601135,
+      "theoretical_loss": 3.661024414559681,
+      "tokens_seen": 966656000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00033068482784714336,
+      "loss": 3.3727,
+      "theoretical_loss": 3.6609768802843274,
+      "tokens_seen": 966787072
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00033049564888384416,
+      "loss": 3.4051,
+      "theoretical_loss": 3.660596902802089,
+      "tokens_seen": 967835648
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00033030646992054485,
+      "loss": 3.5094,
+      "theoretical_loss": 3.66021745190083,
+      "tokens_seen": 968884224
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.48655059933662415,
+      "objective/train/docs_used": 554109,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4037506580352783,
+      "objective/train/original_loss": 3.4037506580352783,
+      "objective/train/theoretical_loss": 3.6598385262820923,
+      "objective/train/tokens_used": 990392800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24164670705795288,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049883484840393,
+      "objective/train/weighted_lm_loss": 3.573542356491089,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9580250978469849,
+      "theoretical_loss": 3.6598385262820923,
+      "tokens_seen": 969932800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003301172909572456,
+      "loss": 3.4282,
+      "theoretical_loss": 3.6598385262820923,
+      "tokens_seen": 969932800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003299281119939463,
+      "loss": 3.5318,
+      "theoretical_loss": 3.659460124652022,
+      "tokens_seen": 970981376
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000329738933030647,
+      "loss": 3.528,
+      "theoretical_loss": 3.6590822457213426,
+      "tokens_seen": 972029952
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032954975406734773,
+      "loss": 3.6384,
+      "theoretical_loss": 3.658704888205337,
+      "tokens_seen": 973078528
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.48475736379623413,
+      "objective/train/docs_used": 555679,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5973386764526367,
+      "objective/train/original_loss": 3.5973386764526367,
+      "objective/train/theoretical_loss": 3.6586577551139974,
+      "objective/train/tokens_used": 993669600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2393985539674759,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496925115585327,
+      "objective/train/weighted_lm_loss": 3.776460647583008,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9569512009620667,
+      "theoretical_loss": 3.6586577551139974,
+      "tokens_seen": 973209600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003293605751040484,
+      "loss": 3.5721,
+      "theoretical_loss": 3.658328050823826,
+      "tokens_seen": 974127104
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003291713961407491,
+      "loss": 3.5957,
+      "theoretical_loss": 3.657951732301148,
+      "tokens_seen": 975175680
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032898221717744987,
+      "loss": 3.5828,
+      "theoretical_loss": 3.657575931366135,
+      "tokens_seen": 976224256
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.4789718985557556,
+      "objective/train/docs_used": 557385,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.122087001800537,
+      "objective/train/original_loss": 3.122087001800537,
+      "objective/train/theoretical_loss": 3.657482061856916,
+      "objective/train/tokens_used": 996946400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23479175567626953,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490905046463013,
+      "objective/train/weighted_lm_loss": 3.275631904602051,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9560718536376953,
+      "theoretical_loss": 3.657482061856916,
+      "tokens_seen": 976486400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032879303821415056,
+      "loss": 3.6054,
+      "theoretical_loss": 3.6572006467520968,
+      "tokens_seen": 977272832
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003286038592508513,
+      "loss": 3.6388,
+      "theoretical_loss": 3.6568258771967965,
+      "tokens_seen": 978321408
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000328414680287552,
+      "loss": 3.5389,
+      "theoretical_loss": 3.6564516214424323,
+      "tokens_seen": 979369984
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.4748334586620331,
+      "objective/train/docs_used": 559012,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1960604190826416,
+      "objective/train/original_loss": 3.1960604190826416,
+      "objective/train/theoretical_loss": 3.656311407742891,
+      "objective/train/tokens_used": 1000223200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2362358719110489,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048684000968933,
+      "objective/train/weighted_lm_loss": 3.353394031524658,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9522448778152466,
+      "theoretical_loss": 3.656311407742891,
+      "tokens_seen": 979763200
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032822550132425275,
+      "loss": 3.5887,
+      "theoretical_loss": 3.656077878235617,
+      "tokens_seen": 980418560
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003280363223609535,
+      "loss": 3.5621,
+      "theoretical_loss": 3.6557046463273557,
+      "tokens_seen": 981467136
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003278471433976542,
+      "loss": 3.5904,
+      "theoretical_loss": 3.655331924473029,
+      "tokens_seen": 982515712
+    },
+    {
+      "debugging/Self-BLEU-5": 0.4286046663919377,
+      "debugging/distinct-1-grams": 0.8147567798871364,
+      "debugging/distinct-2-grams": 0.9823269374342457,
+      "debugging/entropy-1-grams": 6.1671920556004824,
+      "debugging/entropy-2-grams": 6.947028138756313,
+      "debugging/length": 477.53333333333336,
+      "debugging/num_segments": 15,
+      "debugging/raw_token_scores_avg": 0.020611366257071495,
+      "debugging/raw_token_scores_std": 0.08496682345867157,
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.4793747663497925,
+      "objective/train/docs_used": 560408,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.48490047454834,
+      "objective/train/original_loss": 3.48490047454834,
+      "objective/train/theoretical_loss": 3.6551457544283386,
+      "objective/train/tokens_used": 1003500000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2370256930589676,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491422414779663,
+      "objective/train/weighted_lm_loss": 3.6559360027313232,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9516208171844482,
+      "theoretical_loss": 3.6551457544283386,
+      "tokens_seen": 983040000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032765796443435494,
+      "loss": 3.5123,
+      "theoretical_loss": 3.6549597114323706,
+      "tokens_seen": 983564288
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032746878547105563,
+      "loss": 3.567,
+      "theoretical_loss": 3.6545880059694484,
+      "tokens_seen": 984612864
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003272796065077563,
+      "loss": 3.5675,
+      "theoretical_loss": 3.6542168068526433,
+      "tokens_seen": 985661440
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.47530868649482727,
+      "objective/train/docs_used": 562309,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.699045181274414,
+      "objective/train/original_loss": 3.699045181274414,
+      "objective/train/theoretical_loss": 3.6539850639880065,
+      "objective/train/tokens_used": 1006776800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23356567323207855,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487180948257446,
+      "objective/train/weighted_lm_loss": 3.881354808807373,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9573073387145996,
+      "theoretical_loss": 3.6539850639880065,
+      "tokens_seen": 986316800
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003270904275444571,
+      "loss": 3.5629,
+      "theoretical_loss": 3.653846112854634,
+      "tokens_seen": 986710016
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032690124858115777,
+      "loss": 3.4911,
+      "theoretical_loss": 3.6534759227523708,
+      "tokens_seen": 987758592
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003267120696178585,
+      "loss": 3.5047,
+      "theoretical_loss": 3.653106235327061,
+      "tokens_seen": 988807168
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.47373899817466736,
+      "objective/train/docs_used": 564240,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.646477222442627,
+      "objective/train/original_loss": 3.646477699279785,
+      "objective/train/theoretical_loss": 3.65282929890904,
+      "objective/train/tokens_used": 1010053600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23349297046661377,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485607385635376,
+      "objective/train/weighted_lm_loss": 3.822693347930908,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9552621245384216,
+      "theoretical_loss": 3.65282929890904,
+      "tokens_seen": 989593600
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003265228906545592,
+      "loss": 3.5004,
+      "theoretical_loss": 3.6527370493641493,
+      "tokens_seen": 989855744
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003263337116912599,
+      "loss": 3.4973,
+      "theoretical_loss": 3.652368363653297,
+      "tokens_seen": 990904320
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00032614453272796065,
+      "loss": 3.5477,
+      "theoretical_loss": 3.6520001769883628,
+      "tokens_seen": 991952896
+    },
+    {
+      "epoch": 0.35,
+      "objective/train/advantage_avg": 0.47648999094963074,
+      "objective/train/docs_used": 566160,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.7423951625823975,
+      "objective/train/original_loss": 3.7423954010009766,
+      "objective/train/theoretical_loss": 3.651678422085146,
+      "objective/train/tokens_used": 1013330400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2367618978023529,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488523244857788,
+      "objective/train/weighted_lm_loss": 3.9235517978668213,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9544411301612854,
+      "theoretical_loss": 3.651678422085146,
+      "tokens_seen": 992870400
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0003259553537646614,
+      "loss": 3.4798,
+      "theoretical_loss": 3.651632488167385,
+      "tokens_seen": 993001472
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003257661748013621,
+      "loss": 3.5252,
+      "theoretical_loss": 3.651265295992563,
+      "tokens_seen": 994050048
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032557699583806284,
+      "loss": 3.4845,
+      "theoretical_loss": 3.650898599270236,
+      "tokens_seen": 995098624
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.46204280853271484,
+      "objective/train/docs_used": 567938,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3266007900238037,
+      "objective/train/original_loss": 3.3266003131866455,
+      "objective/train/theoretical_loss": 3.6505323968108674,
+      "objective/train/tokens_used": 1016607200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23566798865795135,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047401785850525,
+      "objective/train/weighted_lm_loss": 3.4848270416259766,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9548930525779724,
+      "theoretical_loss": 3.6505323968108674,
+      "tokens_seen": 996147200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032538781687476353,
+      "loss": 3.4402,
+      "theoretical_loss": 3.6505323968108674,
+      "tokens_seen": 996147200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003251986379114643,
+      "loss": 3.5624,
+      "theoretical_loss": 3.6501666874290244,
+      "tokens_seen": 997195776
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032500945894816497,
+      "loss": 3.4626,
+      "theoretical_loss": 3.6498014699433603,
+      "tokens_seen": 998244352
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032482027998486567,
+      "loss": 3.4443,
+      "theoretical_loss": 3.6494367431765955,
+      "tokens_seen": 999292928
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.49096834659576416,
+      "objective/train/docs_used": 570122,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0309109687805176,
+      "objective/train/original_loss": 3.0309109687805176,
+      "objective/train/theoretical_loss": 3.6493911867759463,
+      "objective/train/tokens_used": 1019884000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24276913702487946,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503308773040771,
+      "objective/train/weighted_lm_loss": 3.183624029159546,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9735167622566223,
+      "theoretical_loss": 3.6493911867759463,
+      "tokens_seen": 999424000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003246311010215664,
+      "loss": 3.3911,
+      "theoretical_loss": 3.6490725059554996,
+      "tokens_seen": 1000341504
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003244419220582671,
+      "loss": 3.5018,
+      "theoretical_loss": 3.648708757110873,
+      "tokens_seen": 1001390080
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032425274309496785,
+      "loss": 3.4298,
+      "theoretical_loss": 3.6483454954775305,
+      "tokens_seen": 1002438656
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.48988527059555054,
+      "objective/train/docs_used": 571707,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.399118185043335,
+      "objective/train/original_loss": 3.399117946624756,
+      "objective/train/theoretical_loss": 3.648254756059793,
+      "objective/train/tokens_used": 1023160800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24150972068309784,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502160787582397,
+      "objective/train/weighted_lm_loss": 3.570770025253296,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9835735559463501,
+      "theoretical_loss": 3.648254756059793,
+      "tokens_seen": 1002700800
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032406356413166855,
+      "loss": 3.4353,
+      "theoretical_loss": 3.64798271989428,
+      "tokens_seen": 1003487232
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032387438516836924,
+      "loss": 3.3814,
+      "theoretical_loss": 3.647620429203908,
+      "tokens_seen": 1004535808
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032368520620507004,
+      "loss": 3.5187,
+      "theoretical_loss": 3.6472586222531587,
+      "tokens_seen": 1005584384
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.48494696617126465,
+      "objective/train/docs_used": 573416,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2771799564361572,
+      "objective/train/original_loss": 3.2771804332733154,
+      "objective/train/theoretical_loss": 3.6471230691260477,
+      "objective/train/tokens_used": 1026437600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23839180171489716,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497063398361206,
+      "objective/train/weighted_lm_loss": 3.440140962600708,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9522702693939209,
+      "theoretical_loss": 3.6471230691260477,
+      "tokens_seen": 1005977600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032349602724177074,
+      "loss": 3.5214,
+      "theoretical_loss": 3.6468972978927208,
+      "tokens_seen": 1006632960
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032330684827847143,
+      "loss": 3.4675,
+      "theoretical_loss": 3.646536454977205,
+      "tokens_seen": 1007681536
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003231176693151722,
+      "loss": 3.4601,
+      "theoretical_loss": 3.6461760923651294,
+      "tokens_seen": 1008730112
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.4919039309024811,
+      "objective/train/docs_used": 575328,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1079111099243164,
+      "objective/train/original_loss": 3.1079111099243164,
+      "objective/train/theoretical_loss": 3.645996090817232,
+      "objective/train/tokens_used": 1029714400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2433389574289322,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504273176193237,
+      "objective/train/weighted_lm_loss": 3.2646045684814453,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.959859311580658,
+      "theoretical_loss": 3.645996090817232,
+      "tokens_seen": 1009254400
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032292849035187287,
+      "loss": 3.4448,
+      "theoretical_loss": 3.645816208918901,
+      "tokens_seen": 1009778688
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003227393113885736,
+      "loss": 3.3991,
+      "theoretical_loss": 3.6454568035048003,
+      "tokens_seen": 1010827264
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003225501324252743,
+      "loss": 3.4667,
+      "theoretical_loss": 3.645097874992961,
+      "tokens_seen": 1011875840
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.46897462010383606,
+      "objective/train/docs_used": 577263,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.042729139328003,
+      "objective/train/original_loss": 3.042728900909424,
+      "objective/train/theoretical_loss": 3.644873786349497,
+      "objective/train/tokens_used": 1032991200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2294284999370575,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0480632781982422,
+      "objective/train/weighted_lm_loss": 3.192321300506592,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9518375396728516,
+      "theoretical_loss": 3.644873786349497,
+      "tokens_seen": 1012531200
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.000322360953461975,
+      "loss": 3.4738,
+      "theoretical_loss": 3.6447394222573557,
+      "tokens_seen": 1012924416
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032217177449867575,
+      "loss": 3.4734,
+      "theoretical_loss": 3.644381444175778,
+      "tokens_seen": 1013972992
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032198259553537645,
+      "loss": 3.475,
+      "theoretical_loss": 3.6440239396298244,
+      "tokens_seen": 1015021568
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.47905510663986206,
+      "objective/train/docs_used": 579051,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3449113368988037,
+      "objective/train/original_loss": 3.344911575317383,
+      "objective/train/theoretical_loss": 3.643756121307459,
+      "objective/train/tokens_used": 1036268000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23849982023239136,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491175651550293,
+      "objective/train/weighted_lm_loss": 3.5071990489959717,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9516644477844238,
+      "theoretical_loss": 3.643756121307459,
+      "tokens_seen": 1015808000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003217934165720772,
+      "loss": 3.4243,
+      "theoretical_loss": 3.643666907504879,
+      "tokens_seen": 1016070144
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003216042376087779,
+      "loss": 3.4923,
+      "theoretical_loss": 3.6433103466900962,
+      "tokens_seen": 1017118720
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032141505864547864,
+      "loss": 3.4227,
+      "theoretical_loss": 3.6429542560783856,
+      "tokens_seen": 1018167296
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.4651617705821991,
+      "objective/train/docs_used": 580918,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.703390121459961,
+      "objective/train/original_loss": 3.70339035987854,
+      "objective/train/theoretical_loss": 3.642643061639121,
+      "objective/train/tokens_used": 1039544800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23710434138774872,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047721028327942,
+      "objective/train/weighted_lm_loss": 3.879617691040039,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9520632028579712,
+      "theoretical_loss": 3.642643061639121,
+      "tokens_seen": 1019084800
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003212258796821794,
+      "loss": 3.4734,
+      "theoretical_loss": 3.6425986345663914,
+      "tokens_seen": 1019215872
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0003210367007188801,
+      "loss": 3.4991,
+      "theoretical_loss": 3.6422434810544813,
+      "tokens_seen": 1020264448
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00032084752175558077,
+      "loss": 3.4978,
+      "theoretical_loss": 3.641888794446725,
+      "tokens_seen": 1021313024
+    },
+    {
+      "epoch": 0.36,
+      "objective/train/advantage_avg": 0.48555630445480347,
+      "objective/train/docs_used": 582721,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.36793851852417,
+      "objective/train/original_loss": 3.3679380416870117,
+      "objective/train/theoretical_loss": 3.6415345736508824,
+      "objective/train/tokens_used": 1042821600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24094036221504211,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497803688049316,
+      "objective/train/weighted_lm_loss": 3.535130023956299,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9528319835662842,
+      "theoretical_loss": 3.6415345736508824,
+      "tokens_seen": 1022361600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003206583427922815,
+      "loss": 3.5065,
+      "theoretical_loss": 3.6415345736508824,
+      "tokens_seen": 1022361600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003204691638289822,
+      "loss": 3.4752,
+      "theoretical_loss": 3.6411808175783844,
+      "tokens_seen": 1023410176
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00032027998486568296,
+      "loss": 3.3807,
+      "theoretical_loss": 3.640827525144318,
+      "tokens_seen": 1024458752
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00032009080590238365,
+      "loss": 3.405,
+      "theoretical_loss": 3.64047469526741,
+      "tokens_seen": 1025507328
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.47355058789253235,
+      "objective/train/docs_used": 584025,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.485971212387085,
+      "objective/train/original_loss": 3.485970973968506,
+      "objective/train/theoretical_loss": 3.6404306240026356,
+      "objective/train/tokens_used": 1046098400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2372806966304779,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485612154006958,
+      "objective/train/weighted_lm_loss": 3.65089750289917,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9561977386474609,
+      "theoretical_loss": 3.6404306240026356,
+      "tokens_seen": 1025638400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031990162693908435,
+      "loss": 3.4315,
+      "theoretical_loss": 3.640122326870012,
+      "tokens_seen": 1026555904
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003197124479757851,
+      "loss": 3.4454,
+      "theoretical_loss": 3.639770418878081,
+      "tokens_seen": 1027604480
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003195232690124858,
+      "loss": 3.4686,
+      "theoretical_loss": 3.6394189702211706,
+      "tokens_seen": 1028653056
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.4855080544948578,
+      "objective/train/docs_used": 586068,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.275355339050293,
+      "objective/train/original_loss": 3.275355100631714,
+      "objective/train/theoretical_loss": 3.6393311797029373,
+      "objective/train/tokens_used": 1049375200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2405899465084076,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497738122940063,
+      "objective/train/weighted_lm_loss": 3.437480926513672,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9573184847831726,
+      "theoretical_loss": 3.6393311797029373,
+      "tokens_seen": 1028915200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031933409004918653,
+      "loss": 3.4559,
+      "theoretical_loss": 3.639067979832408,
+      "tokens_seen": 1029701632
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003191449110858873,
+      "loss": 3.3891,
+      "theoretical_loss": 3.6387174466484824,
+      "tokens_seen": 1030750208
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.000318955732122588,
+      "loss": 3.4252,
+      "theoretical_loss": 3.6383673696096297,
+      "tokens_seen": 1031798784
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.4844791293144226,
+      "objective/train/docs_used": 588066,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.536590576171875,
+      "objective/train/original_loss": 3.536591053009033,
+      "objective/train/theoretical_loss": 3.63823620810427,
+      "objective/train/tokens_used": 1052652000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.239736869931221,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496665239334106,
+      "objective/train/weighted_lm_loss": 3.7123160362243652,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9534673094749451,
+      "theoretical_loss": 3.63823620810427,
+      "tokens_seen": 1032192000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003187665531592887,
+      "loss": 3.4282,
+      "theoretical_loss": 3.638017747659614,
+      "tokens_seen": 1032847360
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003185773741959894,
+      "loss": 3.3684,
+      "theoretical_loss": 3.637668579745716,
+      "tokens_seen": 1033895936
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003183881952326901,
+      "loss": 3.3848,
+      "theoretical_loss": 3.637319864818716,
+      "tokens_seen": 1034944512
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.48198384046554565,
+      "objective/train/docs_used": 589983,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.28519344329834,
+      "objective/train/original_loss": 3.28519344329834,
+      "objective/train/theoretical_loss": 3.637145676898374,
+      "objective/train/tokens_used": 1055928800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2357451617717743,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493967533111572,
+      "objective/train/weighted_lm_loss": 3.4479753971099854,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9625754952430725,
+      "theoretical_loss": 3.637145676898374,
+      "tokens_seen": 1035468800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031819901626939086,
+      "loss": 3.3893,
+      "theoretical_loss": 3.6369716018328777,
+      "tokens_seen": 1035993088
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031800983730609155,
+      "loss": 3.3671,
+      "theoretical_loss": 3.6366237897459355,
+      "tokens_seen": 1037041664
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003178206583427923,
+      "loss": 3.3868,
+      "theoretical_loss": 3.6362764275190766,
+      "tokens_seen": 1038090240
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.48860275745391846,
+      "objective/train/docs_used": 592008,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0765490531921387,
+      "objective/train/original_loss": 3.0765490531921387,
+      "objective/train/theoretical_loss": 3.636059554111668,
+      "objective/train/tokens_used": 1059205600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2414240688085556,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500874519348145,
+      "objective/train/weighted_lm_loss": 3.2311158180236816,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9935080409049988,
+      "theoretical_loss": 3.636059554111668,
+      "tokens_seen": 1038745600
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.000317631479379493,
+      "loss": 3.3592,
+      "theoretical_loss": 3.6359295141169303,
+      "tokens_seen": 1039138816
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003174423004161937,
+      "loss": 3.385,
+      "theoretical_loss": 3.6355830485075473,
+      "tokens_seen": 1040187392
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031725312145289443,
+      "loss": 3.3209,
+      "theoretical_loss": 3.635237029662391,
+      "tokens_seen": 1041235968
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.47969964146614075,
+      "objective/train/docs_used": 593661,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0731759071350098,
+      "objective/train/original_loss": 3.0731759071350098,
+      "objective/train/theoretical_loss": 3.6349778081007327,
+      "objective/train/tokens_used": 1062482400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2339300960302353,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491589307785034,
+      "objective/train/weighted_lm_loss": 3.2258410453796387,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9526910185813904,
+      "theoretical_loss": 3.6349778081007327,
+      "tokens_seen": 1042022400
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003170639424895951,
+      "loss": 3.337,
+      "theoretical_loss": 3.6348914565563186,
+      "tokens_seen": 1042284544
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031687476352629593,
+      "loss": 3.3503,
+      "theoretical_loss": 3.6345463281675676,
+      "tokens_seen": 1043333120
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003166855845629966,
+      "loss": 3.339,
+      "theoretical_loss": 3.6342016434777427,
+      "tokens_seen": 1044381696
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.48656022548675537,
+      "objective/train/docs_used": 595739,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4706473350524902,
+      "objective/train/original_loss": 3.470647096633911,
+      "objective/train/theoretical_loss": 3.6339004075478796,
+      "objective/train/tokens_used": 1065759200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2418631613254547,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498853921890259,
+      "objective/train/weighted_lm_loss": 3.6436004638671875,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9542835354804993,
+      "theoretical_loss": 3.6339004075478796,
+      "tokens_seen": 1045299200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003164964055996973,
+      "loss": 3.3997,
+      "theoretical_loss": 3.6338574014717997,
+      "tokens_seen": 1045430272
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031630722663639806,
+      "loss": 3.3249,
+      "theoretical_loss": 3.6335136011380307,
+      "tokens_seen": 1046478848
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00031611804767309876,
+      "loss": 3.3354,
+      "theoretical_loss": 3.6331702414680525,
+      "tokens_seen": 1047527424
+    },
+    {
+      "epoch": 0.37,
+      "objective/train/advantage_avg": 0.477405309677124,
+      "objective/train/docs_used": 597756,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.253281831741333,
+      "objective/train/original_loss": 3.253281593322754,
+      "objective/train/theoretical_loss": 3.632827321456789,
+      "objective/train/tokens_used": 1069036000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23487040400505066,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489342212677002,
+      "objective/train/weighted_lm_loss": 3.4119961261749268,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9524772763252258,
+      "theoretical_loss": 3.632827321456789,
+      "tokens_seen": 1048576000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003159288687097995,
+      "loss": 3.4091,
+      "theoretical_loss": 3.632827321456789,
+      "tokens_seen": 1048576000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0003157396897465002,
+      "loss": 3.3915,
+      "theoretical_loss": 3.6324848401024594,
+      "tokens_seen": 1049624576
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003155505107832009,
+      "loss": 3.3367,
+      "theoretical_loss": 3.632142796406564,
+      "tokens_seen": 1050673152
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031536133181990164,
+      "loss": 3.4277,
+      "theoretical_loss": 3.631801189373867,
+      "tokens_seen": 1051721728
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.4907068908214569,
+      "objective/train/docs_used": 599577,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9004616737365723,
+      "objective/train/original_loss": 2.9004616737365723,
+      "objective/train/theoretical_loss": 3.631758519148221,
+      "objective/train/tokens_used": 1072312800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.243531733751297,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503087043762207,
+      "objective/train/weighted_lm_loss": 3.046717882156372,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9606583118438721,
+      "theoretical_loss": 3.631758519148221,
+      "tokens_seen": 1051852800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031517215285660233,
+      "loss": 3.4022,
+      "theoretical_loss": 3.631460018012389,
+      "tokens_seen": 1052770304
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000314982973893303,
+      "loss": 3.4569,
+      "theoretical_loss": 3.631119281333386,
+      "tokens_seen": 1053818880
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003147937949300038,
+      "loss": 3.3993,
+      "theoretical_loss": 3.6307789783513402,
+      "tokens_seen": 1054867456
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.4608767032623291,
+      "objective/train/docs_used": 601442,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.057370901107788,
+      "objective/train/original_loss": 3.057370662689209,
+      "objective/train/theoretical_loss": 3.630693970255794,
+      "objective/train/tokens_used": 1075589600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23330651223659515,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04727303981781,
+      "objective/train/weighted_lm_loss": 3.204721212387085,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9519646167755127,
+      "theoretical_loss": 3.630693970255794,
+      "tokens_seen": 1055129600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003146046159667045,
+      "loss": 3.3655,
+      "theoretical_loss": 3.6304391080839453,
+      "tokens_seen": 1055916032
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031441543700340527,
+      "loss": 3.3979,
+      "theoretical_loss": 3.630099669552091,
+      "tokens_seen": 1056964608
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031422625804010596,
+      "loss": 3.3503,
+      "theoretical_loss": 3.6297606617798532,
+      "tokens_seen": 1058013184
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.4877772033214569,
+      "objective/train/docs_used": 602965,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0313591957092285,
+      "objective/train/original_loss": 3.0313591957092285,
+      "objective/train/theoretical_loss": 3.629633644721836,
+      "objective/train/tokens_used": 1078866400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24103260040283203,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500030517578125,
+      "objective/train/weighted_lm_loss": 3.182788133621216,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.95267653465271,
+      "theoretical_loss": 3.629633644721836,
+      "tokens_seen": 1058406400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031403707907680666,
+      "loss": 3.3468,
+      "theoretical_loss": 3.629422083794477,
+      "tokens_seen": 1059061760
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003138479001135074,
+      "loss": 3.3813,
+      "theoretical_loss": 3.6290839346263644,
+      "tokens_seen": 1060110336
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003136587211502081,
+      "loss": 3.3796,
+      "theoretical_loss": 3.6287462133090616,
+      "tokens_seen": 1061158912
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.4929821789264679,
+      "objective/train/docs_used": 604364,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3100390434265137,
+      "objective/train/original_loss": 3.3100390434265137,
+      "objective/train/theoretical_loss": 3.628577512793303,
+      "objective/train/tokens_used": 1082143200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24545590579509735,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505460500717163,
+      "objective/train/weighted_lm_loss": 3.4770169258117676,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.951737642288208,
+      "theoretical_loss": 3.628577512793303,
+      "tokens_seen": 1061683200
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031346954218690884,
+      "loss": 3.3702,
+      "theoretical_loss": 3.6284089188792445,
+      "tokens_seen": 1062207488
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031328036322360954,
+      "loss": 3.2997,
+      "theoretical_loss": 3.6280720503767077,
+      "tokens_seen": 1063256064
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031309118426031023,
+      "loss": 3.4449,
+      "theoretical_loss": 3.627735606844347,
+      "tokens_seen": 1064304640
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.46973249316215515,
+      "objective/train/docs_used": 606079,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8989434242248535,
+      "objective/train/original_loss": 2.8989436626434326,
+      "objective/train/theoretical_loss": 3.62752554501776,
+      "objective/train/tokens_used": 1085420000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23049893975257874,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048144817352295,
+      "objective/train/weighted_lm_loss": 3.0359854698181152,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9730321764945984,
+      "theoretical_loss": 3.62752554501776,
+      "tokens_seen": 1064960000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000312902005297011,
+      "loss": 3.3205,
+      "theoretical_loss": 3.627399587328153,
+      "tokens_seen": 1065353216
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031271282633371167,
+      "loss": 3.3029,
+      "theoretical_loss": 3.6270639908771907,
+      "tokens_seen": 1066401792
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031252364737041237,
+      "loss": 3.3871,
+      "theoretical_loss": 3.6267288165435922,
+      "tokens_seen": 1067450368
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.48607712984085083,
+      "objective/train/docs_used": 607761,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5710361003875732,
+      "objective/train/original_loss": 3.5710363388061523,
+      "objective/train/theoretical_loss": 3.6264777122394327,
+      "objective/train/tokens_used": 1088696800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2421998828649521,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498387813568115,
+      "objective/train/weighted_lm_loss": 3.748819589614868,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9520419836044312,
+      "theoretical_loss": 3.6264777122394327,
+      "tokens_seen": 1068236800
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031233446840711317,
+      "loss": 3.4255,
+      "theoretical_loss": 3.626394063382541,
+      "tokens_seen": 1068498944
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031214528944381386,
+      "loss": 3.3785,
+      "theoretical_loss": 3.62605973045226,
+      "tokens_seen": 1069547520
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003119561104805146,
+      "loss": 3.3981,
+      "theoretical_loss": 3.6257258168139987,
+      "tokens_seen": 1070596096
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.483851820230484,
+      "objective/train/docs_used": 609849,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.248103618621826,
+      "objective/train/original_loss": 3.248103618621826,
+      "objective/train/theoretical_loss": 3.6254339855953184,
+      "objective/train/tokens_used": 1091973600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24208344519138336,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496156215667725,
+      "objective/train/weighted_lm_loss": 3.4082441329956055,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9513829350471497,
+      "theoretical_loss": 3.6254339855953184,
+      "tokens_seen": 1071513600
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003117669315172153,
+      "loss": 3.3544,
+      "theoretical_loss": 3.625392321532021,
+      "tokens_seen": 1071644672
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000311577752553916,
+      "loss": 3.375,
+      "theoretical_loss": 3.6250592436735904,
+      "tokens_seen": 1072693248
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031138857359061674,
+      "loss": 3.3512,
+      "theoretical_loss": 3.624726582308961,
+      "tokens_seen": 1073741824
+    },
+    {
+      "epoch": 0.38,
+      "objective/train/advantage_avg": 0.4885290265083313,
+      "objective/train/docs_used": 611858,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.38407826423645,
+      "objective/train/original_loss": 3.384077548980713,
+      "objective/train/theoretical_loss": 3.624394336511362,
+      "objective/train/tokens_used": 1095250400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24165187776088715,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500812530517578,
+      "objective/train/weighted_lm_loss": 3.5534675121307373,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9516956806182861,
+      "theoretical_loss": 3.624394336511362,
+      "tokens_seen": 1074790400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00031119939462731744,
+      "loss": 3.3759,
+      "theoretical_loss": 3.624394336511362,
+      "tokens_seen": 1074790400
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003110102156640182,
+      "loss": 3.3077,
+      "theoretical_loss": 3.6240625053569873,
+      "tokens_seen": 1075838976
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0003108210367007189,
+      "loss": 3.3128,
+      "theoretical_loss": 3.6237310879249813,
+      "tokens_seen": 1076887552
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00031063185773741957,
+      "loss": 3.3346,
+      "theoretical_loss": 3.6234000832974282,
+      "tokens_seen": 1077936128
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.4757619798183441,
+      "objective/train/docs_used": 613931,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.840676784515381,
+      "objective/train/original_loss": 2.84067702293396,
+      "objective/train/theoretical_loss": 3.6233587366986946,
+      "objective/train/tokens_used": 1098527200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23324042558670044,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487614870071411,
+      "objective/train/weighted_lm_loss": 2.9804329872131348,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9518725275993347,
+      "theoretical_loss": 3.6233587366986946,
+      "tokens_seen": 1078067200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003104426787741203,
+      "loss": 3.2935,
+      "theoretical_loss": 3.623069490559339,
+      "tokens_seen": 1078984704
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.000310253499810821,
+      "loss": 3.3639,
+      "theoretical_loss": 3.6227393087986393,
+      "tokens_seen": 1080033280
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00031006432084752176,
+      "loss": 3.3186,
+      "theoretical_loss": 3.622409537106158,
+      "tokens_seen": 1081081856
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.4866965413093567,
+      "objective/train/docs_used": 615851,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2716050148010254,
+      "objective/train/original_loss": 3.2716054916381836,
+      "objective/train/theoretical_loss": 3.622327158149928,
+      "objective/train/tokens_used": 1101804000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24117985367774963,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498956441879272,
+      "objective/train/weighted_lm_loss": 3.434610605239868,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951644778251648,
+      "theoretical_loss": 3.622327158149928,
+      "tokens_seen": 1081344000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003098751418842225,
+      "loss": 3.3499,
+      "theoretical_loss": 3.622080174575613,
+      "tokens_seen": 1082130432
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003096859629209232,
+      "loss": 3.3303,
+      "theoretical_loss": 3.6217512203036026,
+      "tokens_seen": 1083179008
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030949678395762395,
+      "loss": 3.4256,
+      "theoretical_loss": 3.621422673389592,
+      "tokens_seen": 1084227584
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.48583704233169556,
+      "objective/train/docs_used": 617294,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.147465705871582,
+      "objective/train/original_loss": 3.147465705871582,
+      "objective/train/theoretical_loss": 3.621299573135513,
+      "objective/train/tokens_used": 1105080800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2386694699525833,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497969388961792,
+      "objective/train/weighted_lm_loss": 3.3032023906707764,
+      "objective/train/weights_max": 1.051215410232544,
+      "objective/train/weights_min": 0.9727230668067932,
+      "theoretical_loss": 3.621299573135513,
+      "tokens_seen": 1084620800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030930760499432464,
+      "loss": 3.3714,
+      "theoretical_loss": 3.6210945329358992,
+      "tokens_seen": 1085276160
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030911842603102534,
+      "loss": 3.3833,
+      "theoretical_loss": 3.6207667980476868,
+      "tokens_seen": 1086324736
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003089292470677261,
+      "loss": 3.3904,
+      "theoretical_loss": 3.620439467832949,
+      "tokens_seen": 1087373312
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.4890348017215729,
+      "objective/train/docs_used": 619111,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1311914920806885,
+      "objective/train/original_loss": 3.1311917304992676,
+      "objective/train/theoretical_loss": 3.620275954200152,
+      "objective/train/tokens_used": 1108357600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24180911481380463,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501326322555542,
+      "objective/train/weighted_lm_loss": 3.2881572246551514,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.955804169178009,
+      "theoretical_loss": 3.620275954200152,
+      "tokens_seen": 1087897600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003087400681044268,
+      "loss": 3.4003,
+      "theoretical_loss": 3.6201125414024986,
+      "tokens_seen": 1088421888
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003085508891411275,
+      "loss": 3.3861,
+      "theoretical_loss": 3.619786017869957,
+      "tokens_seen": 1089470464
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003083617101778282,
+      "loss": 3.3314,
+      "theoretical_loss": 3.619459896351742,
+      "tokens_seen": 1090519040
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.4774239659309387,
+      "objective/train/docs_used": 620966,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1619443893432617,
+      "objective/train/original_loss": 3.16194486618042,
+      "objective/train/theoretical_loss": 3.6192562741592726,
+      "objective/train/tokens_used": 1111634400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23663067817687988,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489450693130493,
+      "objective/train/weighted_lm_loss": 3.3209400177001953,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9530478715896606,
+      "theoretical_loss": 3.6192562741592726,
+      "tokens_seen": 1091174400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003081725312145289,
+      "loss": 3.3275,
+      "theoretical_loss": 3.6191341759670568,
+      "tokens_seen": 1091567616
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030798335225122966,
+      "loss": 3.4539,
+      "theoretical_loss": 3.618808855837877,
+      "tokens_seen": 1092616192
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003077941732879304,
+      "loss": 3.303,
+      "theoretical_loss": 3.6184839350889417,
+      "tokens_seen": 1093664768
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.48794177174568176,
+      "objective/train/docs_used": 623021,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.890498399734497,
+      "objective/train/original_loss": 2.890498399734497,
+      "objective/train/theoretical_loss": 3.6182405060955523,
+      "objective/train/tokens_used": 1114911200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.239480122923851,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500115156173706,
+      "objective/train/weighted_lm_loss": 3.0350229740142822,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9790964126586914,
+      "theoretical_loss": 3.6182405060955523,
+      "tokens_seen": 1094451200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003076049943246311,
+      "loss": 3.3359,
+      "theoretical_loss": 3.6181594128477395,
+      "tokens_seen": 1094713344
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030741581536133185,
+      "loss": 3.3334,
+      "theoretical_loss": 3.6178352882444997,
+      "tokens_seen": 1095761920
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030722663639803254,
+      "loss": 3.3046,
+      "theoretical_loss": 3.6175115604121793,
+      "tokens_seen": 1096810496
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.4875214993953705,
+      "objective/train/docs_used": 624881,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3388214111328125,
+      "objective/train/original_loss": 3.3388214111328125,
+      "objective/train/theoretical_loss": 3.617228623355502,
+      "objective/train/tokens_used": 1118188000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24309813976287842,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04998779296875,
+      "objective/train/weighted_lm_loss": 3.505209445953369,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9611717462539673,
+      "theoretical_loss": 3.617228623355502,
+      "tokens_seen": 1097728000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003070374574347333,
+      "loss": 3.3572,
+      "theoretical_loss": 3.6171882284864525,
+      "tokens_seen": 1097859072
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.000306848278471434,
+      "loss": 3.32,
+      "theoretical_loss": 3.6168652916056994,
+      "tokens_seen": 1098907648
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003066590995081347,
+      "loss": 3.3374,
+      "theoretical_loss": 3.6165427489109963,
+      "tokens_seen": 1099956224
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.49022623896598816,
+      "objective/train/docs_used": 626669,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2733004093170166,
+      "objective/train/original_loss": 3.2733001708984375,
+      "objective/train/theoretical_loss": 3.616220599546101,
+      "objective/train/tokens_used": 1121464800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2436634600162506,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502612590789795,
+      "objective/train/weighted_lm_loss": 3.4382221698760986,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9524181485176086,
+      "theoretical_loss": 3.616220599546101,
+      "tokens_seen": 1101004800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003064699205448354,
+      "loss": 3.339,
+      "theoretical_loss": 3.616220599546101,
+      "tokens_seen": 1101004800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0003062807415815361,
+      "loss": 3.2574,
+      "theoretical_loss": 3.615898842657448,
+      "tokens_seen": 1102053376
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030609156261823686,
+      "loss": 3.3171,
+      "theoretical_loss": 3.6155774773941305,
+      "tokens_seen": 1103101952
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030590238365493756,
+      "loss": 3.3261,
+      "theoretical_loss": 3.615256502907896,
+      "tokens_seen": 1104150528
+    },
+    {
+      "epoch": 0.39,
+      "objective/train/advantage_avg": 0.48506712913513184,
+      "objective/train/docs_used": 628420,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.485072612762451,
+      "objective/train/original_loss": 3.485072374343872,
+      "objective/train/theoretical_loss": 3.6152164085314853,
+      "objective/train/tokens_used": 1124741600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23975829780101776,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497254133224487,
+      "objective/train/weighted_lm_loss": 3.658010244369507,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9524231553077698,
+      "theoretical_loss": 3.6152164085314853,
+      "tokens_seen": 1104281600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00030571320469163825,
+      "loss": 3.3752,
+      "theoretical_loss": 3.6149359183531296,
+      "tokens_seen": 1105199104
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030552402572833905,
+      "loss": 3.3202,
+      "theoretical_loss": 3.614615722886849,
+      "tokens_seen": 1106247680
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030533484676503975,
+      "loss": 3.3336,
+      "theoretical_loss": 3.614295915668691,
+      "tokens_seen": 1107296256
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.48640114068984985,
+      "objective/train/docs_used": 629445,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4100451469421387,
+      "objective/train/original_loss": 3.4100446701049805,
+      "objective/train/theoretical_loss": 3.6142160244296884,
+      "objective/train/tokens_used": 1128018400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23953872919082642,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498576164245605,
+      "objective/train/weighted_lm_loss": 3.579258441925049,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9583953022956848,
+      "theoretical_loss": 3.6142160244296884,
+      "tokens_seen": 1107558400
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003051456678017405,
+      "loss": 3.3687,
+      "theoretical_loss": 3.613976495860898,
+      "tokens_seen": 1108344832
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003049564888384412,
+      "loss": 3.3225,
+      "theoretical_loss": 3.613657462628315,
+      "tokens_seen": 1109393408
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003047673098751419,
+      "loss": 3.3378,
+      "theoretical_loss": 3.613338815138371,
+      "tokens_seen": 1110441984
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.47437578439712524,
+      "objective/train/docs_used": 631502,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.02118182182312,
+      "objective/train/original_loss": 3.021181583404541,
+      "objective/train/theoretical_loss": 3.6132194216094313,
+      "objective/train/tokens_used": 1131295200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23702089488506317,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486419200897217,
+      "objective/train/weighted_lm_loss": 3.1670000553131104,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9514435529708862,
+      "theoretical_loss": 3.6132194216094313,
+      "tokens_seen": 1110835200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030457813091184263,
+      "loss": 3.2814,
+      "theoretical_loss": 3.613020552561074,
+      "tokens_seen": 1111490560
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003043889519485433,
+      "loss": 3.3688,
+      "theoretical_loss": 3.6127026740689967,
+      "tokens_seen": 1112539136
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.000304199772985244,
+      "loss": 3.316,
+      "theoretical_loss": 3.612385178837271,
+      "tokens_seen": 1113587712
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.4620572030544281,
+      "objective/train/docs_used": 633386,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.020350694656372,
+      "objective/train/original_loss": 3.020350933074951,
+      "objective/train/theoretical_loss": 3.6122265746869653,
+      "objective/train/tokens_used": 1134572000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24398073554039001,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474449396133423,
+      "objective/train/weighted_lm_loss": 3.1671273708343506,
+      "objective/train/weights_max": 1.0512152910232544,
+      "objective/train/weights_min": 0.9529370665550232,
+      "theoretical_loss": 3.6122265746869653,
+      "tokens_seen": 1114112000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030401059402194476,
+      "loss": 3.3191,
+      "theoretical_loss": 3.6120680660435736,
+      "tokens_seen": 1114636288
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030382141505864546,
+      "loss": 3.381,
+      "theoretical_loss": 3.6117513348681163,
+      "tokens_seen": 1115684864
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003036322360953462,
+      "loss": 3.3724,
+      "theoretical_loss": 3.611434984493637,
+      "tokens_seen": 1116733440
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.4832095205783844,
+      "objective/train/docs_used": 634684,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4889237880706787,
+      "objective/train/original_loss": 3.488924026489258,
+      "objective/train/theoretical_loss": 3.6112374585229583,
+      "objective/train/tokens_used": 1137848800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24187950789928436,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495502948760986,
+      "objective/train/weighted_lm_loss": 3.661220073699951,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9514582753181458,
+      "theoretical_loss": 3.6112374585229583,
+      "tokens_seen": 1117388800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003034430571320469,
+      "loss": 3.3915,
+      "theoretical_loss": 3.6111190141053893,
+      "tokens_seen": 1117782016
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030325387816874765,
+      "loss": 3.4511,
+      "theoretical_loss": 3.6108034228911334,
+      "tokens_seen": 1118830592
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003030646992054484,
+      "loss": 3.3911,
+      "theoretical_loss": 3.6104882100411215,
+      "tokens_seen": 1119879168
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.48330286145210266,
+      "objective/train/docs_used": 636549,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.597794771194458,
+      "objective/train/original_loss": 3.597794532775879,
+      "objective/train/theoretical_loss": 3.6102520482194387,
+      "objective/train/tokens_used": 1141125600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23953989148139954,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495479106903076,
+      "objective/train/weighted_lm_loss": 3.7755210399627686,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9581436514854431,
+      "theoretical_loss": 3.6102520482194387,
+      "tokens_seen": 1120665600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003028755202421491,
+      "loss": 3.468,
+      "theoretical_loss": 3.6101733747480957,
+      "tokens_seen": 1120927744
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030268634127884983,
+      "loss": 3.3887,
+      "theoretical_loss": 3.609858916207269,
+      "tokens_seen": 1121976320
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030249716231555053,
+      "loss": 3.3466,
+      "theoretical_loss": 3.609544833616324,
+      "tokens_seen": 1123024896
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.4877423942089081,
+      "objective/train/docs_used": 638453,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0719454288482666,
+      "objective/train/original_loss": 3.0719454288482666,
+      "objective/train/theoretical_loss": 3.6092703191167743,
+      "objective/train/tokens_used": 1144402400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24203670024871826,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500047206878662,
+      "objective/train/weighted_lm_loss": 3.2259280681610107,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9517780542373657,
+      "theoretical_loss": 3.6092703191167743,
+      "tokens_seen": 1123942400
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003023079833522512,
+      "loss": 3.4285,
+      "theoretical_loss": 3.6092311261753958,
+      "tokens_seen": 1124073472
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030211880438895197,
+      "loss": 3.3911,
+      "theoretical_loss": 3.608917793087066,
+      "tokens_seen": 1125122048
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030192962542565266,
+      "loss": 3.3768,
+      "theoretical_loss": 3.608604833556355,
+      "tokens_seen": 1126170624
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.4918157458305359,
+      "objective/train/docs_used": 640230,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3360931873321533,
+      "objective/train/original_loss": 3.3360931873321533,
+      "objective/train/theoretical_loss": 3.6082922467907066,
+      "objective/train/tokens_used": 1147679200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24366138875484467,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504201650619507,
+      "objective/train/weighted_lm_loss": 3.5035665035247803,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9529560208320618,
+      "theoretical_loss": 3.6082922467907066,
+      "tokens_seen": 1127219200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030174044646235336,
+      "loss": 3.4143,
+      "theoretical_loss": 3.6082922467907066,
+      "tokens_seen": 1127219200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003015512674990541,
+      "loss": 3.3773,
+      "theoretical_loss": 3.6079800319999817,
+      "tokens_seen": 1128267776
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003013620885357548,
+      "loss": 3.3424,
+      "theoretical_loss": 3.60766818839645,
+      "tokens_seen": 1129316352
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030117290957245554,
+      "loss": 3.3289,
+      "theoretical_loss": 3.6073567151947774,
+      "tokens_seen": 1130364928
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.49019014835357666,
+      "objective/train/docs_used": 641368,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1225857734680176,
+      "objective/train/original_loss": 3.1225852966308594,
+      "objective/train/theoretical_loss": 3.6073178070494287,
+      "objective/train/tokens_used": 1150956000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24214524030685425,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502499341964722,
+      "objective/train/weighted_lm_loss": 3.279658079147339,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9604944586753845,
+      "theoretical_loss": 3.6073178070494287,
+      "tokens_seen": 1130496000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0003009837306091563,
+      "loss": 3.3178,
+      "theoretical_loss": 3.607045611612018,
+      "tokens_seen": 1131413504
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.000300794551645857,
+      "loss": 3.3106,
+      "theoretical_loss": 3.6067348768676064,
+      "tokens_seen": 1132462080
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00030060537268255773,
+      "loss": 3.2938,
+      "theoretical_loss": 3.606424510183343,
+      "tokens_seen": 1133510656
+    },
+    {
+      "epoch": 0.4,
+      "objective/train/advantage_avg": 0.48765861988067627,
+      "objective/train/docs_used": 643613,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.259086847305298,
+      "objective/train/original_loss": 3.2590866088867188,
+      "objective/train/theoretical_loss": 3.6063469759307054,
+      "objective/train/tokens_used": 1154232800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2418700009584427,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499954223632812,
+      "objective/train/weighted_lm_loss": 3.421250104904175,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.957314133644104,
+      "theoretical_loss": 3.6063469759307054,
+      "tokens_seen": 1133772800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0003004161937192584,
+      "loss": 3.3392,
+      "theoretical_loss": 3.606114510783391,
+      "tokens_seen": 1134559232
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0003002270147559592,
+      "loss": 3.3265,
+      "theoretical_loss": 3.605804877894263,
+      "tokens_seen": 1135607808
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00030003783579265987,
+      "loss": 3.4029,
+      "theoretical_loss": 3.6054956107448124,
+      "tokens_seen": 1136656384
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.48545318841934204,
+      "objective/train/docs_used": 645222,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.836273431777954,
+      "objective/train/original_loss": 2.836273193359375,
+      "objective/train/theoretical_loss": 3.605379729699039,
+      "objective/train/tokens_used": 1157509600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2405441403388977,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049768090248108,
+      "objective/train/weighted_lm_loss": 2.977830648422241,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9613069891929626,
+      "theoretical_loss": 3.605379729699039,
+      "tokens_seen": 1137049600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029984865682936056,
+      "loss": 3.3281,
+      "theoretical_loss": 3.605186708566225,
+      "tokens_seen": 1137704960
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002996594778660613,
+      "loss": 3.33,
+      "theoretical_loss": 3.6048781705920105,
+      "tokens_seen": 1138753536
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.000299470298902762,
+      "loss": 3.3641,
+      "theoretical_loss": 3.6045699960579896,
+      "tokens_seen": 1139802112
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.4913421869277954,
+      "objective/train/docs_used": 646474,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3484857082366943,
+      "objective/train/original_loss": 3.3484854698181152,
+      "objective/train/theoretical_loss": 3.6044160448428775,
+      "objective/train/tokens_used": 1160786400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24510613083839417,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503802299499512,
+      "objective/train/weighted_lm_loss": 3.5174074172973633,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9515740871429443,
+      "theoretical_loss": 3.6044160448428775,
+      "tokens_seen": 1140326400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002992811199394627,
+      "loss": 3.3049,
+      "theoretical_loss": 3.60426218420229,
+      "tokens_seen": 1140850688
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029909194097616344,
+      "loss": 3.3031,
+      "theoretical_loss": 3.603954734265334,
+      "tokens_seen": 1141899264
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029890276201286414,
+      "loss": 3.3502,
+      "theoretical_loss": 3.60364764548983,
+      "tokens_seen": 1142947840
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.48611900210380554,
+      "objective/train/docs_used": 648095,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.445695638656616,
+      "objective/train/original_loss": 3.445695400238037,
+      "objective/train/theoretical_loss": 3.603455898071866,
+      "objective/train/tokens_used": 1164063200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2388918399810791,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498261451721191,
+      "objective/train/weighted_lm_loss": 3.6170575618743896,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9571871757507324,
+      "theoretical_loss": 3.603455898071866,
+      "tokens_seen": 1143603200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029871358304956494,
+      "loss": 3.3775,
+      "theoretical_loss": 3.6033409171207644,
+      "tokens_seen": 1143996416
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029852440408626563,
+      "loss": 3.2954,
+      "theoretical_loss": 3.6030345484053923,
+      "tokens_seen": 1145044992
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002983352251229663,
+      "loss": 3.3485,
+      "theoretical_loss": 3.602728538593227,
+      "tokens_seen": 1146093568
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.47712090611457825,
+      "objective/train/docs_used": 649861,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.083465576171875,
+      "objective/train/original_loss": 3.083465337753296,
+      "objective/train/theoretical_loss": 3.6024992663141386,
+      "objective/train/tokens_used": 1167340000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2367585003376007,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489155054092407,
+      "objective/train/weighted_lm_loss": 3.231121301651001,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9521268010139465,
+      "theoretical_loss": 3.6024992663141386,
+      "tokens_seen": 1146880000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002981460461596671,
+      "loss": 3.2815,
+      "theoretical_loss": 3.6024228869360346,
+      "tokens_seen": 1147142144
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029795686719636777,
+      "loss": 3.3857,
+      "theoretical_loss": 3.602117592687822,
+      "tokens_seen": 1148190720
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002977676882330685,
+      "loss": 3.3291,
+      "theoretical_loss": 3.6018126551048306,
+      "tokens_seen": 1149239296
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.4793562889099121,
+      "objective/train/docs_used": 651918,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1603188514709473,
+      "objective/train/original_loss": 3.1603193283081055,
+      "objective/train/theoretical_loss": 3.601546126713652,
+      "objective/train/tokens_used": 1170616800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2417171150445938,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491641759872437,
+      "objective/train/weighted_lm_loss": 3.314483642578125,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.952265739440918,
+      "theoretical_loss": 3.601546126713652,
+      "tokens_seen": 1150156800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002975785092697692,
+      "loss": 3.3884,
+      "theoretical_loss": 3.6015080734455243,
+      "tokens_seen": 1150287872
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002973893303064699,
+      "loss": 3.4104,
+      "theoretical_loss": 3.601203846970585,
+      "tokens_seen": 1151336448
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029720015134317065,
+      "loss": 3.3489,
+      "theoretical_loss": 3.6008999749429007,
+      "tokens_seen": 1152385024
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.48654869198799133,
+      "objective/train/docs_used": 653958,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.908597946166992,
+      "objective/train/original_loss": 2.908597469329834,
+      "objective/train/theoretical_loss": 3.6005964566275575,
+      "objective/train/tokens_used": 1173893600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24034003913402557,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498765707015991,
+      "objective/train/weighted_lm_loss": 3.0537478923797607,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9514062404632568,
+      "theoretical_loss": 3.6005964566275575,
+      "tokens_seen": 1153433600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029701097237987134,
+      "loss": 3.3159,
+      "theoretical_loss": 3.6005964566275575,
+      "tokens_seen": 1153433600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029682179341657204,
+      "loss": 3.3387,
+      "theoretical_loss": 3.600293291291833,
+      "tokens_seen": 1154482176
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002966326144532728,
+      "loss": 3.3589,
+      "theoretical_loss": 3.5999904782051866,
+      "tokens_seen": 1155530752
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029644343548997353,
+      "loss": 3.4099,
+      "theoretical_loss": 3.5996880166392486,
+      "tokens_seen": 1156579328
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.4857807159423828,
+      "objective/train/docs_used": 655833,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2272090911865234,
+      "objective/train/original_loss": 3.2272090911865234,
+      "objective/train/theoretical_loss": 3.5996502336236142,
+      "objective/train/tokens_used": 1177170400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24008683860301971,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497984886169434,
+      "objective/train/weighted_lm_loss": 3.3878610134124756,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9605950117111206,
+      "theoretical_loss": 3.5996502336236142,
+      "tokens_seen": 1156710400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002962542565266743,
+      "loss": 3.3243,
+      "theoretical_loss": 3.599385905867816,
+      "tokens_seen": 1157627904
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029606507756337497,
+      "loss": 3.2962,
+      "theoretical_loss": 3.5990841451668416,
+      "tokens_seen": 1158676480
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00029587589860007567,
+      "loss": 3.3185,
+      "theoretical_loss": 3.598782733814426,
+      "tokens_seen": 1159725056
+    },
+    {
+      "epoch": 0.41,
+      "objective/train/advantage_avg": 0.4894789755344391,
+      "objective/train/docs_used": 657914,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.035065174102783,
+      "objective/train/original_loss": 3.035065174102783,
+      "objective/train/theoretical_loss": 3.5987074354776407,
+      "objective/train/tokens_used": 1180447200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24258311092853546,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501810312271118,
+      "objective/train/weighted_lm_loss": 3.187278985977173,
+      "objective/train/weights_max": 1.0512194633483887,
+      "objective/train/weights_min": 0.9514700770378113,
+      "theoretical_loss": 3.5987074354776407,
+      "tokens_seen": 1159987200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002956867196367764,
+      "loss": 3.2898,
+      "theoretical_loss": 3.598481671090809,
+      "tokens_seen": 1160773632
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002954975406734771,
+      "loss": 3.2237,
+      "theoretical_loss": 3.5981809562783633,
+      "tokens_seen": 1161822208
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029530836171017785,
+      "loss": 3.2926,
+      "theoretical_loss": 3.5978805886615834,
+      "tokens_seen": 1162870784
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.4899119734764099,
+      "objective/train/docs_used": 659757,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9733612537384033,
+      "objective/train/original_loss": 2.9733614921569824,
+      "objective/train/theoretical_loss": 3.597768040171002,
+      "objective/train/tokens_used": 1183724000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24554485082626343,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502394437789917,
+      "objective/train/weighted_lm_loss": 3.123426914215088,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9529068470001221,
+      "theoretical_loss": 3.597768040171002,
+      "tokens_seen": 1163264000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029511918274687855,
+      "loss": 3.2544,
+      "theoretical_loss": 3.5975805675270784,
+      "tokens_seen": 1163919360
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029493000378357924,
+      "loss": 3.3266,
+      "theoretical_loss": 3.5972808921635666,
+      "tokens_seen": 1164967936
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029474082482028,
+      "loss": 3.3658,
+      "theoretical_loss": 3.5969815618618615,
+      "tokens_seen": 1166016512
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.4765141010284424,
+      "objective/train/docs_used": 661442,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5711071491241455,
+      "objective/train/original_loss": 3.571107864379883,
+      "objective/train/theoretical_loss": 3.5968320258881388,
+      "objective/train/tokens_used": 1187000800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2353520691394806,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488474369049072,
+      "objective/train/weighted_lm_loss": 3.7464940547943115,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9515637755393982,
+      "theoretical_loss": 3.5968320258881388,
+      "tokens_seen": 1166540800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002945516458569807,
+      "loss": 3.3019,
+      "theoretical_loss": 3.5966825759148704,
+      "tokens_seen": 1167065088
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002943624668936814,
+      "loss": 3.3644,
+      "theoretical_loss": 3.5963839336175814,
+      "tokens_seen": 1168113664
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002941732879303822,
+      "loss": 3.3195,
+      "theoretical_loss": 3.596085634267058,
+      "tokens_seen": 1169162240
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.48476114869117737,
+      "objective/train/docs_used": 663194,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.447826385498047,
+      "objective/train/original_loss": 3.447826862335205,
+      "objective/train/theoretical_loss": 3.595899371014127,
+      "objective/train/tokens_used": 1190277600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23816771805286407,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496866703033447,
+      "objective/train/weighted_lm_loss": 3.619957208633423,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9524836540222168,
+      "theoretical_loss": 3.595899371014127,
+      "tokens_seen": 1169817600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029398410896708287,
+      "loss": 3.4283,
+      "theoretical_loss": 3.5957876771624298,
+      "tokens_seen": 1170210816
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002937949300037836,
+      "loss": 3.3523,
+      "theoretical_loss": 3.5954900616048855,
+      "tokens_seen": 1171259392
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002936057510404843,
+      "loss": 3.3727,
+      "theoretical_loss": 3.5951927868976643,
+      "tokens_seen": 1172307968
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.4848986566066742,
+      "objective/train/docs_used": 665258,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.420736312866211,
+      "objective/train/original_loss": 3.4207358360290527,
+      "objective/train/theoretical_loss": 3.594970054132281,
+      "objective/train/tokens_used": 1193554400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23861315846443176,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049702763557434,
+      "objective/train/weighted_lm_loss": 3.590325355529785,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9676954746246338,
+      "theoretical_loss": 3.594970054132281,
+      "tokens_seen": 1173094400
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000293416572077185,
+      "loss": 3.3649,
+      "theoretical_loss": 3.5948958523460495,
+      "tokens_seen": 1173356544
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029322739311388575,
+      "loss": 3.281,
+      "theoretical_loss": 3.5945992572573577,
+      "tokens_seen": 1174405120
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029303821415058645,
+      "loss": 3.3138,
+      "theoretical_loss": 3.5943030009409345,
+      "tokens_seen": 1175453696
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.47306984663009644,
+      "objective/train/docs_used": 667248,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9362661838531494,
+      "objective/train/original_loss": 2.936265707015991,
+      "objective/train/theoretical_loss": 3.594044054021782,
+      "objective/train/tokens_used": 1196831200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23313362896442413,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484918355941772,
+      "objective/train/weighted_lm_loss": 3.077251434326172,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9524040818214417,
+      "theoretical_loss": 3.594044054021782,
+      "tokens_seen": 1176371200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002928490351872872,
+      "loss": 3.3222,
+      "theoretical_loss": 3.5940070827081443,
+      "tokens_seen": 1176502272
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002926598562239879,
+      "loss": 3.3223,
+      "theoretical_loss": 3.593711501872364,
+      "tokens_seen": 1177550848
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002924706772606886,
+      "loss": 3.3199,
+      "theoretical_loss": 3.5934162577489746,
+      "tokens_seen": 1178599424
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.48706483840942383,
+      "objective/train/docs_used": 669029,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9470417499542236,
+      "objective/train/original_loss": 2.9470419883728027,
+      "objective/train/theoretical_loss": 3.5931213496553536,
+      "objective/train/tokens_used": 1200108000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2409461885690689,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499311685562134,
+      "objective/train/weighted_lm_loss": 3.094271421432495,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9517722725868225,
+      "theoretical_loss": 3.5931213496553536,
+      "tokens_seen": 1179648000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029228149829738933,
+      "loss": 3.3198,
+      "theoretical_loss": 3.5931213496553536,
+      "tokens_seen": 1179648000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029209231933409,
+      "loss": 3.397,
+      "theoretical_loss": 3.5928267769108677,
+      "tokens_seen": 1180696576
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002919031403707908,
+      "loss": 3.2854,
+      "theoretical_loss": 3.5925325388368656,
+      "tokens_seen": 1181745152
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002917139614074915,
+      "loss": 3.2747,
+      "theoretical_loss": 3.5922386347566695,
+      "tokens_seen": 1182793728
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.4930936098098755,
+      "objective/train/docs_used": 670515,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0000312328338623,
+      "objective/train/original_loss": 3.000030994415283,
+      "objective/train/theoretical_loss": 3.592201920196959,
+      "objective/train/tokens_used": 1203384800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24434438347816467,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050551414489746,
+      "objective/train/weighted_lm_loss": 3.1516330242156982,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9934404492378235,
+      "theoretical_loss": 3.592201920196959,
+      "tokens_seen": 1182924800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002915247824441922,
+      "loss": 3.2816,
+      "theoretical_loss": 3.591945063995568,
+      "tokens_seen": 1183842304
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029133560348089296,
+      "loss": 3.2813,
+      "theoretical_loss": 3.591651825880809,
+      "tokens_seen": 1184890880
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029114642451759365,
+      "loss": 3.2885,
+      "theoretical_loss": 3.591358919741592,
+      "tokens_seen": 1185939456
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.4882916212081909,
+      "objective/train/docs_used": 672504,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.118218421936035,
+      "objective/train/original_loss": 3.118218421936035,
+      "objective/train/theoretical_loss": 3.591285744999542,
+      "objective/train/tokens_used": 1206661600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.242011159658432,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500593185424805,
+      "objective/train/weighted_lm_loss": 3.27449107170105,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9519306421279907,
+      "theoretical_loss": 3.591285744999542,
+      "tokens_seen": 1186201600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00029095724555429435,
+      "loss": 3.3389,
+      "theoretical_loss": 3.591066344909062,
+      "tokens_seen": 1186988032
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002907680665909951,
+      "loss": 3.4149,
+      "theoretical_loss": 3.590774100716298,
+      "tokens_seen": 1188036608
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002905788876276958,
+      "loss": 3.3775,
+      "theoretical_loss": 3.5904821864983116,
+      "tokens_seen": 1189085184
+    },
+    {
+      "epoch": 0.42,
+      "objective/train/advantage_avg": 0.49263498187065125,
+      "objective/train/docs_used": 674473,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1062722206115723,
+      "objective/train/original_loss": 3.1062724590301514,
+      "objective/train/theoretical_loss": 3.590372803602795,
+      "objective/train/tokens_used": 1209938400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24459204077720642,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050506830215454,
+      "objective/train/weighted_lm_loss": 3.2633543014526367,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.9603816866874695,
+      "theoretical_loss": 3.590372803602795,
+      "tokens_seen": 1189478400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00029038970866439653,
+      "loss": 3.3122,
+      "theoretical_loss": 3.5901906015920355,
+      "tokens_seen": 1190133760
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00029020052970109723,
+      "loss": 3.3855,
+      "theoretical_loss": 3.5898993453363173,
+      "tokens_seen": 1191182336
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002900113507377979,
+      "loss": 3.3267,
+      "theoretical_loss": 3.5896084170719127,
+      "tokens_seen": 1192230912
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.4631289541721344,
+      "objective/train/docs_used": 676257,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0787904262542725,
+      "objective/train/original_loss": 3.0787906646728516,
+      "objective/train/theoretical_loss": 3.589463075730959,
+      "objective/train/tokens_used": 1213215200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23281329870224,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0474958419799805,
+      "objective/train/weighted_lm_loss": 3.2263834476470947,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9525740742683411,
+      "theoretical_loss": 3.589463075730959,
+      "tokens_seen": 1192755200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028982217177449867,
+      "loss": 3.3403,
+      "theoretical_loss": 3.5893178161414783,
+      "tokens_seen": 1193279488
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002896329928111994,
+      "loss": 3.3054,
+      "theoretical_loss": 3.589027541889564,
+      "tokens_seen": 1194328064
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028944381384790016,
+      "loss": 3.3027,
+      "theoretical_loss": 3.5887375936626067,
+      "tokens_seen": 1195376640
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.47915610671043396,
+      "objective/train/docs_used": 678049,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.249417304992676,
+      "objective/train/original_loss": 3.249417304992676,
+      "objective/train/theoretical_loss": 3.5885565412906617,
+      "objective/train/tokens_used": 1216492000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2335328310728073,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049102544784546,
+      "objective/train/weighted_lm_loss": 3.4090421199798584,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9726335406303406,
+      "theoretical_loss": 3.5885565412906617,
+      "tokens_seen": 1196032000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028925463488460086,
+      "loss": 3.3897,
+      "theoretical_loss": 3.5884479708089216,
+      "tokens_seen": 1196425216
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028906545592130155,
+      "loss": 3.2624,
+      "theoretical_loss": 3.5881586726786976,
+      "tokens_seen": 1197473792
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002888762769580023,
+      "loss": 3.3199,
+      "theoretical_loss": 3.587869698623987,
+      "tokens_seen": 1198522368
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.48205363750457764,
+      "objective/train/docs_used": 679914,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.01973557472229,
+      "objective/train/original_loss": 3.019735813140869,
+      "objective/train/theoretical_loss": 3.5876531803687786,
+      "objective/train/tokens_used": 1219768800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2353292852640152,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494015216827393,
+      "objective/train/weighted_lm_loss": 3.1688785552978516,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9905664920806885,
+      "theoretical_loss": 3.5876531803687786,
+      "tokens_seen": 1199308800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000288687097994703,
+      "loss": 3.2923,
+      "theoretical_loss": 3.587581047998703,
+      "tokens_seen": 1199570944
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002884979190314037,
+      "loss": 3.3503,
+      "theoretical_loss": 3.587292720158608,
+      "tokens_seen": 1200619520
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028830874006810443,
+      "loss": 3.3273,
+      "theoretical_loss": 3.58700471446131,
+      "tokens_seen": 1201668096
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.49034416675567627,
+      "objective/train/docs_used": 681814,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.349426031112671,
+      "objective/train/original_loss": 3.3494255542755127,
+      "objective/train/theoretical_loss": 3.5867529732303307,
+      "objective/train/tokens_used": 1223045600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24394987523555756,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502744913101196,
+      "objective/train/weighted_lm_loss": 3.517376184463501,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9536815285682678,
+      "theoretical_loss": 3.5867529732303307,
+      "tokens_seen": 1202585600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002881195611048051,
+      "loss": 3.3424,
+      "theoretical_loss": 3.5867170302662537,
+      "tokens_seen": 1202716672
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002879303821415059,
+      "loss": 3.3676,
+      "theoretical_loss": 3.586429666934716,
+      "tokens_seen": 1203765248
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028774120317820657,
+      "loss": 3.3343,
+      "theoretical_loss": 3.5861426238297964,
+      "tokens_seen": 1204813824
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.4898318946361542,
+      "objective/train/docs_used": 683756,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4327945709228516,
+      "objective/train/original_loss": 3.4327945709228516,
+      "objective/train/theoretical_loss": 3.585855900316411,
+      "objective/train/tokens_used": 1226322400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24356377124786377,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502212047576904,
+      "objective/train/weighted_lm_loss": 3.606135368347168,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9553044438362122,
+      "theoretical_loss": 3.585855900316411,
+      "tokens_seen": 1205862400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028755202421490726,
+      "loss": 3.354,
+      "theoretical_loss": 3.585855900316411,
+      "tokens_seen": 1205862400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028736284525160806,
+      "loss": 3.3778,
+      "theoretical_loss": 3.5855694957612894,
+      "tokens_seen": 1206910976
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028717366628830876,
+      "loss": 3.3674,
+      "theoretical_loss": 3.58528340953296,
+      "tokens_seen": 1207959552
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002869844873250095,
+      "loss": 3.348,
+      "theoretical_loss": 3.5849976410017526,
+      "tokens_seen": 1209008128
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.4933568835258484,
+      "objective/train/docs_used": 685102,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0827248096466064,
+      "objective/train/original_loss": 3.0827245712280273,
+      "objective/train/theoretical_loss": 3.5849619422421393,
+      "objective/train/tokens_used": 1229599200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24562005698680878,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050584316253662,
+      "objective/train/weighted_lm_loss": 3.2384722232818604,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9516139626502991,
+      "theoretical_loss": 3.5849619422421393,
+      "tokens_seen": 1209139200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002867953083617102,
+      "loss": 3.3845,
+      "theoretical_loss": 3.5847121895397844,
+      "tokens_seen": 1210056704
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002866061293984109,
+      "loss": 3.3672,
+      "theoretical_loss": 3.5844270545209582,
+      "tokens_seen": 1211105280
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028641695043511164,
+      "loss": 3.4141,
+      "theoretical_loss": 3.584142235320952,
+      "tokens_seen": 1212153856
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.493893563747406,
+      "objective/train/docs_used": 686738,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.313899517059326,
+      "objective/train/original_loss": 3.313899517059326,
+      "objective/train/theoretical_loss": 3.584071079794647,
+      "objective/train/tokens_used": 1232876000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24534015357494354,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506365299224854,
+      "objective/train/weighted_lm_loss": 3.4817614555358887,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9518520832061768,
+      "theoretical_loss": 3.584071079794647,
+      "tokens_seen": 1212416000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028622777147181233,
+      "loss": 3.381,
+      "theoretical_loss": 3.5838577313172157,
+      "tokens_seen": 1213202432
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000286038592508513,
+      "loss": 3.3996,
+      "theoretical_loss": 3.5835735418889616,
+      "tokens_seen": 1214251008
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002858494135452138,
+      "loss": 3.2881,
+      "theoretical_loss": 3.583289666417161,
+      "tokens_seen": 1215299584
+    },
+    {
+      "epoch": 0.43,
+      "objective/train/advantage_avg": 0.4792419672012329,
+      "objective/train/docs_used": 688520,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3605501651763916,
+      "objective/train/original_loss": 3.3605504035949707,
+      "objective/train/theoretical_loss": 3.583183293931091,
+      "objective/train/tokens_used": 1236152800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.241739884018898,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491528511047363,
+      "objective/train/weighted_lm_loss": 3.524282693862915,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9515173435211182,
+      "theoretical_loss": 3.583183293931091,
+      "tokens_seen": 1215692800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00028566023458191447,
+      "loss": 3.3747,
+      "theoretical_loss": 3.5830061042845363,
+      "tokens_seen": 1216348160
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002854710556186152,
+      "loss": 3.3662,
+      "theoretical_loss": 3.582722854875552,
+      "tokens_seen": 1217396736
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002852818766553159,
+      "loss": 3.381,
+      "theoretical_loss": 3.5824399175764126,
+      "tokens_seen": 1218445312
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.47432267665863037,
+      "objective/train/docs_used": 690313,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.373595714569092,
+      "objective/train/original_loss": 3.373595714569092,
+      "objective/train/theoretical_loss": 3.5822985657766973,
+      "objective/train/tokens_used": 1239429600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23132449388504028,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486078262329102,
+      "objective/train/weighted_lm_loss": 3.5375053882598877,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9576109647750854,
+      "theoretical_loss": 3.5822985657766973,
+      "tokens_seen": 1218969600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028509269769201666,
+      "loss": 3.3976,
+      "theoretical_loss": 3.5821572917750535,
+      "tokens_seen": 1219493888
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002849035187287174,
+      "loss": 3.3473,
+      "theoretical_loss": 3.5818749768611364,
+      "tokens_seen": 1220542464
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002847143397654181,
+      "loss": 3.3782,
+      "theoretical_loss": 3.5815929722260402,
+      "tokens_seen": 1221591040
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.4889954626560211,
+      "objective/train/docs_used": 692066,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.303687572479248,
+      "objective/train/original_loss": 3.303687572479248,
+      "objective/train/theoretical_loss": 3.5814168766228267,
+      "objective/train/tokens_used": 1242706400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24146433174610138,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501270294189453,
+      "objective/train/weighted_lm_loss": 3.468892812728882,
+      "objective/train/weights_max": 1.0512158870697021,
+      "objective/train/weights_min": 0.9796527028083801,
+      "theoretical_loss": 3.5814168766228267,
+      "tokens_seen": 1222246400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028452516080211884,
+      "loss": 3.3363,
+      "theoretical_loss": 3.5813112772628575,
+      "tokens_seen": 1222639616
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028433598183881954,
+      "loss": 3.3338,
+      "theoretical_loss": 3.581029891366387,
+      "tokens_seen": 1223688192
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028414680287552023,
+      "loss": 3.2845,
+      "theoretical_loss": 3.5807488139331274,
+      "tokens_seen": 1224736768
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.4919726550579071,
+      "objective/train/docs_used": 694202,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8666977882385254,
+      "objective/train/original_loss": 2.8666977882385254,
+      "objective/train/theoretical_loss": 3.580538207925077,
+      "objective/train/tokens_used": 1245983200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2440943568944931,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504380464553833,
+      "objective/train/weighted_lm_loss": 3.0116186141967773,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9593926668167114,
+      "theoretical_loss": 3.580538207925077,
+      "tokens_seen": 1225523200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000283957623912221,
+      "loss": 3.365,
+      "theoretical_loss": 3.5804680443612718,
+      "tokens_seen": 1225785344
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028376844494892167,
+      "loss": 3.3101,
+      "theoretical_loss": 3.5801875820506988,
+      "tokens_seen": 1226833920
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028357926598562237,
+      "loss": 3.2876,
+      "theoretical_loss": 3.579907426402972,
+      "tokens_seen": 1227882496
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.47936928272247314,
+      "objective/train/docs_used": 696236,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1124532222747803,
+      "objective/train/original_loss": 3.1124534606933594,
+      "objective/train/theoretical_loss": 3.579662541301401,
+      "objective/train/tokens_used": 1249260000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2382909506559372,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491482019424438,
+      "objective/train/weighted_lm_loss": 3.266861915588379,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9547244310379028,
+      "theoretical_loss": 3.579662541301401,
+      "tokens_seen": 1228800000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002833900870223231,
+      "loss": 3.3348,
+      "theoretical_loss": 3.579627576821328,
+      "tokens_seen": 1228931072
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002832009080590238,
+      "loss": 3.3281,
+      "theoretical_loss": 3.579348032710672,
+      "tokens_seen": 1229979648
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028301172909572455,
+      "loss": 3.349,
+      "theoretical_loss": 3.5790687934775747,
+      "tokens_seen": 1231028224
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.47580137848854065,
+      "objective/train/docs_used": 697487,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3753488063812256,
+      "objective/train/original_loss": 3.3753488063812256,
+      "objective/train/theoretical_loss": 3.5787898585302615,
+      "objective/train/tokens_used": 1252536800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2382103055715561,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487911701202393,
+      "objective/train/weighted_lm_loss": 3.5415258407592773,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9519994854927063,
+      "theoretical_loss": 3.5787898585302615,
+      "tokens_seen": 1232076800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002828225501324253,
+      "loss": 3.2565,
+      "theoretical_loss": 3.5787898585302615,
+      "tokens_seen": 1232076800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000282633371169126,
+      "loss": 3.3331,
+      "theoretical_loss": 3.57851122727861,
+      "tokens_seen": 1233125376
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028244419220582674,
+      "loss": 3.2767,
+      "theoretical_loss": 3.578232899134143,
+      "tokens_seen": 1234173952
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028225501324252744,
+      "loss": 3.286,
+      "theoretical_loss": 3.5779548735100217,
+      "tokens_seen": 1235222528
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.4829152226448059,
+      "objective/train/docs_used": 699233,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.290647506713867,
+      "objective/train/original_loss": 3.2906479835510254,
+      "objective/train/theoretical_loss": 3.577920141548805,
+      "objective/train/tokens_used": 1255813600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24048534035682678,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495140552520752,
+      "objective/train/weighted_lm_loss": 3.452521562576294,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9529663920402527,
+      "theoretical_loss": 3.577920141548805,
+      "tokens_seen": 1235353600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002820658342792282,
+      "loss": 3.2778,
+      "theoretical_loss": 3.5776771498210413,
+      "tokens_seen": 1236271104
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002818766553159289,
+      "loss": 3.252,
+      "theoretical_loss": 3.5773997274836224,
+      "tokens_seen": 1237319680
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028168747635262957,
+      "loss": 3.3259,
+      "theoretical_loss": 3.577122605915809,
+      "tokens_seen": 1238368256
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.479489803314209,
+      "objective/train/docs_used": 700968,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0772054195404053,
+      "objective/train/original_loss": 3.0772056579589844,
+      "objective/train/theoretical_loss": 3.5770533724510627,
+      "objective/train/tokens_used": 1259090400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23797892034053802,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491585731506348,
+      "objective/train/weighted_lm_loss": 3.22639536857605,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9590162038803101,
+      "theoretical_loss": 3.5770533724510627,
+      "tokens_seen": 1238630400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002814982973893303,
+      "loss": 3.2479,
+      "theoretical_loss": 3.5768457845372597,
+      "tokens_seen": 1239416832
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000281309118426031,
+      "loss": 3.2973,
+      "theoretical_loss": 3.576569262769242,
+      "tokens_seen": 1240465408
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028111993946273176,
+      "loss": 3.2963,
+      "theoretical_loss": 3.576293040034628,
+      "tokens_seen": 1241513984
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.48357242345809937,
+      "objective/train/docs_used": 702465,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.286665916442871,
+      "objective/train/original_loss": 3.286665916442871,
+      "objective/train/theoretical_loss": 3.576189533486179,
+      "objective/train/tokens_used": 1262367200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23855482041835785,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049569845199585,
+      "objective/train/weighted_lm_loss": 3.4492075443267822,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9514651298522949,
+      "theoretical_loss": 3.576189533486179,
+      "tokens_seen": 1241907200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028093076049943245,
+      "loss": 3.3817,
+      "theoretical_loss": 3.576017115757886,
+      "tokens_seen": 1242562560
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028074158153613315,
+      "loss": 3.3114,
+      "theoretical_loss": 3.57574148936508,
+      "tokens_seen": 1243611136
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028055240257283395,
+      "loss": 3.319,
+      "theoretical_loss": 3.575466160283857,
+      "tokens_seen": 1244659712
+    },
+    {
+      "epoch": 0.44,
+      "objective/train/advantage_avg": 0.484239399433136,
+      "objective/train/docs_used": 704525,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2964892387390137,
+      "objective/train/original_loss": 3.2964892387390137,
+      "objective/train/theoretical_loss": 3.5753286070566617,
+      "objective/train/tokens_used": 1265644000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24136582016944885,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496509075164795,
+      "objective/train/weighted_lm_loss": 3.460113763809204,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9523569941520691,
+      "theoretical_loss": 3.5753286070566617,
+      "tokens_seen": 1245184000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00028036322360953464,
+      "loss": 3.3019,
+      "theoretical_loss": 3.575191127943446,
+      "tokens_seen": 1245708288
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00028017404464623534,
+      "loss": 3.2625,
+      "theoretical_loss": 3.574916391774651,
+      "tokens_seen": 1246756864
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002799848656829361,
+      "loss": 3.2362,
+      "theoretical_loss": 3.5746419512098457,
+      "tokens_seen": 1247805440
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.4908085763454437,
+      "objective/train/docs_used": 706749,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0369081497192383,
+      "objective/train/original_loss": 3.0369081497192383,
+      "objective/train/theoretical_loss": 3.5744705757166564,
+      "objective/train/tokens_used": 1268920800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24289442598819733,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050315499305725,
+      "objective/train/weighted_lm_loss": 3.190009593963623,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9634060263633728,
+      "theoretical_loss": 3.5744705757166564,
+      "tokens_seen": 1248460800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002797956867196368,
+      "loss": 3.281,
+      "theoretical_loss": 3.574367805682967,
+      "tokens_seen": 1248854016
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002796065077563375,
+      "loss": 3.2693,
+      "theoretical_loss": 3.57409395462951,
+      "tokens_seen": 1249902592
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002794173287930382,
+      "loss": 3.1934,
+      "theoretical_loss": 3.5738203974865224,
+      "tokens_seen": 1250951168
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.4866064190864563,
+      "objective/train/docs_used": 708687,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3080501556396484,
+      "objective/train/original_loss": 3.3080499172210693,
+      "objective/train/theoretical_loss": 3.5736154221702483,
+      "objective/train/tokens_used": 1272197600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23975151777267456,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498794317245483,
+      "objective/train/weighted_lm_loss": 3.472594976425171,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9527500867843628,
+      "theoretical_loss": 3.5736154221702483,
+      "tokens_seen": 1251737600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002792281498297389,
+      "loss": 3.2981,
+      "theoretical_loss": 3.5735471336925984,
+      "tokens_seen": 1251999744
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027903897086643966,
+      "loss": 3.2379,
+      "theoretical_loss": 3.5732741626878743,
+      "tokens_seen": 1253048320
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027884979190314035,
+      "loss": 3.2213,
+      "theoretical_loss": 3.5730014839140223,
+      "tokens_seen": 1254096896
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.460138201713562,
+      "objective/train/docs_used": 710568,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8919012546539307,
+      "objective/train/original_loss": 2.8919010162353516,
+      "objective/train/theoretical_loss": 3.5727631292697843,
+      "objective/train/tokens_used": 1275474400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2265445441007614,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047165036201477,
+      "objective/train/weighted_lm_loss": 3.0274980068206787,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9611805081367493,
+      "theoretical_loss": 3.5727631292697843,
+      "tokens_seen": 1255014400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002786606129398411,
+      "loss": 3.1932,
+      "theoretical_loss": 3.5727290968142444,
+      "tokens_seen": 1255145472
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002784714339765418,
+      "loss": 3.2294,
+      "theoretical_loss": 3.572457000833267,
+      "tokens_seen": 1256194048
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027828225501324254,
+      "loss": 3.2202,
+      "theoretical_loss": 3.5721851954173376,
+      "tokens_seen": 1257242624
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.4938296675682068,
+      "objective/train/docs_used": 712328,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2921712398529053,
+      "objective/train/original_loss": 3.292171001434326,
+      "objective/train/theoretical_loss": 3.571913680014217,
+      "objective/train/tokens_used": 1278751200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2448359876871109,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050627589225769,
+      "objective/train/weighted_lm_loss": 3.4590396881103516,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9618917107582092,
+      "theoretical_loss": 3.571913680014217,
+      "tokens_seen": 1258291200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002780930760499433,
+      "loss": 3.2465,
+      "theoretical_loss": 3.571913680014217,
+      "tokens_seen": 1258291200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000277903897086644,
+      "loss": 3.216,
+      "theoretical_loss": 3.5716424540731735,
+      "tokens_seen": 1259339776
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002777147181233447,
+      "loss": 3.2931,
+      "theoretical_loss": 3.571371517044981,
+      "tokens_seen": 1260388352
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002775255391600454,
+      "loss": 3.2458,
+      "theoretical_loss": 3.571100868381909,
+      "tokens_seen": 1261436928
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.4796658754348755,
+      "objective/train/docs_used": 713944,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1429102420806885,
+      "objective/train/original_loss": 3.1429104804992676,
+      "objective/train/theoretical_loss": 3.5710670575474763,
+      "objective/train/tokens_used": 1282028000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23792652785778046,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491758584976196,
+      "objective/train/weighted_lm_loss": 3.297544240951538,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9516644477844238,
+      "theoretical_loss": 3.5710670575474763,
+      "tokens_seen": 1261568000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002773363601967461,
+      "loss": 3.2961,
+      "theoretical_loss": 3.5708305075377207,
+      "tokens_seen": 1262485504
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027714718123344686,
+      "loss": 3.3117,
+      "theoretical_loss": 3.5705604339676666,
+      "tokens_seen": 1263534080
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027695800227014756,
+      "loss": 3.2667,
+      "theoretical_loss": 3.57029064712848,
+      "tokens_seen": 1264582656
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.49083083868026733,
+      "objective/train/docs_used": 715923,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.367497444152832,
+      "objective/train/original_loss": 3.367497444152832,
+      "objective/train/theoretical_loss": 3.570223245156858,
+      "objective/train/tokens_used": 1285304800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2441437840461731,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503242015838623,
+      "objective/train/weighted_lm_loss": 3.536487102508545,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9521356821060181,
+      "theoretical_loss": 3.570223245156858,
+      "tokens_seen": 1264844800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027676882330684825,
+      "loss": 3.3079,
+      "theoretical_loss": 3.5700211464783687,
+      "tokens_seen": 1265631232
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000276579644343549,
+      "loss": 3.2347,
+      "theoretical_loss": 3.5697519314770148,
+      "tokens_seen": 1266679808
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002763904653802497,
+      "loss": 3.3075,
+      "theoretical_loss": 3.5694830015855636,
+      "tokens_seen": 1267728384
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.4871194660663605,
+      "objective/train/docs_used": 717630,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2038087844848633,
+      "objective/train/original_loss": 3.2038087844848633,
+      "objective/train/theoretical_loss": 3.569382226271438,
+      "objective/train/tokens_used": 1288581600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24120700359344482,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499380826950073,
+      "objective/train/weighted_lm_loss": 3.3642735481262207,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9537880420684814,
+      "theoretical_loss": 3.569382226271438,
+      "tokens_seen": 1268121600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027620128641695044,
+      "loss": 3.2755,
+      "theoretical_loss": 3.569214356266625,
+      "tokens_seen": 1268776960
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002760121074536512,
+      "loss": 3.2224,
+      "theoretical_loss": 3.5689459949842623,
+      "tokens_seen": 1269825536
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002758229284903519,
+      "loss": 3.2175,
+      "theoretical_loss": 3.5686779172039906,
+      "tokens_seen": 1270874112
+    },
+    {
+      "epoch": 0.45,
+      "objective/train/advantage_avg": 0.49091073870658875,
+      "objective/train/docs_used": 719315,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.267247438430786,
+      "objective/train/original_loss": 3.267247200012207,
+      "objective/train/theoretical_loss": 3.568543984460508,
+      "objective/train/tokens_used": 1291858400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24294719099998474,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503261089324951,
+      "objective/train/weighted_lm_loss": 3.4315378665924072,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9729084372520447,
+      "theoretical_loss": 3.568543984460508,
+      "tokens_seen": 1271398400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00027563374952705263,
+      "loss": 3.2281,
+      "theoretical_loss": 3.5684101223927702,
+      "tokens_seen": 1271922688
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002754445705637533,
+      "loss": 3.2489,
+      "theoretical_loss": 3.568142610019003,
+      "tokens_seen": 1272971264
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.000275255391600454,
+      "loss": 3.2501,
+      "theoretical_loss": 3.567875379552525,
+      "tokens_seen": 1274019840
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4882226884365082,
+      "objective/train/docs_used": 720761,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1280031204223633,
+      "objective/train/original_loss": 3.1280031204223633,
+      "objective/train/theoretical_loss": 3.5677085034320273,
+      "objective/train/tokens_used": 1295135200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24101290106773376,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500473976135254,
+      "objective/train/weighted_lm_loss": 3.284193992614746,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9808136820793152,
+      "theoretical_loss": 3.5677085034320273,
+      "tokens_seen": 1274675200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027506621263715476,
+      "loss": 3.275,
+      "theoretical_loss": 3.567608430464604,
+      "tokens_seen": 1275068416
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027487703367385546,
+      "loss": 3.2107,
+      "theoretical_loss": 3.567341762227932,
+      "tokens_seen": 1276116992
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002746878547105562,
+      "loss": 3.2512,
+      "theoretical_loss": 3.567075374316623,
+      "tokens_seen": 1277165568
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4728912115097046,
+      "objective/train/docs_used": 722731,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8755643367767334,
+      "objective/train/original_loss": 2.8755640983581543,
+      "objective/train/theoretical_loss": 3.566875767031105,
+      "objective/train/tokens_used": 1298412000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23524631559848785,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484849214553833,
+      "objective/train/weighted_lm_loss": 3.0170345306396484,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9677127599716187,
+      "theoretical_loss": 3.566875767031105,
+      "tokens_seen": 1277952000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002744986757472569,
+      "loss": 3.2255,
+      "theoretical_loss": 3.5668092662062048,
+      "tokens_seen": 1278214144
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002743094967839576,
+      "loss": 3.2771,
+      "theoretical_loss": 3.566543437373617,
+      "tokens_seen": 1279262720
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027412031782065834,
+      "loss": 3.2012,
+      "theoretical_loss": 3.5662778872972036,
+      "tokens_seen": 1280311296
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4915541112422943,
+      "objective/train/docs_used": 724789,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.916830062866211,
+      "objective/train/original_loss": 2.916830062866211,
+      "objective/train/theoretical_loss": 3.5660457592384924,
+      "objective/train/tokens_used": 1301688800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24279290437698364,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503896474838257,
+      "objective/train/weighted_lm_loss": 3.063872814178467,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9648842215538025,
+      "theoretical_loss": 3.5660457592384924,
+      "tokens_seen": 1281228800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027393113885735903,
+      "loss": 3.2504,
+      "theoretical_loss": 3.56601261545671,
+      "tokens_seen": 1281359872
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027374195989405983,
+      "loss": 3.1818,
+      "theoretical_loss": 3.565747621333277,
+      "tokens_seen": 1282408448
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027355278093076053,
+      "loss": 3.1748,
+      "theoretical_loss": 3.565482904409436,
+      "tokens_seen": 1283457024
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.49075672030448914,
+      "objective/train/docs_used": 727075,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.278653860092163,
+      "objective/train/original_loss": 3.278654098510742,
+      "objective/train/theoretical_loss": 3.5652184641691047,
+      "objective/train/tokens_used": 1304965600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24346491694450378,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503132343292236,
+      "objective/train/weighted_lm_loss": 3.4435787200927734,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9591943025588989,
+      "theoretical_loss": 3.5652184641691047,
+      "tokens_seen": 1284505600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002733636019674612,
+      "loss": 3.2211,
+      "theoretical_loss": 3.5652184641691047,
+      "tokens_seen": 1284505600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027317442300416197,
+      "loss": 3.2112,
+      "theoretical_loss": 3.5649543000975825,
+      "tokens_seen": 1285554176
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027298524404086266,
+      "loss": 3.2327,
+      "theoretical_loss": 3.564690411681543,
+      "tokens_seen": 1286602752
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027279606507756336,
+      "loss": 3.1368,
+      "theoretical_loss": 3.564426798409034,
+      "tokens_seen": 1287651328
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.49102783203125,
+      "objective/train/docs_used": 728554,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.136857032775879,
+      "objective/train/original_loss": 3.136857032775879,
+      "objective/train/theoretical_loss": 3.5643938660705556,
+      "objective/train/tokens_used": 1308242400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2425263375043869,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503356456756592,
+      "objective/train/weighted_lm_loss": 3.294790029525757,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9526902437210083,
+      "theoretical_loss": 3.5643938660705556,
+      "tokens_seen": 1287782400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002726068861142641,
+      "loss": 3.2618,
+      "theoretical_loss": 3.5641634597694685,
+      "tokens_seen": 1288699904
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002724177071509648,
+      "loss": 3.2774,
+      "theoretical_loss": 3.5639003952536212,
+      "tokens_seen": 1289748480
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027222852818766554,
+      "loss": 3.2149,
+      "theoretical_loss": 3.563637604353625,
+      "tokens_seen": 1290797056
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4924575090408325,
+      "objective/train/docs_used": 730680,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1504783630371094,
+      "objective/train/original_loss": 3.1504788398742676,
+      "objective/train/theoretical_loss": 3.5635719493217155,
+      "objective/train/tokens_used": 1311519200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2439342588186264,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504858493804932,
+      "objective/train/weighted_lm_loss": 3.309021234512329,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9914089441299438,
+      "theoretical_loss": 3.5635719493217155,
+      "tokens_seen": 1291059200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027203934922436624,
+      "loss": 3.272,
+      "theoretical_loss": 3.563375086562964,
+      "tokens_seen": 1291845632
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027185017026106693,
+      "loss": 3.3122,
+      "theoretical_loss": 3.563112841376472,
+      "tokens_seen": 1292894208
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002716609912977677,
+      "loss": 3.254,
+      "theoretical_loss": 3.562850868290324,
+      "tokens_seen": 1293942784
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4821608066558838,
+      "objective/train/docs_used": 732486,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.109811305999756,
+      "objective/train/original_loss": 3.109811305999756,
+      "objective/train/theoretical_loss": 3.5627526984312885,
+      "objective/train/tokens_used": 1314796000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2412458062171936,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049442172050476,
+      "objective/train/weighted_lm_loss": 3.2632744312286377,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9536179304122925,
+      "theoretical_loss": 3.5627526984312885,
+      "tokens_seen": 1294336000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002714718123344684,
+      "loss": 3.2944,
+      "theoretical_loss": 3.5625891668020353,
+      "tokens_seen": 1294991360
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002712826333711692,
+      "loss": 3.2955,
+      "theoretical_loss": 3.5623277364104537,
+      "tokens_seen": 1296039936
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027109345440786987,
+      "loss": 3.2216,
+      "theoretical_loss": 3.562066576615756,
+      "tokens_seen": 1297088512
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4861340820789337,
+      "objective/train/docs_used": 734540,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.098299741744995,
+      "objective/train/original_loss": 3.098299503326416,
+      "objective/train/theoretical_loss": 3.5619360980364068,
+      "objective/train/tokens_used": 1318072800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23957262933254242,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498310327529907,
+      "objective/train/weighted_lm_loss": 3.252875328063965,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9518746733665466,
+      "theoretical_loss": 3.5619360980364068,
+      "tokens_seen": 1297612800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027090427544457056,
+      "loss": 3.1921,
+      "theoretical_loss": 3.5618056869194454,
+      "tokens_seen": 1298137088
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002707150964812713,
+      "loss": 3.2447,
+      "theoretical_loss": 3.561545066824343,
+      "tokens_seen": 1299185664
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.000270525917517972,
+      "loss": 3.2583,
+      "theoretical_loss": 3.561284715834587,
+      "tokens_seen": 1300234240
+    },
+    {
+      "epoch": 0.46,
+      "objective/train/advantage_avg": 0.4824850559234619,
+      "objective/train/docs_used": 736491,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3983359336853027,
+      "objective/train/original_loss": 3.3983354568481445,
+      "objective/train/theoretical_loss": 3.5611221329012466,
+      "objective/train/tokens_used": 1321349600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24269729852676392,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049481987953186,
+      "objective/train/weighted_lm_loss": 3.5662224292755127,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9514743089675903,
+      "theoretical_loss": 3.5611221329012466,
+      "tokens_seen": 1300889600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00027033673855467275,
+      "loss": 3.2885,
+      "theoretical_loss": 3.5610246334556255,
+      "tokens_seen": 1301282816
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00027014755959137344,
+      "loss": 3.2482,
+      "theoretical_loss": 3.5607648191942145,
+      "tokens_seen": 1302331392
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026995838062807414,
+      "loss": 3.2405,
+      "theoretical_loss": 3.56050527255841,
+      "tokens_seen": 1303379968
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.49545571208000183,
+      "objective/train/docs_used": 738318,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4414329528808594,
+      "objective/train/original_loss": 3.4414329528808594,
+      "objective/train/theoretical_loss": 3.5603107879156584,
+      "objective/train/tokens_used": 1324626400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2457858920097351,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050795078277588,
+      "objective/train/weighted_lm_loss": 3.6163370609283447,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 1.01546049118042,
+      "theoretical_loss": 3.5603107879156584,
+      "tokens_seen": 1304166400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002697692016647749,
+      "loss": 3.3299,
+      "theoretical_loss": 3.560245993057567,
+      "tokens_seen": 1304428544
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002695800227014756,
+      "loss": 3.2857,
+      "theoretical_loss": 3.5599869802023325,
+      "tokens_seen": 1305477120
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026939084373817627,
+      "loss": 3.2556,
+      "theoretical_loss": 3.5597282335046425,
+      "tokens_seen": 1306525696
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.4869755208492279,
+      "objective/train/docs_used": 740377,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0287930965423584,
+      "objective/train/original_loss": 3.0287928581237793,
+      "objective/train/theoretical_loss": 3.5595020480938198,
+      "objective/train/tokens_used": 1327903200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24304500222206116,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049932837486267,
+      "objective/train/weighted_lm_loss": 3.180659294128418,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.952156662940979,
+      "theoretical_loss": 3.5595020480938198,
+      "tokens_seen": 1307443200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002692016647748771,
+      "loss": 3.2115,
+      "theoretical_loss": 3.5594697524777175,
+      "tokens_seen": 1307574272
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026901248581157777,
+      "loss": 3.2641,
+      "theoretical_loss": 3.559211536636057,
+      "tokens_seen": 1308622848
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002688233068482785,
+      "loss": 3.206,
+      "theoretical_loss": 3.5589535854954364,
+      "tokens_seen": 1309671424
+    },
+    {
+      "debugging/Self-BLEU-5": 0.49020908264157476,
+      "debugging/distinct-1-grams": 0.768901113497886,
+      "debugging/distinct-2-grams": 0.9428782333551957,
+      "debugging/entropy-1-grams": 6.085999550681761,
+      "debugging/entropy-2-grams": 7.0033060167714964,
+      "debugging/length": 490.2352941176471,
+      "debugging/num_segments": 17,
+      "debugging/raw_token_scores_avg": 0.02056093141436577,
+      "debugging/raw_token_scores_std": 0.10981010645627975,
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.47942253947257996,
+      "objective/train/docs_used": 741674,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0563838481903076,
+      "objective/train/original_loss": 3.0563840866088867,
+      "objective/train/theoretical_loss": 3.5586958985729016,
+      "objective/train/tokens_used": 1331180000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24191518127918243,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049171805381775,
+      "objective/train/weighted_lm_loss": 3.2049503326416016,
+      "objective/train/weights_max": 1.0512198209762573,
+      "objective/train/weights_min": 0.9514583349227905,
+      "theoretical_loss": 3.5586958985729016,
+      "tokens_seen": 1310720000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002686341278849792,
+      "loss": 3.2782,
+      "theoretical_loss": 3.5586958985729016,
+      "tokens_seen": 1310720000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002684449489216799,
+      "loss": 3.2573,
+      "theoretical_loss": 3.558438475386766,
+      "tokens_seen": 1311768576
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026825576995838065,
+      "loss": 3.2587,
+      "theoretical_loss": 3.5581813154566038,
+      "tokens_seen": 1312817152
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026806659099508134,
+      "loss": 3.2928,
+      "theoretical_loss": 3.5579244183032483,
+      "tokens_seen": 1313865728
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.4831710159778595,
+      "objective/train/docs_used": 743814,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.882990837097168,
+      "objective/train/original_loss": 2.882990837097168,
+      "objective/train/theoretical_loss": 3.5578923246117578,
+      "objective/train/tokens_used": 1334456800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23744919896125793,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049523949623108,
+      "objective/train/weighted_lm_loss": 3.0261266231536865,
+      "objective/train/weights_max": 1.0512158870697021,
+      "objective/train/weights_min": 0.9561281800270081,
+      "theoretical_loss": 3.5578923246117578,
+      "tokens_seen": 1313996800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002678774120317821,
+      "loss": 3.1971,
+      "theoretical_loss": 3.557667783448787,
+      "tokens_seen": 1314914304
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002676882330684828,
+      "loss": 3.2104,
+      "theoretical_loss": 3.5574114104165546,
+      "tokens_seen": 1315962880
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002674990541051835,
+      "loss": 3.2483,
+      "theoretical_loss": 3.557155298731134,
+      "tokens_seen": 1317011456
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.49083414673805237,
+      "objective/train/docs_used": 745506,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4596221446990967,
+      "objective/train/original_loss": 3.459622383117676,
+      "objective/train/theoretical_loss": 3.5570913115896228,
+      "objective/train/tokens_used": 1337733600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24352119863033295,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050321340560913,
+      "objective/train/weighted_lm_loss": 3.6329755783081055,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9624701142311096,
+      "theoretical_loss": 3.5570913115896228,
+      "tokens_seen": 1317273600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002673098751418842,
+      "loss": 3.2454,
+      "theoretical_loss": 3.5568994479183456,
+      "tokens_seen": 1318060032
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002671206961785849,
+      "loss": 3.2333,
+      "theoretical_loss": 3.55664385750525,
+      "tokens_seen": 1319108608
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026693151721528567,
+      "loss": 3.3081,
+      "theoretical_loss": 3.556388527020138,
+      "tokens_seen": 1320157184
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.4799773693084717,
+      "objective/train/docs_used": 747613,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.5142557621002197,
+      "objective/train/original_loss": 3.514256000518799,
+      "objective/train/theoretical_loss": 3.5562928450048386,
+      "objective/train/tokens_used": 1341010400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2389097660779953,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049212098121643,
+      "objective/train/weighted_lm_loss": 3.686645030975342,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9529973268508911,
+      "theoretical_loss": 3.5562928450048386,
+      "tokens_seen": 1320550400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002667423382519864,
+      "loss": 3.2451,
+      "theoretical_loss": 3.556133455992528,
+      "tokens_seen": 1321205760
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002665531592886871,
+      "loss": 3.2432,
+      "theoretical_loss": 3.5558786439531653,
+      "tokens_seen": 1322254336
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026636398032538785,
+      "loss": 3.2586,
+      "theoretical_loss": 3.555624090434014,
+      "tokens_seen": 1323302912
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.4838820695877075,
+      "objective/train/docs_used": 749700,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.848118305206299,
+      "objective/train/original_loss": 2.848118305206299,
+      "objective/train/theoretical_loss": 3.555496910473588,
+      "objective/train/tokens_used": 1344287200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2406865805387497,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496114492416382,
+      "objective/train/weighted_lm_loss": 2.9888694286346436,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9514018893241882,
+      "theoretical_loss": 3.555496910473588,
+      "tokens_seen": 1323827200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026617480136208855,
+      "loss": 3.2677,
+      "theoretical_loss": 3.555369794968252,
+      "tokens_seen": 1324351488
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026598562239878924,
+      "loss": 3.2091,
+      "theoretical_loss": 3.555115757090271,
+      "tokens_seen": 1325400064
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026579644343549,
+      "loss": 3.2848,
+      "theoretical_loss": 3.554861976335671,
+      "tokens_seen": 1326448640
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.45839741826057434,
+      "objective/train/docs_used": 752163,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.01212739944458,
+      "objective/train/original_loss": 3.01212739944458,
+      "objective/train/theoretical_loss": 3.5547034937286472,
+      "objective/train/tokens_used": 1347564000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407991886138916,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047062635421753,
+      "objective/train/weighted_lm_loss": 3.158634901046753,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.952105700969696,
+      "theoretical_loss": 3.5547034937286472,
+      "tokens_seen": 1327104000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002656072644721907,
+      "loss": 3.1785,
+      "theoretical_loss": 3.5546084522412533,
+      "tokens_seen": 1327497216
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00026541808550889143,
+      "loss": 3.3024,
+      "theoretical_loss": 3.5543551843450203,
+      "tokens_seen": 1328545792
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002652289065455921,
+      "loss": 3.1727,
+      "theoretical_loss": 3.5541021721861696,
+      "tokens_seen": 1329594368
+    },
+    {
+      "epoch": 0.47,
+      "objective/train/advantage_avg": 0.4735065698623657,
+      "objective/train/docs_used": 753856,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.942960739135742,
+      "objective/train/original_loss": 2.942960739135742,
+      "objective/train/theoretical_loss": 3.5539125806181584,
+      "objective/train/tokens_used": 1350840800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23893173038959503,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485646724700928,
+      "objective/train/weighted_lm_loss": 3.0864858627319336,
+      "objective/train/weights_max": 1.0512158870697021,
+      "objective/train/weights_min": 0.9517002701759338,
+      "theoretical_loss": 3.5539125806181584,
+      "tokens_seen": 1330380800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002650397275822928,
+      "loss": 3.2689,
+      "theoretical_loss": 3.5538494153050895,
+      "tokens_seen": 1330642944
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026485054861899356,
+      "loss": 3.3248,
+      "theoretical_loss": 3.5535969132433554,
+      "tokens_seen": 1331691520
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002646613696556943,
+      "loss": 3.2776,
+      "theoretical_loss": 3.5533446655437277,
+      "tokens_seen": 1332740096
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.47561439871788025,
+      "objective/train/docs_used": 755628,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0288760662078857,
+      "objective/train/original_loss": 3.028876304626465,
+      "objective/train/theoretical_loss": 3.5531241571044148,
+      "objective/train/tokens_used": 1354117600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23352853953838348,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487481355667114,
+      "objective/train/weighted_lm_loss": 3.1767513751983643,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9534009695053101,
+      "theoretical_loss": 3.5531241571044148,
+      "tokens_seen": 1333657600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.000264472190692395,
+      "loss": 3.2214,
+      "theoretical_loss": 3.5530926717501448,
+      "tokens_seen": 1333788672
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026428301172909575,
+      "loss": 3.2087,
+      "theoretical_loss": 3.5528409314077205,
+      "tokens_seen": 1334837248
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026409383276579645,
+      "loss": 3.2751,
+      "theoretical_loss": 3.5525894440627415,
+      "tokens_seen": 1335885824
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.48273754119873047,
+      "objective/train/docs_used": 757781,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.197702407836914,
+      "objective/train/original_loss": 3.197701930999756,
+      "objective/train/theoretical_loss": 3.5523382092626603,
+      "objective/train/tokens_used": 1357394400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23674197494983673,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494771003723145,
+      "objective/train/weighted_lm_loss": 3.355456590652466,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9578342437744141,
+      "theoretical_loss": 3.5523382092626603,
+      "tokens_seen": 1336934400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002639046538024972,
+      "loss": 3.2785,
+      "theoretical_loss": 3.5523382092626603,
+      "tokens_seen": 1336934400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002637154748391979,
+      "loss": 3.3046,
+      "theoretical_loss": 3.552087226556094,
+      "tokens_seen": 1337982976
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002635262958758986,
+      "loss": 3.2553,
+      "theoretical_loss": 3.5518364954928185,
+      "tokens_seen": 1339031552
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026333711691259933,
+      "loss": 3.2336,
+      "theoretical_loss": 3.551586015623767,
+      "tokens_seen": 1340080128
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.49417945742607117,
+      "objective/train/docs_used": 759683,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.986185312271118,
+      "objective/train/original_loss": 2.9861855506896973,
+      "objective/train/theoretical_loss": 3.5515547232799087,
+      "objective/train/tokens_used": 1360671200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2461775243282318,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506694316864014,
+      "objective/train/weighted_lm_loss": 3.137205123901367,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9528197050094604,
+      "theoretical_loss": 3.5515547232799087,
+      "tokens_seen": 1340211200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002631479379493,
+      "loss": 3.2575,
+      "theoretical_loss": 3.5513357865010233,
+      "tokens_seen": 1341128704
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026295875898600077,
+      "loss": 3.1575,
+      "theoretical_loss": 3.5510858076778202,
+      "tokens_seen": 1342177280
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026276958002270146,
+      "loss": 3.285,
+      "theoretical_loss": 3.5508360787085342,
+      "tokens_seen": 1343225856
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.4842744767665863,
+      "objective/train/docs_used": 761574,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7354183197021484,
+      "objective/train/original_loss": 2.7354183197021484,
+      "objective/train/theoretical_loss": 3.550773685453774,
+      "objective/train/tokens_used": 1363948000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2384546399116516,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496395826339722,
+      "objective/train/weighted_lm_loss": 2.870645046234131,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9521103501319885,
+      "theoretical_loss": 3.550773685453774,
+      "tokens_seen": 1343488000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026258040105940216,
+      "loss": 3.1794,
+      "theoretical_loss": 3.5505865991486827,
+      "tokens_seen": 1344274432
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026239122209610296,
+      "loss": 3.1656,
+      "theoretical_loss": 3.5503373685549184,
+      "tokens_seen": 1345323008
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026220204313280365,
+      "loss": 3.2142,
+      "theoretical_loss": 3.5500883864850294,
+      "tokens_seen": 1346371584
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.4764693081378937,
+      "objective/train/docs_used": 763625,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9616000652313232,
+      "objective/train/original_loss": 2.9616000652313232,
+      "objective/train/theoretical_loss": 3.5499950821913204,
+      "objective/train/tokens_used": 1367224800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23259218037128448,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488290786743164,
+      "objective/train/weighted_lm_loss": 3.1081156730651855,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9584375023841858,
+      "theoretical_loss": 3.5499950821913204,
+      "tokens_seen": 1346764800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002620128641695044,
+      "loss": 3.3291,
+      "theoretical_loss": 3.5498396524979308,
+      "tokens_seen": 1347420160
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002618236852062051,
+      "loss": 3.237,
+      "theoretical_loss": 3.5495911661536637,
+      "tokens_seen": 1348468736
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002616345062429058,
+      "loss": 3.293,
+      "theoretical_loss": 3.5493429270133907,
+      "tokens_seen": 1349517312
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.48155462741851807,
+      "objective/train/docs_used": 764744,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.73677396774292,
+      "objective/train/original_loss": 2.736774206161499,
+      "objective/train/theoretical_loss": 3.549218900007921,
+      "objective/train/tokens_used": 1370501600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.235448956489563,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493521690368652,
+      "objective/train/weighted_lm_loss": 2.8729958534240723,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.953024685382843,
+      "theoretical_loss": 3.549218900007921,
+      "tokens_seen": 1350041600
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026144532727960653,
+      "loss": 3.2426,
+      "theoretical_loss": 3.549094934639392,
+      "tokens_seen": 1350565888
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026125614831630723,
+      "loss": 3.1944,
+      "theoretical_loss": 3.5488471885950625,
+      "tokens_seen": 1351614464
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002610669693530079,
+      "loss": 3.2782,
+      "theoretical_loss": 3.5485996884449076,
+      "tokens_seen": 1352663040
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.4894540011882782,
+      "objective/train/docs_used": 766515,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1192467212677,
+      "objective/train/original_loss": 3.1192469596862793,
+      "objective/train/theoretical_loss": 3.5484451255261353,
+      "objective/train/tokens_used": 1373778400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24316319823265076,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501813888549805,
+      "objective/train/weighted_lm_loss": 3.2756810188293457,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9519091248512268,
+      "theoretical_loss": 3.5484451255261353,
+      "tokens_seen": 1353318400
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026087779038970867,
+      "loss": 3.2537,
+      "theoretical_loss": 3.5483524337545385,
+      "tokens_seen": 1353711616
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00026068861142640936,
+      "loss": 3.1763,
+      "theoretical_loss": 3.5481054240906698,
+      "tokens_seen": 1354760192
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002604994324631101,
+      "loss": 3.2387,
+      "theoretical_loss": 3.547858659021117,
+      "tokens_seen": 1355808768
+    },
+    {
+      "epoch": 0.48,
+      "objective/train/advantage_avg": 0.4911956787109375,
+      "objective/train/docs_used": 768508,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8986051082611084,
+      "objective/train/original_loss": 2.8986048698425293,
+      "objective/train/theoretical_loss": 3.5476737454746035,
+      "objective/train/tokens_used": 1377055200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24308650195598602,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050355315208435,
+      "objective/train/weighted_lm_loss": 3.0448904037475586,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9534386992454529,
+      "theoretical_loss": 3.5476737454746035,
+      "tokens_seen": 1356595200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002603102534998108,
+      "loss": 3.2887,
+      "theoretical_loss": 3.5476121381147894,
+      "tokens_seen": 1356857344
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00026012107453651155,
+      "loss": 3.2406,
+      "theoretical_loss": 3.5473658609416896,
+      "tokens_seen": 1357905920
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002599318955732123,
+      "loss": 3.2552,
+      "theoretical_loss": 3.5471198270729083,
+      "tokens_seen": 1358954496
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.4947124123573303,
+      "objective/train/docs_used": 770636,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0518202781677246,
+      "objective/train/original_loss": 3.0518202781677246,
+      "objective/train/theoretical_loss": 3.5469047466869448,
+      "objective/train/tokens_used": 1380332000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24551640450954437,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0507193803787231,
+      "objective/train/weighted_lm_loss": 3.206749200820923,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9574251174926758,
+      "theoretical_loss": 3.5469047466869448,
+      "tokens_seen": 1359872000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.000259742716609913,
+      "loss": 3.287,
+      "theoretical_loss": 3.546874036080621,
+      "tokens_seen": 1360003072
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025955353764661374,
+      "loss": 3.2775,
+      "theoretical_loss": 3.5466284875380856,
+      "tokens_seen": 1361051648
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025936435868331443,
+      "loss": 3.337,
+      "theoretical_loss": 3.546383181019637,
+      "tokens_seen": 1362100224
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.47492796182632446,
+      "objective/train/docs_used": 772517,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1139206886291504,
+      "objective/train/original_loss": 3.1139206886291504,
+      "objective/train/theoretical_loss": 3.5461381161006846,
+      "objective/train/tokens_used": 1383608800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23219169676303864,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486730337142944,
+      "objective/train/weighted_lm_loss": 3.2662875652313232,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9535848498344421,
+      "theoretical_loss": 3.5461381161006846,
+      "tokens_seen": 1363148800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002591751797200151,
+      "loss": 3.2782,
+      "theoretical_loss": 3.5461381161006846,
+      "tokens_seen": 1363148800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002589860007567159,
+      "loss": 3.2394,
+      "theoretical_loss": 3.5458932923577082,
+      "tokens_seen": 1364197376
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025879682179341657,
+      "loss": 3.2557,
+      "theoretical_loss": 3.5456487093682547,
+      "tokens_seen": 1365245952
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025860764283011726,
+      "loss": 3.2417,
+      "theoretical_loss": 3.5454043667109367,
+      "tokens_seen": 1366294528
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.4928061366081238,
+      "objective/train/docs_used": 774661,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.42317533493042,
+      "objective/train/original_loss": 3.423175096511841,
+      "objective/train/theoretical_loss": 3.545373840756179,
+      "objective/train/tokens_used": 1386885600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24523727595806122,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505273342132568,
+      "objective/train/weighted_lm_loss": 3.59568452835083,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.968864381313324,
+      "theoretical_loss": 3.545373840756179,
+      "tokens_seen": 1366425600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.000258418463866818,
+      "loss": 3.3035,
+      "theoretical_loss": 3.545160263965424,
+      "tokens_seen": 1367343104
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002582292849035187,
+      "loss": 3.27,
+      "theoretical_loss": 3.544916400712445,
+      "tokens_seen": 1368391680
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025804010594021945,
+      "loss": 3.2883,
+      "theoretical_loss": 3.5446727765337815,
+      "tokens_seen": 1369440256
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.48920339345932007,
+      "objective/train/docs_used": 776810,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.031377077102661,
+      "objective/train/original_loss": 3.0313773155212402,
+      "objective/train/theoretical_loss": 3.5446119077955673,
+      "objective/train/tokens_used": 1390162400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24134649336338043,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050147294998169,
+      "objective/train/weighted_lm_loss": 3.183500051498413,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9817801117897034,
+      "theoretical_loss": 3.5446119077955673,
+      "tokens_seen": 1369702400
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002578509269769202,
+      "loss": 3.2427,
+      "theoretical_loss": 3.5444293910122644,
+      "tokens_seen": 1370488832
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002576617480136209,
+      "loss": 3.2541,
+      "theoretical_loss": 3.544186243731771,
+      "tokens_seen": 1371537408
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025747256905032164,
+      "loss": 3.2502,
+      "theoretical_loss": 3.5439433342772224,
+      "tokens_seen": 1372585984
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.47569069266319275,
+      "objective/train/docs_used": 778576,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1365725994110107,
+      "objective/train/original_loss": 3.1365721225738525,
+      "objective/train/theoretical_loss": 3.543852304461728,
+      "objective/train/tokens_used": 1393439200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.233524888753891,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487558841705322,
+      "objective/train/weighted_lm_loss": 3.2887704372406006,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9515125155448914,
+      "theoretical_loss": 3.543852304461728,
+      "tokens_seen": 1372979200
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025728339008702233,
+      "loss": 3.2909,
+      "theoretical_loss": 3.5437006622345777,
+      "tokens_seen": 1373634560
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002570942111237231,
+      "loss": 3.3048,
+      "theoretical_loss": 3.5434582271908344,
+      "tokens_seen": 1374683136
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002569050321604238,
+      "loss": 3.2858,
+      "theoretical_loss": 3.5432160287340206,
+      "tokens_seen": 1375731712
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.47667446732521057,
+      "objective/train/docs_used": 780651,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3615801334381104,
+      "objective/train/original_loss": 3.3615803718566895,
+      "objective/train/theoretical_loss": 3.5430950180972527,
+      "objective/train/tokens_used": 1396716000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2355356216430664,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488646030426025,
+      "objective/train/weighted_lm_loss": 3.5261738300323486,
+      "objective/train/weights_max": 1.0512200593948364,
+      "objective/train/weights_min": 0.9540208578109741,
+      "theoretical_loss": 3.5430950180972527,
+      "tokens_seen": 1376256000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025671585319712447,
+      "loss": 3.2503,
+      "theoretical_loss": 3.542974066453195,
+      "tokens_seen": 1376780288
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002565266742338252,
+      "loss": 3.2741,
+      "theoretical_loss": 3.5427323399384427,
+      "tokens_seen": 1377828864
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002563374952705259,
+      "loss": 3.3355,
+      "theoretical_loss": 3.5424908487808704,
+      "tokens_seen": 1378877440
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.490723192691803,
+      "objective/train/docs_used": 781840,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0954983234405518,
+      "objective/train/original_loss": 3.0954983234405518,
+      "objective/train/theoretical_loss": 3.5423400361434307,
+      "objective/train/tokens_used": 1399992800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24198147654533386,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503023862838745,
+      "objective/train/weighted_lm_loss": 3.2512621879577637,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9551610946655273,
+      "theoretical_loss": 3.5423400361434307,
+      "tokens_seen": 1379532800
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002561483163072266,
+      "loss": 3.2322,
+      "theoretical_loss": 3.542249592572605,
+      "tokens_seen": 1379926016
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025595913734392735,
+      "loss": 3.2141,
+      "theoretical_loss": 3.5420085709067894,
+      "tokens_seen": 1380974592
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025576995838062804,
+      "loss": 3.21,
+      "theoretical_loss": 3.541767783377579,
+      "tokens_seen": 1382023168
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.46955326199531555,
+      "objective/train/docs_used": 784187,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0273990631103516,
+      "objective/train/original_loss": 3.0273988246917725,
+      "objective/train/theoretical_loss": 3.541587346139247,
+      "objective/train/tokens_used": 1403269600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23108002543449402,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481295585632324,
+      "objective/train/weighted_lm_loss": 3.174248218536377,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9517195820808411,
+      "theoretical_loss": 3.541587346139247,
+      "tokens_seen": 1382809600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025558077941732884,
+      "loss": 3.1799,
+      "theoretical_loss": 3.5415272295801388,
+      "tokens_seen": 1383071744
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025539160045402954,
+      "loss": 3.2792,
+      "theoretical_loss": 3.5412869091106405,
+      "tokens_seen": 1384120320
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00025520242149073023,
+      "loss": 3.2038,
+      "theoretical_loss": 3.541046821566258,
+      "tokens_seen": 1385168896
+    },
+    {
+      "epoch": 0.49,
+      "objective/train/advantage_avg": 0.47911426424980164,
+      "objective/train/docs_used": 786072,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8968513011932373,
+      "objective/train/original_loss": 2.8968517780303955,
+      "objective/train/theoretical_loss": 3.540836935720394,
+      "objective/train/tokens_used": 1406546400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23572920262813568,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049109697341919,
+      "objective/train/weighted_lm_loss": 3.039515972137451,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9524866938591003,
+      "theoretical_loss": 3.540836935720394,
+      "tokens_seen": 1386086400
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.000255013242527431,
+      "loss": 3.2616,
+      "theoretical_loss": 3.5408069665451656,
+      "tokens_seen": 1386217472
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025482406356413167,
+      "loss": 3.1624,
+      "theoretical_loss": 3.5405673436465332,
+      "tokens_seen": 1387266048
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002546348846008324,
+      "loss": 3.2074,
+      "theoretical_loss": 3.540327952470525,
+      "tokens_seen": 1388314624
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.48018690943717957,
+      "objective/train/docs_used": 787611,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.299957036972046,
+      "objective/train/original_loss": 3.299956798553467,
+      "objective/train/theoretical_loss": 3.5400887926182953,
+      "objective/train/tokens_used": 1409823200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2368466556072235,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049222469329834,
+      "objective/train/weighted_lm_loss": 3.462350845336914,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9544512629508972,
+      "theoretical_loss": 3.5400887926182953,
+      "tokens_seen": 1389363200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002544457056375331,
+      "loss": 3.2096,
+      "theoretical_loss": 3.5400887926182953,
+      "tokens_seen": 1389363200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002542565266742338,
+      "loss": 3.2465,
+      "theoretical_loss": 3.5398498636919835,
+      "tokens_seen": 1390411776
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025406734771093455,
+      "loss": 3.2359,
+      "theoretical_loss": 3.5396111652947146,
+      "tokens_seen": 1391460352
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025387816874763525,
+      "loss": 3.1666,
+      "theoretical_loss": 3.539372697030594,
+      "tokens_seen": 1392508928
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.4910789430141449,
+      "objective/train/docs_used": 789336,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.141433000564575,
+      "objective/train/original_loss": 3.1414332389831543,
+      "objective/train/theoretical_loss": 3.5393429046591365,
+      "objective/train/tokens_used": 1413100000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2442692369222641,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503495931625366,
+      "objective/train/weighted_lm_loss": 3.2997946739196777,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9526776075363159,
+      "theoretical_loss": 3.5393429046591365,
+      "tokens_seen": 1392640000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025368898978433594,
+      "loss": 3.3043,
+      "theoretical_loss": 3.5391344585047024,
+      "tokens_seen": 1393557504
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002534998108210367,
+      "loss": 3.2916,
+      "theoretical_loss": 3.538896449323098,
+      "tokens_seen": 1394606080
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025331063185773744,
+      "loss": 3.2459,
+      "theoretical_loss": 3.538658669092807,
+      "tokens_seen": 1395654656
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.46647822856903076,
+      "objective/train/docs_used": 791369,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.493539810180664,
+      "objective/train/original_loss": 3.493539810180664,
+      "objective/train/theoretical_loss": 3.5385992597629174,
+      "objective/train/tokens_used": 1416376800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2277674525976181,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478054285049438,
+      "objective/train/weighted_lm_loss": 3.659994602203369,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9575470685958862,
+      "theoretical_loss": 3.5385992597629174,
+      "tokens_seen": 1395916800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002531214528944382,
+      "loss": 3.2459,
+      "theoretical_loss": 3.5384211174218247,
+      "tokens_seen": 1396703232
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002529322739311389,
+      "loss": 3.2727,
+      "theoretical_loss": 3.538183793919112,
+      "tokens_seen": 1397751808
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025274309496783957,
+      "loss": 3.2219,
+      "theoretical_loss": 3.53794669819459,
+      "tokens_seen": 1398800384
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.4890250563621521,
+      "objective/train/docs_used": 793176,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.05161190032959,
+      "objective/train/original_loss": 3.05161190032959,
+      "objective/train/theoretical_loss": 3.5378578459425087,
+      "objective/train/tokens_used": 1419653600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24090653657913208,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501271486282349,
+      "objective/train/weighted_lm_loss": 3.204907178878784,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9735680818557739,
+      "theoretical_loss": 3.5378578459425087,
+      "tokens_seen": 1399193600
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002525539160045403,
+      "loss": 3.2726,
+      "theoretical_loss": 3.53770982985914,
+      "tokens_seen": 1399848960
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.000252364737041241,
+      "loss": 3.2014,
+      "theoretical_loss": 3.537473188524598,
+      "tokens_seen": 1400897536
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025217555807794176,
+      "loss": 3.2634,
+      "theoretical_loss": 3.5372367738037527,
+      "tokens_seen": 1401946112
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.4814291298389435,
+      "objective/train/docs_used": 795165,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7210984230041504,
+      "objective/train/original_loss": 2.7210984230041504,
+      "objective/train/theoretical_loss": 3.537118651302722,
+      "objective/train/tokens_used": 1422930400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2377876341342926,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493515729904175,
+      "objective/train/weighted_lm_loss": 2.8548381328582764,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9514068365097046,
+      "theoretical_loss": 3.537118651302722,
+      "tokens_seen": 1402470400
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025198637911464245,
+      "loss": 3.2325,
+      "theoretical_loss": 3.5370005853103414,
+      "tokens_seen": 1402994688
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025179720015134315,
+      "loss": 3.2092,
+      "theoretical_loss": 3.5367646226590503,
+      "tokens_seen": 1404043264
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002516080211880439,
+      "loss": 3.1997,
+      "theoretical_loss": 3.536528885465506,
+      "tokens_seen": 1405091840
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.48178187012672424,
+      "objective/train/docs_used": 797297,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.338026285171509,
+      "objective/train/original_loss": 3.3380260467529297,
+      "objective/train/theoretical_loss": 3.536381664039392,
+      "objective/train/tokens_used": 1426207200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24058951437473297,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049401044845581,
+      "objective/train/weighted_lm_loss": 3.503382682800293,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9520537853240967,
+      "theoretical_loss": 3.536381664039392,
+      "tokens_seen": 1405747200
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002514188422247446,
+      "loss": 3.2556,
+      "theoretical_loss": 3.536293373346278,
+      "tokens_seen": 1406140416
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002512296632614453,
+      "loss": 3.1468,
+      "theoretical_loss": 3.5360580859188713,
+      "tokens_seen": 1407188992
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002510404842981461,
+      "loss": 3.1976,
+      "theoretical_loss": 3.5358230228017264,
+      "tokens_seen": 1408237568
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.4824129343032837,
+      "objective/train/docs_used": 799421,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9747111797332764,
+      "objective/train/original_loss": 2.9747114181518555,
+      "objective/train/theoretical_loss": 3.5356468724384706,
+      "objective/train/tokens_used": 1429484000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23822368681430817,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494521856307983,
+      "objective/train/weighted_lm_loss": 3.1242523193359375,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9635123014450073,
+      "theoretical_loss": 3.5356468724384706,
+      "tokens_seen": 1409024000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002508513053348468,
+      "loss": 3.1687,
+      "theoretical_loss": 3.535588183614215,
+      "tokens_seen": 1409286144
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002506621263715475,
+      "loss": 3.1706,
+      "theoretical_loss": 3.535353567976637,
+      "tokens_seen": 1410334720
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002504729474082482,
+      "loss": 3.1224,
+      "theoretical_loss": 3.5351191755102187,
+      "tokens_seen": 1411383296
+    },
+    {
+      "epoch": 0.5,
+      "objective/train/advantage_avg": 0.48010411858558655,
+      "objective/train/docs_used": 800610,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.90187406539917,
+      "objective/train/original_loss": 2.901874542236328,
+      "objective/train/theoretical_loss": 3.5349142648751304,
+      "objective/train/tokens_used": 1432760800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23449444770812988,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492023229599,
+      "objective/train/weighted_lm_loss": 3.0453240871429443,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9521341919898987,
+      "theoretical_loss": 3.5349142648751304,
+      "tokens_seen": 1412300800
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002502837684449489,
+      "loss": 3.2347,
+      "theoretical_loss": 3.534885005837108,
+      "tokens_seen": 1412431872
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00025009458948164966,
+      "loss": 3.1638,
+      "theoretical_loss": 3.5346510585803728,
+      "tokens_seen": 1413480448
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024990541051835035,
+      "loss": 3.1473,
+      "theoretical_loss": 3.534417333363997,
+      "tokens_seen": 1414529024
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.48848357796669006,
+      "objective/train/docs_used": 802603,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.191892623901367,
+      "objective/train/original_loss": 3.191892623901367,
+      "objective/train/theoretical_loss": 3.5341838298128803,
+      "objective/train/tokens_used": 1436037600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24162043631076813,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500764846801758,
+      "objective/train/weighted_lm_loss": 3.351858377456665,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9517599940299988,
+      "theoretical_loss": 3.5341838298128803,
+      "tokens_seen": 1415577600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002497162315550511,
+      "loss": 3.2598,
+      "theoretical_loss": 3.5341838298128803,
+      "tokens_seen": 1415577600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002495270525917518,
+      "loss": 3.2427,
+      "theoretical_loss": 3.5339505475528314,
+      "tokens_seen": 1416626176
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024933787362845254,
+      "loss": 3.1952,
+      "theoretical_loss": 3.533717486210567,
+      "tokens_seen": 1417674752
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024914869466515323,
+      "loss": 3.244,
+      "theoretical_loss": 3.5334846454137114,
+      "tokens_seen": 1418723328
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4878292977809906,
+      "objective/train/docs_used": 804391,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.043952465057373,
+      "objective/train/original_loss": 3.043951988220215,
+      "objective/train/theoretical_loss": 3.533455555802692,
+      "objective/train/tokens_used": 1439314400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24175363779067993,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500118732452393,
+      "objective/train/weighted_lm_loss": 3.195713996887207,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9565330743789673,
+      "theoretical_loss": 3.533455555802692,
+      "tokens_seen": 1418854400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000248959515701854,
+      "loss": 3.2038,
+      "theoretical_loss": 3.533252024790788,
+      "tokens_seen": 1419771904
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002487703367385547,
+      "loss": 3.2483,
+      "theoretical_loss": 3.5330196239712217,
+      "tokens_seen": 1420820480
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024858115777525537,
+      "loss": 3.1338,
+      "theoretical_loss": 3.532787442585333,
+      "tokens_seen": 1421869056
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4747827351093292,
+      "objective/train/docs_used": 806541,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.976189136505127,
+      "objective/train/original_loss": 2.976189136505127,
+      "objective/train/theoretical_loss": 3.5327294314821365,
+      "objective/train/tokens_used": 1442591200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2333299070596695,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486640930175781,
+      "objective/train/weighted_lm_loss": 3.120753049850464,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9516189098358154,
+      "theoretical_loss": 3.5327294314821365,
+      "tokens_seen": 1422131200
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002483919788119561,
+      "loss": 3.2056,
+      "theoretical_loss": 3.5325554802643375,
+      "tokens_seen": 1422917632
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024820279984865686,
+      "loss": 3.2624,
+      "theoretical_loss": 3.5323237366403397,
+      "tokens_seen": 1423966208
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024801362088535756,
+      "loss": 3.2228,
+      "theoretical_loss": 3.532092211346335,
+      "tokens_seen": 1425014784
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.491454541683197,
+      "objective/train/docs_used": 808636,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2102763652801514,
+      "objective/train/original_loss": 3.2102766036987305,
+      "objective/train/theoretical_loss": 3.5320054455745304,
+      "objective/train/tokens_used": 1445868000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24370373785495758,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503844022750854,
+      "objective/train/weighted_lm_loss": 3.3718581199645996,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9566341042518616,
+      "theoretical_loss": 3.5320054455745304,
+      "tokens_seen": 1425408000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024782444192205825,
+      "loss": 3.1844,
+      "theoretical_loss": 3.5318609040162015,
+      "tokens_seen": 1426063360
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000247635262958759,
+      "loss": 3.1546,
+      "theoretical_loss": 3.5316298142847016,
+      "tokens_seen": 1427111936
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002474460839954597,
+      "loss": 3.2048,
+      "theoretical_loss": 3.5313989417874763,
+      "tokens_seen": 1428160512
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4886825978755951,
+      "objective/train/docs_used": 810397,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9854471683502197,
+      "objective/train/original_loss": 2.985447406768799,
+      "objective/train/theoretical_loss": 3.5312835868880947,
+      "objective/train/tokens_used": 1449144800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24093887209892273,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500929355621338,
+      "objective/train/weighted_lm_loss": 3.1349117755889893,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9605134129524231,
+      "theoretical_loss": 3.5312835868880947,
+      "tokens_seen": 1428684800
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024725690503216044,
+      "loss": 3.2367,
+      "theoretical_loss": 3.5311682861610447,
+      "tokens_seen": 1429209088
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024706772606886113,
+      "loss": 3.2155,
+      "theoretical_loss": 3.5309378470427997,
+      "tokens_seen": 1430257664
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002468785471055619,
+      "loss": 3.1929,
+      "theoretical_loss": 3.530707624071006,
+      "tokens_seen": 1431306240
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4831509590148926,
+      "objective/train/docs_used": 812373,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3620550632476807,
+      "objective/train/original_loss": 3.3620550632476807,
+      "objective/train/theoretical_loss": 3.530563844315122,
+      "objective/train/tokens_used": 1452421600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23847836256027222,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495271682739258,
+      "objective/train/weighted_lm_loss": 3.5282113552093506,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9517561793327332,
+      "theoretical_loss": 3.530563844315122,
+      "tokens_seen": 1431961600
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002466893681422626,
+      "loss": 3.2089,
+      "theoretical_loss": 3.5304776168847964,
+      "tokens_seen": 1432354816
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002465001891789633,
+      "loss": 3.1689,
+      "theoretical_loss": 3.530247825124171,
+      "tokens_seen": 1433403392
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000246311010215664,
+      "loss": 3.1184,
+      "theoretical_loss": 3.530018248429992,
+      "tokens_seen": 1434451968
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.49197354912757874,
+      "objective/train/docs_used": 813976,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9489939212799072,
+      "objective/train/original_loss": 2.9489941596984863,
+      "objective/train/theoretical_loss": 3.5298462068311554,
+      "objective/train/tokens_used": 1455698400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24280238151550293,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504316091537476,
+      "objective/train/weighted_lm_loss": 3.0980122089385986,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9728739857673645,
+      "theoretical_loss": 3.5298462068311554,
+      "tokens_seen": 1435238400
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002461218312523647,
+      "loss": 3.1976,
+      "theoretical_loss": 3.529788886443983,
+      "tokens_seen": 1435500544
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024593265228906546,
+      "loss": 3.0743,
+      "theoretical_loss": 3.529559738808726,
+      "tokens_seen": 1436549120
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002457434733257662,
+      "loss": 3.1564,
+      "theoretical_loss": 3.5293308051676573,
+      "tokens_seen": 1437597696
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4857310950756073,
+      "objective/train/docs_used": 815908,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9717392921447754,
+      "objective/train/original_loss": 2.9717395305633545,
+      "objective/train/theoretical_loss": 3.5291306634941737,
+      "objective/train/tokens_used": 1458975200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24036578834056854,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497949123382568,
+      "objective/train/weighted_lm_loss": 3.1189889907836914,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9525620937347412,
+      "theoretical_loss": 3.5291306634941737,
+      "tokens_seen": 1438515200
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002455542943624669,
+      "loss": 3.1752,
+      "theoretical_loss": 3.529102085165067,
+      "tokens_seen": 1438646272
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0002453651153991676,
+      "loss": 3.1295,
+      "theoretical_loss": 3.5288735784460936,
+      "tokens_seen": 1439694848
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024517593643586834,
+      "loss": 3.1535,
+      "theoretical_loss": 3.5286452846567244,
+      "tokens_seen": 1440743424
+    },
+    {
+      "epoch": 0.51,
+      "objective/train/advantage_avg": 0.4737866222858429,
+      "objective/train/docs_used": 817781,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.049960136413574,
+      "objective/train/original_loss": 3.049960136413574,
+      "objective/train/theoretical_loss": 3.528417203443791,
+      "objective/train/tokens_used": 1462252000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23372094333171844,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485665798187256,
+      "objective/train/weighted_lm_loss": 3.1971216201782227,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9524149298667908,
+      "theoretical_loss": 3.528417203443791,
+      "tokens_seen": 1441792000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00024498675747256903,
+      "loss": 3.1712,
+      "theoretical_loss": 3.528417203443791,
+      "tokens_seen": 1441792000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002447975785092698,
+      "loss": 3.1211,
+      "theoretical_loss": 3.528189334454967,
+      "tokens_seen": 1442840576
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024460839954597053,
+      "loss": 3.1512,
+      "theoretical_loss": 3.527961677338765,
+      "tokens_seen": 1443889152
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002444192205826712,
+      "loss": 3.1175,
+      "theoretical_loss": 3.5277342317445353,
+      "tokens_seen": 1444937728
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.4741077423095703,
+      "objective/train/docs_used": 819121,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9588849544525146,
+      "objective/train/original_loss": 2.9588847160339355,
+      "objective/train/theoretical_loss": 3.5277058159004637,
+      "objective/train/tokens_used": 1465528800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24014198780059814,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048631191253662,
+      "objective/train/weighted_lm_loss": 3.10211443901062,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9528647065162659,
+      "theoretical_loss": 3.5277058159004637,
+      "tokens_seen": 1445068800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002442300416193719,
+      "loss": 3.1457,
+      "theoretical_loss": 3.5275069973224618,
+      "tokens_seen": 1445986304
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024404086265607263,
+      "loss": 3.1661,
+      "theoretical_loss": 3.527279973723561,
+      "tokens_seen": 1447034880
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024385168369277336,
+      "loss": 3.2027,
+      "theoretical_loss": 3.5270531605996767,
+      "tokens_seen": 1448083456
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.47648268938064575,
+      "objective/train/docs_used": 821111,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1611850261688232,
+      "objective/train/original_loss": 3.1611852645874023,
+      "objective/train/theoretical_loss": 3.5269964901647066,
+      "objective/train/tokens_used": 1468805600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23558388650417328,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048845648765564,
+      "objective/train/weighted_lm_loss": 3.3149309158325195,
+      "objective/train/weights_max": 1.0512150526046753,
+      "objective/train/weights_min": 0.9515277147293091,
+      "theoretical_loss": 3.5269964901647066,
+      "tokens_seen": 1448345600
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002436625047294741,
+      "loss": 3.1585,
+      "theoretical_loss": 3.5268265576034805,
+      "tokens_seen": 1449132032
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024347332576617482,
+      "loss": 3.1574,
+      "theoretical_loss": 3.5266001643884684,
+      "tokens_seen": 1450180608
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024328414680287552,
+      "loss": 3.1439,
+      "theoretical_loss": 3.526373980608957,
+      "tokens_seen": 1451229184
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.4845767915248871,
+      "objective/train/docs_used": 823345,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.209475517272949,
+      "objective/train/original_loss": 3.209475517272949,
+      "objective/train/theoretical_loss": 3.526289215616317,
+      "objective/train/tokens_used": 1472082400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24037227034568787,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496795177459717,
+      "objective/train/weighted_lm_loss": 3.3680312633514404,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9529867768287659,
+      "theoretical_loss": 3.526289215616317,
+      "tokens_seen": 1451622400
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024309496783957624,
+      "loss": 3.1728,
+      "theoretical_loss": 3.5261480059200814,
+      "tokens_seen": 1452277760
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024290578887627696,
+      "loss": 3.156,
+      "theoretical_loss": 3.5259222399777945,
+      "tokens_seen": 1453326336
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024271660991297768,
+      "loss": 3.1253,
+      "theoretical_loss": 3.525696682438861,
+      "tokens_seen": 1454374912
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.47921082377433777,
+      "objective/train/docs_used": 825270,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7915778160095215,
+      "objective/train/original_loss": 2.7915778160095215,
+      "objective/train/theoretical_loss": 3.525583981713613,
+      "objective/train/tokens_used": 1475359200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23409366607666016,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491108894348145,
+      "objective/train/weighted_lm_loss": 2.9294707775115967,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9529442191123962,
+      "theoretical_loss": 3.525583981713613,
+      "tokens_seen": 1454899200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002425274309496784,
+      "loss": 3.145,
+      "theoretical_loss": 3.5254713329608585,
+      "tokens_seen": 1455423488
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024233825198637912,
+      "loss": 3.1236,
+      "theoretical_loss": 3.5252461912021733,
+      "tokens_seen": 1456472064
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024214907302307984,
+      "loss": 3.12,
+      "theoretical_loss": 3.525021256821997,
+      "tokens_seen": 1457520640
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.4787052273750305,
+      "objective/train/docs_used": 827227,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9800362586975098,
+      "objective/train/original_loss": 2.9800362586975098,
+      "objective/train/theoretical_loss": 3.524880777992677,
+      "objective/train/tokens_used": 1478636000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23406291007995605,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490602254867554,
+      "objective/train/weighted_lm_loss": 3.127027750015259,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9527052044868469,
+      "theoretical_loss": 3.524880777992677,
+      "tokens_seen": 1458176000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024195989405978056,
+      "loss": 3.15,
+      "theoretical_loss": 3.5247965294803265,
+      "tokens_seen": 1458569216
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024177071509648128,
+      "loss": 3.1198,
+      "theoretical_loss": 3.524572008837958,
+      "tokens_seen": 1459617792
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024158153613318197,
+      "loss": 3.208,
+      "theoretical_loss": 3.5243476945564893,
+      "tokens_seen": 1460666368
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.4924372732639313,
+      "objective/train/docs_used": 829193,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1463100910186768,
+      "objective/train/original_loss": 3.1463098526000977,
+      "objective/train/theoretical_loss": 3.524179594066606,
+      "objective/train/tokens_used": 1481912800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24343392252922058,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504813194274902,
+      "objective/train/weighted_lm_loss": 3.304593086242676,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9679165482521057,
+      "theoretical_loss": 3.524179594066606,
+      "tokens_seen": 1461452800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024139235716988272,
+      "loss": 3.0859,
+      "theoretical_loss": 3.524123586298312,
+      "tokens_seen": 1461714944
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024120317820658344,
+      "loss": 3.1743,
+      "theoretical_loss": 3.5238996837266137,
+      "tokens_seen": 1462763520
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024101399924328416,
+      "loss": 3.1895,
+      "theoretical_loss": 3.5236759865053724,
+      "tokens_seen": 1463812096
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.45739272236824036,
+      "objective/train/docs_used": 831131,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.861849546432495,
+      "objective/train/original_loss": 2.861849784851074,
+      "objective/train/theoretical_loss": 3.5234804196247764,
+      "objective/train/tokens_used": 1485189600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23027275502681732,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.046909213066101,
+      "objective/train/weighted_lm_loss": 3.000051736831665,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9622508883476257,
+      "theoretical_loss": 3.5234804196247764,
+      "tokens_seen": 1464729600
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024082482027998486,
+      "loss": 3.1312,
+      "theoretical_loss": 3.523452494299356,
+      "tokens_seen": 1464860672
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024063564131668558,
+      "loss": 3.2132,
+      "theoretical_loss": 3.5232292067741176,
+      "tokens_seen": 1465909248
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002404464623533863,
+      "loss": 3.165,
+      "theoretical_loss": 3.523006123595997,
+      "tokens_seen": 1466957824
+    },
+    {
+      "epoch": 0.52,
+      "objective/train/advantage_avg": 0.4719890356063843,
+      "objective/train/docs_used": 832511,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2662267684936523,
+      "objective/train/original_loss": 3.2662272453308105,
+      "objective/train/theoretical_loss": 3.522783244432115,
+      "objective/train/tokens_used": 1488466400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407318353652954,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04842209815979,
+      "objective/train/weighted_lm_loss": 3.422483205795288,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9514791965484619,
+      "theoretical_loss": 3.522783244432115,
+      "tokens_seen": 1468006400
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024025728339008705,
+      "loss": 3.1954,
+      "theoretical_loss": 3.522783244432115,
+      "tokens_seen": 1468006400
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00024006810442678777,
+      "loss": 3.2216,
+      "theoretical_loss": 3.52256056895037,
+      "tokens_seen": 1469054976
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023987892546348846,
+      "loss": 3.1763,
+      "theoretical_loss": 3.5223380968194404,
+      "tokens_seen": 1470103552
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023968974650018918,
+      "loss": 3.1598,
+      "theoretical_loss": 3.522115827708778,
+      "tokens_seen": 1471152128
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.492140531539917,
+      "objective/train/docs_used": 834109,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.772519588470459,
+      "objective/train/original_loss": 2.772519588470459,
+      "objective/train/theoretical_loss": 3.522088058328375,
+      "objective/train/tokens_used": 1491743200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2431326061487198,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050450086593628,
+      "objective/train/weighted_lm_loss": 2.913102626800537,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9724238514900208,
+      "theoretical_loss": 3.522088058328375,
+      "tokens_seen": 1471283200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002395005675368899,
+      "loss": 3.1937,
+      "theoretical_loss": 3.5218937612886068,
+      "tokens_seen": 1472200704
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023931138857359062,
+      "loss": 3.1715,
+      "theoretical_loss": 3.521671897229922,
+      "tokens_seen": 1473249280
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023912220961029134,
+      "loss": 3.1673,
+      "theoretical_loss": 3.521450235204485,
+      "tokens_seen": 1474297856
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.4695150852203369,
+      "objective/train/docs_used": 835915,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.096074342727661,
+      "objective/train/original_loss": 3.096074104309082,
+      "objective/train/theoretical_loss": 3.521394851227428,
+      "objective/train/tokens_used": 1495020000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23337149620056152,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481371879577637,
+      "objective/train/weighted_lm_loss": 3.2463152408599854,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9514370560646057,
+      "theoretical_loss": 3.521394851227428,
+      "tokens_seen": 1474560000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023893303064699206,
+      "loss": 3.2446,
+      "theoretical_loss": 3.521228774884823,
+      "tokens_seen": 1475346432
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023874385168369278,
+      "loss": 3.2234,
+      "theoretical_loss": 3.521007515944228,
+      "tokens_seen": 1476395008
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002385546727203935,
+      "loss": 3.1922,
+      "theoretical_loss": 3.52078645805675,
+      "tokens_seen": 1477443584
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.49413806200027466,
+      "objective/train/docs_used": 837471,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.045189380645752,
+      "objective/train/original_loss": 3.04518985748291,
+      "objective/train/theoretical_loss": 3.5207036131165568,
+      "objective/train/tokens_used": 1498296800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24563145637512207,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506623983383179,
+      "objective/train/weighted_lm_loss": 3.1994035243988037,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9573822617530823,
+      "theoretical_loss": 3.5207036131165568,
+      "tokens_seen": 1477836800
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002383654937570942,
+      "loss": 3.1572,
+      "theoretical_loss": 3.5205656008972,
+      "tokens_seen": 1478492160
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023817631479379492,
+      "loss": 3.1917,
+      "theoretical_loss": 3.5203449441411423,
+      "tokens_seen": 1479540736
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023798713583049567,
+      "loss": 3.1977,
+      "theoretical_loss": 3.5201244874648983,
+      "tokens_seen": 1480589312
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.4763402044773102,
+      "objective/train/docs_used": 839384,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.983619213104248,
+      "objective/train/original_loss": 2.983618974685669,
+      "objective/train/theoretical_loss": 3.5200143340557615,
+      "objective/train/tokens_used": 1501573600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23397092521190643,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488231182098389,
+      "objective/train/weighted_lm_loss": 3.1282737255096436,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9571855068206787,
+      "theoretical_loss": 3.5200143340557615,
+      "tokens_seen": 1481113600
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023779795686719639,
+      "loss": 3.2497,
+      "theoretical_loss": 3.519904230545538,
+      "tokens_seen": 1481637888
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002376087779038971,
+      "loss": 3.1995,
+      "theoretical_loss": 3.5196841730608828,
+      "tokens_seen": 1482686464
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002374195989405978,
+      "loss": 3.2798,
+      "theoretical_loss": 3.5194643146895,
+      "tokens_seen": 1483735040
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.48236167430877686,
+      "objective/train/docs_used": 841281,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0101518630981445,
+      "objective/train/original_loss": 3.0101518630981445,
+      "objective/train/theoretical_loss": 3.5193270041770703,
+      "objective/train/tokens_used": 1504850400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23790954053401947,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494455099105835,
+      "objective/train/weighted_lm_loss": 3.15853214263916,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9519292712211609,
+      "theoretical_loss": 3.5193270041770703,
+      "tokens_seen": 1484390400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023723041997729852,
+      "loss": 3.2623,
+      "theoretical_loss": 3.5192446551107017,
+      "tokens_seen": 1484783616
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023704124101399924,
+      "loss": 3.2571,
+      "theoretical_loss": 3.519025194004543,
+      "tokens_seen": 1485832192
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002368520620507,
+      "loss": 3.1932,
+      "theoretical_loss": 3.518805931051819,
+      "tokens_seen": 1486880768
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.47434303164482117,
+      "objective/train/docs_used": 843256,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2128210067749023,
+      "objective/train/original_loss": 3.2128210067749023,
+      "objective/train/theoretical_loss": 3.518641613683862,
+      "objective/train/tokens_used": 1508127200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2341526299715042,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486242771148682,
+      "objective/train/weighted_lm_loss": 3.368643045425415,
+      "objective/train/weights_max": 1.0512194633483887,
+      "objective/train/weights_min": 0.9513967037200928,
+      "theoretical_loss": 3.518641613683862,
+      "tokens_seen": 1487667200
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023666288308740068,
+      "loss": 3.2328,
+      "theoretical_loss": 3.5185868659340627,
+      "tokens_seen": 1487929344
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002364737041241014,
+      "loss": 3.2408,
+      "theoretical_loss": 3.518367998333543,
+      "tokens_seen": 1488977920
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023628452516080212,
+      "loss": 3.1762,
+      "theoretical_loss": 3.518149327933262,
+      "tokens_seen": 1490026496
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.4800264835357666,
+      "objective/train/docs_used": 844947,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1356568336486816,
+      "objective/train/original_loss": 3.1356565952301025,
+      "objective/train/theoretical_loss": 3.517958152850192,
+      "objective/train/tokens_used": 1511404000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2361105978488922,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049202799797058,
+      "objective/train/weighted_lm_loss": 3.289992332458496,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9541196823120117,
+      "theoretical_loss": 3.517958152850192,
+      "tokens_seen": 1490944000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023609534619750284,
+      "loss": 3.321,
+      "theoretical_loss": 3.5179308544169543,
+      "tokens_seen": 1491075072
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023590616723420354,
+      "loss": 3.2112,
+      "theoretical_loss": 3.5177125774690827,
+      "tokens_seen": 1492123648
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023571698827090428,
+      "loss": 3.2648,
+      "theoretical_loss": 3.517494496774837,
+      "tokens_seen": 1493172224
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.4808512330055237,
+      "objective/train/docs_used": 846677,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1397337913513184,
+      "objective/train/original_loss": 3.1397337913513184,
+      "objective/train/theoretical_loss": 3.517276612020132,
+      "objective/train/tokens_used": 1514680800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23949705064296722,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049302339553833,
+      "objective/train/weighted_lm_loss": 3.2939443588256836,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9525419473648071,
+      "theoretical_loss": 3.517276612020132,
+      "tokens_seen": 1494220800
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000235527809307605,
+      "loss": 3.257,
+      "theoretical_loss": 3.517276612020132,
+      "tokens_seen": 1494220800
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023533863034430573,
+      "loss": 3.2537,
+      "theoretical_loss": 3.5170589228916054,
+      "tokens_seen": 1495269376
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023514945138100645,
+      "loss": 3.2567,
+      "theoretical_loss": 3.516841429076615,
+      "tokens_seen": 1496317952
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00023496027241770714,
+      "loss": 3.206,
+      "theoretical_loss": 3.516624130263237,
+      "tokens_seen": 1497366528
+    },
+    {
+      "epoch": 0.53,
+      "objective/train/advantage_avg": 0.4818221628665924,
+      "objective/train/docs_used": 848503,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1971991062164307,
+      "objective/train/original_loss": 3.1971988677978516,
+      "objective/train/theoretical_loss": 3.5165969816071083,
+      "objective/train/tokens_used": 1517957600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24132023751735687,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494087934494019,
+      "objective/train/weighted_lm_loss": 3.355829954147339,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9549484848976135,
+      "theoretical_loss": 3.5165969816071083,
+      "tokens_seen": 1497497600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023477109345440786,
+      "loss": 3.2779,
+      "theoretical_loss": 3.5164070261402633,
+      "tokens_seen": 1498415104
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002345819144911086,
+      "loss": 3.2636,
+      "theoretical_loss": 3.516190116397201,
+      "tokens_seen": 1499463680
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023439273552780933,
+      "loss": 3.2725,
+      "theoretical_loss": 3.5159734007242682,
+      "tokens_seen": 1500512256
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.4783119261264801,
+      "objective/train/docs_used": 850745,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.984816312789917,
+      "objective/train/original_loss": 2.984816312789917,
+      "objective/train/theoretical_loss": 3.5159192520932576,
+      "objective/train/tokens_used": 1521234400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23693495988845825,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490354299545288,
+      "objective/train/weighted_lm_loss": 3.1317691802978516,
+      "objective/train/weights_max": 1.0512199401855469,
+      "objective/train/weights_min": 0.95163893699646,
+      "theoretical_loss": 3.5159192520932576,
+      "tokens_seen": 1500774400
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023420355656451002,
+      "loss": 3.2283,
+      "theoretical_loss": 3.5157568788123923,
+      "tokens_seen": 1501560832
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023401437760121074,
+      "loss": 3.1501,
+      "theoretical_loss": 3.515540550353209,
+      "tokens_seen": 1502609408
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023382519863791146,
+      "loss": 3.2351,
+      "theoretical_loss": 3.5153244150390597,
+      "tokens_seen": 1503657984
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.48390939831733704,
+      "objective/train/docs_used": 852130,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0634584426879883,
+      "objective/train/original_loss": 3.0634589195251465,
+      "objective/train/theoretical_loss": 3.515243414028785,
+      "objective/train/tokens_used": 1524511200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24005842208862305,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496110916137695,
+      "objective/train/weighted_lm_loss": 3.215369462966919,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.954659104347229,
+      "theoretical_loss": 3.515243414028785,
+      "tokens_seen": 1504051200
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023363601967461218,
+      "loss": 3.1928,
+      "theoretical_loss": 3.5151084725629884,
+      "tokens_seen": 1504706560
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023344684071131293,
+      "loss": 3.1693,
+      "theoretical_loss": 3.5148927226187405,
+      "tokens_seen": 1505755136
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023325766174801362,
+      "loss": 3.2186,
+      "theoretical_loss": 3.514677164900762,
+      "tokens_seen": 1506803712
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.47938430309295654,
+      "objective/train/docs_used": 853500,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.098717451095581,
+      "objective/train/original_loss": 3.0987181663513184,
+      "objective/train/theoretical_loss": 3.5145694580313287,
+      "objective/train/tokens_used": 1527788000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23806166648864746,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049148440361023,
+      "objective/train/weighted_lm_loss": 3.24904203414917,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9516683220863342,
+      "theoretical_loss": 3.5145694580313287,
+      "tokens_seen": 1507328000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023306848278471435,
+      "loss": 3.2394,
+      "theoretical_loss": 3.514461799104195,
+      "tokens_seen": 1507852288
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023287930382141507,
+      "loss": 3.2555,
+      "theoretical_loss": 3.5142466249248754,
+      "tokens_seen": 1508900864
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023269012485811579,
+      "loss": 3.2389,
+      "theoretical_loss": 3.5140316420593347,
+      "tokens_seen": 1509949440
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.48630884289741516,
+      "objective/train/docs_used": 854981,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7976765632629395,
+      "objective/train/original_loss": 2.7976765632629395,
+      "objective/train/theoretical_loss": 3.5138973747853353,
+      "objective/train/tokens_used": 1531064800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23877815902233124,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04984450340271,
+      "objective/train/weighted_lm_loss": 2.9376676082611084,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9745818972587585,
+      "theoretical_loss": 3.5138973747853353,
+      "tokens_seen": 1510604800
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023250094589481648,
+      "loss": 3.2002,
+      "theoretical_loss": 3.513816850204793,
+      "tokens_seen": 1510998016
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023231176693151723,
+      "loss": 3.2134,
+      "theoretical_loss": 3.5136022490591605,
+      "tokens_seen": 1512046592
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023212258796821795,
+      "loss": 3.2219,
+      "theoretical_loss": 3.5133878383210337,
+      "tokens_seen": 1513095168
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.4808279871940613,
+      "objective/train/docs_used": 857043,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.932635545730591,
+      "objective/train/original_loss": 2.93263578414917,
+      "objective/train/theoretical_loss": 3.513227155041438,
+      "objective/train/tokens_used": 1534341600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23708273470401764,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492877960205078,
+      "objective/train/weighted_lm_loss": 3.0757665634155273,
+      "objective/train/weights_max": 1.0512207746505737,
+      "objective/train/weights_min": 0.952289342880249,
+      "theoretical_loss": 3.513227155041438,
+      "tokens_seen": 1513881600
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023193340900491867,
+      "loss": 3.2437,
+      "theoretical_loss": 3.513173617689695,
+      "tokens_seen": 1514143744
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023174423004161936,
+      "loss": 3.2108,
+      "theoretical_loss": 3.512959586865108,
+      "tokens_seen": 1515192320
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023155505107832008,
+      "loss": 3.2642,
+      "theoretical_loss": 3.512745745547918,
+      "tokens_seen": 1516240896
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.4857465922832489,
+      "objective/train/docs_used": 859161,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.04585599899292,
+      "objective/train/original_loss": 3.04585599899292,
+      "objective/train/theoretical_loss": 3.5125587896158477,
+      "objective/train/tokens_used": 1537618400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2411489188671112,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498003959655762,
+      "objective/train/weighted_lm_loss": 3.1971046924591064,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9541661739349365,
+      "theoretical_loss": 3.5125587896158477,
+      "tokens_seen": 1517158400
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002313658721150208,
+      "loss": 3.1957,
+      "theoretical_loss": 3.5125320934394484,
+      "tokens_seen": 1517289472
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023117669315172155,
+      "loss": 3.2254,
+      "theoretical_loss": 3.5123186302417007,
+      "tokens_seen": 1518338048
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023098751418842227,
+      "loss": 3.189,
+      "theoretical_loss": 3.51210535565735,
+      "tokens_seen": 1519386624
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.4926300644874573,
+      "objective/train/docs_used": 861286,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.171475887298584,
+      "objective/train/original_loss": 3.171476125717163,
+      "objective/train/theoretical_loss": 3.511892269389743,
+      "objective/train/tokens_used": 1540895200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2442355751991272,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505046844482422,
+      "objective/train/weighted_lm_loss": 3.3321945667266846,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9602129459381104,
+      "theoretical_loss": 3.511892269389743,
+      "tokens_seen": 1520435200
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023079833522512296,
+      "loss": 3.1388,
+      "theoretical_loss": 3.511892269389743,
+      "tokens_seen": 1520435200
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023060915626182369,
+      "loss": 3.1666,
+      "theoretical_loss": 3.5116793711429004,
+      "tokens_seen": 1521483776
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0002304199772985244,
+      "loss": 3.1639,
+      "theoretical_loss": 3.511466660621508,
+      "tokens_seen": 1522532352
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023023079833522513,
+      "loss": 3.2193,
+      "theoretical_loss": 3.5112541375309214,
+      "tokens_seen": 1523580928
+    },
+    {
+      "epoch": 0.54,
+      "objective/train/advantage_avg": 0.48999133706092834,
+      "objective/train/docs_used": 863379,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7391910552978516,
+      "objective/train/original_loss": 2.7391910552978516,
+      "objective/train/theoretical_loss": 3.511227585308678,
+      "objective/train/tokens_used": 1544172000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24297131597995758,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050234317779541,
+      "objective/train/weighted_lm_loss": 2.8769237995147705,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9612780213356018,
+      "theoretical_loss": 3.511227585308678,
+      "tokens_seen": 1523712000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00023004161937192585,
+      "loss": 3.2179,
+      "theoretical_loss": 3.511041801577159,
+      "tokens_seen": 1524629504
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00022985244040862657,
+      "loss": 3.2151,
+      "theoretical_loss": 3.510829652466904,
+      "tokens_seen": 1525678080
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002296632614453273,
+      "loss": 3.2204,
+      "theoretical_loss": 3.5106176899074972,
+      "tokens_seen": 1526726656
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.4816513955593109,
+      "objective/train/docs_used": 865312,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0186238288879395,
+      "objective/train/original_loss": 3.0186238288879395,
+      "objective/train/theoretical_loss": 3.510564728381983,
+      "objective/train/tokens_used": 1547448800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23675787448883057,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493686199188232,
+      "objective/train/weighted_lm_loss": 3.1666901111602783,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9688776731491089,
+      "theoretical_loss": 3.510564728381983,
+      "tokens_seen": 1526988800
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.000229474082482028,
+      "loss": 3.1873,
+      "theoretical_loss": 3.510405913606943,
+      "tokens_seen": 1527775232
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022928490351872873,
+      "loss": 3.2087,
+      "theoretical_loss": 3.510194323273899,
+      "tokens_seen": 1528823808
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022909572455542942,
+      "loss": 3.153,
+      "theoretical_loss": 3.5099829186176796,
+      "tokens_seen": 1529872384
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.494413286447525,
+      "objective/train/docs_used": 867418,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9637973308563232,
+      "objective/train/original_loss": 2.9637973308563232,
+      "objective/train/theoretical_loss": 3.5099036896821874,
+      "objective/train/tokens_used": 1550725600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24574802815914154,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506906509399414,
+      "objective/train/weighted_lm_loss": 3.114089250564575,
+      "objective/train/weights_max": 1.0512158870697021,
+      "objective/train/weights_min": 0.9844887256622314,
+      "theoretical_loss": 3.5099036896821874,
+      "tokens_seen": 1530265600
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022890654559213017,
+      "loss": 3.1477,
+      "theoretical_loss": 3.509771699348253,
+      "tokens_seen": 1530920960
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002287173666288309,
+      "loss": 3.1358,
+      "theoretical_loss": 3.5095606651762368,
+      "tokens_seen": 1531969536
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002285281876655316,
+      "loss": 3.1609,
+      "theoretical_loss": 3.5093498158128997,
+      "tokens_seen": 1533018112
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.4862027168273926,
+      "objective/train/docs_used": 869264,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.031954526901245,
+      "objective/train/original_loss": 3.031954526901245,
+      "objective/train/theoretical_loss": 3.5092444603444344,
+      "objective/train/tokens_used": 1554002400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2403550148010254,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498418807983398,
+      "objective/train/weighted_lm_loss": 3.1832399368286133,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9602664709091187,
+      "theoretical_loss": 3.5092444603444344,
+      "tokens_seen": 1533542400
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002283390087022323,
+      "loss": 3.1915,
+      "theoretical_loss": 3.509139150970157,
+      "tokens_seen": 1534066688
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022814982973893303,
+      "loss": 3.1134,
+      "theoretical_loss": 3.5089286703605698,
+      "tokens_seen": 1535115264
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022796065077563375,
+      "loss": 3.2115,
+      "theoretical_loss": 3.5087183736973437,
+      "tokens_seen": 1536163840
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.4853838384151459,
+      "objective/train/docs_used": 871030,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.866541624069214,
+      "objective/train/original_loss": 2.866541862487793,
+      "objective/train/theoretical_loss": 3.5085870315659133,
+      "objective/train/tokens_used": 1557279200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23986515402793884,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497575998306274,
+      "objective/train/weighted_lm_loss": 3.0102427005767822,
+      "objective/train/weights_max": 1.051215410232544,
+      "objective/train/weights_min": 0.9542617797851562,
+      "theoretical_loss": 3.5085870315659133,
+      "tokens_seen": 1536819200
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002277714718123345,
+      "loss": 3.223,
+      "theoretical_loss": 3.5085082606943243,
+      "tokens_seen": 1537212416
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002275822928490352,
+      "loss": 3.1393,
+      "theoretical_loss": 3.508298331065999,
+      "tokens_seen": 1538260992
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002273931138857359,
+      "loss": 3.1253,
+      "theoretical_loss": 3.508088584527492,
+      "tokens_seen": 1539309568
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.4807642698287964,
+      "objective/train/docs_used": 872615,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1632378101348877,
+      "objective/train/original_loss": 3.1632375717163086,
+      "objective/train/theoretical_loss": 3.507931394605294,
+      "objective/train/tokens_used": 1560556000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2371273934841156,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492817163467407,
+      "objective/train/weighted_lm_loss": 3.3185274600982666,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9520975351333618,
+      "theoretical_loss": 3.507931394605294,
+      "tokens_seen": 1540096000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022720393492243663,
+      "loss": 3.1095,
+      "theoretical_loss": 3.5078790207945647,
+      "tokens_seen": 1540358144
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022701475595913735,
+      "loss": 3.1162,
+      "theoretical_loss": 3.507669639583612,
+      "tokens_seen": 1541406720
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022682557699583807,
+      "loss": 3.1987,
+      "theoretical_loss": 3.5074604406116627,
+      "tokens_seen": 1542455296
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.49242639541625977,
+      "objective/train/docs_used": 874504,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1098110675811768,
+      "objective/train/original_loss": 3.1098108291625977,
+      "objective/train/theoretical_loss": 3.507277540782165,
+      "objective/train/tokens_used": 1563832800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24409788846969604,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504834651947021,
+      "objective/train/weighted_lm_loss": 3.2666797637939453,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9536768198013306,
+      "theoretical_loss": 3.507277540782165,
+      "tokens_seen": 1543372800
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002266363980325388,
+      "loss": 3.2216,
+      "theoretical_loss": 3.507251423596374,
+      "tokens_seen": 1543503872
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002264472190692395,
+      "loss": 3.1687,
+      "theoretical_loss": 3.5070425882560343,
+      "tokens_seen": 1544552448
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022625804010594023,
+      "loss": 3.2415,
+      "theoretical_loss": 3.506833934309558,
+      "tokens_seen": 1545601024
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.48686209321022034,
+      "objective/train/docs_used": 876453,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9117236137390137,
+      "objective/train/original_loss": 2.9117236137390137,
+      "objective/train/theoretical_loss": 3.5066254614764842,
+      "objective/train/tokens_used": 1567109600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24117165803909302,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499120950698853,
+      "objective/train/weighted_lm_loss": 3.0574209690093994,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9522051215171814,
+      "theoretical_loss": 3.5066254614764842,
+      "tokens_seen": 1546649600
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022606886114264095,
+      "loss": 3.2028,
+      "theoretical_loss": 3.5066254614764842,
+      "tokens_seen": 1546649600
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022587968217934164,
+      "loss": 3.2477,
+      "theoretical_loss": 3.5064171694769763,
+      "tokens_seen": 1547698176
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022569050321604237,
+      "loss": 3.2099,
+      "theoretical_loss": 3.5062090580318186,
+      "tokens_seen": 1548746752
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002255013242527431,
+      "loss": 3.232,
+      "theoretical_loss": 3.506001126862416,
+      "tokens_seen": 1549795328
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.487368643283844,
+      "objective/train/docs_used": 878255,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.103156566619873,
+      "objective/train/original_loss": 3.103156566619873,
+      "objective/train/theoretical_loss": 3.5059751481280284,
+      "objective/train/tokens_used": 1570386400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24058666825294495,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049959659576416,
+      "objective/train/weighted_lm_loss": 3.2585041522979736,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9520174860954285,
+      "theoretical_loss": 3.5059751481280284,
+      "tokens_seen": 1549926400
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022531214528944383,
+      "loss": 3.2565,
+      "theoretical_loss": 3.505793375690791,
+      "tokens_seen": 1550843904
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022512296632614455,
+      "loss": 3.1939,
+      "theoretical_loss": 3.5055858042395815,
+      "tokens_seen": 1551892480
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00022493378736284525,
+      "loss": 3.155,
+      "theoretical_loss": 3.5053784122320417,
+      "tokens_seen": 1552941056
+    },
+    {
+      "epoch": 0.55,
+      "objective/train/advantage_avg": 0.4909485876560211,
+      "objective/train/docs_used": 880445,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8173828125,
+      "objective/train/original_loss": 2.8173828125,
+      "objective/train/theoretical_loss": 3.505326592235857,
+      "objective/train/tokens_used": 1573663200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24372120201587677,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050333857536316,
+      "objective/train/weighted_lm_loss": 2.9595131874084473,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9670907855033875,
+      "theoretical_loss": 3.505326592235857,
+      "tokens_seen": 1553203200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022474460839954597,
+      "loss": 3.1608,
+      "theoretical_loss": 3.505171199392036,
+      "tokens_seen": 1553989632
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002245554294362467,
+      "loss": 3.1919,
+      "theoretical_loss": 3.504964165444042,
+      "tokens_seen": 1555038208
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022436625047294744,
+      "loss": 3.1549,
+      "theoretical_loss": 3.504757310113145,
+      "tokens_seen": 1556086784
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.4909573793411255,
+      "objective/train/docs_used": 881444,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.154583215713501,
+      "objective/train/original_loss": 3.15458345413208,
+      "objective/train/theoretical_loss": 3.504679785357773,
+      "objective/train/tokens_used": 1576940000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24360138177871704,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503339767456055,
+      "objective/train/weighted_lm_loss": 3.3135523796081543,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9545013904571533,
+      "theoretical_loss": 3.504679785357773,
+      "tokens_seen": 1556480000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022417707150964813,
+      "loss": 3.203,
+      "theoretical_loss": 3.5045506331250382,
+      "tokens_seen": 1557135360
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022398789254634885,
+      "loss": 3.1861,
+      "theoretical_loss": 3.50434413420602,
+      "tokens_seen": 1558183936
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022379871358304957,
+      "loss": 3.1586,
+      "theoretical_loss": 3.504137813082994,
+      "tokens_seen": 1559232512
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.47179633378982544,
+      "objective/train/docs_used": 883210,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7676148414611816,
+      "objective/train/original_loss": 2.7676148414611816,
+      "objective/train/theoretical_loss": 3.504034719109799,
+      "objective/train/tokens_used": 1580216800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23406490683555603,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04836905002594,
+      "objective/train/weighted_lm_loss": 2.9026639461517334,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9523040652275085,
+      "theoretical_loss": 3.504034719109799,
+      "tokens_seen": 1559756800
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002236095346197503,
+      "loss": 3.1069,
+      "theoretical_loss": 3.5039316694834635,
+      "tokens_seen": 1560281088
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022342035565645098,
+      "loss": 3.1383,
+      "theoretical_loss": 3.5037257031355344,
+      "tokens_seen": 1561329664
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022323117669315173,
+      "loss": 3.1619,
+      "theoretical_loss": 3.5035199137679105,
+      "tokens_seen": 1562378240
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.4887843728065491,
+      "objective/train/docs_used": 884815,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8651185035705566,
+      "objective/train/original_loss": 2.8651180267333984,
+      "objective/train/theoretical_loss": 3.50339138516565,
+      "objective/train/tokens_used": 1583493600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24095383286476135,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501031875610352,
+      "objective/train/weighted_lm_loss": 3.0087907314300537,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.957360029220581,
+      "theoretical_loss": 3.50339138516565,
+      "tokens_seen": 1563033600
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022304199772985245,
+      "loss": 3.234,
+      "theoretical_loss": 3.503314301109892,
+      "tokens_seen": 1563426816
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022285281876655317,
+      "loss": 3.1352,
+      "theoretical_loss": 3.5031088648913755,
+      "tokens_seen": 1564475392
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002226636398032539,
+      "loss": 3.2193,
+      "theoretical_loss": 3.5029036048428503,
+      "tokens_seen": 1565523968
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.48724234104156494,
+      "objective/train/docs_used": 886685,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.778803825378418,
+      "objective/train/original_loss": 2.778803825378418,
+      "objective/train/theoretical_loss": 3.5027497752562198,
+      "objective/train/tokens_used": 1586770400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23980683088302612,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499430894851685,
+      "objective/train/weighted_lm_loss": 2.9186336994171143,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9529886245727539,
+      "theoretical_loss": 3.5027497752562198,
+      "tokens_seen": 1566310400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002224744608399546,
+      "loss": 3.1987,
+      "theoretical_loss": 3.502698520695398,
+      "tokens_seen": 1566572544
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002222852818766553,
+      "loss": 3.0677,
+      "theoretical_loss": 3.5024936121806896,
+      "tokens_seen": 1567621120
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022209610291335606,
+      "loss": 3.1452,
+      "theoretical_loss": 3.502288879030986,
+      "tokens_seen": 1568669696
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.4725601077079773,
+      "objective/train/docs_used": 888616,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0799059867858887,
+      "objective/train/original_loss": 3.0799059867858887,
+      "objective/train/theoretical_loss": 3.5021098811690674,
+      "objective/train/tokens_used": 1590047200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.233866885304451,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484446287155151,
+      "objective/train/weighted_lm_loss": 3.228604316711426,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9518508315086365,
+      "theoretical_loss": 3.5021098811690674,
+      "tokens_seen": 1569587200
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022190692395005678,
+      "loss": 3.1714,
+      "theoretical_loss": 3.5020843209791326,
+      "tokens_seen": 1569718272
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022171774498675747,
+      "loss": 3.1314,
+      "theoretical_loss": 3.501879937758562,
+      "tokens_seen": 1570766848
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002215285660234582,
+      "loss": 3.1833,
+      "theoretical_loss": 3.5016757291032903,
+      "tokens_seen": 1571815424
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.48864632844924927,
+      "objective/train/docs_used": 890514,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.864938259124756,
+      "objective/train/original_loss": 2.864938259124756,
+      "objective/train/theoretical_loss": 3.501471694747913,
+      "objective/train/tokens_used": 1593324000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24329259991645813,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501012802124023,
+      "objective/train/weighted_lm_loss": 3.0083770751953125,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9517747163772583,
+      "theoretical_loss": 3.501471694747913,
+      "tokens_seen": 1572864000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002213393870601589,
+      "loss": 3.1617,
+      "theoretical_loss": 3.501471694747913,
+      "tokens_seen": 1572864000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022115020809685963,
+      "loss": 3.2548,
+      "theoretical_loss": 3.5012678344276082,
+      "tokens_seen": 1573912576
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022096102913356035,
+      "loss": 3.1995,
+      "theoretical_loss": 3.5010641478781306,
+      "tokens_seen": 1574961152
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022077185017026107,
+      "loss": 3.2114,
+      "theoretical_loss": 3.5008606348358136,
+      "tokens_seen": 1576009728
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.4617477357387543,
+      "objective/train/docs_used": 892478,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0483834743499756,
+      "objective/train/original_loss": 3.0483834743499756,
+      "objective/train/theoretical_loss": 3.5008352078921368,
+      "objective/train/tokens_used": 1596600800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.227500781416893,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0473309755325317,
+      "objective/train/weighted_lm_loss": 3.1940760612487793,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9527806043624878,
+      "theoretical_loss": 3.5008352078921368,
+      "tokens_seen": 1576140800
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002205826712069618,
+      "loss": 3.2382,
+      "theoretical_loss": 3.5006572950375645,
+      "tokens_seen": 1577058304
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002203934922436625,
+      "loss": 3.1722,
+      "theoretical_loss": 3.5004541282208637,
+      "tokens_seen": 1578106880
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022020431328036323,
+      "loss": 3.1883,
+      "theoretical_loss": 3.500251134123765,
+      "tokens_seen": 1579155456
+    },
+    {
+      "epoch": 0.56,
+      "objective/train/advantage_avg": 0.48032376170158386,
+      "objective/train/docs_used": 894462,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.296074390411377,
+      "objective/train/original_loss": 3.296074390411377,
+      "objective/train/theoretical_loss": 3.5002004125562856,
+      "objective/train/tokens_used": 1599877600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23856282234191895,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492448806762695,
+      "objective/train/weighted_lm_loss": 3.4574201107025146,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9516441226005554,
+      "theoretical_loss": 3.5002004125562856,
+      "tokens_seen": 1579417600
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00022001513431706393,
+      "loss": 3.2023,
+      "theoretical_loss": 3.500048312484891,
+      "tokens_seen": 1580204032
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00021982595535376468,
+      "loss": 3.2244,
+      "theoretical_loss": 3.4998456630434336,
+      "tokens_seen": 1581252608
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002196367763904654,
+      "loss": 3.1959,
+      "theoretical_loss": 3.499643185539152,
+      "tokens_seen": 1582301184
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.47416922450065613,
+      "objective/train/docs_used": 896326,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.748246431350708,
+      "objective/train/original_loss": 2.748246431350708,
+      "objective/train/theoretical_loss": 3.4995673007495816,
+      "objective/train/tokens_used": 1603154400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2362240105867386,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486173629760742,
+      "objective/train/weighted_lm_loss": 2.8795387744903564,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.951950192451477,
+      "theoretical_loss": 3.4995673007495816,
+      "tokens_seen": 1582694400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021944759742716612,
+      "loss": 3.173,
+      "theoretical_loss": 3.4994408797123704,
+      "tokens_seen": 1583349760
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002192584184638668,
+      "loss": 3.1532,
+      "theoretical_loss": 3.499238745303977,
+      "tokens_seen": 1584398336
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021906923950056753,
+      "loss": 3.163,
+      "theoretical_loss": 3.4990367820554216,
+      "tokens_seen": 1585446912
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.48116692900657654,
+      "objective/train/docs_used": 897668,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.866941213607788,
+      "objective/train/original_loss": 2.866940975189209,
+      "objective/train/theoretical_loss": 3.49893586453544,
+      "objective/train/tokens_used": 1606431200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23899151384830475,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493313074111938,
+      "objective/train/weighted_lm_loss": 3.009093999862671,
+      "objective/train/weights_max": 1.051215410232544,
+      "objective/train/weights_min": 0.951438844203949,
+      "theoretical_loss": 3.49893586453544,
+      "tokens_seen": 1585971200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021888006053726825,
+      "loss": 3.1054,
+      "theoretical_loss": 3.498834989708716,
+      "tokens_seen": 1586495488
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.000218690881573969,
+      "loss": 3.1044,
+      "theoretical_loss": 3.4986333680064297,
+      "tokens_seen": 1587544064
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021850170261066972,
+      "loss": 3.1573,
+      "theoretical_loss": 3.4984319166916906,
+      "tokens_seen": 1588592640
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.44459864497184753,
+      "objective/train/docs_used": 899481,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.089205503463745,
+      "objective/train/original_loss": 3.089205503463745,
+      "objective/train/theoretical_loss": 3.4983060960309915,
+      "objective/train/tokens_used": 1609708000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.233369842171669,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.045644998550415,
+      "objective/train/weighted_lm_loss": 3.2272956371307373,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9539871215820312,
+      "theoretical_loss": 3.4983060960309915,
+      "tokens_seen": 1589248000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002183125236473704,
+      "loss": 3.099,
+      "theoretical_loss": 3.4982306355081825,
+      "tokens_seen": 1589641216
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021812334468407113,
+      "loss": 3.1155,
+      "theoretical_loss": 3.4980295242001422,
+      "tokens_seen": 1590689792
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021793416572077185,
+      "loss": 3.1532,
+      "theoretical_loss": 3.497828582512361,
+      "tokens_seen": 1591738368
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.4910542070865631,
+      "objective/train/docs_used": 902104,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7395198345184326,
+      "objective/train/original_loss": 2.7395195960998535,
+      "objective/train/theoretical_loss": 3.4976779874066066,
+      "objective/train/tokens_used": 1612984800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24307867884635925,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503411293029785,
+      "objective/train/weighted_lm_loss": 2.8776791095733643,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.95230633020401,
+      "theoretical_loss": 3.4976779874066066,
+      "tokens_seen": 1592524800
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021774498675747257,
+      "loss": 3.0806,
+      "theoretical_loss": 3.4976278101901803,
+      "tokens_seen": 1592786944
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002175558077941733,
+      "loss": 3.1768,
+      "theoretical_loss": 3.4974272069794914,
+      "tokens_seen": 1593835520
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021736662883087402,
+      "loss": 3.1855,
+      "theoretical_loss": 3.4972267726267336,
+      "tokens_seen": 1594884096
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.48677858710289,
+      "objective/train/docs_used": 903830,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6319079399108887,
+      "objective/train/original_loss": 2.6319079399108887,
+      "objective/train/theoretical_loss": 3.497051530885427,
+      "objective/train/tokens_used": 1616261600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23925882577896118,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498939752578735,
+      "objective/train/weighted_lm_loss": 2.763871192932129,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9580140113830566,
+      "theoretical_loss": 3.497051530885427,
+      "tokens_seen": 1595801600
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021717744986757474,
+      "loss": 3.1649,
+      "theoretical_loss": 3.4970265068788944,
+      "tokens_seen": 1595932672
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021698827090427546,
+      "loss": 3.1523,
+      "theoretical_loss": 3.4968264094835027,
+      "tokens_seen": 1596981248
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021679909194097615,
+      "loss": 3.1599,
+      "theoretical_loss": 3.4966264801886346,
+      "tokens_seen": 1598029824
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.49028122425079346,
+      "objective/train/docs_used": 906083,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0217175483703613,
+      "objective/train/original_loss": 3.0217177867889404,
+      "objective/train/theoretical_loss": 3.4964267187429066,
+      "objective/train/tokens_used": 1619538400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24274671077728271,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502620935440063,
+      "objective/train/weighted_lm_loss": 3.173563003540039,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9540677070617676,
+      "theoretical_loss": 3.4964267187429066,
+      "tokens_seen": 1599078400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021660991297767687,
+      "loss": 3.1587,
+      "theoretical_loss": 3.4964267187429066,
+      "tokens_seen": 1599078400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021642073401437762,
+      "loss": 3.134,
+      "theoretical_loss": 3.4962271248954755,
+      "tokens_seen": 1600126976
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021623155505107834,
+      "loss": 3.1665,
+      "theoretical_loss": 3.4960276983960368,
+      "tokens_seen": 1601175552
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021604237608777906,
+      "loss": 3.0887,
+      "theoretical_loss": 3.495828438994824,
+      "tokens_seen": 1602224128
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.4898524582386017,
+      "objective/train/docs_used": 907881,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.784710645675659,
+      "objective/train/original_loss": 2.784710168838501,
+      "objective/train/theoretical_loss": 3.495803543306348,
+      "objective/train/tokens_used": 1622815200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2425891011953354,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502182245254517,
+      "objective/train/weighted_lm_loss": 2.924830436706543,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.95200514793396,
+      "theoretical_loss": 3.495803543306348,
+      "tokens_seen": 1602355200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021585319712447975,
+      "loss": 3.1445,
+      "theoretical_loss": 3.495629346442607,
+      "tokens_seen": 1603272704
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021566401816118047,
+      "loss": 3.1624,
+      "theoretical_loss": 3.4954304204906896,
+      "tokens_seen": 1604321280
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0002154748391978812,
+      "loss": 3.1413,
+      "theoretical_loss": 3.4952316608909078,
+      "tokens_seen": 1605369856
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.4899497926235199,
+      "objective/train/docs_used": 909847,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2979307174682617,
+      "objective/train/original_loss": 3.2979307174682617,
+      "objective/train/theoretical_loss": 3.495181996954453,
+      "objective/train/tokens_used": 1626092000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24249549210071564,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502275228500366,
+      "objective/train/weighted_lm_loss": 3.4631145000457764,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9523872137069702,
+      "theoretical_loss": 3.495181996954453,
+      "tokens_seen": 1605632000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021528566023458194,
+      "loss": 3.1345,
+      "theoretical_loss": 3.49503306739563,
+      "tokens_seen": 1606418432
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021509648127128263,
+      "loss": 3.078,
+      "theoretical_loss": 3.4948346397577543,
+      "tokens_seen": 1607467008
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021490730230798336,
+      "loss": 3.1708,
+      "theoretical_loss": 3.4946363777307075,
+      "tokens_seen": 1608515584
+    },
+    {
+      "epoch": 0.57,
+      "objective/train/advantage_avg": 0.4887382686138153,
+      "objective/train/docs_used": 911828,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.157907247543335,
+      "objective/train/original_loss": 3.1579067707061768,
+      "objective/train/theoretical_loss": 3.4945620721168713,
+      "objective/train/tokens_used": 1629368800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24136415123939514,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501006841659546,
+      "objective/train/weighted_lm_loss": 3.3168606758117676,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.951468825340271,
+      "theoretical_loss": 3.4945620721168713,
+      "tokens_seen": 1608908800
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00021471812334468408,
+      "loss": 3.1846,
+      "theoretical_loss": 3.494438281068443,
+      "tokens_seen": 1609564160
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002145289443813848,
+      "loss": 3.1879,
+      "theoretical_loss": 3.4942403495254393,
+      "tokens_seen": 1610612736
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002143397654180855,
+      "loss": 3.1535,
+      "theoretical_loss": 3.4940425828567,
+      "tokens_seen": 1611661312
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4839933216571808,
+      "objective/train/docs_used": 913095,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9910757541656494,
+      "objective/train/original_loss": 2.9910759925842285,
+      "objective/train/theoretical_loss": 3.493943761273761,
+      "objective/train/tokens_used": 1632645600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23838478326797485,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04961097240448,
+      "objective/train/weighted_lm_loss": 3.1397407054901123,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9523307681083679,
+      "theoretical_loss": 3.493943761273761,
+      "tokens_seen": 1612185600
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021415058645478624,
+      "loss": 3.1622,
+      "theoretical_loss": 3.4938449808177516,
+      "tokens_seen": 1612709888
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021396140749148696,
+      "loss": 3.1853,
+      "theoretical_loss": 3.4936475431646397,
+      "tokens_seen": 1613758464
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021377222852818768,
+      "loss": 3.2193,
+      "theoretical_loss": 3.4934502696539322,
+      "tokens_seen": 1614807040
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.46676307916641235,
+      "objective/train/docs_used": 915136,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3160529136657715,
+      "objective/train/original_loss": 3.3160529136657715,
+      "objective/train/theoretical_loss": 3.493327056955347,
+      "objective/train/tokens_used": 1635922400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23430095613002777,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478670597076416,
+      "objective/train/weighted_lm_loss": 3.474302291870117,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9522300958633423,
+      "theoretical_loss": 3.493327056955347,
+      "tokens_seen": 1615462400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002135830495648884,
+      "loss": 3.1691,
+      "theoretical_loss": 3.493253160042713,
+      "tokens_seen": 1615855616
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002133938706015891,
+      "loss": 3.1744,
+      "theoretical_loss": 3.4930562140885844,
+      "tokens_seen": 1616904192
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002132046916382898,
+      "loss": 3.1364,
+      "theoretical_loss": 3.492859431549663,
+      "tokens_seen": 1617952768
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4899651110172272,
+      "objective/train/docs_used": 916739,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3264360427856445,
+      "objective/train/original_loss": 3.3264360427856445,
+      "objective/train/theoretical_loss": 3.4927119517414846,
+      "objective/train/tokens_used": 1639199200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2438695728778839,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502362251281738,
+      "objective/train/weighted_lm_loss": 3.493744373321533,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.951538622379303,
+      "theoretical_loss": 3.4927119517414846,
+      "tokens_seen": 1618739200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021301551267499056,
+      "loss": 3.1957,
+      "theoretical_loss": 3.49266281218458,
+      "tokens_seen": 1619001344
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021282633371169128,
+      "loss": 3.2048,
+      "theoretical_loss": 3.49246635575248,
+      "tokens_seen": 1620049920
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021263715474839197,
+      "loss": 3.1662,
+      "theoretical_loss": 3.4922700620130174,
+      "tokens_seen": 1621098496
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4800923466682434,
+      "objective/train/docs_used": 918332,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.748319625854492,
+      "objective/train/original_loss": 2.748319625854492,
+      "objective/train/theoretical_loss": 3.4920984382612357,
+      "objective/train/tokens_used": 1642476000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23431384563446045,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049200177192688,
+      "objective/train/weighted_lm_loss": 2.885237693786621,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9522053599357605,
+      "theoretical_loss": 3.4920984382612357,
+      "tokens_seen": 1622016000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002124479757850927,
+      "loss": 3.1469,
+      "theoretical_loss": 3.492073930726355,
+      "tokens_seen": 1622147072
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021225879682179342,
+      "loss": 3.1629,
+      "theoretical_loss": 3.491877961653168,
+      "tokens_seen": 1623195648
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021206961785849414,
+      "loss": 3.1635,
+      "theoretical_loss": 3.4916821545546344,
+      "tokens_seen": 1624244224
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4663797616958618,
+      "objective/train/docs_used": 920327,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1265220642089844,
+      "objective/train/original_loss": 3.1265220642089844,
+      "objective/train/theoretical_loss": 3.4914865091924394,
+      "objective/train/tokens_used": 1645752800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2259867787361145,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0477863550186157,
+      "objective/train/weighted_lm_loss": 3.2764687538146973,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9532047510147095,
+      "theoretical_loss": 3.4914865091924394,
+      "tokens_seen": 1625292800
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021188043889519488,
+      "loss": 3.1512,
+      "theoretical_loss": 3.4914865091924394,
+      "tokens_seen": 1625292800
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021169125993189558,
+      "loss": 3.2119,
+      "theoretical_loss": 3.4912910253287732,
+      "tokens_seen": 1626341376
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002115020809685963,
+      "loss": 3.2025,
+      "theoretical_loss": 3.4910957027263274,
+      "tokens_seen": 1627389952
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021131290200529702,
+      "loss": 3.1581,
+      "theoretical_loss": 3.490900541148295,
+      "tokens_seen": 1628438528
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4907952547073364,
+      "objective/train/docs_used": 922281,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.313007354736328,
+      "objective/train/original_loss": 3.313007354736328,
+      "objective/train/theoretical_loss": 3.4908761572612947,
+      "objective/train/tokens_used": 1649029600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24451680481433868,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050322413444519,
+      "objective/train/weighted_lm_loss": 3.4795234203338623,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9518669247627258,
+      "theoretical_loss": 3.4908761572612947,
+      "tokens_seen": 1628569600
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021112372304199774,
+      "loss": 3.0487,
+      "theoretical_loss": 3.490705540358369,
+      "tokens_seen": 1629487104
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021093454407869843,
+      "loss": 3.1641,
+      "theoretical_loss": 3.4905107001207414,
+      "tokens_seen": 1630535680
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021074536511539918,
+      "loss": 3.0879,
+      "theoretical_loss": 3.490316020200101,
+      "tokens_seen": 1631584256
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.4708525240421295,
+      "objective/train/docs_used": 923944,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9695937633514404,
+      "objective/train/original_loss": 2.9695937633514404,
+      "objective/train/theoretical_loss": 3.4902673752419417,
+      "objective/train/tokens_used": 1652306400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23232224583625793,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048266053199768,
+      "objective/train/weighted_lm_loss": 3.110866069793701,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9532876014709473,
+      "theoretical_loss": 3.4902673752419417,
+      "tokens_seen": 1631846400
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002105561861520999,
+      "loss": 3.1031,
+      "theoretical_loss": 3.4901215003616333,
+      "tokens_seen": 1632632832
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021036700718880062,
+      "loss": 3.0844,
+      "theoretical_loss": 3.4899271403710164,
+      "tokens_seen": 1633681408
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00021017782822550131,
+      "loss": 3.1156,
+      "theoretical_loss": 3.4897329399944237,
+      "tokens_seen": 1634729984
+    },
+    {
+      "epoch": 0.58,
+      "objective/train/advantage_avg": 0.48439714312553406,
+      "objective/train/docs_used": 925798,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8560261726379395,
+      "objective/train/original_loss": 2.8560264110565186,
+      "objective/train/theoretical_loss": 3.4896601559560523,
+      "objective/train/tokens_used": 1655583200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23803523182868958,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496495962142944,
+      "objective/train/weighted_lm_loss": 2.9979634284973145,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9529846906661987,
+      "theoretical_loss": 3.4896601559560523,
+      "tokens_seen": 1635123200
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00020998864926220204,
+      "loss": 3.0956,
+      "theoretical_loss": 3.4895388989985188,
+      "tokens_seen": 1635778560
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00020979947029890276,
+      "loss": 3.111,
+      "theoretical_loss": 3.4893450171504563,
+      "tokens_seen": 1636827136
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002096102913356035,
+      "loss": 3.0926,
+      "theoretical_loss": 3.4891512942178795,
+      "tokens_seen": 1637875712
+    },
+    {
+      "debugging/Self-BLEU-5": 0.4862537472725578,
+      "debugging/distinct-1-grams": 0.7771784690107355,
+      "debugging/distinct-2-grams": 0.9668669456652452,
+      "debugging/entropy-1-grams": 6.202714981817353,
+      "debugging/entropy-2-grams": 7.211883548596637,
+      "debugging/length": 471.0,
+      "debugging/num_segments": 21,
+      "debugging/raw_token_scores_avg": 0.013972360640764236,
+      "debugging/raw_token_scores_std": 0.06252207607030869,
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.4860203266143799,
+      "objective/train/docs_used": 927402,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2737643718719482,
+      "objective/train/original_loss": 3.2737646102905273,
+      "objective/train/theoretical_loss": 3.4890544922724205,
+      "objective/train/tokens_used": 1658860000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2401282638311386,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498225688934326,
+      "objective/train/weighted_lm_loss": 3.4373350143432617,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9551194906234741,
+      "theoretical_loss": 3.4890544922724205,
+      "tokens_seen": 1638400000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020942111237230422,
+      "loss": 3.1852,
+      "theoretical_loss": 3.48895772996892,
+      "tokens_seen": 1638924288
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020923193340900492,
+      "loss": 3.1467,
+      "theoretical_loss": 3.4887643241721955,
+      "tokens_seen": 1639972864
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020904275444570564,
+      "loss": 3.09,
+      "theoretical_loss": 3.4885710765968088,
+      "tokens_seen": 1641021440
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.48904502391815186,
+      "objective/train/docs_used": 928835,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1367592811584473,
+      "objective/train/original_loss": 3.1367592811584473,
+      "objective/train/theoretical_loss": 3.4884503771065636,
+      "objective/train/tokens_used": 1662136800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24231131374835968,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501362085342407,
+      "objective/train/weighted_lm_loss": 3.2936394214630127,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9644740223884583,
+      "theoretical_loss": 3.4884503771065636,
+      "tokens_seen": 1641676800
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020885357548240636,
+      "loss": 3.0997,
+      "theoretical_loss": 3.4883779870123455,
+      "tokens_seen": 1642070016
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020866439651910708,
+      "loss": 3.1374,
+      "theoretical_loss": 3.488185055188876,
+      "tokens_seen": 1643118592
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002084752175558078,
+      "loss": 3.1162,
+      "theoretical_loss": 3.4879922808969486,
+      "tokens_seen": 1644167168
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.4872593283653259,
+      "objective/train/docs_used": 930288,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.094754695892334,
+      "objective/train/original_loss": 3.094754457473755,
+      "objective/train/theoretical_loss": 3.48784780342032,
+      "objective/train/tokens_used": 1665413600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24150964617729187,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049953579902649,
+      "objective/train/weighted_lm_loss": 3.2483839988708496,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9528509378433228,
+      "theoretical_loss": 3.48784780342032,
+      "tokens_seen": 1644953600
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020828603859250852,
+      "loss": 3.1739,
+      "theoretical_loss": 3.4877996639075937,
+      "tokens_seen": 1645215744
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020809685962920924,
+      "loss": 3.1529,
+      "theoretical_loss": 3.4876072039923196,
+      "tokens_seen": 1646264320
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020790768066590996,
+      "loss": 3.1419,
+      "theoretical_loss": 3.4874149009231123,
+      "tokens_seen": 1647312896
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.4832485616207123,
+      "objective/train/docs_used": 932466,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.70462965965271,
+      "objective/train/original_loss": 2.704629898071289,
+      "objective/train/theoretical_loss": 3.4872467642214566,
+      "objective/train/tokens_used": 1668690400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23652879893779755,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495271682739258,
+      "objective/train/weighted_lm_loss": 2.8395895957946777,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9560015797615051,
+      "theoretical_loss": 3.4872467642214566,
+      "tokens_seen": 1648230400
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020771850170261068,
+      "loss": 3.1129,
+      "theoretical_loss": 3.4872227544724312,
+      "tokens_seen": 1648361472
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020752932273931138,
+      "loss": 3.1736,
+      "theoretical_loss": 3.487030764413214,
+      "tokens_seen": 1649410048
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020734014377601212,
+      "loss": 3.1707,
+      "theoretical_loss": 3.4868389305188687,
+      "tokens_seen": 1650458624
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.48778533935546875,
+      "objective/train/docs_used": 934348,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9127755165100098,
+      "objective/train/original_loss": 2.9127755165100098,
+      "objective/train/theoretical_loss": 3.4866472525632766,
+      "objective/train/tokens_used": 1671967200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24155890941619873,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.05000638961792,
+      "objective/train/weighted_lm_loss": 3.0580127239227295,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9531963467597961,
+      "theoretical_loss": 3.4866472525632766,
+      "tokens_seen": 1651507200
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020715096481271284,
+      "loss": 3.096,
+      "theoretical_loss": 3.4866472525632766,
+      "tokens_seen": 1651507200
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020696178584941356,
+      "loss": 3.1461,
+      "theoretical_loss": 3.486455730320789,
+      "tokens_seen": 1652555776
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020677260688611426,
+      "loss": 3.0677,
+      "theoretical_loss": 3.486264363566228,
+      "tokens_seen": 1653604352
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020658342792281498,
+      "loss": 3.1543,
+      "theoretical_loss": 3.4860731520748827,
+      "tokens_seen": 1654652928
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.47505781054496765,
+      "objective/train/docs_used": 936266,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9631354808807373,
+      "objective/train/original_loss": 2.963135242462158,
+      "objective/train/theoretical_loss": 3.4860492615442356,
+      "objective/train/tokens_used": 1675244000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23247912526130676,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04868745803833,
+      "objective/train/weighted_lm_loss": 3.1075222492218018,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9551524519920349,
+      "theoretical_loss": 3.4860492615442356,
+      "tokens_seen": 1654784000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002063942489595157,
+      "loss": 3.0798,
+      "theoretical_loss": 3.4858820956225083,
+      "tokens_seen": 1655701504
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020620506999621645,
+      "loss": 3.0016,
+      "theoretical_loss": 3.4856911939853283,
+      "tokens_seen": 1656750080
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020601589103291714,
+      "loss": 3.1524,
+      "theoretical_loss": 3.485500446940028,
+      "tokens_seen": 1657798656
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.4916464686393738,
+      "objective/train/docs_used": 938319,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8522729873657227,
+      "objective/train/original_loss": 2.8522729873657227,
+      "objective/train/theoretical_loss": 3.485452784307559,
+      "objective/train/tokens_used": 1678520800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24374902248382568,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504037141799927,
+      "objective/train/weighted_lm_loss": 2.996385335922241,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.994926393032074,
+      "theoretical_loss": 3.485452784307559,
+      "tokens_seen": 1658060800
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020582671206961786,
+      "loss": 3.0695,
+      "theoretical_loss": 3.4853098542637566,
+      "tokens_seen": 1658847232
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020563753310631858,
+      "loss": 3.0393,
+      "theoretical_loss": 3.4851194157341263,
+      "tokens_seen": 1659895808
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0002054483541430193,
+      "loss": 3.1038,
+      "theoretical_loss": 3.484929131129207,
+      "tokens_seen": 1660944384
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.48630455136299133,
+      "objective/train/docs_used": 940185,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.038881540298462,
+      "objective/train/original_loss": 3.038881301879883,
+      "objective/train/theoretical_loss": 3.4848578140408613,
+      "objective/train/tokens_used": 1681797600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24110354483127594,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498559474945068,
+      "objective/train/weighted_lm_loss": 3.1900389194488525,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9526039958000183,
+      "theoretical_loss": 3.4848578140408613,
+      "tokens_seen": 1661337600
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020525917517972002,
+      "loss": 3.1271,
+      "theoretical_loss": 3.484739000227532,
+      "tokens_seen": 1661992960
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020506999621642074,
+      "loss": 3.1116,
+      "theoretical_loss": 3.48454902280809,
+      "tokens_seen": 1663041536
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020488081725312146,
+      "loss": 3.106,
+      "theoretical_loss": 3.484359198650326,
+      "tokens_seen": 1664090112
+    },
+    {
+      "epoch": 0.59,
+      "objective/train/advantage_avg": 0.46543005108833313,
+      "objective/train/docs_used": 942299,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8884527683258057,
+      "objective/train/original_loss": 2.8884522914886475,
+      "objective/train/theoretical_loss": 3.4842643439757754,
+      "objective/train/tokens_used": 1685074400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2315172702074051,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0477193593978882,
+      "objective/train/weighted_lm_loss": 3.0250158309936523,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9514710903167725,
+      "theoretical_loss": 3.4842643439757754,
+      "tokens_seen": 1664614400
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00020469163828982218,
+      "loss": 3.097,
+      "theoretical_loss": 3.484169527534143,
+      "tokens_seen": 1665138688
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002045024593265229,
+      "loss": 3.0913,
+      "theoretical_loss": 3.4839800092398967,
+      "tokens_seen": 1666187264
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002043132803632236,
+      "loss": 3.1178,
+      "theoretical_loss": 3.4837906435483967,
+      "tokens_seen": 1667235840
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.49083784222602844,
+      "objective/train/docs_used": 944133,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.160414695739746,
+      "objective/train/original_loss": 3.160414218902588,
+      "objective/train/theoretical_loss": 3.4836723673875793,
+      "objective/train/tokens_used": 1688351200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2420562356710434,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.05031418800354,
+      "objective/train/weighted_lm_loss": 3.320441484451294,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9800860285758972,
+      "theoretical_loss": 3.4836723673875793,
+      "tokens_seen": 1667891200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020412410139992432,
+      "loss": 3.1704,
+      "theoretical_loss": 3.4836014302409053,
+      "tokens_seen": 1668284416
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020393492243662507,
+      "loss": 3.1694,
+      "theoretical_loss": 3.4834123690991334,
+      "tokens_seen": 1669332992
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020374574347332579,
+      "loss": 3.1643,
+      "theoretical_loss": 3.4832234599052434,
+      "tokens_seen": 1670381568
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.48427098989486694,
+      "objective/train/docs_used": 945841,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.058107852935791,
+      "objective/train/original_loss": 3.05810809135437,
+      "objective/train/theoretical_loss": 3.4830818775948327,
+      "objective/train/tokens_used": 1691628000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2393985241651535,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049643874168396,
+      "objective/train/weighted_lm_loss": 3.209540843963623,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9518405795097351,
+      "theoretical_loss": 3.4830818775948327,
+      "tokens_seen": 1671168000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020355656451002648,
+      "loss": 3.1219,
+      "theoretical_loss": 3.483034702441845,
+      "tokens_seen": 1671430144
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002033673855467272,
+      "loss": 3.178,
+      "theoretical_loss": 3.4828460964919965,
+      "tokens_seen": 1672478720
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020317820658342792,
+      "loss": 3.1241,
+      "theoretical_loss": 3.4826576418392,
+      "tokens_seen": 1673527296
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.4750880002975464,
+      "objective/train/docs_used": 947805,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0682384967803955,
+      "objective/train/original_loss": 3.0682387351989746,
+      "objective/train/theoretical_loss": 3.48249286795901,
+      "objective/train/tokens_used": 1694904800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23441539704799652,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048700213432312,
+      "objective/train/weighted_lm_loss": 3.2168827056884766,
+      "objective/train/weights_max": 1.0512195825576782,
+      "objective/train/weights_min": 0.9514750838279724,
+      "theoretical_loss": 3.48249286795901,
+      "tokens_seen": 1674444800
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020298902762012864,
+      "loss": 3.1192,
+      "theoretical_loss": 3.4824693382674043,
+      "tokens_seen": 1674575872
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002027998486568294,
+      "loss": 3.1398,
+      "theoretical_loss": 3.4822811855610007,
+      "tokens_seen": 1675624448
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020261066969353008,
+      "loss": 3.1768,
+      "theoretical_loss": 3.4820931835048223,
+      "tokens_seen": 1676673024
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.48598864674568176,
+      "objective/train/docs_used": 948902,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.975940227508545,
+      "objective/train/original_loss": 2.975940704345703,
+      "objective/train/theoretical_loss": 3.4819053318841453,
+      "objective/train/tokens_used": 1698181600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2399335503578186,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049818515777588,
+      "objective/train/weighted_lm_loss": 3.1240224838256836,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9528480172157288,
+      "theoretical_loss": 3.4819053318841453,
+      "tokens_seen": 1677721600
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002024214907302308,
+      "loss": 3.2016,
+      "theoretical_loss": 3.4819053318841453,
+      "tokens_seen": 1677721600
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020223231176693152,
+      "loss": 3.1829,
+      "theoretical_loss": 3.481717630484684,
+      "tokens_seen": 1678770176
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020204313280363224,
+      "loss": 3.1091,
+      "theoretical_loss": 3.481530079092593,
+      "tokens_seen": 1679818752
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020185395384033294,
+      "loss": 3.1407,
+      "theoretical_loss": 3.481342677494464,
+      "tokens_seen": 1680867328
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.47322916984558105,
+      "objective/train/docs_used": 950589,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0295519828796387,
+      "objective/train/original_loss": 3.0295517444610596,
+      "objective/train/theoretical_loss": 3.481319262816474,
+      "objective/train/tokens_used": 1701458400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23179136216640472,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485007762908936,
+      "objective/train/weighted_lm_loss": 3.177227258682251,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9534991383552551,
+      "theoretical_loss": 3.481319262816474,
+      "tokens_seen": 1680998400
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020166477487703369,
+      "loss": 3.159,
+      "theoretical_loss": 3.4811554254773243,
+      "tokens_seen": 1681915904
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0002014755959137344,
+      "loss": 3.0974,
+      "theoretical_loss": 3.4809683228286374,
+      "tokens_seen": 1682964480
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020128641695043513,
+      "loss": 3.1729,
+      "theoretical_loss": 3.4807813693363023,
+      "tokens_seen": 1684013056
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.4855785071849823,
+      "objective/train/docs_used": 952447,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7886948585510254,
+      "objective/train/original_loss": 2.7886953353881836,
+      "objective/train/theoretical_loss": 3.4807346542440833,
+      "objective/train/tokens_used": 1704735200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23818425834178925,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497686862945557,
+      "objective/train/weighted_lm_loss": 2.927842855453491,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9933276176452637,
+      "theoretical_loss": 3.4807346542440833,
+      "tokens_seen": 1684275200
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020109723798713585,
+      "loss": 3.1108,
+      "theoretical_loss": 3.480594564788648,
+      "tokens_seen": 1685061632
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020090805902383654,
+      "loss": 3.1693,
+      "theoretical_loss": 3.4804079089744375,
+      "tokens_seen": 1686110208
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020071888006053726,
+      "loss": 3.2593,
+      "theoretical_loss": 3.4802214016828636,
+      "tokens_seen": 1687158784
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.4896550476551056,
+      "objective/train/docs_used": 954180,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.044297218322754,
+      "objective/train/original_loss": 3.044297218322754,
+      "objective/train/theoretical_loss": 3.4801514996965643,
+      "objective/train/tokens_used": 1708012000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24202604591846466,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501958131790161,
+      "objective/train/weighted_lm_loss": 3.196167230606079,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9804592728614807,
+      "theoretical_loss": 3.4801514996965643,
+      "tokens_seen": 1687552000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000200529701097238,
+      "loss": 3.1462,
+      "theoretical_loss": 3.48003504270355,
+      "tokens_seen": 1688207360
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020034052213393873,
+      "loss": 3.1513,
+      "theoretical_loss": 3.4798488318265477,
+      "tokens_seen": 1689255936
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00020015134317063942,
+      "loss": 3.1753,
+      "theoretical_loss": 3.479662768842334,
+      "tokens_seen": 1690304512
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.4866858124732971,
+      "objective/train/docs_used": 956253,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9044716358184814,
+      "objective/train/original_loss": 2.9044711589813232,
+      "objective/train/theoretical_loss": 3.4795697927446643,
+      "objective/train/tokens_used": 1711288800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2399260550737381,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049888253211975,
+      "objective/train/weighted_lm_loss": 3.0500967502593994,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9630663990974426,
+      "theoretical_loss": 3.4795697927446643,
+      "tokens_seen": 1690828800
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019996216420734014,
+      "loss": 3.1323,
+      "theoretical_loss": 3.4794768535418146,
+      "tokens_seen": 1691353088
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019977298524404086,
+      "loss": 3.1002,
+      "theoretical_loss": 3.4792910857163193,
+      "tokens_seen": 1692401664
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019958380628074158,
+      "loss": 3.0834,
+      "theoretical_loss": 3.4791054651576006,
+      "tokens_seen": 1693450240
+    },
+    {
+      "epoch": 0.6,
+      "objective/train/advantage_avg": 0.48621219396591187,
+      "objective/train/docs_used": 958497,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7586536407470703,
+      "objective/train/original_loss": 2.7586538791656494,
+      "objective/train/theoretical_loss": 3.4789895269999507,
+      "objective/train/tokens_used": 1714565600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24361838400363922,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498595237731934,
+      "objective/train/weighted_lm_loss": 2.896075963973999,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9519256353378296,
+      "theoretical_loss": 3.4789895269999507,
+      "tokens_seen": 1694105600
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001993946273174423,
+      "loss": 3.1498,
+      "theoretical_loss": 3.4789199916578353,
+      "tokens_seen": 1694498816
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019920544835414303,
+      "loss": 3.2399,
+      "theoretical_loss": 3.478734665009622,
+      "tokens_seen": 1695547392
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019901626939084375,
+      "loss": 3.2016,
+      "theoretical_loss": 3.4785494850059786,
+      "tokens_seen": 1696595968
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.4836694300174713,
+      "objective/train/docs_used": 960356,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7970266342163086,
+      "objective/train/original_loss": 2.7970266342163086,
+      "objective/train/theoretical_loss": 3.478410696114469,
+      "objective/train/tokens_used": 1717842400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2396220862865448,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495851039886475,
+      "objective/train/weighted_lm_loss": 2.934868097305298,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9527864456176758,
+      "theoretical_loss": 3.478410696114469,
+      "tokens_seen": 1697382400
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019882709042754447,
+      "loss": 3.183,
+      "theoretical_loss": 3.478364451440343,
+      "tokens_seen": 1697644544
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001986379114642452,
+      "loss": 3.1736,
+      "theoretical_loss": 3.478179564106571,
+      "tokens_seen": 1698693120
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019844873250094588,
+      "loss": 3.1614,
+      "theoretical_loss": 3.4779948227989372,
+      "tokens_seen": 1699741696
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.4798791706562042,
+      "objective/train/docs_used": 961887,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2315726280212402,
+      "objective/train/original_loss": 3.231572151184082,
+      "objective/train/theoretical_loss": 3.477833293780412,
+      "objective/train/tokens_used": 1721119200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2355627715587616,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491852760314941,
+      "objective/train/weighted_lm_loss": 3.3893630504608154,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9673263430595398,
+      "theoretical_loss": 3.477833293780412,
+      "tokens_seen": 1700659200
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019825955353764663,
+      "loss": 3.1208,
+      "theoretical_loss": 3.47781022731213,
+      "tokens_seen": 1700790272
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019807037457434735,
+      "loss": 3.1911,
+      "theoretical_loss": 3.4776257774412547,
+      "tokens_seen": 1701838848
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019788119561104807,
+      "loss": 3.1836,
+      "theoretical_loss": 3.4774414729818295,
+      "tokens_seen": 1702887424
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.4749166965484619,
+      "objective/train/docs_used": 963663,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2296407222747803,
+      "objective/train/original_loss": 3.2296409606933594,
+      "objective/train/theoretical_loss": 3.477257313729786,
+      "objective/train/tokens_used": 1724396000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23224613070487976,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048672080039978,
+      "objective/train/weighted_lm_loss": 3.385560989379883,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9597051739692688,
+      "theoretical_loss": 3.477257313729786,
+      "tokens_seen": 1703936000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019769201664774876,
+      "loss": 3.2243,
+      "theoretical_loss": 3.477257313729786,
+      "tokens_seen": 1703936000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019750283768444948,
+      "loss": 3.1611,
+      "theoretical_loss": 3.477073299481467,
+      "tokens_seen": 1704984576
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001973136587211502,
+      "loss": 3.178,
+      "theoretical_loss": 3.4768894300336264,
+      "tokens_seen": 1706033152
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019712447975785095,
+      "loss": 3.0676,
+      "theoretical_loss": 3.476705705183427,
+      "tokens_seen": 1707081728
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.4770734906196594,
+      "objective/train/docs_used": 965784,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9515833854675293,
+      "objective/train/original_loss": 2.951582908630371,
+      "objective/train/theoretical_loss": 3.4766827497340875,
+      "objective/train/tokens_used": 1727672800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23381619155406952,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488957166671753,
+      "objective/train/weighted_lm_loss": 3.0978763103485107,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9522743225097656,
+      "theoretical_loss": 3.4766827497340875,
+      "tokens_seen": 1707212800
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019693530079455167,
+      "loss": 3.1771,
+      "theoretical_loss": 3.4765221247284415,
+      "tokens_seen": 1708130304
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019674612183125237,
+      "loss": 3.0724,
+      "theoretical_loss": 3.4763386884666483,
+      "tokens_seen": 1709178880
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019655694286795309,
+      "loss": 3.1534,
+      "theoretical_loss": 3.4761553961964338,
+      "tokens_seen": 1710227456
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.49260079860687256,
+      "objective/train/docs_used": 967686,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8040316104888916,
+      "objective/train/original_loss": 2.8040313720703125,
+      "objective/train/theoretical_loss": 3.476109595603976,
+      "objective/train/tokens_used": 1730949600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2447163164615631,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505040884017944,
+      "objective/train/weighted_lm_loss": 2.9455554485321045,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9516199231147766,
+      "theoretical_loss": 3.476109595603976,
+      "tokens_seen": 1710489600
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001963677639046538,
+      "loss": 3.1436,
+      "theoretical_loss": 3.475972247716588,
+      "tokens_seen": 1711276032
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019617858494135453,
+      "loss": 3.0968,
+      "theoretical_loss": 3.475789242826307,
+      "tokens_seen": 1712324608
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019598940597805525,
+      "loss": 3.1155,
+      "theoretical_loss": 3.4756063813251883,
+      "tokens_seen": 1713373184
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.48203980922698975,
+      "objective/train/docs_used": 969481,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.023247241973877,
+      "objective/train/original_loss": 3.023247241973877,
+      "objective/train/theoretical_loss": 3.475537845188954,
+      "objective/train/tokens_used": 1734226400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23657125234603882,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494064092636108,
+      "objective/train/weighted_lm_loss": 3.1723108291625977,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9527132511138916,
+      "theoretical_loss": 3.475537845188954,
+      "tokens_seen": 1713766400
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019580022701475597,
+      "loss": 3.1438,
+      "theoretical_loss": 3.4754236630132325,
+      "tokens_seen": 1714421760
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001956110480514567,
+      "loss": 3.1437,
+      "theoretical_loss": 3.4752410876908413,
+      "tokens_seen": 1715470336
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001954218690881574,
+      "loss": 3.1662,
+      "theoretical_loss": 3.475058655158816,
+      "tokens_seen": 1716518912
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.46607887744903564,
+      "objective/train/docs_used": 970822,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1122360229492188,
+      "objective/train/original_loss": 3.1122357845306396,
+      "objective/train/theoretical_loss": 3.47496749237705,
+      "objective/train/tokens_used": 1737503200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2279558926820755,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0477663278579712,
+      "objective/train/weighted_lm_loss": 3.261258602142334,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9518850445747375,
+      "theoretical_loss": 3.47496749237705,
+      "tokens_seen": 1717043200
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001952326901248581,
+      "loss": 3.1927,
+      "theoretical_loss": 3.474876365218357,
+      "tokens_seen": 1717567488
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019504351116155882,
+      "loss": 3.1399,
+      "theoretical_loss": 3.4746942176710633,
+      "tokens_seen": 1718616064
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019485433219825957,
+      "loss": 3.1422,
+      "theoretical_loss": 3.4745122123189294,
+      "tokens_seen": 1719664640
+    },
+    {
+      "epoch": 0.61,
+      "objective/train/advantage_avg": 0.4768146872520447,
+      "objective/train/docs_used": 972105,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9560952186584473,
+      "objective/train/original_loss": 2.9560952186584473,
+      "objective/train/theoretical_loss": 3.4743985310945047,
+      "objective/train/tokens_used": 1740780000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2370544970035553,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488862991333008,
+      "objective/train/weighted_lm_loss": 3.099886178970337,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9523165822029114,
+      "theoretical_loss": 3.4743985310945047,
+      "tokens_seen": 1720320000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001946651532349603,
+      "loss": 3.1597,
+      "theoretical_loss": 3.4743303489643473,
+      "tokens_seen": 1720713216
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.000194475974271661,
+      "loss": 3.2761,
+      "theoretical_loss": 3.474148627410102,
+      "tokens_seen": 1721761792
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001942867953083617,
+      "loss": 3.1427,
+      "theoretical_loss": 3.4739670474593742,
+      "tokens_seen": 1722810368
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.49066078662872314,
+      "objective/train/docs_used": 974104,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2695088386535645,
+      "objective/train/original_loss": 3.2695088386535645,
+      "objective/train/theoretical_loss": 3.473830955305458,
+      "objective/train/tokens_used": 1744056800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24312639236450195,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503020286560059,
+      "objective/train/weighted_lm_loss": 3.4335639476776123,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9519912004470825,
+      "theoretical_loss": 3.473830955305458,
+      "tokens_seen": 1723596800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019409761634506243,
+      "loss": 3.1443,
+      "theoretical_loss": 3.4737856089157355,
+      "tokens_seen": 1723858944
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019390843738176315,
+      "loss": 3.1869,
+      "theoretical_loss": 3.4736043115831507,
+      "tokens_seen": 1724907520
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001937192584184639,
+      "loss": 3.1776,
+      "theoretical_loss": 3.4734231552659747,
+      "tokens_seen": 1725956096
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.4791083335876465,
+      "objective/train/docs_used": 976014,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.98252534866333,
+      "objective/train/original_loss": 2.98252534866333,
+      "objective/train/theoretical_loss": 3.4732647590116423,
+      "objective/train/tokens_used": 1747333600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23720155656337738,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491164922714233,
+      "objective/train/weighted_lm_loss": 3.1297645568847656,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9517265558242798,
+      "theoretical_loss": 3.4732647590116423,
+      "tokens_seen": 1726873600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001935300794551646,
+      "loss": 3.1976,
+      "theoretical_loss": 3.473242139768953,
+      "tokens_seen": 1727004672
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001933409004918653,
+      "loss": 3.199,
+      "theoretical_loss": 3.4730612648972174,
+      "tokens_seen": 1728053248
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019315172152856603,
+      "loss": 3.2134,
+      "theoretical_loss": 3.4728805304562904,
+      "tokens_seen": 1729101824
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.48143187165260315,
+      "objective/train/docs_used": 978029,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.023312568664551,
+      "objective/train/original_loss": 3.02331280708313,
+      "objective/train/theoretical_loss": 3.472699936252079,
+      "objective/train/tokens_used": 1750610400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23814232647418976,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493534803390503,
+      "objective/train/weighted_lm_loss": 3.172309637069702,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9516406059265137,
+      "theoretical_loss": 3.472699936252079,
+      "tokens_seen": 1730150400
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019296254256526675,
+      "loss": 3.1737,
+      "theoretical_loss": 3.472699936252079,
+      "tokens_seen": 1730150400
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019277336360196744,
+      "loss": 3.1689,
+      "theoretical_loss": 3.4725194820908776,
+      "tokens_seen": 1731198976
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001925841846386682,
+      "loss": 3.1617,
+      "theoretical_loss": 3.4723391677793627,
+      "tokens_seen": 1732247552
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001923950056753689,
+      "loss": 3.2193,
+      "theoretical_loss": 3.472158993124598,
+      "tokens_seen": 1733296128
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.4837075471878052,
+      "objective/train/docs_used": 979550,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9834237098693848,
+      "objective/train/original_loss": 2.9834237098693848,
+      "objective/train/theoretical_loss": 3.4721364811027735,
+      "objective/train/tokens_used": 1753887200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23856787383556366,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495834350585938,
+      "objective/train/weighted_lm_loss": 3.1295249462127686,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.956782877445221,
+      "theoretical_loss": 3.4721364811027735,
+      "tokens_seen": 1733427200
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019220582671206963,
+      "loss": 3.2026,
+      "theoretical_loss": 3.471978957934027,
+      "tokens_seen": 1734344704
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019201664774877035,
+      "loss": 3.223,
+      "theoretical_loss": 3.471799062015476,
+      "tokens_seen": 1735393280
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019182746878547105,
+      "loss": 3.2048,
+      "theoretical_loss": 3.4716193051771524,
+      "tokens_seen": 1736441856
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.4862057566642761,
+      "objective/train/docs_used": 981478,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.999570608139038,
+      "objective/train/original_loss": 2.999570608139038,
+      "objective/train/theoretical_loss": 3.4715743876764176,
+      "objective/train/tokens_used": 1757164000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23953025043010712,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498380661010742,
+      "objective/train/weighted_lm_loss": 3.149038076400757,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9523438811302185,
+      "theoretical_loss": 3.4715743876764176,
+      "tokens_seen": 1736704000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019163828982217177,
+      "loss": 3.2133,
+      "theoretical_loss": 3.4714396872276425,
+      "tokens_seen": 1737490432
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001914491108588725,
+      "loss": 3.1317,
+      "theoretical_loss": 3.471260207975912,
+      "tokens_seen": 1738539008
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019125993189557323,
+      "loss": 3.1341,
+      "theoretical_loss": 3.471080867231304,
+      "tokens_seen": 1739587584
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.47021281719207764,
+      "objective/train/docs_used": 983277,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.848379373550415,
+      "objective/train/original_loss": 2.848379135131836,
+      "objective/train/theoretical_loss": 3.471013650122095,
+      "objective/train/tokens_used": 1760440800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22874988615512848,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481839179992676,
+      "objective/train/weighted_lm_loss": 2.9869155883789062,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9516876339912415,
+      "theoretical_loss": 3.471013650122095,
+      "tokens_seen": 1739980800
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019107075293227393,
+      "loss": 3.1987,
+      "theoretical_loss": 3.470901664803538,
+      "tokens_seen": 1740636160
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019088157396897465,
+      "loss": 3.1512,
+      "theoretical_loss": 3.470722600502711,
+      "tokens_seen": 1741684736
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019069239500567537,
+      "loss": 3.1581,
+      "theoretical_loss": 3.470543674139293,
+      "tokens_seen": 1742733312
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.4912092387676239,
+      "objective/train/docs_used": 985168,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.71474027633667,
+      "objective/train/original_loss": 2.714740753173828,
+      "objective/train/theoretical_loss": 3.470454262624987,
+      "objective/train/tokens_used": 1763717600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24285683035850525,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503555536270142,
+      "objective/train/weighted_lm_loss": 2.8520116806030273,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9635713696479797,
+      "theoretical_loss": 3.470454262624987,
+      "tokens_seen": 1743257600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001905032160423761,
+      "loss": 3.2016,
+      "theoretical_loss": 3.4703648855241283,
+      "tokens_seen": 1743781888
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019031403707907684,
+      "loss": 3.1749,
+      "theoretical_loss": 3.470186234468435,
+      "tokens_seen": 1744830464
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019012485811577753,
+      "loss": 3.1757,
+      "theoretical_loss": 3.4700077207838023,
+      "tokens_seen": 1745879040
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.4769324064254761,
+      "objective/train/docs_used": 987031,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9645779132843018,
+      "objective/train/original_loss": 2.9645776748657227,
+      "objective/train/theoretical_loss": 3.469896219406081,
+      "objective/train/tokens_used": 1766994400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2403060346841812,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489145517349243,
+      "objective/train/weighted_lm_loss": 3.1101176738739014,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9535593390464783,
+      "theoretical_loss": 3.469896219406081,
+      "tokens_seen": 1746534400
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018993567915247825,
+      "loss": 3.2297,
+      "theoretical_loss": 3.4698293442821915,
+      "tokens_seen": 1746927616
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018974650018917897,
+      "loss": 3.1923,
+      "theoretical_loss": 3.4696511047759317,
+      "tokens_seen": 1747976192
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001895573212258797,
+      "loss": 3.2484,
+      "theoretical_loss": 3.4694730020777245,
+      "tokens_seen": 1749024768
+    },
+    {
+      "epoch": 0.62,
+      "objective/train/advantage_avg": 0.48558348417282104,
+      "objective/train/docs_used": 989075,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1397294998168945,
+      "objective/train/original_loss": 3.1397294998168945,
+      "objective/train/theoretical_loss": 3.4693395147218875,
+      "objective/train/tokens_used": 1770271200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24000008404254913,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497783422470093,
+      "objective/train/weighted_lm_loss": 3.2957050800323486,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9543235301971436,
+      "theoretical_loss": 3.4693395147218875,
+      "tokens_seen": 1749811200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018936814226258039,
+      "loss": 3.1974,
+      "theoretical_loss": 3.4692950360006365,
+      "tokens_seen": 1750073344
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018917896329928113,
+      "loss": 3.2439,
+      "theoretical_loss": 3.469117206358103,
+      "tokens_seen": 1751121920
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018898978433598185,
+      "loss": 3.2455,
+      "theoretical_loss": 3.4689395129639253,
+      "tokens_seen": 1752170496
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4787355363368988,
+      "objective/train/docs_used": 991265,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.098680257797241,
+      "objective/train/original_loss": 3.098680019378662,
+      "objective/train/theoretical_loss": 3.4687841428641515,
+      "objective/train/tokens_used": 1773548000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24327175319194794,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491098165512085,
+      "objective/train/weighted_lm_loss": 3.2512500286102295,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.951521098613739,
+      "theoretical_loss": 3.4687841428641515,
+      "tokens_seen": 1753088000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018880060537268257,
+      "loss": 3.1711,
+      "theoretical_loss": 3.468761955632271,
+      "tokens_seen": 1753219072
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018861142640938327,
+      "loss": 3.2173,
+      "theoretical_loss": 3.4685845341776704,
+      "tokens_seen": 1754267648
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.000188422247446084,
+      "loss": 3.1868,
+      "theoretical_loss": 3.468407248415019,
+      "tokens_seen": 1755316224
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4866624176502228,
+      "objective/train/docs_used": 993214,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2612428665161133,
+      "objective/train/original_loss": 3.2612428665161133,
+      "objective/train/theoretical_loss": 3.468230098159573,
+      "objective/train/tokens_used": 1776824800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2405889928340912,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498892068862915,
+      "objective/train/weighted_lm_loss": 3.423818826675415,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9539464116096497,
+      "theoretical_loss": 3.468230098159573,
+      "tokens_seen": 1756364800
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001882330684827847,
+      "loss": 3.1879,
+      "theoretical_loss": 3.468230098159573,
+      "tokens_seen": 1756364800
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018804388951948546,
+      "loss": 3.1916,
+      "theoretical_loss": 3.468053083226952,
+      "tokens_seen": 1757413376
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018785471055618618,
+      "loss": 3.169,
+      "theoretical_loss": 3.4678762034331347,
+      "tokens_seen": 1758461952
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018766553159288687,
+      "loss": 3.2222,
+      "theoretical_loss": 3.4676994585944616,
+      "tokens_seen": 1759510528
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.48814916610717773,
+      "objective/train/docs_used": 995165,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.884378433227539,
+      "objective/train/original_loss": 2.884378433227539,
+      "objective/train/theoretical_loss": 3.4676773749695275,
+      "objective/train/tokens_used": 1780101600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24147918820381165,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500423908233643,
+      "objective/train/weighted_lm_loss": 3.029207706451416,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9532400369644165,
+      "theoretical_loss": 3.4676773749695275,
+      "tokens_seen": 1759641600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001874763526295876,
+      "loss": 3.1404,
+      "theoretical_loss": 3.4675228485276297,
+      "tokens_seen": 1760559104
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001872871736662883,
+      "loss": 3.2087,
+      "theoretical_loss": 3.467346373049696,
+      "tokens_seen": 1761607680
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018709799470298903,
+      "loss": 3.1406,
+      "theoretical_loss": 3.467170031978074,
+      "tokens_seen": 1762656256
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4851972758769989,
+      "objective/train/docs_used": 997036,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.950261116027832,
+      "objective/train/original_loss": 2.950261116027832,
+      "objective/train/theoretical_loss": 3.4671259676897908,
+      "objective/train/tokens_used": 1783378400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23831064999103546,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497310161590576,
+      "objective/train/weighted_lm_loss": 3.0977723598480225,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9909802675247192,
+      "theoretical_loss": 3.4671259676897908,
+      "tokens_seen": 1762918400
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018690881573968975,
+      "loss": 3.1547,
+      "theoretical_loss": 3.4669938251305314,
+      "tokens_seen": 1763704832
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018671963677639047,
+      "loss": 3.1313,
+      "theoretical_loss": 3.4668177523251944,
+      "tokens_seen": 1764753408
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001865304578130912,
+      "loss": 3.1446,
+      "theoretical_loss": 3.466641813380541,
+      "tokens_seen": 1765801984
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.47915053367614746,
+      "objective/train/docs_used": 998803,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.053201198577881,
+      "objective/train/original_loss": 3.0532007217407227,
+      "objective/train/theoretical_loss": 3.4665758707502654,
+      "objective/train/tokens_used": 1786655200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23946774005889893,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491321086883545,
+      "objective/train/weighted_lm_loss": 3.2024171352386475,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9516938328742981,
+      "theoretical_loss": 3.4665758707502654,
+      "tokens_seen": 1766195200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018634127884979191,
+      "loss": 3.1561,
+      "theoretical_loss": 3.466466008115404,
+      "tokens_seen": 1766850560
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001861520998864926,
+      "loss": 3.1794,
+      "theoretical_loss": 3.4662903363489677,
+      "tokens_seen": 1767899136
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018596292092319333,
+      "loss": 3.1129,
+      "theoretical_loss": 3.4661147979007687,
+      "tokens_seen": 1768947712
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4781850278377533,
+      "objective/train/docs_used": 999986,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.99733304977417,
+      "objective/train/original_loss": 2.99733304977417,
+      "objective/train/theoretical_loss": 3.466027078614709,
+      "objective/train/tokens_used": 1789932000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2370835840702057,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490233898162842,
+      "objective/train/weighted_lm_loss": 3.1454968452453613,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9598371982574463,
+      "theoretical_loss": 3.466027078614709,
+      "tokens_seen": 1769472000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018577374195989408,
+      "loss": 3.1839,
+      "theoretical_loss": 3.4659393925906943,
+      "tokens_seen": 1769996288
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001855845629965948,
+      "loss": 3.1999,
+      "theoretical_loss": 3.4657641202389815,
+      "tokens_seen": 1771044864
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018539538403329552,
+      "loss": 3.177,
+      "theoretical_loss": 3.465588980666216,
+      "tokens_seen": 1772093440
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4717888832092285,
+      "objective/train/docs_used": 1001522,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.009805917739868,
+      "objective/train/original_loss": 3.0098061561584473,
+      "objective/train/theoretical_loss": 3.465479585780467,
+      "objective/train/tokens_used": 1793208800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2324257791042328,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0483598709106445,
+      "objective/train/weighted_lm_loss": 3.155412435531616,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9513979554176331,
+      "theoretical_loss": 3.465479585780467,
+      "tokens_seen": 1772748800
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001852062050699962,
+      "loss": 3.1154,
+      "theoretical_loss": 3.4654139736933325,
+      "tokens_seen": 1773142016
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018501702610669693,
+      "loss": 3.1981,
+      "theoretical_loss": 3.4652390991416118,
+      "tokens_seen": 1774190592
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018482784714339765,
+      "loss": 3.1889,
+      "theoretical_loss": 3.4650643568326815,
+      "tokens_seen": 1775239168
+    },
+    {
+      "epoch": 0.63,
+      "objective/train/advantage_avg": 0.4764856994152069,
+      "objective/train/docs_used": 1003498,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7835757732391357,
+      "objective/train/original_loss": 2.7835755348205566,
+      "objective/train/theoretical_loss": 3.4649333867782075,
+      "objective/train/tokens_used": 1796485600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2330160140991211,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048832893371582,
+      "objective/train/weighted_lm_loss": 2.920579671859741,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9544862508773804,
+      "theoretical_loss": 3.4649333867782075,
+      "tokens_seen": 1776025600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001846386681800984,
+      "loss": 3.1457,
+      "theoretical_loss": 3.464889746588515,
+      "tokens_seen": 1776287744
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001844494892167991,
+      "loss": 3.1293,
+      "theoretical_loss": 3.464715268231429,
+      "tokens_seen": 1777336320
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001842603102534998,
+      "loss": 3.1338,
+      "theoretical_loss": 3.464540921584086,
+      "tokens_seen": 1778384896
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.4912343919277191,
+      "objective/train/docs_used": 1005457,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6683099269866943,
+      "objective/train/original_loss": 2.6683099269866943,
+      "objective/train/theoretical_loss": 3.464388476171658,
+      "objective/train/tokens_used": 1799762400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24345652759075165,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503610372543335,
+      "objective/train/weighted_lm_loss": 2.8025920391082764,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9594215154647827,
+      "theoretical_loss": 3.464388476171658,
+      "tokens_seen": 1779302400
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018407113129020053,
+      "loss": 3.1607,
+      "theoretical_loss": 3.464366706469489,
+      "tokens_seen": 1779433472
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018388195232690125,
+      "loss": 3.0636,
+      "theoretical_loss": 3.4641926227109856,
+      "tokens_seen": 1780482048
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018369277336360197,
+      "loss": 3.0864,
+      "theoretical_loss": 3.464018670132262,
+      "tokens_seen": 1781530624
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.47258418798446655,
+      "objective/train/docs_used": 1007648,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7945456504821777,
+      "objective/train/original_loss": 2.7945456504821777,
+      "objective/train/theoretical_loss": 3.463844848557345,
+      "objective/train/tokens_used": 1803039200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23542162775993347,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484546422958374,
+      "objective/train/weighted_lm_loss": 2.9284746646881104,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9513460397720337,
+      "theoretical_loss": 3.463844848557345,
+      "tokens_seen": 1782579200
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001835035944003027,
+      "loss": 3.1216,
+      "theoretical_loss": 3.463844848557345,
+      "tokens_seen": 1782579200
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018331441543700342,
+      "loss": 3.1505,
+      "theoretical_loss": 3.4636711578106034,
+      "tokens_seen": 1783627776
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018312523647370414,
+      "loss": 3.0778,
+      "theoretical_loss": 3.4634975977167413,
+      "tokens_seen": 1784676352
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018293605751040486,
+      "loss": 3.1852,
+      "theoretical_loss": 3.463324168100802,
+      "tokens_seen": 1785724928
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.4785902500152588,
+      "objective/train/docs_used": 1009512,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8947219848632812,
+      "objective/train/original_loss": 2.8947219848632812,
+      "objective/train/theoretical_loss": 3.463302498564338,
+      "objective/train/tokens_used": 1806316000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23424488306045532,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490496158599854,
+      "objective/train/weighted_lm_loss": 3.0360755920410156,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9536494016647339,
+      "theoretical_loss": 3.463302498564338,
+      "tokens_seen": 1785856000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018274687854710555,
+      "loss": 3.1466,
+      "theoretical_loss": 3.463150868788165,
+      "tokens_seen": 1786773504
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018255769958380627,
+      "loss": 3.1598,
+      "theoretical_loss": 3.4629776996045476,
+      "tokens_seen": 1787822080
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018236852062050702,
+      "loss": 3.1194,
+      "theoretical_loss": 3.462804660376,
+      "tokens_seen": 1788870656
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.48804527521133423,
+      "objective/train/docs_used": 1011320,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.961782217025757,
+      "objective/train/original_loss": 2.961782932281494,
+      "objective/train/theoretical_loss": 3.46276142085399,
+      "objective/train/tokens_used": 1809592800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2429705113172531,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050039529800415,
+      "objective/train/weighted_lm_loss": 3.109548807144165,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9592433571815491,
+      "theoretical_loss": 3.46276142085399,
+      "tokens_seen": 1789132800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018217934165720774,
+      "loss": 3.1391,
+      "theoretical_loss": 3.4626317509289075,
+      "tokens_seen": 1789919232
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018199016269390843,
+      "loss": 3.1193,
+      "theoretical_loss": 3.462458971089989,
+      "tokens_seen": 1790967808
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018180098373060915,
+      "loss": 3.1471,
+      "theoretical_loss": 3.462286320686297,
+      "tokens_seen": 1792016384
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.4847014844417572,
+      "objective/train/docs_used": 1013493,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9981818199157715,
+      "objective/train/original_loss": 2.9981818199157715,
+      "objective/train/theoretical_loss": 3.4622216101196894,
+      "objective/train/tokens_used": 1812869600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2426302582025528,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497032403945923,
+      "objective/train/weighted_lm_loss": 3.147491455078125,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.951403021812439,
+      "theoretical_loss": 3.4622216101196894,
+      "tokens_seen": 1792409600
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018161180476730987,
+      "loss": 3.1424,
+      "theoretical_loss": 3.4621137995452136,
+      "tokens_seen": 1793064960
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001814226258040106,
+      "loss": 3.0922,
+      "theoretical_loss": 3.4619414074944537,
+      "tokens_seen": 1794113536
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018123344684071134,
+      "loss": 3.1283,
+      "theoretical_loss": 3.4617691443620617,
+      "tokens_seen": 1795162112
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.4758584201335907,
+      "objective/train/docs_used": 1015450,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7228169441223145,
+      "objective/train/original_loss": 2.7228169441223145,
+      "objective/train/theoretical_loss": 3.4616830610866076,
+      "objective/train/tokens_used": 1816146400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23320035636425018,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487710237503052,
+      "objective/train/weighted_lm_loss": 2.856950283050537,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9522925615310669,
+      "theoretical_loss": 3.4616830610866076,
+      "tokens_seen": 1795686400
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018104426787741203,
+      "loss": 3.1451,
+      "theoretical_loss": 3.4615970099764115,
+      "tokens_seen": 1796210688
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018085508891411276,
+      "loss": 3.1009,
+      "theoretical_loss": 3.4614250041662054,
+      "tokens_seen": 1797259264
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018066590995081348,
+      "loss": 3.0992,
+      "theoretical_loss": 3.4612531267604734,
+      "tokens_seen": 1798307840
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.480893075466156,
+      "objective/train/docs_used": 1017085,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.92893385887146,
+      "objective/train/original_loss": 2.928933620452881,
+      "objective/train/theoretical_loss": 3.461145768511451,
+      "objective/train/tokens_used": 1819423200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2371511161327362,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492945909500122,
+      "objective/train/weighted_lm_loss": 3.072615623474121,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9612343907356262,
+      "theoretical_loss": 3.461145768511451,
+      "tokens_seen": 1798963200
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001804767309875142,
+      "loss": 3.131,
+      "theoretical_loss": 3.461081377588572,
+      "tokens_seen": 1799356416
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001802875520242149,
+      "loss": 3.0904,
+      "theoretical_loss": 3.4609097564801843,
+      "tokens_seen": 1800404992
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018009837306091564,
+      "loss": 3.0347,
+      "theoretical_loss": 3.460738263265319,
+      "tokens_seen": 1801453568
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.4862983524799347,
+      "objective/train/docs_used": 1018281,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.062450885772705,
+      "objective/train/original_loss": 3.062450647354126,
+      "objective/train/theoretical_loss": 3.4606097271822156,
+      "objective/train/tokens_used": 1822700000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24067695438861847,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498532056808472,
+      "objective/train/weighted_lm_loss": 3.2150371074676514,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9518213272094727,
+      "theoretical_loss": 3.4606097271822156,
+      "tokens_seen": 1802240000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017990919409761636,
+      "loss": 3.1488,
+      "theoretical_loss": 3.4605668977743074,
+      "tokens_seen": 1802502144
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017972001513431708,
+      "loss": 3.0774,
+      "theoretical_loss": 3.4603956598378067,
+      "tokens_seen": 1803550720
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001795308361710178,
+      "loss": 3.0499,
+      "theoretical_loss": 3.4602245492867962,
+      "tokens_seen": 1804599296
+    },
+    {
+      "epoch": 0.64,
+      "objective/train/advantage_avg": 0.49369117617607117,
+      "objective/train/docs_used": 1020317,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0229692459106445,
+      "objective/train/original_loss": 3.0229697227478027,
+      "objective/train/theoretical_loss": 3.4600749319179434,
+      "objective/train/tokens_used": 1825976800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24504995346069336,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506149530410767,
+      "objective/train/weighted_lm_loss": 3.1760122776031494,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9538986086845398,
+      "theoretical_loss": 3.4600749319179434,
+      "tokens_seen": 1805516800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001793416572077185,
+      "loss": 3.1218,
+      "theoretical_loss": 3.4600535659525757,
+      "tokens_seen": 1805647872
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001791524782444192,
+      "loss": 3.1079,
+      "theoretical_loss": 3.4598827096667684,
+      "tokens_seen": 1806696448
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017896329928111996,
+      "loss": 3.0629,
+      "theoretical_loss": 3.459711980261316,
+      "tokens_seen": 1807745024
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.47898003458976746,
+      "objective/train/docs_used": 1022235,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0741958618164062,
+      "objective/train/original_loss": 3.074195384979248,
+      "objective/train/theoretical_loss": 3.459541377568482,
+      "objective/train/tokens_used": 1829253600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23444890975952148,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490895509719849,
+      "objective/train/weighted_lm_loss": 3.2251052856445312,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9592746496200562,
+      "theoretical_loss": 3.459541377568482,
+      "tokens_seen": 1808793600
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017877412031782068,
+      "loss": 3.043,
+      "theoretical_loss": 3.459541377568482,
+      "tokens_seen": 1808793600
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017858494135452138,
+      "loss": 3.0361,
+      "theoretical_loss": 3.4593709014208462,
+      "tokens_seen": 1809842176
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001783957623912221,
+      "loss": 3.0718,
+      "theoretical_loss": 3.4592005516513087,
+      "tokens_seen": 1810890752
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017820658342792282,
+      "loss": 3.0793,
+      "theoretical_loss": 3.4590303280930854,
+      "tokens_seen": 1811939328
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.47567683458328247,
+      "objective/train/docs_used": 1024230,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0362322330474854,
+      "objective/train/original_loss": 3.0362324714660645,
+      "objective/train/theoretical_loss": 3.4590090590142464,
+      "objective/train/tokens_used": 1832530400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23685020208358765,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048771619796753,
+      "objective/train/weighted_lm_loss": 3.1860275268554688,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9578182697296143,
+      "theoretical_loss": 3.4590090590142464,
+      "tokens_seen": 1812070400
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017801740446462354,
+      "loss": 3.0886,
+      "theoretical_loss": 3.4588602305797096,
+      "tokens_seen": 1812987904
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017782822550132426,
+      "loss": 3.0809,
+      "theoretical_loss": 3.458690258945029,
+      "tokens_seen": 1814036480
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017763904653802498,
+      "loss": 3.1236,
+      "theoretical_loss": 3.458520413023207,
+      "tokens_seen": 1815085056
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.4894339442253113,
+      "objective/train/docs_used": 1026340,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.314352512359619,
+      "objective/train/original_loss": 3.31435227394104,
+      "objective/train/theoretical_loss": 3.4584779711659817,
+      "objective/train/tokens_used": 1835807200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24342581629753113,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501807928085327,
+      "objective/train/weighted_lm_loss": 3.4804110527038574,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9533761739730835,
+      "theoretical_loss": 3.4584779711659817,
+      "tokens_seen": 1815347200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001774498675747257,
+      "loss": 3.1066,
+      "theoretical_loss": 3.458350692648722,
+      "tokens_seen": 1816133632
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017726068861142642,
+      "loss": 3.0877,
+      "theoretical_loss": 3.4581810976563645,
+      "tokens_seen": 1817182208
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017707150964812714,
+      "loss": 3.1435,
+      "theoretical_loss": 3.4580116278812376,
+      "tokens_seen": 1818230784
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.49165356159210205,
+      "objective/train/docs_used": 1027487,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.3668980598449707,
+      "objective/train/original_loss": 2.3668980598449707,
+      "objective/train/theoretical_loss": 3.4579481089645308,
+      "objective/train/tokens_used": 1839084000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24341939389705658,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504027605056763,
+      "objective/train/weighted_lm_loss": 2.486278533935547,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9554612040519714,
+      "theoretical_loss": 3.4579481089645308,
+      "tokens_seen": 1818624000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017688233068482783,
+      "loss": 3.155,
+      "theoretical_loss": 3.457842283158757,
+      "tokens_seen": 1819279360
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017669315172152858,
+      "loss": 3.179,
+      "theoretical_loss": 3.457673063324649,
+      "tokens_seen": 1820327936
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001765039727582293,
+      "loss": 3.1094,
+      "theoretical_loss": 3.4575039682149495,
+      "tokens_seen": 1821376512
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.4697323441505432,
+      "objective/train/docs_used": 1029511,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7002482414245605,
+      "objective/train/original_loss": 2.7002482414245605,
+      "objective/train/theoretical_loss": 3.457419467380599,
+      "objective/train/tokens_used": 1842360800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23787598311901093,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481818914413452,
+      "objective/train/weighted_lm_loss": 2.829710006713867,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9514086842536926,
+      "theoretical_loss": 3.457419467380599,
+      "tokens_seen": 1821900800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017631479379493002,
+      "loss": 3.2005,
+      "theoretical_loss": 3.4573349976660053,
+      "tokens_seen": 1822425088
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017612561483163072,
+      "loss": 3.0605,
+      "theoretical_loss": 3.4571661515144703,
+      "tokens_seen": 1823473664
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017593643586833144,
+      "loss": 3.1137,
+      "theoretical_loss": 3.4569974295973083,
+      "tokens_seen": 1824522240
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.48513007164001465,
+      "objective/train/docs_used": 1031319,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.138819456100464,
+      "objective/train/original_loss": 3.1388192176818848,
+      "objective/train/theoretical_loss": 3.4568920414145294,
+      "objective/train/tokens_used": 1845637600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2404634803533554,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049735188484192,
+      "objective/train/weighted_lm_loss": 3.294522285461426,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9532184600830078,
+      "theoretical_loss": 3.4568920414145294,
+      "tokens_seen": 1825177600
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017574725690503216,
+      "loss": 3.1527,
+      "theoretical_loss": 3.456828831751788,
+      "tokens_seen": 1825570816
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001755580779417329,
+      "loss": 3.0631,
+      "theoretical_loss": 3.4566603578154877,
+      "tokens_seen": 1826619392
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017536889897843362,
+      "loss": 3.1108,
+      "theoretical_loss": 3.456492007626288,
+      "tokens_seen": 1827667968
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.48329445719718933,
+      "objective/train/docs_used": 1033212,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.762449026107788,
+      "objective/train/original_loss": 2.762449264526367,
+      "objective/train/theoretical_loss": 3.4563658260960706,
+      "objective/train/tokens_used": 1848914400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23659563064575195,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495319366455078,
+      "objective/train/weighted_lm_loss": 2.900442123413086,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9571607708930969,
+      "theoretical_loss": 3.4563658260960706,
+      "tokens_seen": 1828454400
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017517972001513432,
+      "loss": 3.174,
+      "theoretical_loss": 3.456323781022376,
+      "tokens_seen": 1828716544
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017499054105183504,
+      "loss": 3.0913,
+      "theoretical_loss": 3.456155677842244,
+      "tokens_seen": 1829765120
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017480136208853576,
+      "loss": 3.086,
+      "theoretical_loss": 3.455987697924686,
+      "tokens_seen": 1830813696
+    },
+    {
+      "epoch": 0.65,
+      "objective/train/advantage_avg": 0.49024006724357605,
+      "objective/train/docs_used": 1034888,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1704938411712646,
+      "objective/train/original_loss": 3.1704936027526855,
+      "objective/train/theoretical_loss": 3.455840816484155,
+      "objective/train/tokens_used": 1852191200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24271473288536072,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050257921218872,
+      "objective/train/weighted_lm_loss": 3.3301610946655273,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9584827423095703,
+      "theoretical_loss": 3.455840816484155,
+      "tokens_seen": 1831731200
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017461218312523648,
+      "loss": 3.114,
+      "theoretical_loss": 3.4558198411088004,
+      "tokens_seen": 1831862272
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001744230041619372,
+      "loss": 3.151,
+      "theoretical_loss": 3.4556521072339854,
+      "tokens_seen": 1832910848
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017423382519863792,
+      "loss": 3.1021,
+      "theoretical_loss": 3.455484496139943,
+      "tokens_seen": 1833959424
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.48320844769477844,
+      "objective/train/docs_used": 1036847,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1283445358276367,
+      "objective/train/original_loss": 3.1283445358276367,
+      "objective/train/theoretical_loss": 3.4553170076666744,
+      "objective/train/tokens_used": 1855468000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24146130681037903,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495481491088867,
+      "objective/train/weighted_lm_loss": 3.282777786254883,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9517518877983093,
+      "theoretical_loss": 3.4553170076666744,
+      "tokens_seen": 1835008000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017404464623533864,
+      "loss": 3.0562,
+      "theoretical_loss": 3.4553170076666744,
+      "tokens_seen": 1835008000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017385546727203936,
+      "loss": 3.0563,
+      "theoretical_loss": 3.4551496416544794,
+      "tokens_seen": 1836056576
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017366628830874006,
+      "loss": 3.1021,
+      "theoretical_loss": 3.4549823979439593,
+      "tokens_seen": 1837105152
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017347710934544078,
+      "loss": 3.1223,
+      "theoretical_loss": 3.454815276376012,
+      "tokens_seen": 1838153728
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4860526919364929,
+      "objective/train/docs_used": 1038918,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.040283679962158,
+      "objective/train/original_loss": 3.040283679962158,
+      "objective/train/theoretical_loss": 3.454794394760256,
+      "objective/train/tokens_used": 1858744800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2394542098045349,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049822449684143,
+      "objective/train/weighted_lm_loss": 3.1913719177246094,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.9641718864440918,
+      "theoretical_loss": 3.454794394760256,
+      "tokens_seen": 1838284800
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017328793038214152,
+      "loss": 3.1416,
+      "theoretical_loss": 3.4546482767918336,
+      "tokens_seen": 1839202304
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017309875141884224,
+      "loss": 3.1489,
+      "theoretical_loss": 3.4544813990329173,
+      "tokens_seen": 1840250880
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017290957245554296,
+      "loss": 3.0767,
+      "theoretical_loss": 3.4543146429410516,
+      "tokens_seen": 1841299456
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4855334758758545,
+      "objective/train/docs_used": 1041004,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6250319480895996,
+      "objective/train/original_loss": 2.6250319480895996,
+      "objective/train/theoretical_loss": 3.4542729729100494,
+      "objective/train/tokens_used": 1862021600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2389741688966751,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497679710388184,
+      "objective/train/weighted_lm_loss": 2.7558908462524414,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9570268988609314,
+      "theoretical_loss": 3.4542729729100494,
+      "tokens_seen": 1841561600
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017272039349224366,
+      "loss": 3.0565,
+      "theoretical_loss": 3.4541480083583203,
+      "tokens_seen": 1842348032
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017253121452894438,
+      "loss": 3.1441,
+      "theoretical_loss": 3.453981495127104,
+      "tokens_seen": 1843396608
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001723420355656451,
+      "loss": 3.1785,
+      "theoretical_loss": 3.453815103090075,
+      "tokens_seen": 1844445184
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4911976158618927,
+      "objective/train/docs_used": 1042471,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1483094692230225,
+      "objective/train/original_loss": 3.1483097076416016,
+      "objective/train/theoretical_loss": 3.4537527372895047,
+      "objective/train/tokens_used": 1865298400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24456915259361267,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503631830215454,
+      "objective/train/weighted_lm_loss": 3.3062546253204346,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9537386298179626,
+      "theoretical_loss": 3.4537527372895047,
+      "tokens_seen": 1844838400
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017215285660234585,
+      "loss": 3.1755,
+      "theoretical_loss": 3.453648832090199,
+      "tokens_seen": 1845493760
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017196367763904654,
+      "loss": 3.1402,
+      "theoretical_loss": 3.453482681970735,
+      "tokens_seen": 1846542336
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017177449867574726,
+      "loss": 3.1996,
+      "theoretical_loss": 3.453316652575235,
+      "tokens_seen": 1847590912
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4777521789073944,
+      "objective/train/docs_used": 1043966,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8465492725372314,
+      "objective/train/original_loss": 2.8465495109558105,
+      "objective/train/theoretical_loss": 3.45323368310016,
+      "objective/train/tokens_used": 1868575200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2377437949180603,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489834547042847,
+      "objective/train/weighted_lm_loss": 2.9855000972747803,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.95146644115448,
+      "theoretical_loss": 3.45323368310016,
+      "tokens_seen": 1848115200
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017158531971244798,
+      "loss": 3.1897,
+      "theoretical_loss": 3.453150743747539,
+      "tokens_seen": 1848639488
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001713961407491487,
+      "loss": 3.1487,
+      "theoretical_loss": 3.4529849553317806,
+      "tokens_seen": 1849688064
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001712069617858494,
+      "loss": 3.1324,
+      "theoretical_loss": 3.4528192871723813,
+      "tokens_seen": 1850736640
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.49022161960601807,
+      "objective/train/docs_used": 1045702,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6801793575286865,
+      "objective/train/original_loss": 2.6801795959472656,
+      "objective/train/theoretical_loss": 3.452715805571427,
+      "objective/train/tokens_used": 1871852000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24245530366897583,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502547025680542,
+      "objective/train/weighted_lm_loss": 2.814542293548584,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9725965261459351,
+      "theoretical_loss": 3.452715805571427,
+      "tokens_seen": 1851392000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017101778282255014,
+      "loss": 3.1696,
+      "theoretical_loss": 3.4526537391140524,
+      "tokens_seen": 1851785216
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017082860385925086,
+      "loss": 3.226,
+      "theoretical_loss": 3.452488311001792,
+      "tokens_seen": 1852833792
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017063942489595158,
+      "loss": 3.1755,
+      "theoretical_loss": 3.452323002680888,
+      "tokens_seen": 1853882368
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4886515140533447,
+      "objective/train/docs_used": 1047742,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.119795083999634,
+      "objective/train/original_loss": 3.119795322418213,
+      "objective/train/theoretical_loss": 3.4521990999603807,
+      "objective/train/tokens_used": 1875128800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24155665934085846,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500929355621338,
+      "objective/train/weighted_lm_loss": 3.276261806488037,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9518893957138062,
+      "theoretical_loss": 3.4521990999603807,
+      "tokens_seen": 1854668800
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001704502459326523,
+      "loss": 3.1549,
+      "theoretical_loss": 3.452157813996915,
+      "tokens_seen": 1854930944
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000170261066969353,
+      "loss": 3.1942,
+      "theoretical_loss": 3.4519927447957315,
+      "tokens_seen": 1855979520
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017007188800605372,
+      "loss": 3.2162,
+      "theoretical_loss": 3.4518277949234837,
+      "tokens_seen": 1857028096
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.4771397113800049,
+      "objective/train/docs_used": 1049474,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.327524185180664,
+      "objective/train/original_loss": 3.327524185180664,
+      "objective/train/theoretical_loss": 3.451683561551551,
+      "objective/train/tokens_used": 1878405600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2344101220369339,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048905372619629,
+      "objective/train/weighted_lm_loss": 3.490372896194458,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9525474309921265,
+      "theoretical_loss": 3.451683561551551,
+      "tokens_seen": 1857945600
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00016988270904275447,
+      "loss": 3.1831,
+      "theoretical_loss": 3.451662964226602,
+      "tokens_seen": 1858076672
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001696935300794552,
+      "loss": 3.249,
+      "theoretical_loss": 3.4514982525518008,
+      "tokens_seen": 1859125248
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00016950435111615588,
+      "loss": 3.2283,
+      "theoretical_loss": 3.451333659746079,
+      "tokens_seen": 1860173824
+    },
+    {
+      "epoch": 0.66,
+      "objective/train/advantage_avg": 0.48431384563446045,
+      "objective/train/docs_used": 1051410,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.301570177078247,
+      "objective/train/original_loss": 3.301570177078247,
+      "objective/train/theoretical_loss": 3.451169185656717,
+      "objective/train/tokens_used": 1881682400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23943281173706055,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049648404121399,
+      "objective/train/weighted_lm_loss": 3.4656476974487305,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9544273614883423,
+      "theoretical_loss": 3.451169185656717,
+      "tokens_seen": 1861222400
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001693151721528566,
+      "loss": 3.2445,
+      "theoretical_loss": 3.451169185656717,
+      "tokens_seen": 1861222400
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016912599318955732,
+      "loss": 3.0725,
+      "theoretical_loss": 3.451004830131277,
+      "tokens_seen": 1862270976
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016893681422625804,
+      "loss": 3.2268,
+      "theoretical_loss": 3.450840593017604,
+      "tokens_seen": 1863319552
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001687476352629588,
+      "loss": 3.2105,
+      "theoretical_loss": 3.4506764741638234,
+      "tokens_seen": 1864368128
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.49058830738067627,
+      "objective/train/docs_used": 1053575,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6096420288085938,
+      "objective/train/original_loss": 2.6096420288085938,
+      "objective/train/theoretical_loss": 3.450655967614696,
+      "objective/train/tokens_used": 1884959200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24194616079330444,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502886772155762,
+      "objective/train/weighted_lm_loss": 2.7413790225982666,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9557876586914062,
+      "theoretical_loss": 3.450655967614696,
+      "tokens_seen": 1864499200
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016855845629965948,
+      "loss": 3.1053,
+      "theoretical_loss": 3.45051247341834,
+      "tokens_seen": 1865416704
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001683692773363602,
+      "loss": 3.1242,
+      "theoretical_loss": 3.4503485906298383,
+      "tokens_seen": 1866465280
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016818009837306092,
+      "loss": 3.1477,
+      "theoretical_loss": 3.450184825647282,
+      "tokens_seen": 1867513856
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.4847777783870697,
+      "objective/train/docs_used": 1055519,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1753129959106445,
+      "objective/train/original_loss": 3.1753129959106445,
+      "objective/train/theoretical_loss": 3.4501439027911487,
+      "objective/train/tokens_used": 1888236000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24292968213558197,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497125387191772,
+      "objective/train/weighted_lm_loss": 3.332350730895996,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9515226483345032,
+      "theoretical_loss": 3.4501439027911487,
+      "tokens_seen": 1867776000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016799091940976164,
+      "loss": 3.1434,
+      "theoretical_loss": 3.450021178319912,
+      "tokens_seen": 1868562432
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016780174044646234,
+      "loss": 3.1115,
+      "theoretical_loss": 3.4498576484972476,
+      "tokens_seen": 1869611008
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016761256148316309,
+      "loss": 3.0889,
+      "theoretical_loss": 3.4496942360290843,
+      "tokens_seen": 1870659584
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.4783223867416382,
+      "objective/train/docs_used": 1057572,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.028226375579834,
+      "objective/train/original_loss": 3.028226137161255,
+      "objective/train/theoretical_loss": 3.4496329865783713,
+      "objective/train/tokens_used": 1891512800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23674528300762177,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490355491638184,
+      "objective/train/weighted_lm_loss": 3.176835060119629,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.951676070690155,
+      "theoretical_loss": 3.4496329865783713,
+      "tokens_seen": 1871052800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0001674233825198638,
+      "loss": 3.1617,
+      "theoretical_loss": 3.4495309407654937,
+      "tokens_seen": 1871708160
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016723420355656453,
+      "loss": 3.1119,
+      "theoretical_loss": 3.449367762556822,
+      "tokens_seen": 1872756736
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016704502459326522,
+      "loss": 3.0936,
+      "theoretical_loss": 3.449204701253692,
+      "tokens_seen": 1873805312
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.4878344237804413,
+      "objective/train/docs_used": 1059653,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6503984928131104,
+      "objective/train/original_loss": 2.6503987312316895,
+      "objective/train/theoretical_loss": 3.449123214395099,
+      "objective/train/tokens_used": 1894789600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24199466407299042,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500136613845825,
+      "objective/train/weighted_lm_loss": 2.782848358154297,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9590559005737305,
+      "theoretical_loss": 3.449123214395099,
+      "tokens_seen": 1874329600
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016685584562996594,
+      "loss": 3.1029,
+      "theoretical_loss": 3.4490417567069986,
+      "tokens_seen": 1874853888
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 3.096,
+      "theoretical_loss": 3.4488789287679116,
+      "tokens_seen": 1875902464
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016647748770336738,
+      "loss": 3.0593,
+      "theoretical_loss": 3.4487162172878723,
+      "tokens_seen": 1876951040
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.48306140303611755,
+      "objective/train/docs_used": 1061454,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.986534833908081,
+      "objective/train/original_loss": 2.986534595489502,
+      "objective/train/theoretical_loss": 3.4486145816863085,
+      "objective/train/tokens_used": 1898066400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2385236769914627,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495185852050781,
+      "objective/train/weighted_lm_loss": 3.1347832679748535,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9519363045692444,
+      "theoretical_loss": 3.4486145816863085,
+      "tokens_seen": 1877606400
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016628830874006813,
+      "loss": 3.0675,
+      "theoretical_loss": 3.4485536221185957,
+      "tokens_seen": 1877999616
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016609912977676882,
+      "loss": 3.0906,
+      "theoretical_loss": 3.448391143112067,
+      "tokens_seen": 1879048192
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016590995081346954,
+      "loss": 3.1067,
+      "theoretical_loss": 3.4482287801205422,
+      "tokens_seen": 1880096768
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.48760080337524414,
+      "objective/train/docs_used": 1063292,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.3369407653808594,
+      "objective/train/original_loss": 2.3369412422180176,
+      "objective/train/theoretical_loss": 3.448107083923021,
+      "objective/train/tokens_used": 1901343200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23860259354114532,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499727725982666,
+      "objective/train/weighted_lm_loss": 2.45414400100708,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9833489656448364,
+      "theoretical_loss": 3.448107083923021,
+      "tokens_seen": 1880883200
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016572077185017026,
+      "loss": 3.0392,
+      "theoretical_loss": 3.4480665329965485,
+      "tokens_seen": 1881145344
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016553159288687098,
+      "loss": 3.0593,
+      "theoretical_loss": 3.447904401592882,
+      "tokens_seen": 1882193920
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016534241392357168,
+      "loss": 3.0361,
+      "theoretical_loss": 3.4477423857626066,
+      "tokens_seen": 1883242496
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.48698893189430237,
+      "objective/train/docs_used": 1065366,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.880833148956299,
+      "objective/train/original_loss": 2.880833148956299,
+      "objective/train/theoretical_loss": 3.447600716602108,
+      "objective/train/tokens_used": 1904620000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23971621692180634,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499173402786255,
+      "objective/train/weighted_lm_loss": 3.0245883464813232,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9548348784446716,
+      "theoretical_loss": 3.447600716602108,
+      "tokens_seen": 1884160000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016515323496027243,
+      "loss": 3.1034,
+      "theoretical_loss": 3.4475804853590573,
+      "tokens_seen": 1884291072
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016496405599697315,
+      "loss": 3.019,
+      "theoretical_loss": 3.447418700235833,
+      "tokens_seen": 1885339648
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016477487703367387,
+      "loss": 3.0309,
+      "theoretical_loss": 3.4472570302468037,
+      "tokens_seen": 1886388224
+    },
+    {
+      "epoch": 0.67,
+      "objective/train/advantage_avg": 0.4793676733970642,
+      "objective/train/docs_used": 1066806,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5835084915161133,
+      "objective/train/original_loss": 2.5835084915161133,
+      "objective/train/theoretical_loss": 3.447095475246102,
+      "objective/train/tokens_used": 1907896800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23561342060565948,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049134373664856,
+      "objective/train/weighted_lm_loss": 2.7097527980804443,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.96308833360672,
+      "theoretical_loss": 3.447095475246102,
+      "tokens_seen": 1887436800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016458569807037456,
+      "loss": 3.0728,
+      "theoretical_loss": 3.447095475246102,
+      "tokens_seen": 1887436800
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00016439651910707528,
+      "loss": 3.0546,
+      "theoretical_loss": 3.446934035088128,
+      "tokens_seen": 1888485376
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.000164207340143776,
+      "loss": 3.0043,
+      "theoretical_loss": 3.446772709627547,
+      "tokens_seen": 1889533952
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016401816118047675,
+      "loss": 3.0649,
+      "theoretical_loss": 3.4466114987192884,
+      "tokens_seen": 1890582528
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.49177709221839905,
+      "objective/train/docs_used": 1068619,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9133520126342773,
+      "objective/train/original_loss": 2.9133520126342773,
+      "objective/train/theoretical_loss": 3.446591355403001,
+      "objective/train/tokens_used": 1911173600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2440955489873886,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050418496131897,
+      "objective/train/weighted_lm_loss": 3.0605461597442627,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9515418410301208,
+      "theoretical_loss": 3.446591355403001,
+      "tokens_seen": 1890713600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016382898221717747,
+      "loss": 3.0891,
+      "theoretical_loss": 3.446450402218545,
+      "tokens_seen": 1891631104
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016363980325387816,
+      "loss": 3.0613,
+      "theoretical_loss": 3.446289419980774,
+      "tokens_seen": 1892679680
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016345062429057888,
+      "loss": 3.1123,
+      "theoretical_loss": 3.446128551861694,
+      "tokens_seen": 1893728256
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.4786206781864166,
+      "objective/train/docs_used": 1071183,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7194037437438965,
+      "objective/train/original_loss": 2.7194037437438965,
+      "objective/train/theoretical_loss": 3.446088352646086,
+      "objective/train/tokens_used": 1914450400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23550763726234436,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490589141845703,
+      "objective/train/weighted_lm_loss": 2.853081464767456,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9536006450653076,
+      "theoretical_loss": 3.446088352646086,
+      "tokens_seen": 1893990400
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001632614453272796,
+      "loss": 3.0588,
+      "theoretical_loss": 3.4459677977172847,
+      "tokens_seen": 1894776832
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016307226636398032,
+      "loss": 3.0971,
+      "theoretical_loss": 3.4458071574037907,
+      "tokens_seen": 1895825408
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016288308740068104,
+      "loss": 3.1363,
+      "theoretical_loss": 3.4456466307777127,
+      "tokens_seen": 1896873984
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.4824937582015991,
+      "objective/train/docs_used": 1073215,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.948737621307373,
+      "objective/train/original_loss": 2.948737621307373,
+      "objective/train/theoretical_loss": 3.4455864625737282,
+      "objective/train/tokens_used": 1917727200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2392544150352478,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049465537071228,
+      "objective/train/weighted_lm_loss": 3.0943331718444824,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9522041082382202,
+      "theoretical_loss": 3.4455864625737282,
+      "tokens_seen": 1897267200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016269390843738177,
+      "loss": 3.1575,
+      "theoretical_loss": 3.4454862176958154,
+      "tokens_seen": 1897922560
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016250472947408249,
+      "loss": 3.07,
+      "theoretical_loss": 3.4453259180151203,
+      "tokens_seen": 1898971136
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001623155505107832,
+      "loss": 3.0711,
+      "theoretical_loss": 3.4451657315929096,
+      "tokens_seen": 1900019712
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.4815155863761902,
+      "objective/train/docs_used": 1074511,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.044644594192505,
+      "objective/train/original_loss": 3.044644832611084,
+      "objective/train/theoretical_loss": 3.445085680809207,
+      "objective/train/tokens_used": 1921004000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23717336356639862,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493569374084473,
+      "objective/train/weighted_lm_loss": 3.19500470161438,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9591754674911499,
+      "theoretical_loss": 3.445085680809207,
+      "tokens_seen": 1900544000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016212637154748393,
+      "loss": 3.0576,
+      "theoretical_loss": 3.445005658286722,
+      "tokens_seen": 1901068288
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016193719258418462,
+      "loss": 3.0648,
+      "theoretical_loss": 3.4448456979543556,
+      "tokens_seen": 1902116864
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016174801362088537,
+      "loss": 3.0426,
+      "theoretical_loss": 3.4446858504538644,
+      "tokens_seen": 1903165440
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.49052512645721436,
+      "objective/train/docs_used": 1076404,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9473235607147217,
+      "objective/train/original_loss": 2.94732403755188,
+      "objective/train/theoretical_loss": 3.4445860030005253,
+      "objective/train/tokens_used": 1924280800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24399477243423462,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502928495407104,
+      "objective/train/weighted_lm_loss": 3.0951266288757324,
+      "objective/train/weights_max": 1.0512195825576782,
+      "objective/train/weights_min": 0.9533544182777405,
+      "theoretical_loss": 3.4445860030005253,
+      "tokens_seen": 1903820800
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001615588346575861,
+      "loss": 3.0305,
+      "theoretical_loss": 3.4445261156435585,
+      "tokens_seen": 1904214016
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001613696556942868,
+      "loss": 3.016,
+      "theoretical_loss": 3.4443664933820055,
+      "tokens_seen": 1905262592
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001611804767309875,
+      "loss": 3.0832,
+      "theoretical_loss": 3.4442069835280265,
+      "tokens_seen": 1906311168
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.47672393918037415,
+      "objective/train/docs_used": 1078284,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2508022785186768,
+      "objective/train/original_loss": 3.2508018016815186,
+      "objective/train/theoretical_loss": 3.4440874248202293,
+      "objective/train/tokens_used": 1927557600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23937898874282837,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048888921737671,
+      "objective/train/weighted_lm_loss": 3.4074931144714355,
+      "objective/train/weights_max": 1.0512206554412842,
+      "objective/train/weights_min": 0.9522076845169067,
+      "theoretical_loss": 3.4440874248202293,
+      "tokens_seen": 1907097600
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016099129776768822,
+      "loss": 3.0102,
+      "theoretical_loss": 3.4440475859406985,
+      "tokens_seen": 1907359744
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016080211880438894,
+      "loss": 3.0034,
+      "theoretical_loss": 3.4438883004793515,
+      "tokens_seen": 1908408320
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001606129398410897,
+      "loss": 3.0316,
+      "theoretical_loss": 3.4437291270035697,
+      "tokens_seen": 1909456896
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.48424607515335083,
+      "objective/train/docs_used": 1079917,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7775046825408936,
+      "objective/train/original_loss": 2.7775044441223145,
+      "objective/train/theoretical_loss": 3.4435899419652256,
+      "objective/train/tokens_used": 1930834400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23730778694152832,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496307611465454,
+      "objective/train/weighted_lm_loss": 2.9170379638671875,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9515936970710754,
+      "theoretical_loss": 3.4435899419652256,
+      "tokens_seen": 1910374400
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016042376087779038,
+      "loss": 3.0128,
+      "theoretical_loss": 3.443570065373189,
+      "tokens_seen": 1910505472
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001602345819144911,
+      "loss": 3.0617,
+      "theoretical_loss": 3.443411115448299,
+      "tokens_seen": 1911554048
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00016004540295119183,
+      "loss": 3.0827,
+      "theoretical_loss": 3.4432522770892398,
+      "tokens_seen": 1912602624
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.48178908228874207,
+      "objective/train/docs_used": 1081633,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.645468235015869,
+      "objective/train/original_loss": 2.6454684734344482,
+      "objective/train/theoretical_loss": 3.443093550156604,
+      "objective/train/tokens_used": 1934111200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24107873439788818,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494041442871094,
+      "objective/train/weighted_lm_loss": 2.7751283645629883,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9514924883842468,
+      "theoretical_loss": 3.443093550156604,
+      "tokens_seen": 1913651200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015985622398789255,
+      "loss": 3.0849,
+      "theoretical_loss": 3.443093550156604,
+      "tokens_seen": 1913651200
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00015966704502459327,
+      "loss": 3.0829,
+      "theoretical_loss": 3.4429349345112326,
+      "tokens_seen": 1914699776
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.000159477866061294,
+      "loss": 3.0307,
+      "theoretical_loss": 3.442776430014218,
+      "tokens_seen": 1915748352
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0001592886870979947,
+      "loss": 3.1064,
+      "theoretical_loss": 3.442618036526901,
+      "tokens_seen": 1916796928
+    },
+    {
+      "epoch": 0.68,
+      "objective/train/advantage_avg": 0.4814731180667877,
+      "objective/train/docs_used": 1083428,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.869269609451294,
+      "objective/train/original_loss": 2.869269847869873,
+      "objective/train/theoretical_loss": 3.44259824513946,
+      "objective/train/tokens_used": 1937388000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24218010902404785,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493781566619873,
+      "objective/train/weighted_lm_loss": 3.0097241401672363,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9519504904747009,
+      "theoretical_loss": 3.44259824513946,
+      "tokens_seen": 1916928000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015909950813469543,
+      "loss": 3.1398,
+      "theoretical_loss": 3.4424597539108728,
+      "tokens_seen": 1917845504
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015891032917139615,
+      "loss": 3.1185,
+      "theoretical_loss": 3.4423015820279703,
+      "tokens_seen": 1918894080
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015872115020809684,
+      "loss": 3.0341,
+      "theoretical_loss": 3.4421435207402795,
+      "tokens_seen": 1919942656
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.48610636591911316,
+      "objective/train/docs_used": 1085055,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.043754816055298,
+      "objective/train/original_loss": 3.043754816055298,
+      "objective/train/theoretical_loss": 3.44210402268272,
+      "objective/train/tokens_used": 1940664800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23820815980434418,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049821376800537,
+      "objective/train/weighted_lm_loss": 3.1965363025665283,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9668196439743042,
+      "theoretical_loss": 3.44210402268272,
+      "tokens_seen": 1920204800
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015853197124479756,
+      "loss": 3.149,
+      "theoretical_loss": 3.441985569910133,
+      "tokens_seen": 1920991232
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001583427922814983,
+      "loss": 3.1465,
+      "theoretical_loss": 3.44182772940011,
+      "tokens_seen": 1922039808
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015815361331819903,
+      "loss": 3.1075,
+      "theoretical_loss": 3.441669999073035,
+      "tokens_seen": 1923088384
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.4901277422904968,
+      "objective/train/docs_used": 1086767,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.144951343536377,
+      "objective/train/original_loss": 3.144951343536377,
+      "objective/train/theoretical_loss": 3.4416108785789676,
+      "objective/train/tokens_used": 1943941600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24380195140838623,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502521991729736,
+      "objective/train/weighted_lm_loss": 3.3028461933135986,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9523271918296814,
+      "theoretical_loss": 3.4416108785789676,
+      "tokens_seen": 1923481600
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015796443435489975,
+      "loss": 3.1408,
+      "theoretical_loss": 3.441512378791978,
+      "tokens_seen": 1924136960
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015777525539160045,
+      "loss": 3.1612,
+      "theoretical_loss": 3.4413548684202544,
+      "tokens_seen": 1925185536
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015758607642830117,
+      "loss": 3.1644,
+      "theoretical_loss": 3.4411974678214223,
+      "tokens_seen": 1926234112
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.48439183831214905,
+      "objective/train/docs_used": 1088753,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6918206214904785,
+      "objective/train/original_loss": 2.6918208599090576,
+      "objective/train/theoretical_loss": 3.4411188086442692,
+      "objective/train/tokens_used": 1947218400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23981790244579315,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049658179283142,
+      "objective/train/weighted_lm_loss": 2.8249881267547607,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9570189118385315,
+      "theoretical_loss": 3.4411188086442692,
+      "tokens_seen": 1926758400
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001573968974650019,
+      "loss": 3.162,
+      "theoretical_loss": 3.4410401768592846,
+      "tokens_seen": 1927282688
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015720771850170263,
+      "loss": 3.1948,
+      "theoretical_loss": 3.440882995397886,
+      "tokens_seen": 1928331264
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015701853953840333,
+      "loss": 3.2031,
+      "theoretical_loss": 3.440725923301515,
+      "tokens_seen": 1929379840
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.47249332070350647,
+      "objective/train/docs_used": 1090637,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.311936855316162,
+      "objective/train/original_loss": 3.311936855316162,
+      "objective/train/theoretical_loss": 3.4406278087180064,
+      "objective/train/tokens_used": 1950495200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24297377467155457,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484838485717773,
+      "objective/train/weighted_lm_loss": 3.4713997840881348,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9513853192329407,
+      "theoretical_loss": 3.4406278087180064,
+      "tokens_seen": 1930035200
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015682936057510405,
+      "loss": 3.1742,
+      "theoretical_loss": 3.4405689604347005,
+      "tokens_seen": 1930428416
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015664018161180477,
+      "loss": 3.154,
+      "theoretical_loss": 3.4404121066622144,
+      "tokens_seen": 1931476992
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001564510026485055,
+      "loss": 3.1313,
+      "theoretical_loss": 3.4402553618490668,
+      "tokens_seen": 1932525568
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.4777022898197174,
+      "objective/train/docs_used": 1092665,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2258169651031494,
+      "objective/train/original_loss": 3.2258167266845703,
+      "objective/train/theoretical_loss": 3.440137874662704,
+      "objective/train/tokens_used": 1953772000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23566052317619324,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048967957496643,
+      "objective/train/weighted_lm_loss": 3.3833398818969727,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9548637866973877,
+      "theoretical_loss": 3.440137874662704,
+      "tokens_seen": 1933312000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015626182368520618,
+      "loss": 3.1434,
+      "theoretical_loss": 3.4400987258605102,
+      "tokens_seen": 1933574144
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015607264472190693,
+      "loss": 3.1228,
+      "theoretical_loss": 3.4399421985620364,
+      "tokens_seen": 1934622720
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015588346575860765,
+      "loss": 3.109,
+      "theoretical_loss": 3.439785779819375,
+      "tokens_seen": 1935671296
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.48318758606910706,
+      "objective/train/docs_used": 1094661,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.008556842803955,
+      "objective/train/original_loss": 3.0085573196411133,
+      "objective/train/theoretical_loss": 3.439649002363864,
+      "objective/train/tokens_used": 1957048800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24022220075130463,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495398044586182,
+      "objective/train/weighted_lm_loss": 3.1570565700531006,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9545727372169495,
+      "theoretical_loss": 3.439649002363864,
+      "tokens_seen": 1936588800
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015569428679530837,
+      "loss": 3.1473,
+      "theoretical_loss": 3.4396294694984952,
+      "tokens_seen": 1936719872
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001555051078320091,
+      "loss": 3.1707,
+      "theoretical_loss": 3.439473267465604,
+      "tokens_seen": 1937768448
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015531592886870979,
+      "loss": 3.0851,
+      "theoretical_loss": 3.4393171735871446,
+      "tokens_seen": 1938817024
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.4772590696811676,
+      "objective/train/docs_used": 1096594,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8366477489471436,
+      "objective/train/original_loss": 2.8366475105285645,
+      "objective/train/theoretical_loss": 3.439161187729799,
+      "objective/train/tokens_used": 1960325600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23779280483722687,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489344596862793,
+      "objective/train/weighted_lm_loss": 2.9748737812042236,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9515256285667419,
+      "theoretical_loss": 3.439161187729799,
+      "tokens_seen": 1939865600
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001551267499054105,
+      "loss": 3.0804,
+      "theoretical_loss": 3.439161187729799,
+      "tokens_seen": 1939865600
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015493757094211125,
+      "loss": 3.1544,
+      "theoretical_loss": 3.4390053097604847,
+      "tokens_seen": 1940914176
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015474839197881197,
+      "loss": 3.1821,
+      "theoretical_loss": 3.4388495395463536,
+      "tokens_seen": 1941962752
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00015455921301551267,
+      "loss": 3.1627,
+      "theoretical_loss": 3.438693876954795,
+      "tokens_seen": 1943011328
+    },
+    {
+      "epoch": 0.69,
+      "objective/train/advantage_avg": 0.48600539565086365,
+      "objective/train/docs_used": 1098399,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.878577709197998,
+      "objective/train/original_loss": 2.8785781860351562,
+      "objective/train/theoretical_loss": 3.438674426691467,
+      "objective/train/tokens_used": 1963602400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24080105125904083,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498244762420654,
+      "objective/train/weighted_lm_loss": 3.0219502449035645,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.952756404876709,
+      "theoretical_loss": 3.438674426691467,
+      "tokens_seen": 1943142400
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001543700340522134,
+      "loss": 3.0941,
+      "theoretical_loss": 3.4385383218534313,
+      "tokens_seen": 1944059904
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001541808550889141,
+      "loss": 3.0426,
+      "theoretical_loss": 3.43838287411012,
+      "tokens_seen": 1945108480
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015399167612561483,
+      "loss": 3.1071,
+      "theoretical_loss": 3.4382275335929506,
+      "tokens_seen": 1946157056
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4673837423324585,
+      "objective/train/docs_used": 1099983,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.590907573699951,
+      "objective/train/original_loss": 2.590907573699951,
+      "objective/train/theoretical_loss": 3.4381887152023074,
+      "objective/train/tokens_used": 1966879200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23693355917930603,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479426383972168,
+      "objective/train/weighted_lm_loss": 2.719980478286743,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.969889223575592,
+      "theoretical_loss": 3.4381887152023074,
+      "tokens_seen": 1946419200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015380249716231555,
+      "loss": 3.1018,
+      "theoretical_loss": 3.4380723001702482,
+      "tokens_seen": 1947205632
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015361331819901627,
+      "loss": 3.1348,
+      "theoretical_loss": 3.4379171737105683,
+      "tokens_seen": 1948254208
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.000153424139235717,
+      "loss": 3.0988,
+      "theoretical_loss": 3.4377621540826984,
+      "tokens_seen": 1949302784
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4762834310531616,
+      "objective/train/docs_used": 1101732,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0439748764038086,
+      "objective/train/original_loss": 3.0439748764038086,
+      "objective/train/theoretical_loss": 3.4377040492380826,
+      "objective/train/tokens_used": 1970156000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2366829365491867,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488312244415283,
+      "objective/train/weighted_lm_loss": 3.1925623416900635,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9599282741546631,
+      "theoretical_loss": 3.4377040492380826,
+      "tokens_seen": 1949696000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001532349602724177,
+      "loss": 3.1246,
+      "theoretical_loss": 3.437607241155659,
+      "tokens_seen": 1950351360
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015304578130911843,
+      "loss": 3.1243,
+      "theoretical_loss": 3.4374524347986997,
+      "tokens_seen": 1951399936
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015285660234581913,
+      "loss": 3.0839,
+      "theoretical_loss": 3.437297734881301,
+      "tokens_seen": 1952448512
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4811760485172272,
+      "objective/train/docs_used": 1103876,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.098599910736084,
+      "objective/train/original_loss": 3.098599433898926,
+      "objective/train/theoretical_loss": 3.4372204247967133,
+      "objective/train/tokens_used": 1973432800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24242191016674042,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493496656417847,
+      "objective/train/weighted_lm_loss": 3.2506155967712402,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951482892036438,
+      "theoretical_loss": 3.4372204247967133,
+      "tokens_seen": 1952972800
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015266742338251987,
+      "loss": 3.0771,
+      "theoretical_loss": 3.437143141273175,
+      "tokens_seen": 1953497088
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001524782444192206,
+      "loss": 3.1538,
+      "theoretical_loss": 3.4369886538442604,
+      "tokens_seen": 1954545664
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015228906545592131,
+      "loss": 3.1184,
+      "theoretical_loss": 3.4368342724647265,
+      "tokens_seen": 1955594240
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4940529763698578,
+      "objective/train/docs_used": 1105993,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3750038146972656,
+      "objective/train/original_loss": 3.3750038146972656,
+      "objective/train/theoretical_loss": 3.436737837898122,
+      "objective/train/tokens_used": 1976709600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2451893538236618,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506517887115479,
+      "objective/train/weighted_lm_loss": 3.5460386276245117,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9603523015975952,
+      "theoretical_loss": 3.436737837898122,
+      "tokens_seen": 1956249600
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.000152099886492622,
+      "loss": 3.1778,
+      "theoretical_loss": 3.43667999700497,
+      "tokens_seen": 1956642816
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015191070752932273,
+      "loss": 3.1804,
+      "theoretical_loss": 3.4365258273356156,
+      "tokens_seen": 1957691392
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015172152856602345,
+      "loss": 3.1596,
+      "theoretical_loss": 3.4363717633275153,
+      "tokens_seen": 1958739968
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4944164454936981,
+      "objective/train/docs_used": 1108290,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2766504287719727,
+      "objective/train/original_loss": 3.2766504287719727,
+      "objective/train/theoretical_loss": 3.4362562845840747,
+      "objective/train/tokens_used": 1979986400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2452101707458496,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506881475448608,
+      "objective/train/weighted_lm_loss": 3.4432315826416016,
+      "objective/train/weights_max": 1.0512208938598633,
+      "objective/train/weights_min": 0.9669325351715088,
+      "theoretical_loss": 3.4362562845840747,
+      "tokens_seen": 1959526400
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001515323496027242,
+      "loss": 3.1575,
+      "theoretical_loss": 3.436217804851747,
+      "tokens_seen": 1959788544
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015134317063942492,
+      "loss": 3.1834,
+      "theoretical_loss": 3.4360639517796168,
+      "tokens_seen": 1960837120
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001511539916761256,
+      "loss": 3.1164,
+      "theoretical_loss": 3.4359102039826546,
+      "tokens_seen": 1961885696
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.49615535140037537,
+      "objective/train/docs_used": 1110185,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1375579833984375,
+      "objective/train/original_loss": 3.1375579833984375,
+      "objective/train/theoretical_loss": 3.435775760918026,
+      "objective/train/tokens_used": 1983263200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24696744978427887,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0508711338043213,
+      "objective/train/weighted_lm_loss": 3.2971224784851074,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.957501232624054,
+      "theoretical_loss": 3.435775760918026,
+      "tokens_seen": 1962803200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015096481271282633,
+      "loss": 3.1439,
+      "theoretical_loss": 3.4357565613326155,
+      "tokens_seen": 1962934272
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015077563374952705,
+      "loss": 3.0854,
+      "theoretical_loss": 3.4356030237014803,
+      "tokens_seen": 1963982848
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015058645478622777,
+      "loss": 3.1707,
+      "theoretical_loss": 3.435449590961453,
+      "tokens_seen": 1965031424
+    },
+    {
+      "debugging/Self-BLEU-5": 0.4796244782337672,
+      "debugging/distinct-1-grams": 0.7874466763773558,
+      "debugging/distinct-2-grams": 0.9537592626603371,
+      "debugging/entropy-1-grams": 6.225892551400493,
+      "debugging/entropy-2-grams": 7.143796200176747,
+      "debugging/length": 450.05,
+      "debugging/num_segments": 20,
+      "debugging/raw_token_scores_avg": 0.028914527967572212,
+      "debugging/raw_token_scores_std": 0.09425558149814606,
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.47108298540115356,
+      "objective/train/docs_used": 1112341,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.987183094024658,
+      "objective/train/original_loss": 2.987183094024658,
+      "objective/train/theoretical_loss": 3.435296262984961,
+      "objective/train/tokens_used": 1986540000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23080673813819885,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0482814311981201,
+      "objective/train/weighted_lm_loss": 3.131026029586792,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9537268877029419,
+      "theoretical_loss": 3.435296262984961,
+      "tokens_seen": 1966080000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001503972758229285,
+      "loss": 3.1423,
+      "theoretical_loss": 3.435296262984961,
+      "tokens_seen": 1966080000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001502080968596292,
+      "loss": 3.0294,
+      "theoretical_loss": 3.4351430396446565,
+      "tokens_seen": 1967128576
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00015001891789632993,
+      "loss": 3.1178,
+      "theoretical_loss": 3.4349899208134125,
+      "tokens_seen": 1968177152
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00014982973893303065,
+      "loss": 3.1248,
+      "theoretical_loss": 3.4348369063643247,
+      "tokens_seen": 1969225728
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.4847583472728729,
+      "objective/train/docs_used": 1114494,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9856464862823486,
+      "objective/train/original_loss": 2.985647201538086,
+      "objective/train/theoretical_loss": 3.434817786891247,
+      "objective/train/tokens_used": 1989816800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24014219641685486,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049696683883667,
+      "objective/train/weighted_lm_loss": 3.1322898864746094,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9546946883201599,
+      "theoretical_loss": 3.434817786891247,
+      "tokens_seen": 1969356800
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00014964055996973135,
+      "loss": 3.0907,
+      "theoretical_loss": 3.4346839961707096,
+      "tokens_seen": 1970274304
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00014945138100643207,
+      "loss": 3.1122,
+      "theoretical_loss": 3.4345311901061066,
+      "tokens_seen": 1971322880
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00014926220204313282,
+      "loss": 3.0943,
+      "theoretical_loss": 3.434378488044274,
+      "tokens_seen": 1972371456
+    },
+    {
+      "epoch": 0.7,
+      "objective/train/advantage_avg": 0.49263060092926025,
+      "objective/train/docs_used": 1115816,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0610079765319824,
+      "objective/train/original_loss": 3.0610079765319824,
+      "objective/train/theoretical_loss": 3.434340328764476,
+      "objective/train/tokens_used": 1993093600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24445389211177826,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505057573318481,
+      "objective/train/weighted_lm_loss": 3.2152202129364014,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9796652793884277,
+      "theoretical_loss": 3.434340328764476,
+      "tokens_seen": 1972633600
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00014907302307983354,
+      "loss": 3.1552,
+      "theoretical_loss": 3.4342258898591904,
+      "tokens_seen": 1973420032
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014888384411653426,
+      "loss": 3.1141,
+      "theoretical_loss": 3.434073395425055,
+      "tokens_seen": 1974468608
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014869466515323495,
+      "loss": 3.0634,
+      "theoretical_loss": 3.433921004616285,
+      "tokens_seen": 1975517184
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.47501012682914734,
+      "objective/train/docs_used": 1117825,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.095318078994751,
+      "objective/train/original_loss": 3.095317840576172,
+      "objective/train/theoretical_loss": 3.433863884753317,
+      "objective/train/tokens_used": 1996370400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23647457361221313,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487028360366821,
+      "objective/train/weighted_lm_loss": 3.245806932449341,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9513912200927734,
+      "theoretical_loss": 3.433863884753317,
+      "tokens_seen": 1975910400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014850548618993567,
+      "loss": 3.0918,
+      "theoretical_loss": 3.433768717307516,
+      "tokens_seen": 1976565760
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001483163072266364,
+      "loss": 3.1025,
+      "theoretical_loss": 3.4336165333736037,
+      "tokens_seen": 1977614336
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014812712826333714,
+      "loss": 3.0333,
+      "theoretical_loss": 3.433464452689618,
+      "tokens_seen": 1978662912
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.48081904649734497,
+      "objective/train/docs_used": 1119491,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.902231454849243,
+      "objective/train/original_loss": 2.902231216430664,
+      "objective/train/theoretical_loss": 3.433388451027367,
+      "objective/train/tokens_used": 1999647200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23978132009506226,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493004322052002,
+      "objective/train/weighted_lm_loss": 3.0465242862701416,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9542652368545532,
+      "theoretical_loss": 3.433388451027367,
+      "tokens_seen": 1979187200
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014793794930003783,
+      "loss": 3.0627,
+      "theoretical_loss": 3.4333124751308484,
+      "tokens_seen": 1979711488
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014774877033673855,
+      "loss": 3.0599,
+      "theoretical_loss": 3.4331606005728004,
+      "tokens_seen": 1980760064
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014755959137343927,
+      "loss": 3.0972,
+      "theoretical_loss": 3.4330088288911953,
+      "tokens_seen": 1981808640
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.47215214371681213,
+      "objective/train/docs_used": 1121511,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.187962055206299,
+      "objective/train/original_loss": 3.1879618167877197,
+      "objective/train/theoretical_loss": 3.432914023777001,
+      "objective/train/tokens_used": 2002924000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23091299831867218,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0483888387680054,
+      "objective/train/weighted_lm_loss": 3.343453884124756,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9539908170700073,
+      "theoretical_loss": 3.432914023777001,
+      "tokens_seen": 1982464000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014737041241014,
+      "loss": 3.0673,
+      "theoretical_loss": 3.43285715996197,
+      "tokens_seen": 1982857216
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001471812334468407,
+      "loss": 3.0675,
+      "theoretical_loss": 3.432705593661278,
+      "tokens_seen": 1983905792
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014699205448354144,
+      "loss": 3.0601,
+      "theoretical_loss": 3.4325541298654842,
+      "tokens_seen": 1984954368
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.4908943474292755,
+      "objective/train/docs_used": 1123355,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.127197504043579,
+      "objective/train/original_loss": 3.127197265625,
+      "objective/train/theoretical_loss": 3.4324405992132268,
+      "objective/train/tokens_used": 2006200800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24222372472286224,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503206253051758,
+      "objective/train/weighted_lm_loss": 3.284457206726074,
+      "objective/train/weights_max": 1.0512199401855469,
+      "objective/train/weights_min": 0.9885050654411316,
+      "theoretical_loss": 3.4324405992132268,
+      "tokens_seen": 1985740800
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014680287552024216,
+      "loss": 3.1086,
+      "theoretical_loss": 3.432402768451171,
+      "tokens_seen": 1986002944
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014661369655694288,
+      "loss": 3.1612,
+      "theoretical_loss": 3.4322515092951322,
+      "tokens_seen": 1987051520
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001464245175936436,
+      "loss": 3.044,
+      "theoretical_loss": 3.432100352274376,
+      "tokens_seen": 1988100096
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.4853982627391815,
+      "objective/train/docs_used": 1125335,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.052032232284546,
+      "objective/train/original_loss": 3.052031993865967,
+      "objective/train/theoretical_loss": 3.4319681735675376,
+      "objective/train/tokens_used": 2009477600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24046699702739716,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04976224899292,
+      "objective/train/weighted_lm_loss": 3.203836679458618,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9524861574172974,
+      "theoretical_loss": 3.4319681735675376,
+      "tokens_seen": 1989017600
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001462353386303443,
+      "loss": 3.1721,
+      "theoretical_loss": 3.431949297266123,
+      "tokens_seen": 1989148672
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000146046159667045,
+      "loss": 3.1841,
+      "theoretical_loss": 3.4317983441478064,
+      "tokens_seen": 1990197248
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014585698070374576,
+      "loss": 3.1459,
+      "theoretical_loss": 3.4316474927970697,
+      "tokens_seen": 1991245824
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.4899314045906067,
+      "objective/train/docs_used": 1126843,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9000444412231445,
+      "objective/train/original_loss": 2.9000439643859863,
+      "objective/train/theoretical_loss": 3.431496743091769,
+      "objective/train/tokens_used": 2012754400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24320422112941742,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502294301986694,
+      "objective/train/weighted_lm_loss": 3.0460522174835205,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9620993733406067,
+      "theoretical_loss": 3.431496743091769,
+      "tokens_seen": 1992294400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014566780174044648,
+      "loss": 3.1331,
+      "theoretical_loss": 3.431496743091769,
+      "tokens_seen": 1992294400
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014547862277714717,
+      "loss": 3.1277,
+      "theoretical_loss": 3.431346094909971,
+      "tokens_seen": 1993342976
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001452894438138479,
+      "loss": 3.1989,
+      "theoretical_loss": 3.4311955481299528,
+      "tokens_seen": 1994391552
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014510026485054861,
+      "loss": 3.205,
+      "theoretical_loss": 3.4310451026302005,
+      "tokens_seen": 1995440128
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.48517540097236633,
+      "objective/train/docs_used": 1128158,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8031439781188965,
+      "objective/train/original_loss": 2.8031439781188965,
+      "objective/train/theoretical_loss": 3.4310263040579567,
+      "objective/train/tokens_used": 2016031200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23921027779579163,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497334003448486,
+      "objective/train/weighted_lm_loss": 2.9433789253234863,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.955235481262207,
+      "theoretical_loss": 3.4310263040579567,
+      "tokens_seen": 1995571200
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014491108588724933,
+      "loss": 3.1294,
+      "theoretical_loss": 3.430894758289411,
+      "tokens_seen": 1996488704
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014472190692395008,
+      "loss": 3.2061,
+      "theoretical_loss": 3.4307445149864884,
+      "tokens_seen": 1997537280
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014453272796065078,
+      "loss": 3.1406,
+      "theoretical_loss": 3.430594372600546,
+      "tokens_seen": 1998585856
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.49511581659317017,
+      "objective/train/docs_used": 1130081,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1099729537963867,
+      "objective/train/original_loss": 3.109973192214966,
+      "objective/train/theoretical_loss": 3.430556852758192,
+      "objective/train/tokens_used": 2019308000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2468186765909195,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0507664680480957,
+      "objective/train/weighted_lm_loss": 3.267641544342041,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9615699052810669,
+      "theoretical_loss": 3.430556852758192,
+      "tokens_seen": 1998848000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001443435489973515,
+      "loss": 3.1497,
+      "theoretical_loss": 3.4304443310109063,
+      "tokens_seen": 1999634432
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014415437003405222,
+      "loss": 3.092,
+      "theoretical_loss": 3.430294390097097,
+      "tokens_seen": 2000683008
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00014396519107075294,
+      "loss": 3.1712,
+      "theoretical_loss": 3.4301445497388547,
+      "tokens_seen": 2001731584
+    },
+    {
+      "epoch": 0.71,
+      "objective/train/advantage_avg": 0.4925604462623596,
+      "objective/train/docs_used": 1132167,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9438576698303223,
+      "objective/train/original_loss": 2.943857431411743,
+      "objective/train/theoretical_loss": 3.4300883855044857,
+      "objective/train/tokens_used": 2022584800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2444770783185959,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504989624023438,
+      "objective/train/weighted_lm_loss": 3.092851161956787,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9527947306632996,
+      "theoretical_loss": 3.4300883855044857,
+      "tokens_seen": 2002124800
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014377601210745363,
+      "loss": 3.1484,
+      "theoretical_loss": 3.4299948098161215,
+      "tokens_seen": 2002780160
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014358683314415438,
+      "loss": 3.132,
+      "theoretical_loss": 3.4298451702090462,
+      "tokens_seen": 2003828736
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001433976541808551,
+      "loss": 3.1449,
+      "theoretical_loss": 3.4296956307979825,
+      "tokens_seen": 2004877312
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.47776997089385986,
+      "objective/train/docs_used": 1133291,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9905569553375244,
+      "objective/train/original_loss": 2.990556478500366,
+      "objective/train/theoretical_loss": 3.429620898628622,
+      "objective/train/tokens_used": 2025861600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2385081797838211,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048988938331604,
+      "objective/train/weighted_lm_loss": 3.1350185871124268,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9514456391334534,
+      "theoretical_loss": 3.429620898628622,
+      "tokens_seen": 2005401600
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014320847521755582,
+      "loss": 3.1673,
+      "theoretical_loss": 3.42954619146349,
+      "tokens_seen": 2005925888
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001430192962542565,
+      "loss": 3.1407,
+      "theoretical_loss": 3.4293968520863336,
+      "tokens_seen": 2006974464
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014283011729095723,
+      "loss": 3.1269,
+      "theoretical_loss": 3.4292476125474805,
+      "tokens_seen": 2008023040
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.4895833432674408,
+      "objective/train/docs_used": 1134873,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.12807035446167,
+      "objective/train/original_loss": 3.128070831298828,
+      "objective/train/theoretical_loss": 3.4291543884820275,
+      "objective/train/tokens_used": 2029138400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2412732094526291,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501848459243774,
+      "objective/train/weighted_lm_loss": 3.2846426963806152,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9555214643478394,
+      "theoretical_loss": 3.4291543884820275,
+      "tokens_seen": 2008678400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014264093832765795,
+      "loss": 3.1118,
+      "theoretical_loss": 3.429098472728103,
+      "tokens_seen": 2009071616
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001424517593643587,
+      "loss": 3.0736,
+      "theoretical_loss": 3.4289494325095773,
+      "tokens_seen": 2010120192
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014226258040105942,
+      "loss": 3.1048,
+      "theoretical_loss": 3.4288004917734813,
+      "tokens_seen": 2011168768
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.45610880851745605,
+      "objective/train/docs_used": 1136813,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.221322774887085,
+      "objective/train/original_loss": 3.221322536468506,
+      "objective/train/theoretical_loss": 3.42868885143563,
+      "objective/train/tokens_used": 2032415200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23579107224941254,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0468087196350098,
+      "objective/train/weighted_lm_loss": 3.370765447616577,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.953737735748291,
+      "theoretical_loss": 3.42868885143563,
+      "tokens_seen": 2011955200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014207340143776012,
+      "loss": 3.1595,
+      "theoretical_loss": 3.428651650401596,
+      "tokens_seen": 2012217344
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014188422247446084,
+      "loss": 3.1331,
+      "theoretical_loss": 3.4285029082759046,
+      "tokens_seen": 2013265920
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014169504351116156,
+      "loss": 3.1415,
+      "theoretical_loss": 3.4283542652785908,
+      "tokens_seen": 2014314496
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.4859057068824768,
+      "objective/train/docs_used": 1138919,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.946512460708618,
+      "objective/train/original_loss": 2.946512222290039,
+      "objective/train/theoretical_loss": 3.4282242838797234,
+      "objective/train/tokens_used": 2035692000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23969919979572296,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498089790344238,
+      "objective/train/weighted_lm_loss": 3.09318208694458,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9610596299171448,
+      "theoretical_loss": 3.4282242838797234,
+      "tokens_seen": 2015232000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014150586454786228,
+      "loss": 3.1535,
+      "theoretical_loss": 3.428205721292041,
+      "tokens_seen": 2015363072
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.000141316685584563,
+      "loss": 3.1432,
+      "theoretical_loss": 3.4280572761988406,
+      "tokens_seen": 2016411648
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014112750662126372,
+      "loss": 3.1212,
+      "theoretical_loss": 3.4279089298817764,
+      "tokens_seen": 2017460224
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.4828082323074341,
+      "objective/train/docs_used": 1140999,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7979843616485596,
+      "objective/train/original_loss": 2.7979846000671387,
+      "objective/train/theoretical_loss": 3.427760682223834,
+      "objective/train/tokens_used": 2038968800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23849663138389587,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494930744171143,
+      "objective/train/weighted_lm_loss": 2.936995029449463,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.954368531703949,
+      "theoretical_loss": 3.427760682223834,
+      "tokens_seen": 2018508800
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014093832765796444,
+      "loss": 3.119,
+      "theoretical_loss": 3.427760682223834,
+      "tokens_seen": 2018508800
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014074914869466516,
+      "loss": 3.1216,
+      "theoretical_loss": 3.4276125331081997,
+      "tokens_seen": 2019557376
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014055996973136588,
+      "loss": 3.0604,
+      "theoretical_loss": 3.427464482418257,
+      "tokens_seen": 2020605952
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014037079076806657,
+      "loss": 3.0767,
+      "theoretical_loss": 3.4273165300375887,
+      "tokens_seen": 2021654528
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.4603384733200073,
+      "objective/train/docs_used": 1143312,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7195169925689697,
+      "objective/train/original_loss": 2.719517230987549,
+      "objective/train/theoretical_loss": 3.427298042896586,
+      "objective/train/tokens_used": 2042245600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23422212898731232,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0472242832183838,
+      "objective/train/weighted_lm_loss": 2.849896192550659,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9517197012901306,
+      "theoretical_loss": 3.427298042896586,
+      "tokens_seen": 2021785600
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00014018161180476732,
+      "loss": 3.0877,
+      "theoretical_loss": 3.427168675849976,
+      "tokens_seen": 2022703104
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00013999243284146804,
+      "loss": 3.1204,
+      "theoretical_loss": 3.427020919739397,
+      "tokens_seen": 2023751680
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00013980325387816876,
+      "loss": 3.0585,
+      "theoretical_loss": 3.4268732615900266,
+      "tokens_seen": 2024800256
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.4914935827255249,
+      "objective/train/docs_used": 1144755,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.170673131942749,
+      "objective/train/original_loss": 3.170673370361328,
+      "objective/train/theoretical_loss": 3.4268363623455684,
+      "objective/train/tokens_used": 2045522400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24298258125782013,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503846406936646,
+      "objective/train/weighted_lm_loss": 3.3304572105407715,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.981985330581665,
+      "theoretical_loss": 3.4268363623455684,
+      "tokens_seen": 2025062400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00013961407491486946,
+      "loss": 3.0733,
+      "theoretical_loss": 3.4267257012862373,
+      "tokens_seen": 2025848832
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00013942489595157018,
+      "loss": 3.074,
+      "theoretical_loss": 3.4265782387125974,
+      "tokens_seen": 2026897408
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001392357169882709,
+      "loss": 3.1012,
+      "theoretical_loss": 3.426430873753871,
+      "tokens_seen": 2027945984
+    },
+    {
+      "epoch": 0.72,
+      "objective/train/advantage_avg": 0.49117955565452576,
+      "objective/train/docs_used": 1146855,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9218034744262695,
+      "objective/train/original_loss": 2.9218032360076904,
+      "objective/train/theoretical_loss": 3.426375637037207,
+      "objective/train/tokens_used": 2048799200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2444514036178589,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503606796264648,
+      "objective/train/weighted_lm_loss": 3.0689315795898438,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9535993337631226,
+      "theoretical_loss": 3.426375637037207,
+      "tokens_seen": 2028339200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00013904653802497164,
+      "loss": 3.104,
+      "theoretical_loss": 3.4262836062950175,
+      "tokens_seen": 2028994560
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013885735906167234,
+      "loss": 3.0803,
+      "theoretical_loss": 3.4261364362211912,
+      "tokens_seen": 2030043136
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013866818009837306,
+      "loss": 3.0555,
+      "theoretical_loss": 3.425989363417741,
+      "tokens_seen": 2031091712
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.482932448387146,
+      "objective/train/docs_used": 1149039,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0094153881073,
+      "objective/train/original_loss": 3.0094151496887207,
+      "objective/train/theoretical_loss": 3.425915863456632,
+      "objective/train/tokens_used": 2052076000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23867341876029968,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049506425857544,
+      "objective/train/weighted_lm_loss": 3.15950608253479,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9558206796646118,
+      "theoretical_loss": 3.425915863456632,
+      "tokens_seen": 2031616000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013847900113507378,
+      "loss": 3.0104,
+      "theoretical_loss": 3.42584238777021,
+      "tokens_seen": 2032140288
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001382898221717745,
+      "loss": 3.0758,
+      "theoretical_loss": 3.4256955091643353,
+      "tokens_seen": 2033188864
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013810064320847522,
+      "loss": 3.0,
+      "theoretical_loss": 3.4255487274860457,
+      "tokens_seen": 2034237440
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.48947277665138245,
+      "objective/train/docs_used": 1151240,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.842642068862915,
+      "objective/train/original_loss": 2.842642307281494,
+      "objective/train/theoretical_loss": 3.425457038107547,
+      "objective/train/tokens_used": 2055352800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24280238151550293,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.05018150806427,
+      "objective/train/weighted_lm_loss": 2.9852519035339355,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9556968212127686,
+      "theoretical_loss": 3.425457038107547,
+      "tokens_seen": 2034892800
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013791146424517594,
+      "loss": 2.9684,
+      "theoretical_loss": 3.425402042621465,
+      "tokens_seen": 2035286016
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013772228528187666,
+      "loss": 3.0045,
+      "theoretical_loss": 3.4252554544569076,
+      "tokens_seen": 2036334592
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013753310631857738,
+      "loss": 2.9956,
+      "theoretical_loss": 3.4251089628788804,
+      "tokens_seen": 2037383168
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.4755612313747406,
+      "objective/train/docs_used": 1153257,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9520466327667236,
+      "objective/train/original_loss": 2.9520463943481445,
+      "objective/train/theoretical_loss": 3.4249991575121053,
+      "objective/train/tokens_used": 2058629600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23398137092590332,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0487455129623413,
+      "objective/train/weighted_lm_loss": 3.0983822345733643,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9720361828804016,
+      "theoretical_loss": 3.4249991575121053,
+      "tokens_seen": 2038169600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001373439273552781,
+      "loss": 3.0354,
+      "theoretical_loss": 3.4249625677740823,
+      "tokens_seen": 2038431744
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001371547483919788,
+      "loss": 3.0449,
+      "theoretical_loss": 3.424816269029402,
+      "tokens_seen": 2039480320
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013696556942867952,
+      "loss": 3.0413,
+      "theoretical_loss": 3.424670066531922,
+      "tokens_seen": 2040528896
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.48594948649406433,
+      "objective/train/docs_used": 1155326,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8335914611816406,
+      "objective/train/original_loss": 2.833591938018799,
+      "objective/train/theoretical_loss": 3.4245422182107816,
+      "objective/train/tokens_used": 2061906400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407456785440445,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049818515777588,
+      "objective/train/weighted_lm_loss": 2.974628448486328,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9524859189987183,
+      "theoretical_loss": 3.4245422182107816,
+      "tokens_seen": 2041446400
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013677639046538026,
+      "loss": 3.065,
+      "theoretical_loss": 3.4245239601689104,
+      "tokens_seen": 2041577472
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013658721150208098,
+      "loss": 3.0519,
+      "theoretical_loss": 3.4243779498278286,
+      "tokens_seen": 2042626048
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013639803253878168,
+      "loss": 3.1046,
+      "theoretical_loss": 3.4242320353963267,
+      "tokens_seen": 2043674624
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.489499568939209,
+      "objective/train/docs_used": 1157326,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9112443923950195,
+      "objective/train/original_loss": 2.9112446308135986,
+      "objective/train/theoretical_loss": 3.4240862167622437,
+      "objective/train/tokens_used": 2065183200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24297621846199036,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501850843429565,
+      "objective/train/weighted_lm_loss": 3.057767391204834,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9573585987091064,
+      "theoretical_loss": 3.4240862167622437,
+      "tokens_seen": 2044723200
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001362088535754824,
+      "loss": 3.0655,
+      "theoretical_loss": 3.4240862167622437,
+      "tokens_seen": 2044723200
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013601967461218312,
+      "loss": 3.039,
+      "theoretical_loss": 3.423940493813606,
+      "tokens_seen": 2045771776
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013583049564888384,
+      "loss": 3.0649,
+      "theoretical_loss": 3.42379486643863,
+      "tokens_seen": 2046820352
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001356413166855846,
+      "loss": 3.0511,
+      "theoretical_loss": 3.4236493345257193,
+      "tokens_seen": 2047868928
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.4733245372772217,
+      "objective/train/docs_used": 1159281,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9886927604675293,
+      "objective/train/original_loss": 2.9886927604675293,
+      "objective/train/theoretical_loss": 3.4236311497432315,
+      "objective/train/tokens_used": 2068460000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23410466313362122,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485223531723022,
+      "objective/train/weighted_lm_loss": 3.134115219116211,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9530761241912842,
+      "theoretical_loss": 3.4236311497432315,
+      "tokens_seen": 2048000000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013545213772228528,
+      "loss": 3.0334,
+      "theoretical_loss": 3.4235038979634647,
+      "tokens_seen": 2048917504
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.000135262958758986,
+      "loss": 3.0765,
+      "theoretical_loss": 3.4233585566406433,
+      "tokens_seen": 2049966080
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013507377979568672,
+      "loss": 3.0136,
+      "theoretical_loss": 3.4232133104462195,
+      "tokens_seen": 2051014656
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.4777950942516327,
+      "objective/train/docs_used": 1161569,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8775670528411865,
+      "objective/train/original_loss": 2.8775668144226074,
+      "objective/train/theoretical_loss": 3.4231770137484316,
+      "objective/train/tokens_used": 2071736800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23451338708400726,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489715337753296,
+      "objective/train/weighted_lm_loss": 3.0206103324890137,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9626436829566956,
+      "theoretical_loss": 3.4231770137484316,
+      "tokens_seen": 2051276800
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013488460083238744,
+      "loss": 3.0315,
+      "theoretical_loss": 3.423068159269344,
+      "tokens_seen": 2052063232
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013469542186908814,
+      "loss": 3.0256,
+      "theoretical_loss": 3.422923102999353,
+      "tokens_seen": 2053111808
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013450624290578888,
+      "loss": 3.0888,
+      "theoretical_loss": 3.4227781415257676,
+      "tokens_seen": 2054160384
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.48282214999198914,
+      "objective/train/docs_used": 1163144,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7914364337921143,
+      "objective/train/original_loss": 2.791436195373535,
+      "objective/train/theoretical_loss": 3.422723805390355,
+      "objective/train/tokens_used": 2075013600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2376357913017273,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049489974975586,
+      "objective/train/weighted_lm_loss": 2.928440809249878,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9537105560302734,
+      "theoretical_loss": 3.422723805390355,
+      "tokens_seen": 2054553600
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0001343170639424896,
+      "loss": 2.9756,
+      "theoretical_loss": 3.4226332747382946,
+      "tokens_seen": 2055208960
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013412788497919032,
+      "loss": 3.0469,
+      "theoretical_loss": 3.422488502526824,
+      "tokens_seen": 2056257536
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00013393870601589104,
+      "loss": 3.0435,
+      "theoretical_loss": 3.422343824781432,
+      "tokens_seen": 2057306112
+    },
+    {
+      "epoch": 0.73,
+      "objective/train/advantage_avg": 0.48526403307914734,
+      "objective/train/docs_used": 1165022,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.139117956161499,
+      "objective/train/original_loss": 3.139117956161499,
+      "objective/train/theoretical_loss": 3.422271521299214,
+      "objective/train/tokens_used": 2078290400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2393149435520172,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497426986694336,
+      "objective/train/weighted_lm_loss": 3.2956371307373047,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9516664743423462,
+      "theoretical_loss": 3.422271521299214,
+      "tokens_seen": 2057830400
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013374952705259174,
+      "loss": 3.0356,
+      "theoretical_loss": 3.4221992413923767,
+      "tokens_seen": 2058354688
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013356034808929246,
+      "loss": 2.9939,
+      "theoretical_loss": 3.4220547522500997,
+      "tokens_seen": 2059403264
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0001333711691259932,
+      "loss": 3.0836,
+      "theoretical_loss": 3.4219103572452267,
+      "tokens_seen": 2060451840
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.48648935556411743,
+      "objective/train/docs_used": 1166735,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.215547800064087,
+      "objective/train/original_loss": 3.215548038482666,
+      "objective/train/theoretical_loss": 3.421820158122806,
+      "objective/train/tokens_used": 2081567200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2412308305501938,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498751401901245,
+      "objective/train/weighted_lm_loss": 3.376168966293335,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9565590023994446,
+      "theoretical_loss": 3.421820158122806,
+      "tokens_seen": 2061107200
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013318199016269393,
+      "loss": 3.0275,
+      "theoretical_loss": 3.421766056268565,
+      "tokens_seen": 2061500416
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013299281119939462,
+      "loss": 3.0679,
+      "theoretical_loss": 3.4216218492111032,
+      "tokens_seen": 2062548992
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013280363223609534,
+      "loss": 3.0523,
+      "theoretical_loss": 3.4214777359640136,
+      "tokens_seen": 2063597568
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.4906824827194214,
+      "objective/train/docs_used": 1168682,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.187013864517212,
+      "objective/train/original_loss": 3.187013626098633,
+      "objective/train/theoretical_loss": 3.4213697125263884,
+      "objective/train/tokens_used": 2084844000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2428896725177765,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503029823303223,
+      "objective/train/weighted_lm_loss": 3.3470242023468018,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9735086560249329,
+      "theoretical_loss": 3.4213697125263884,
+      "tokens_seen": 2064384000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013261445327279606,
+      "loss": 3.0907,
+      "theoretical_loss": 3.4213337164186486,
+      "tokens_seen": 2064646144
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013242527430949678,
+      "loss": 3.0811,
+      "theoretical_loss": 3.4211897904665416,
+      "tokens_seen": 2065694720
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0001322360953461975,
+      "loss": 3.013,
+      "theoretical_loss": 3.4210459579994064,
+      "tokens_seen": 2066743296
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.48356500267982483,
+      "objective/train/docs_used": 1170870,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.949878454208374,
+      "objective/train/original_loss": 2.949878692626953,
+      "objective/train/theoretical_loss": 3.4209201811925642,
+      "objective/train/tokens_used": 2088120800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24099013209342957,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495814085006714,
+      "objective/train/weighted_lm_loss": 3.0962560176849365,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9516450762748718,
+      "theoretical_loss": 3.4209201811925642,
+      "tokens_seen": 2067660800
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013204691638289822,
+      "loss": 3.0967,
+      "theoretical_loss": 3.4209022189091374,
+      "tokens_seen": 2067791872
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013185773741959894,
+      "loss": 2.9705,
+      "theoretical_loss": 3.4207585730878085,
+      "tokens_seen": 2068840448
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013166855845629966,
+      "loss": 3.0573,
+      "theoretical_loss": 3.4206150204276726,
+      "tokens_seen": 2069889024
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.46928921341896057,
+      "objective/train/docs_used": 1172808,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.938577651977539,
+      "objective/train/original_loss": 2.938577651977539,
+      "objective/train/theoretical_loss": 3.420471560821163,
+      "objective/train/tokens_used": 2091397600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23262350261211395,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481112003326416,
+      "objective/train/weighted_lm_loss": 3.0799367427825928,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9526295065879822,
+      "theoretical_loss": 3.420471560821163,
+      "tokens_seen": 2070937600
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013147937949300038,
+      "loss": 3.0212,
+      "theoretical_loss": 3.420471560821163,
+      "tokens_seen": 2070937600
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013129020052970108,
+      "loss": 3.0938,
+      "theoretical_loss": 3.4203281941608896,
+      "tokens_seen": 2071986176
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013110102156640183,
+      "loss": 3.1445,
+      "theoretical_loss": 3.4201849203396417,
+      "tokens_seen": 2073034752
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013091184260310255,
+      "loss": 3.0502,
+      "theoretical_loss": 3.4200417392503866,
+      "tokens_seen": 2074083328
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.4865155816078186,
+      "objective/train/docs_used": 1174600,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.854151964187622,
+      "objective/train/original_loss": 2.854151725769043,
+      "objective/train/theoretical_loss": 3.4200238481291243,
+      "objective/train/tokens_used": 2094674400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24221700429916382,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498827695846558,
+      "objective/train/weighted_lm_loss": 2.9975836277008057,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9545468688011169,
+      "theoretical_loss": 3.4200238481291243,
+      "tokens_seen": 2074214400
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013072266363980327,
+      "loss": 3.1057,
+      "theoretical_loss": 3.4198986507862683,
+      "tokens_seen": 2075131904
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013053348467650396,
+      "loss": 3.0969,
+      "theoretical_loss": 3.419755654840608,
+      "tokens_seen": 2076180480
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00013034430571320468,
+      "loss": 3.1735,
+      "theoretical_loss": 3.419612751306904,
+      "tokens_seen": 2077229056
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.48453977704048157,
+      "objective/train/docs_used": 1176526,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9523186683654785,
+      "objective/train/original_loss": 2.9523184299468994,
+      "objective/train/theoretical_loss": 3.419577039850382,
+      "objective/train/tokens_used": 2097951200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23808008432388306,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496641397476196,
+      "objective/train/weighted_lm_loss": 3.0992777347564697,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9584941267967224,
+      "theoretical_loss": 3.419577039850382,
+      "tokens_seen": 2077491200
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0001301551267499054,
+      "loss": 3.1769,
+      "theoretical_loss": 3.41946994007883,
+      "tokens_seen": 2078277632
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012996594778660615,
+      "loss": 3.1278,
+      "theoretical_loss": 3.4193272210502372,
+      "tokens_seen": 2079326208
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012977676882330687,
+      "loss": 3.1304,
+      "theoretical_loss": 3.4191845941151504,
+      "tokens_seen": 2080374784
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.48189568519592285,
+      "objective/train/docs_used": 1178616,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7977302074432373,
+      "objective/train/original_loss": 2.7977304458618164,
+      "objective/train/theoretical_loss": 3.4191311327357505,
+      "objective/train/tokens_used": 2101228000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23650392889976501,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493916273117065,
+      "objective/train/weighted_lm_loss": 2.936192512512207,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9538434743881226,
+      "theoretical_loss": 3.4191311327357505,
+      "tokens_seen": 2080768000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012958758986000756,
+      "loss": 3.0905,
+      "theoretical_loss": 3.4190420591677713,
+      "tokens_seen": 2081423360
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012939841089670828,
+      "loss": 3.0506,
+      "theoretical_loss": 3.4188996161024745,
+      "tokens_seen": 2082471936
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.000129209231933409,
+      "loss": 3.047,
+      "theoretical_loss": 3.4187572648138107,
+      "tokens_seen": 2083520512
+    },
+    {
+      "epoch": 0.74,
+      "objective/train/advantage_avg": 0.4861668646335602,
+      "objective/train/docs_used": 1180033,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.336259603500366,
+      "objective/train/original_loss": 3.3362598419189453,
+      "objective/train/theoretical_loss": 3.4186861235528108,
+      "objective/train/tokens_used": 2104504800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24133270978927612,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498433113098145,
+      "objective/train/weighted_lm_loss": 3.501760244369507,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9516600370407104,
+      "theoretical_loss": 3.4186861235528108,
+      "tokens_seen": 2084044800
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012902005297010972,
+      "loss": 3.1077,
+      "theoretical_loss": 3.4186150051965036,
+      "tokens_seen": 2084569088
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00012883087400681045,
+      "loss": 3.1232,
+      "theoretical_loss": 3.418472837145451,
+      "tokens_seen": 2085617664
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012864169504351117,
+      "loss": 3.0959,
+      "theoretical_loss": 3.4183307605557247,
+      "tokens_seen": 2086666240
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.4884311556816101,
+      "objective/train/docs_used": 1182648,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9421818256378174,
+      "objective/train/original_loss": 2.9421820640563965,
+      "objective/train/theoretical_loss": 3.4182420090857955,
+      "objective/train/tokens_used": 2107781600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24259597063064575,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500762462615967,
+      "objective/train/weighted_lm_loss": 3.0886693000793457,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9524582028388977,
+      "theoretical_loss": 3.4182420090857955,
+      "tokens_seen": 2087321600
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001284525160802119,
+      "loss": 3.036,
+      "theoretical_loss": 3.418188775322567,
+      "tokens_seen": 2087714816
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001282633371169126,
+      "loss": 3.0956,
+      "theoretical_loss": 3.418046881341395,
+      "tokens_seen": 2088763392
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001280741581536133,
+      "loss": 3.1281,
+      "theoretical_loss": 3.417905078507798,
+      "tokens_seen": 2089811968
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.48270413279533386,
+      "objective/train/docs_used": 1184346,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0532760620117188,
+      "objective/train/original_loss": 3.0532760620117188,
+      "objective/train/theoretical_loss": 3.4177987861354815,
+      "objective/train/tokens_used": 2111058400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24031376838684082,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494917631149292,
+      "objective/train/weighted_lm_loss": 3.203695297241211,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.952264666557312,
+      "theoretical_loss": 3.4177987861354815,
+      "tokens_seen": 2090598400
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012788497919031402,
+      "loss": 3.0645,
+      "theoretical_loss": 3.4177633667175344,
+      "tokens_seen": 2090860544
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012769580022701477,
+      "loss": 3.1287,
+      "theoretical_loss": 3.417621745866537,
+      "tokens_seen": 2091909120
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001275066212637155,
+      "loss": 3.1295,
+      "theoretical_loss": 3.4174802158509086,
+      "tokens_seen": 2092957696
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.487575501203537,
+      "objective/train/docs_used": 1186411,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.890275001525879,
+      "objective/train/original_loss": 2.890275001525879,
+      "objective/train/theoretical_loss": 3.4173564515190753,
+      "objective/train/tokens_used": 2114335200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2412995547056198,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049984097480774,
+      "objective/train/weighted_lm_loss": 3.034238815307617,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9572398662567139,
+      "theoretical_loss": 3.4173564515190753,
+      "tokens_seen": 2093875200
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001273174423004162,
+      "loss": 3.1029,
+      "theoretical_loss": 3.4173387765669228,
+      "tokens_seen": 2094006272
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001271282633371169,
+      "loss": 3.0415,
+      "theoretical_loss": 3.4171974279110224,
+      "tokens_seen": 2095054848
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012693908437381762,
+      "loss": 3.1255,
+      "theoretical_loss": 3.417056169779822,
+      "tokens_seen": 2096103424
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.4885167181491852,
+      "objective/train/docs_used": 1188334,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.939175844192505,
+      "objective/train/original_loss": 2.939175605773926,
+      "objective/train/theoretical_loss": 3.4169150020701045,
+      "objective/train/tokens_used": 2117612000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24050042033195496,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500741004943848,
+      "objective/train/weighted_lm_loss": 3.0871052742004395,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9530365467071533,
+      "theoretical_loss": 3.4169150020701045,
+      "tokens_seen": 2097152000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012674990541051834,
+      "loss": 3.0906,
+      "theoretical_loss": 3.4169150020701045,
+      "tokens_seen": 2097152000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001265607264472191,
+      "loss": 3.0661,
+      "theoretical_loss": 3.4167739246788225,
+      "tokens_seen": 2098200576
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012637154748391979,
+      "loss": 3.0931,
+      "theoretical_loss": 3.4166329375030973,
+      "tokens_seen": 2099249152
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001261823685206205,
+      "loss": 3.0467,
+      "theoretical_loss": 3.416492040440219,
+      "tokens_seen": 2100297728
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.4632844030857086,
+      "objective/train/docs_used": 1190051,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.067115545272827,
+      "objective/train/original_loss": 3.0671157836914062,
+      "objective/train/theoretical_loss": 3.4164744346383094,
+      "objective/train/tokens_used": 2120888800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23205097019672394,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047507643699646,
+      "objective/train/weighted_lm_loss": 3.2131385803222656,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.951475977897644,
+      "theoretical_loss": 3.4164744346383094,
+      "tokens_seen": 2100428800
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012599318955732123,
+      "loss": 3.0882,
+      "theoretical_loss": 3.416351233387645,
+      "tokens_seen": 2101346304
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012580401059402195,
+      "loss": 3.1133,
+      "theoretical_loss": 3.4162105162430008,
+      "tokens_seen": 2102394880
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012561483163072264,
+      "loss": 3.1099,
+      "theoretical_loss": 3.4160698889040804,
+      "tokens_seen": 2103443456
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.47364890575408936,
+      "objective/train/docs_used": 1192176,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6278741359710693,
+      "objective/train/original_loss": 2.6278746128082275,
+      "objective/train/theoretical_loss": 3.416034746089533,
+      "objective/train/tokens_used": 2124165600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23315325379371643,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485498905181885,
+      "objective/train/weighted_lm_loss": 2.7560436725616455,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9518656730651855,
+      "theoretical_loss": 3.416034746089533,
+      "tokens_seen": 2103705600
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001254256526674234,
+      "loss": 3.1199,
+      "theoretical_loss": 3.4159293512688436,
+      "tokens_seen": 2104492032
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001252364737041241,
+      "loss": 3.1159,
+      "theoretical_loss": 3.415788903235418,
+      "tokens_seen": 2105540608
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012504729474082483,
+      "loss": 3.0587,
+      "theoretical_loss": 3.415648544702096,
+      "tokens_seen": 2106589184
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.47495296597480774,
+      "objective/train/docs_used": 1193800,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.238267660140991,
+      "objective/train/original_loss": 3.238267421722412,
+      "objective/train/theoretical_loss": 3.4155959333056156,
+      "objective/train/tokens_used": 2127442400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23427124321460724,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048686146736145,
+      "objective/train/weighted_lm_loss": 3.392909288406372,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.952079713344574,
+      "theoretical_loss": 3.4155959333056156,
+      "tokens_seen": 2106982400
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012485811577752555,
+      "loss": 3.0348,
+      "theoretical_loss": 3.4155082755673374,
+      "tokens_seen": 2107637760
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012466893681422627,
+      "loss": 3.0607,
+      "theoretical_loss": 3.415368095729767,
+      "tokens_seen": 2108686336
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.000124479757850927,
+      "loss": 3.1031,
+      "theoretical_loss": 3.415228005088175,
+      "tokens_seen": 2109734912
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.46726658940315247,
+      "objective/train/docs_used": 1195692,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0192675590515137,
+      "objective/train/original_loss": 3.0192675590515137,
+      "objective/train/theoretical_loss": 3.4151579931842884,
+      "objective/train/tokens_used": 2130719200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2279476523399353,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0478851795196533,
+      "objective/train/weighted_lm_loss": 3.1648991107940674,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9538955688476562,
+      "theoretical_loss": 3.4151579931842884,
+      "tokens_seen": 2110259200
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012429057888762768,
+      "loss": 3.1491,
+      "theoretical_loss": 3.4150880035415168,
+      "tokens_seen": 2110783488
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012410139992432843,
+      "loss": 3.0926,
+      "theoretical_loss": 3.4149480909889123,
+      "tokens_seen": 2111832064
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00012391222096102913,
+      "loss": 3.1851,
+      "theoretical_loss": 3.4148082673296445,
+      "tokens_seen": 2112880640
+    },
+    {
+      "epoch": 0.75,
+      "objective/train/advantage_avg": 0.4854118824005127,
+      "objective/train/docs_used": 1197624,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.756822109222412,
+      "objective/train/original_loss": 2.756822347640991,
+      "objective/train/theoretical_loss": 3.4147209226390647,
+      "objective/train/tokens_used": 2133996000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24401891231536865,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497814416885376,
+      "objective/train/weighted_lm_loss": 2.893664836883545,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9514028429985046,
+      "theoretical_loss": 3.4147209226390647,
+      "tokens_seen": 2113536000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012372304199772985,
+      "loss": 3.1322,
+      "theoretical_loss": 3.4146685324631627,
+      "tokens_seen": 2113929216
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012353386303443057,
+      "loss": 3.0965,
+      "theoretical_loss": 3.4145288862890775,
+      "tokens_seen": 2114977792
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001233446840711313,
+      "loss": 3.1856,
+      "theoretical_loss": 3.4143893287071636,
+      "tokens_seen": 2116026368
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.47289353609085083,
+      "objective/train/docs_used": 1198832,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1778388023376465,
+      "objective/train/original_loss": 3.1778388023376465,
+      "objective/train/theoretical_loss": 3.4142847185991414,
+      "objective/train/tokens_used": 2137272800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2338077276945114,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484776496887207,
+      "objective/train/weighted_lm_loss": 3.3315629959106445,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.952247142791748,
+      "theoretical_loss": 3.4142847185991414,
+      "tokens_seen": 2116812800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.000123155505107832,
+      "loss": 3.1357,
+      "theoretical_loss": 3.4142498596173594,
+      "tokens_seen": 2117074944
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012296632614453273,
+      "loss": 3.0476,
+      "theoretical_loss": 3.4141104789197634,
+      "tokens_seen": 2118123520
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012277714718123345,
+      "loss": 3.0772,
+      "theoretical_loss": 3.413971186514639,
+      "tokens_seen": 2119172096
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.48130467534065247,
+      "objective/train/docs_used": 1201065,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8641321659088135,
+      "objective/train/original_loss": 2.8641324043273926,
+      "objective/train/theoretical_loss": 3.4138493780092887,
+      "objective/train/tokens_used": 2140549600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2385849952697754,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493431091308594,
+      "objective/train/weighted_lm_loss": 3.0060529708862305,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9514316320419312,
+      "theoretical_loss": 3.4138493780092887,
+      "tokens_seen": 2120089600
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012258796821793417,
+      "loss": 3.1735,
+      "theoretical_loss": 3.4138319823024093,
+      "tokens_seen": 2120220672
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001223987892546349,
+      "loss": 3.0906,
+      "theoretical_loss": 3.4136928661836605,
+      "tokens_seen": 2121269248
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001222096102913356,
+      "loss": 3.1384,
+      "theoretical_loss": 3.413553838059139,
+      "tokens_seen": 2122317824
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.4823879301548004,
+      "objective/train/docs_used": 1202332,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.959242582321167,
+      "objective/train/original_loss": 2.959242582321167,
+      "objective/train/theoretical_loss": 3.4134148978297523,
+      "objective/train/tokens_used": 2143826400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2378014326095581,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494475364685059,
+      "objective/train/weighted_lm_loss": 3.1045055389404297,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9571212530136108,
+      "theoretical_loss": 3.4134148978297523,
+      "tokens_seen": 2123366400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012202043132803632,
+      "loss": 3.0108,
+      "theoretical_loss": 3.4134148978297523,
+      "tokens_seen": 2123366400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012183125236473705,
+      "loss": 3.0749,
+      "theoretical_loss": 3.413276045396567,
+      "tokens_seen": 2124414976
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012164207340143776,
+      "loss": 3.1091,
+      "theoretical_loss": 3.413137280660813,
+      "tokens_seen": 2125463552
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012145289443813848,
+      "loss": 3.0921,
+      "theoretical_loss": 3.412998603523877,
+      "tokens_seen": 2126512128
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.48719412088394165,
+      "objective/train/docs_used": 1204214,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.252816915512085,
+      "objective/train/original_loss": 3.252816915512085,
+      "objective/train/theoretical_loss": 3.412981275036147,
+      "objective/train/tokens_used": 2147103200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2436467409133911,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499577522277832,
+      "objective/train/weighted_lm_loss": 3.4153482913970947,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9514138698577881,
+      "theoretical_loss": 3.412981275036147,
+      "tokens_seen": 2126643200
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001212637154748392,
+      "loss": 3.0569,
+      "theoretical_loss": 3.4128600138873066,
+      "tokens_seen": 2127560704
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012107453651153992,
+      "loss": 3.0342,
+      "theoretical_loss": 3.4127215116528076,
+      "tokens_seen": 2128609280
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012088535754824064,
+      "loss": 3.0179,
+      "theoretical_loss": 3.412583096722245,
+      "tokens_seen": 2129657856
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.48841291666030884,
+      "objective/train/docs_used": 1206282,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7933783531188965,
+      "objective/train/original_loss": 2.7933781147003174,
+      "objective/train/theoretical_loss": 3.41254850661936,
+      "objective/train/tokens_used": 2150380000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2410411387681961,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500664710998535,
+      "objective/train/weighted_lm_loss": 2.9343910217285156,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9590831995010376,
+      "theoretical_loss": 3.41254850661936,
+      "tokens_seen": 2129920000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012069617858494136,
+      "loss": 3.0067,
+      "theoretical_loss": 3.412444768997643,
+      "tokens_seen": 2130706432
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012050699962164208,
+      "loss": 3.0622,
+      "theoretical_loss": 3.4123065283811833,
+      "tokens_seen": 2131755008
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012031782065834279,
+      "loss": 3.0901,
+      "theoretical_loss": 3.412168374775204,
+      "tokens_seen": 2132803584
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.48633265495300293,
+      "objective/train/docs_used": 1208010,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.088775873184204,
+      "objective/train/original_loss": 3.088775396347046,
+      "objective/train/theoretical_loss": 3.412116589585446,
+      "objective/train/tokens_used": 2153656800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23890967667102814,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498476028442383,
+      "objective/train/weighted_lm_loss": 3.2435507774353027,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9601168036460876,
+      "theoretical_loss": 3.412116589585446,
+      "tokens_seen": 2133196800
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00012012864169504352,
+      "loss": 3.0086,
+      "theoretical_loss": 3.412030308082203,
+      "tokens_seen": 2133852160
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011993946273174423,
+      "loss": 3.1356,
+      "theoretical_loss": 3.411892328204834,
+      "tokens_seen": 2134900736
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011975028376844495,
+      "loss": 3.0847,
+      "theoretical_loss": 3.411754435045907,
+      "tokens_seen": 2135949312
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.48867544531822205,
+      "objective/train/docs_used": 1209970,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9987714290618896,
+      "objective/train/original_loss": 2.9987711906433105,
+      "objective/train/theoretical_loss": 3.4116855209555306,
+      "objective/train/tokens_used": 2156933600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24339966475963593,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501048564910889,
+      "objective/train/weighted_lm_loss": 3.1480982303619385,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9592180848121643,
+      "theoretical_loss": 3.4116855209555306,
+      "tokens_seen": 2136473600
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011956110480514567,
+      "loss": 3.0679,
+      "theoretical_loss": 3.4116166285083898,
+      "tokens_seen": 2136997888
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011937192584184639,
+      "loss": 3.0748,
+      "theoretical_loss": 3.411478908495406,
+      "tokens_seen": 2138046464
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001191827468785471,
+      "loss": 3.0104,
+      "theoretical_loss": 3.411341274910234,
+      "tokens_seen": 2139095040
+    },
+    {
+      "epoch": 0.76,
+      "objective/train/advantage_avg": 0.4596433937549591,
+      "objective/train/docs_used": 1212088,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6375980377197266,
+      "objective/train/original_loss": 2.6375980377197266,
+      "objective/train/theoretical_loss": 3.4112552977657105,
+      "objective/train/tokens_used": 2160210400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23229673504829407,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0471444129943848,
+      "objective/train/weighted_lm_loss": 2.7628188133239746,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9519481658935547,
+      "theoretical_loss": 3.4112552977657105,
+      "tokens_seen": 2139750400
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011899356791524783,
+      "loss": 3.0396,
+      "theoretical_loss": 3.411203727656308,
+      "tokens_seen": 2140143616
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00011880438895194855,
+      "loss": 3.0234,
+      "theoretical_loss": 3.411066266637219,
+      "tokens_seen": 2141192192
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011861520998864926,
+      "loss": 3.0856,
+      "theoretical_loss": 3.41092889175671,
+      "tokens_seen": 2142240768
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.4793272912502289,
+      "objective/train/docs_used": 1213995,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8040668964385986,
+      "objective/train/original_loss": 2.8040671348571777,
+      "objective/train/theoretical_loss": 3.410825917066955,
+      "objective/train/tokens_used": 2163487200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23690885305404663,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049136996269226,
+      "objective/train/weighted_lm_loss": 2.9428248405456543,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9542986154556274,
+      "theoretical_loss": 3.410825917066955,
+      "tokens_seen": 2143027200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011842603102535,
+      "loss": 3.0692,
+      "theoretical_loss": 3.4107916029186804,
+      "tokens_seen": 2143289344
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001182368520620507,
+      "loss": 3.067,
+      "theoretical_loss": 3.410654400027184,
+      "tokens_seen": 2144337920
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011804767309875142,
+      "loss": 3.0471,
+      "theoretical_loss": 3.4105172829864268,
+      "tokens_seen": 2145386496
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.4841189980506897,
+      "objective/train/docs_used": 1215500,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.244422197341919,
+      "objective/train/original_loss": 3.2444229125976562,
+      "objective/train/theoretical_loss": 3.4103973759250095,
+      "objective/train/tokens_used": 2166764000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2405548393726349,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496346950531006,
+      "objective/train/weighted_lm_loss": 3.404898166656494,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9524633288383484,
+      "theoretical_loss": 3.4103973759250095,
+      "tokens_seen": 2146304000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011785849413545214,
+      "loss": 3.0911,
+      "theoretical_loss": 3.4103802517007695,
+      "tokens_seen": 2146435072
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011766931517215286,
+      "loss": 3.0649,
+      "theoretical_loss": 3.410243306074726,
+      "tokens_seen": 2147483648
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011748013620885357,
+      "loss": 3.1124,
+      "theoretical_loss": 3.4101064460129624,
+      "tokens_seen": 2148532224
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.4838142693042755,
+      "objective/train/docs_used": 1217649,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9245572090148926,
+      "objective/train/original_loss": 2.9245574474334717,
+      "objective/train/theoretical_loss": 3.4099696714202983,
+      "objective/train/tokens_used": 2170040800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24016062915325165,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496021509170532,
+      "objective/train/weighted_lm_loss": 3.0698323249816895,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9524503946304321,
+      "theoretical_loss": 3.4099696714202983,
+      "tokens_seen": 2149580800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001172909572455543,
+      "loss": 3.1153,
+      "theoretical_loss": 3.4099696714202983,
+      "tokens_seen": 2149580800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011710177828225501,
+      "loss": 3.0984,
+      "theoretical_loss": 3.4098329822017055,
+      "tokens_seen": 2150629376
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011691259931895573,
+      "loss": 3.1195,
+      "theoretical_loss": 3.4096963782623058,
+      "tokens_seen": 2151677952
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011672342035565647,
+      "loss": 3.108,
+      "theoretical_loss": 3.4095598595073753,
+      "tokens_seen": 2152726528
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.47976046800613403,
+      "objective/train/docs_used": 1219475,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9882757663726807,
+      "objective/train/original_loss": 2.9882755279541016,
+      "objective/train/theoretical_loss": 3.40954280064783,
+      "objective/train/tokens_used": 2173317600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23530583083629608,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049172043800354,
+      "objective/train/weighted_lm_loss": 3.135436773300171,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9584304690361023,
+      "theoretical_loss": 3.40954280064783,
+      "tokens_seen": 2152857600
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011653424139235717,
+      "loss": 3.1106,
+      "theoretical_loss": 3.4094234258423395,
+      "tokens_seen": 2153775104
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011634506242905789,
+      "loss": 3.1039,
+      "theoretical_loss": 3.4092870771727766,
+      "tokens_seen": 2154823680
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011615588346575861,
+      "loss": 3.0136,
+      "theoretical_loss": 3.409150813404413,
+      "tokens_seen": 2155872256
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.4865594506263733,
+      "objective/train/docs_used": 1221633,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0492663383483887,
+      "objective/train/original_loss": 3.0492663383483887,
+      "objective/train/theoretical_loss": 3.409116760717102,
+      "objective/train/tokens_used": 2176594400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24001134932041168,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049876093864441,
+      "objective/train/weighted_lm_loss": 3.2022552490234375,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9568141102790833,
+      "theoretical_loss": 3.409116760717102,
+      "tokens_seen": 2156134400
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011596670450245933,
+      "loss": 3.0194,
+      "theoretical_loss": 3.409014634443128,
+      "tokens_seen": 2156920832
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011577752553916004,
+      "loss": 3.0251,
+      "theoretical_loss": 3.408878540194949,
+      "tokens_seen": 2157969408
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011558834657586078,
+      "loss": 3.0482,
+      "theoretical_loss": 3.4087425305660544,
+      "tokens_seen": 2159017984
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.48565536737442017,
+      "objective/train/docs_used": 1223129,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.323091745376587,
+      "objective/train/original_loss": 2.323091983795166,
+      "objective/train/theoretical_loss": 3.4086915487520044,
+      "objective/train/tokens_used": 2179871200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23969988524913788,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497839450836182,
+      "objective/train/weighted_lm_loss": 2.4400320053100586,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9515894055366516,
+      "theoretical_loss": 3.4086915487520044,
+      "tokens_seen": 2159411200
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011539916761256148,
+      "loss": 3.0768,
+      "theoretical_loss": 3.4086066054627713,
+      "tokens_seen": 2160066560
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001152099886492622,
+      "loss": 3.049,
+      "theoretical_loss": 3.408470764791576,
+      "tokens_seen": 2161115136
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011502080968596292,
+      "loss": 3.0416,
+      "theoretical_loss": 3.408335008459094,
+      "tokens_seen": 2162163712
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.488086462020874,
+      "objective/train/docs_used": 1224854,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0033509731292725,
+      "objective/train/original_loss": 3.0033512115478516,
+      "objective/train/theoretical_loss": 3.4082671618907314,
+      "objective/train/tokens_used": 2183148000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24069108068943024,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050032138824463,
+      "objective/train/weighted_lm_loss": 3.1541175842285156,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9704567790031433,
+      "theoretical_loss": 3.4082671618907314,
+      "tokens_seen": 2162688000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011483163072266364,
+      "loss": 3.0526,
+      "theoretical_loss": 3.408199336372099,
+      "tokens_seen": 2163212288
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011464245175936436,
+      "loss": 3.1291,
+      "theoretical_loss": 3.4080637484375127,
+      "tokens_seen": 2164260864
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011445327279606509,
+      "loss": 3.0743,
+      "theoretical_loss": 3.407928244562405,
+      "tokens_seen": 2165309440
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.4888122081756592,
+      "objective/train/docs_used": 1226563,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.946284770965576,
+      "objective/train/original_loss": 2.9462850093841553,
+      "objective/train/theoretical_loss": 3.407843597285684,
+      "objective/train/tokens_used": 2186424800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24123455584049225,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501073598861694,
+      "objective/train/weighted_lm_loss": 3.094599485397339,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9530252814292908,
+      "theoretical_loss": 3.407843597285684,
+      "tokens_seen": 2165964800
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001142640938327658,
+      "loss": 3.1164,
+      "theoretical_loss": 3.4077928246539937,
+      "tokens_seen": 2166358016
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011407491486946651,
+      "loss": 3.1127,
+      "theoretical_loss": 3.407657488619642,
+      "tokens_seen": 2167406592
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011388573590616725,
+      "loss": 3.1488,
+      "theoretical_loss": 3.407522236366863,
+      "tokens_seen": 2168455168
+    },
+    {
+      "epoch": 0.77,
+      "objective/train/advantage_avg": 0.48051032423973083,
+      "objective/train/docs_used": 1228356,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.281541585922241,
+      "objective/train/original_loss": 3.2815420627593994,
+      "objective/train/theoretical_loss": 3.4074208521033804,
+      "objective/train/tokens_used": 2189701600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24015885591506958,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0492717027664185,
+      "objective/train/weighted_lm_loss": 3.4423675537109375,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9514672160148621,
+      "theoretical_loss": 3.4074208521033804,
+      "tokens_seen": 2169241600
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00011369655694286795,
+      "loss": 3.0957,
+      "theoretical_loss": 3.407387067803314,
+      "tokens_seen": 2169503744
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011350737797956867,
+      "loss": 3.1708,
+      "theoretical_loss": 3.4072519828367995,
+      "tokens_seen": 2170552320
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001133181990162694,
+      "loss": 3.1192,
+      "theoretical_loss": 3.4071169813752706,
+      "tokens_seen": 2171600896
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.48870110511779785,
+      "objective/train/docs_used": 1230300,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.97200083732605,
+      "objective/train/original_loss": 2.972001075744629,
+      "objective/train/theoretical_loss": 3.4069989235243634,
+      "objective/train/tokens_used": 2192978400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24322699010372162,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050106406211853,
+      "objective/train/weighted_lm_loss": 3.1200037002563477,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.955571711063385,
+      "theoretical_loss": 3.4069989235243634,
+      "tokens_seen": 2172518400
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011312902005297012,
+      "loss": 3.0742,
+      "theoretical_loss": 3.406982063326823,
+      "tokens_seen": 2172649472
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011293984108967082,
+      "loss": 3.102,
+      "theoretical_loss": 3.4068472285996987,
+      "tokens_seen": 2173698048
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011275066212637156,
+      "loss": 3.0766,
+      "theoretical_loss": 3.4067124771022845,
+      "tokens_seen": 2174746624
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.47267434000968933,
+      "objective/train/docs_used": 1232394,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9665775299072266,
+      "objective/train/original_loss": 2.9665770530700684,
+      "objective/train/theoretical_loss": 3.4065778087431124,
+      "objective/train/tokens_used": 2196255200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23377160727977753,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048455834388733,
+      "objective/train/weighted_lm_loss": 3.112847328186035,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9565809965133667,
+      "theoretical_loss": 3.4065778087431124,
+      "tokens_seen": 2175795200
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011256148316307228,
+      "loss": 3.061,
+      "theoretical_loss": 3.4065778087431124,
+      "tokens_seen": 2175795200
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011237230419977298,
+      "loss": 3.0844,
+      "theoretical_loss": 3.406443223430858,
+      "tokens_seen": 2176843776
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011218312523647372,
+      "loss": 3.0302,
+      "theoretical_loss": 3.4063087210743426,
+      "tokens_seen": 2177892352
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011199394627317443,
+      "loss": 3.0247,
+      "theoretical_loss": 3.4061743015825305,
+      "tokens_seen": 2178940928
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.485377699136734,
+      "objective/train/docs_used": 1233537,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1749722957611084,
+      "objective/train/original_loss": 3.1749720573425293,
+      "objective/train/theoretical_loss": 3.40615750496795,
+      "objective/train/tokens_used": 2199532000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24226607382297516,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497691631317139,
+      "objective/train/weighted_lm_loss": 3.332637310028076,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9522126317024231,
+      "theoretical_loss": 3.40615750496795,
+      "tokens_seen": 2179072000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011180476730987515,
+      "loss": 3.1218,
+      "theoretical_loss": 3.4060399648645294,
+      "tokens_seen": 2179989504
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011161558834657587,
+      "loss": 3.0676,
+      "theoretical_loss": 3.4059057108295914,
+      "tokens_seen": 2181038080
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011142640938327659,
+      "loss": 3.0838,
+      "theoretical_loss": 3.4057715393871097,
+      "tokens_seen": 2182086656
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.4907640814781189,
+      "objective/train/docs_used": 1235503,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.107961654663086,
+      "objective/train/original_loss": 3.107961654663086,
+      "objective/train/theoretical_loss": 3.405738009420957,
+      "objective/train/tokens_used": 2202808800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24375276267528534,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503153800964355,
+      "objective/train/weighted_lm_loss": 3.2649710178375244,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9541966319084167,
+      "theoretical_loss": 3.405738009420957,
+      "tokens_seen": 2182348800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001112372304199773,
+      "loss": 3.0817,
+      "theoretical_loss": 3.4056374504466236,
+      "tokens_seen": 2183135232
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011104805145667803,
+      "loss": 3.1127,
+      "theoretical_loss": 3.405503443917811,
+      "tokens_seen": 2184183808
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011085887249337873,
+      "loss": 3.1144,
+      "theoretical_loss": 3.4053695197104945,
+      "tokens_seen": 2185232384
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.4896021783351898,
+      "objective/train/docs_used": 1237335,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.074671506881714,
+      "objective/train/original_loss": 3.0746712684631348,
+      "objective/train/theoretical_loss": 3.4053193193378806,
+      "objective/train/tokens_used": 2206085600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24403336644172668,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502007007598877,
+      "objective/train/weighted_lm_loss": 3.2284257411956787,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9618966579437256,
+      "theoretical_loss": 3.4053193193378806,
+      "tokens_seen": 2185625600
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011066969353007946,
+      "loss": 3.1068,
+      "theoretical_loss": 3.4052356777346384,
+      "tokens_seen": 2186280960
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011048051456678018,
+      "loss": 3.0704,
+      "theoretical_loss": 3.4051019179003474,
+      "tokens_seen": 2187329536
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001102913356034809,
+      "loss": 3.0601,
+      "theoretical_loss": 3.404968240117869,
+      "tokens_seen": 2188378112
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.47622618079185486,
+      "objective/train/docs_used": 1239239,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.253549575805664,
+      "objective/train/original_loss": 3.253549575805664,
+      "objective/train/theoretical_loss": 3.4049014319680495,
+      "objective/train/tokens_used": 2209362400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2409483939409256,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488470792770386,
+      "objective/train/weighted_lm_loss": 3.4102189540863037,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9515026807785034,
+      "theoretical_loss": 3.4049014319680495,
+      "tokens_seen": 2188902400
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00011010215664018162,
+      "loss": 3.0343,
+      "theoretical_loss": 3.40483464429759,
+      "tokens_seen": 2189426688
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00010991297767688234,
+      "loss": 3.0409,
+      "theoretical_loss": 3.4047011303500394,
+      "tokens_seen": 2190475264
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00010972379871358306,
+      "loss": 3.0841,
+      "theoretical_loss": 3.404567698185886,
+      "tokens_seen": 2191523840
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.4836944341659546,
+      "objective/train/docs_used": 1240983,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.245880365371704,
+      "objective/train/original_loss": 3.245880603790283,
+      "objective/train/theoretical_loss": 3.404484344574285,
+      "objective/train/tokens_used": 2212639200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23999130725860596,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495892763137817,
+      "objective/train/weighted_lm_loss": 3.4061005115509033,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.951469898223877,
+      "theoretical_loss": 3.404484344574285,
+      "tokens_seen": 2192179200
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00010953461975028377,
+      "loss": 3.0935,
+      "theoretical_loss": 3.4044343477159393,
+      "tokens_seen": 2192572416
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001093454407869845,
+      "loss": 3.1178,
+      "theoretical_loss": 3.4043010788511476,
+      "tokens_seen": 2193620992
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0001091562618236852,
+      "loss": 3.0871,
+      "theoretical_loss": 3.4041678915025995,
+      "tokens_seen": 2194669568
+    },
+    {
+      "epoch": 0.78,
+      "objective/train/advantage_avg": 0.4901869297027588,
+      "objective/train/docs_used": 1242635,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.035893201828003,
+      "objective/train/original_loss": 3.035892963409424,
+      "objective/train/theoretical_loss": 3.404068054432816,
+      "objective/train/tokens_used": 2215916000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2428739219903946,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502533912658691,
+      "objective/train/weighted_lm_loss": 3.1888182163238525,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9534474611282349,
+      "theoretical_loss": 3.404068054432816,
+      "tokens_seen": 2195456000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00010896708286038593,
+      "loss": 3.1038,
+      "theoretical_loss": 3.404034785581523,
+      "tokens_seen": 2195718144
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00010877790389708665,
+      "loss": 3.1226,
+      "theoretical_loss": 3.4039017609992848,
+      "tokens_seen": 2196766720
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010858872493378737,
+      "loss": 3.1207,
+      "theoretical_loss": 3.4037688176673906,
+      "tokens_seen": 2197815296
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.48253607749938965,
+      "objective/train/docs_used": 1244165,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.643556594848633,
+      "objective/train/original_loss": 2.6435563564300537,
+      "objective/train/theoretical_loss": 3.4036525588331927,
+      "objective/train/tokens_used": 2219192800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24120163917541504,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049479365348816,
+      "objective/train/weighted_lm_loss": 2.772040843963623,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9570202231407166,
+      "theoretical_loss": 3.4036525588331927,
+      "tokens_seen": 2198732800
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010839954597048807,
+      "loss": 3.0908,
+      "theoretical_loss": 3.403635955497484,
+      "tokens_seen": 2198863872
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010821036700718881,
+      "loss": 3.0805,
+      "theoretical_loss": 3.4035031744013473,
+      "tokens_seen": 2199912448
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010802118804388953,
+      "loss": 3.0845,
+      "theoretical_loss": 3.4033704742909006,
+      "tokens_seen": 2200961024
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.47237733006477356,
+      "objective/train/docs_used": 1245946,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.21795916557312,
+      "objective/train/original_loss": 3.21795916557312,
+      "objective/train/theoretical_loss": 3.403237855078202,
+      "objective/train/tokens_used": 2222469600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23783241212368011,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484466552734375,
+      "objective/train/weighted_lm_loss": 3.377448797225952,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9808477163314819,
+      "theoretical_loss": 3.403237855078202,
+      "tokens_seen": 2202009600
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010783200908059024,
+      "loss": 3.0344,
+      "theoretical_loss": 3.403237855078202,
+      "tokens_seen": 2202009600
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010764283011729097,
+      "loss": 3.0654,
+      "theoretical_loss": 3.403105316675445,
+      "tokens_seen": 2203058176
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010745365115399168,
+      "loss": 3.1111,
+      "theoretical_loss": 3.402972858994963,
+      "tokens_seen": 2204106752
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001072644721906924,
+      "loss": 3.1596,
+      "theoretical_loss": 3.402840481949224,
+      "tokens_seen": 2205155328
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.4866069257259369,
+      "objective/train/docs_used": 1246233,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1187005043029785,
+      "objective/train/original_loss": 3.1187007427215576,
+      "objective/train/theoretical_loss": 3.4028239404837826,
+      "objective/train/tokens_used": 2225746400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2408287674188614,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498849153518677,
+      "objective/train/weighted_lm_loss": 3.2743141651153564,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9550109505653381,
+      "theoretical_loss": 3.4028239404837826,
+      "tokens_seen": 2205286400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010707529322739312,
+      "loss": 3.2249,
+      "theoretical_loss": 3.402708185450833,
+      "tokens_seen": 2206203904
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010688611426409384,
+      "loss": 3.3303,
+      "theoretical_loss": 3.4025759694125317,
+      "tokens_seen": 2207252480
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010669693530079455,
+      "loss": 3.2622,
+      "theoretical_loss": 3.4024438337471974,
+      "tokens_seen": 2208301056
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.4907922148704529,
+      "objective/train/docs_used": 1246233,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8649120330810547,
+      "objective/train/original_loss": 2.8649120330810547,
+      "objective/train/theoretical_loss": 3.4024108123789434,
+      "objective/train/tokens_used": 2229023200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24190065264701843,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503088235855103,
+      "objective/train/weighted_lm_loss": 3.0094716548919678,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9557651281356812,
+      "theoretical_loss": 3.4024108123789434,
+      "tokens_seen": 2208563200
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010650775633749528,
+      "loss": 3.3453,
+      "theoretical_loss": 3.4023117783678436,
+      "tokens_seen": 2209349632
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010631857737419599,
+      "loss": 3.3543,
+      "theoretical_loss": 3.4021798031876176,
+      "tokens_seen": 2210398208
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010612939841089671,
+      "loss": 3.441,
+      "theoretical_loss": 3.4020479081198034,
+      "tokens_seen": 2211446784
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.45996737480163574,
+      "objective/train/docs_used": 1246233,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2608132362365723,
+      "objective/train/original_loss": 3.2608132362365723,
+      "objective/train/theoretical_loss": 3.4019984681056785,
+      "objective/train/tokens_used": 2232300000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2254868596792221,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0471423864364624,
+      "objective/train/weighted_lm_loss": 3.418138265609741,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9537967443466187,
+      "theoretical_loss": 3.4019984681056785,
+      "tokens_seen": 2211840000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010594021944759744,
+      "loss": 3.4698,
+      "theoretical_loss": 3.4019160930778196,
+      "tokens_seen": 2212495360
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010575104048429815,
+      "loss": 3.5284,
+      "theoretical_loss": 3.401784357975218,
+      "tokens_seen": 2213543936
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010556186152099887,
+      "loss": 3.4935,
+      "theoretical_loss": 3.401652702725687,
+      "tokens_seen": 2214592512
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.48440462350845337,
+      "objective/train/docs_used": 1248119,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.49127459526062,
+      "objective/train/original_loss": 3.49127459526062,
+      "objective/train/theoretical_loss": 3.401586905018886,
+      "objective/train/tokens_used": 2235576800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23930440843105316,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496569871902466,
+      "objective/train/weighted_lm_loss": 3.665234327316284,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9591064453125,
+      "theoretical_loss": 3.401586905018886,
+      "tokens_seen": 2215116800
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010537268255769959,
+      "loss": 3.5465,
+      "theoretical_loss": 3.401521127243046,
+      "tokens_seen": 2215641088
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010518350359440031,
+      "loss": 3.4807,
+      "theoretical_loss": 3.4013896314412517,
+      "tokens_seen": 2216689664
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010499432463110102,
+      "loss": 3.387,
+      "theoretical_loss": 3.401258215234391,
+      "tokens_seen": 2217738240
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.4825243651866913,
+      "objective/train/docs_used": 1249212,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.276275634765625,
+      "objective/train/original_loss": 3.276275157928467,
+      "objective/train/theoretical_loss": 3.401176120486286,
+      "objective/train/tokens_used": 2238853600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2399078756570816,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494717359542847,
+      "objective/train/weighted_lm_loss": 3.437455415725708,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9523665308952332,
+      "theoretical_loss": 3.401176120486286,
+      "tokens_seen": 2218393600
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010480514566780175,
+      "loss": 3.495,
+      "theoretical_loss": 3.401126878536686,
+      "tokens_seen": 2218786816
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010461596670450246,
+      "loss": 3.3819,
+      "theoretical_loss": 3.400995621262491,
+      "tokens_seen": 2219835392
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010442678774120318,
+      "loss": 3.3977,
+      "theoretical_loss": 3.4008644433262933,
+      "tokens_seen": 2220883968
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.4869391620159149,
+      "objective/train/docs_used": 1251383,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7835676670074463,
+      "objective/train/original_loss": 2.7835679054260254,
+      "objective/train/theoretical_loss": 3.400766111888339,
+      "objective/train/tokens_used": 2242130400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24035805463790894,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499156713485718,
+      "objective/train/weighted_lm_loss": 2.92244815826416,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9542126655578613,
+      "theoretical_loss": 3.400766111888339,
+      "tokens_seen": 2221670400
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001042376087779039,
+      "loss": 3.3702,
+      "theoretical_loss": 3.400733344642712,
+      "tokens_seen": 2221932544
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010404842981460462,
+      "loss": 3.4368,
+      "theoretical_loss": 3.4006023251264987,
+      "tokens_seen": 2222981120
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010385925085130534,
+      "loss": 3.3566,
+      "theoretical_loss": 3.400471384692537,
+      "tokens_seen": 2224029696
+    },
+    {
+      "epoch": 0.79,
+      "objective/train/advantage_avg": 0.4827156364917755,
+      "objective/train/docs_used": 1252992,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.140798807144165,
+      "objective/train/original_loss": 3.140798807144165,
+      "objective/train/theoretical_loss": 3.400356876618167,
+      "objective/train/tokens_used": 2245407200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23796583712100983,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494810342788696,
+      "objective/train/weighted_lm_loss": 3.2959017753601074,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9555644392967224,
+      "theoretical_loss": 3.400356876618167,
+      "tokens_seen": 2224947200
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00010367007188800606,
+      "loss": 3.2769,
+      "theoretical_loss": 3.4003405232558417,
+      "tokens_seen": 2225078272
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010348089292470678,
+      "loss": 3.2955,
+      "theoretical_loss": 3.4002097407315595,
+      "tokens_seen": 2226126848
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010329171396140749,
+      "loss": 3.3102,
+      "theoretical_loss": 3.4000790370349674,
+      "tokens_seen": 2227175424
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.4734431505203247,
+      "objective/train/docs_used": 1254892,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.233670473098755,
+      "objective/train/original_loss": 3.233670473098755,
+      "objective/train/theoretical_loss": 3.3999484120814736,
+      "objective/train/tokens_used": 2248684000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23569948971271515,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485421419143677,
+      "objective/train/weighted_lm_loss": 3.390467405319214,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9522518515586853,
+      "theoretical_loss": 3.3999484120814736,
+      "tokens_seen": 2228224000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010310253499810822,
+      "loss": 3.3266,
+      "theoretical_loss": 3.3999484120814736,
+      "tokens_seen": 2228224000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010291335603480893,
+      "loss": 3.2585,
+      "theoretical_loss": 3.399817865786617,
+      "tokens_seen": 2229272576
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010272417707150965,
+      "loss": 3.2397,
+      "theoretical_loss": 3.399687398066067,
+      "tokens_seen": 2230321152
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010253499810821037,
+      "loss": 3.1565,
+      "theoretical_loss": 3.3995570088356217,
+      "tokens_seen": 2231369728
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.49023377895355225,
+      "objective/train/docs_used": 1257149,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8337886333465576,
+      "objective/train/original_loss": 2.8337888717651367,
+      "objective/train/theoretical_loss": 3.399540715696463,
+      "objective/train/tokens_used": 2251960800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2429656982421875,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502585172653198,
+      "objective/train/weighted_lm_loss": 2.9760193824768066,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9533647894859314,
+      "theoretical_loss": 3.399540715696463,
+      "tokens_seen": 2231500800
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010234581914491109,
+      "loss": 3.2025,
+      "theoretical_loss": 3.3994266980112107,
+      "tokens_seen": 2232418304
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001021566401816118,
+      "loss": 3.2688,
+      "theoretical_loss": 3.3992964655088915,
+      "tokens_seen": 2233466880
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010196746121831253,
+      "loss": 3.2317,
+      "theoretical_loss": 3.3991663112448522,
+      "tokens_seen": 2234515456
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.48362892866134644,
+      "objective/train/docs_used": 1259222,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9153990745544434,
+      "objective/train/original_loss": 2.9153990745544434,
+      "objective/train/theoretical_loss": 3.3991337848937637,
+      "objective/train/tokens_used": 2255237600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23721912503242493,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495686531066895,
+      "objective/train/weighted_lm_loss": 3.060173273086548,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.954319179058075,
+      "theoretical_loss": 3.3991337848937637,
+      "tokens_seen": 2234777600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010177828225501324,
+      "loss": 3.1987,
+      "theoretical_loss": 3.3990362351354086,
+      "tokens_seen": 2235564032
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010158910329171396,
+      "loss": 3.154,
+      "theoretical_loss": 3.3989062370970062,
+      "tokens_seen": 2236612608
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001013999243284147,
+      "loss": 3.2095,
+      "theoretical_loss": 3.3987763170462184,
+      "tokens_seen": 2237661184
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.48375609517097473,
+      "objective/train/docs_used": 1261230,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0727992057800293,
+      "objective/train/original_loss": 3.0727992057800293,
+      "objective/train/theoretical_loss": 3.398727617116349,
+      "objective/train/tokens_used": 2258514400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23994581401348114,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495952367782593,
+      "objective/train/weighted_lm_loss": 3.225282907485962,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9582397937774658,
+      "theoretical_loss": 3.398727617116349,
+      "tokens_seen": 2238054400
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001012107453651154,
+      "loss": 3.152,
+      "theoretical_loss": 3.398646474899747,
+      "tokens_seen": 2238709760
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010102156640181612,
+      "loss": 3.1287,
+      "theoretical_loss": 3.398516710574422,
+      "tokens_seen": 2239758336
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010083238743851684,
+      "loss": 3.1316,
+      "theoretical_loss": 3.3983870239872003,
+      "tokens_seen": 2240806912
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.48984038829803467,
+      "objective/train/docs_used": 1263119,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9827420711517334,
+      "objective/train/original_loss": 2.9827423095703125,
+      "objective/train/theoretical_loss": 3.398322209819462,
+      "objective/train/tokens_used": 2261791200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24176624417304993,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502128601074219,
+      "objective/train/weighted_lm_loss": 3.1325385570526123,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9521621465682983,
+      "theoretical_loss": 3.398322209819462,
+      "tokens_seen": 2241331200
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010064320847521756,
+      "loss": 3.14,
+      "theoretical_loss": 3.3982574150551663,
+      "tokens_seen": 2241855488
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010045402951191827,
+      "loss": 3.125,
+      "theoretical_loss": 3.3981278836955333,
+      "tokens_seen": 2242904064
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.000100264850548619,
+      "loss": 3.1404,
+      "theoretical_loss": 3.397998429825639,
+      "tokens_seen": 2243952640
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.4860360622406006,
+      "objective/train/docs_used": 1265240,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.894569158554077,
+      "objective/train/original_loss": 2.8945693969726562,
+      "objective/train/theoretical_loss": 3.397917560470535,
+      "objective/train/tokens_used": 2265068000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2396802008152008,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498219728469849,
+      "objective/train/weighted_lm_loss": 3.038137435913086,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9669562578201294,
+      "theoretical_loss": 3.397917560470535,
+      "tokens_seen": 2244608000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00010007567158531971,
+      "loss": 3.1545,
+      "theoretical_loss": 3.397869053362949,
+      "tokens_seen": 2245001216
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.988649262202043e-05,
+      "loss": 3.0972,
+      "theoretical_loss": 3.3977397542250563,
+      "tokens_seen": 2246049792
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.969731365872115e-05,
+      "loss": 3.0479,
+      "theoretical_loss": 3.3976105323296775,
+      "tokens_seen": 2247098368
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.4735538065433502,
+      "objective/train/docs_used": 1267114,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.910813093185425,
+      "objective/train/original_loss": 2.9108128547668457,
+      "objective/train/theoretical_loss": 3.3975136665491172,
+      "objective/train/tokens_used": 2268344800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24066385626792908,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485782623291016,
+      "objective/train/weighted_lm_loss": 3.0512495040893555,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9516804814338684,
+      "theoretical_loss": 3.3975136665491172,
+      "tokens_seen": 2247884800
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.950813469542187e-05,
+      "loss": 3.0724,
+      "theoretical_loss": 3.3974813875946577,
+      "tokens_seen": 2248146944
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.93189557321226e-05,
+      "loss": 3.0347,
+      "theoretical_loss": 3.3973523199379656,
+      "tokens_seen": 2249195520
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.912977676882331e-05,
+      "loss": 3.0484,
+      "theoretical_loss": 3.397223329277697,
+      "tokens_seen": 2250244096
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.48258739709854126,
+      "objective/train/docs_used": 1269266,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.058069944381714,
+      "objective/train/original_loss": 3.058070182800293,
+      "objective/train/theoretical_loss": 3.3971105255467977,
+      "objective/train/tokens_used": 2271621600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24109937250614166,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049484133720398,
+      "objective/train/weighted_lm_loss": 3.208803415298462,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9516813158988953,
+      "theoretical_loss": 3.3971105255467977,
+      "tokens_seen": 2251161600
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.894059780552403e-05,
+      "loss": 3.101,
+      "theoretical_loss": 3.397094415532072,
+      "tokens_seen": 2251292672
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.875141884222474e-05,
+      "loss": 3.0379,
+      "theoretical_loss": 3.396965578619435,
+      "tokens_seen": 2252341248
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.856223987892548e-05,
+      "loss": 3.1686,
+      "theoretical_loss": 3.3968368184582562,
+      "tokens_seen": 2253389824
+    },
+    {
+      "epoch": 0.8,
+      "objective/train/advantage_avg": 0.48647889494895935,
+      "objective/train/docs_used": 1270683,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8880631923675537,
+      "objective/train/original_loss": 2.8880629539489746,
+      "objective/train/theoretical_loss": 3.39670813496713,
+      "objective/train/tokens_used": 2274898400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2403435856103897,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498695373535156,
+      "objective/train/weighted_lm_loss": 3.032536268234253,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9517598152160645,
+      "theoretical_loss": 3.39670813496713,
+      "tokens_seen": 2254438400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.837306091562618e-05,
+      "loss": 3.0102,
+      "theoretical_loss": 3.39670813496713,
+      "tokens_seen": 2254438400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.81838819523269e-05,
+      "loss": 3.0983,
+      "theoretical_loss": 3.396579528064774,
+      "tokens_seen": 2255486976
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.799470298902762e-05,
+      "loss": 3.0334,
+      "theoretical_loss": 3.396450997670031,
+      "tokens_seen": 2256535552
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.780552402572834e-05,
+      "loss": 3.1238,
+      "theoretical_loss": 3.3963225437018663,
+      "tokens_seen": 2257584128
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.4851101040840149,
+      "objective/train/docs_used": 1272388,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.497123956680298,
+      "objective/train/original_loss": 2.497124195098877,
+      "objective/train/theoretical_loss": 3.3963064923255586,
+      "objective/train/tokens_used": 2278175200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2395034283399582,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049728274345398,
+      "objective/train/weighted_lm_loss": 2.621992588043213,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9556369185447693,
+      "theoretical_loss": 3.3963064923255586,
+      "tokens_seen": 2257715200
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.761634506242905e-05,
+      "loss": 3.0345,
+      "theoretical_loss": 3.3961941660793697,
+      "tokens_seen": 2258632704
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.742716609912979e-05,
+      "loss": 3.095,
+      "theoretical_loss": 3.3960658647217534,
+      "tokens_seen": 2259681280
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.72379871358305e-05,
+      "loss": 3.0746,
+      "theoretical_loss": 3.3959376395483525,
+      "tokens_seen": 2260729856
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.443075954914093,
+      "objective/train/docs_used": 1274638,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.932318925857544,
+      "objective/train/original_loss": 2.932318687438965,
+      "objective/train/theoretical_loss": 3.395905595149345,
+      "objective/train/tokens_used": 2281452000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23310764133930206,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.045491099357605,
+      "objective/train/weighted_lm_loss": 3.069843292236328,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9517802000045776,
+      "theoretical_loss": 3.395905595149345,
+      "tokens_seen": 2260992000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.704880817253121e-05,
+      "loss": 3.0252,
+      "theoretical_loss": 3.3958094904786256,
+      "tokens_seen": 2261778432
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.685962920923195e-05,
+      "loss": 3.0028,
+      "theoretical_loss": 3.3956814174321526,
+      "tokens_seen": 2262827008
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.667045024593265e-05,
+      "loss": 3.0742,
+      "theoretical_loss": 3.3955534203286364,
+      "tokens_seen": 2263875584
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.4872230589389801,
+      "objective/train/docs_used": 1276376,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.892059326171875,
+      "objective/train/original_loss": 2.892059326171875,
+      "objective/train/theoretical_loss": 3.3955054409774936,
+      "objective/train/tokens_used": 2284728800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2388237714767456,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499361753463745,
+      "objective/train/weighted_lm_loss": 3.0363094806671143,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.979783833026886,
+      "theoretical_loss": 3.3955054409774936,
+      "tokens_seen": 2264268800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.648127128263337e-05,
+      "loss": 3.0924,
+      "theoretical_loss": 3.395425499087902,
+      "tokens_seen": 2264924160
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.62920923193341e-05,
+      "loss": 2.9934,
+      "theoretical_loss": 3.395297653629895,
+      "tokens_seen": 2265972736
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.610291335603482e-05,
+      "loss": 3.1318,
+      "theoretical_loss": 3.3951698838746838,
+      "tokens_seen": 2267021312
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.4725620746612549,
+      "objective/train/docs_used": 1278407,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.076742649078369,
+      "objective/train/original_loss": 3.076742649078369,
+      "objective/train/theoretical_loss": 3.3951060273606806,
+      "objective/train/tokens_used": 2288005600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23542000353336334,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0484524965286255,
+      "objective/train/weighted_lm_loss": 3.224698066711426,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9519801139831543,
+      "theoretical_loss": 3.3951060273606806,
+      "tokens_seen": 2267545600
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.591373439273552e-05,
+      "loss": 3.0248,
+      "theoretical_loss": 3.395042189742457,
+      "tokens_seen": 2268069888
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.572455542943626e-05,
+      "loss": 3.0607,
+      "theoretical_loss": 3.394914571153525,
+      "tokens_seen": 2269118464
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.553537646613696e-05,
+      "loss": 3.0339,
+      "theoretical_loss": 3.3947870280283183,
+      "tokens_seen": 2270167040
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.4836905300617218,
+      "objective/train/docs_used": 1280391,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7354981899261475,
+      "objective/train/original_loss": 2.7354984283447266,
+      "objective/train/theoretical_loss": 3.39470735186118,
+      "objective/train/tokens_used": 2291282400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23765282332897186,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049576997756958,
+      "objective/train/weighted_lm_loss": 2.871483325958252,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9534169435501099,
+      "theoretical_loss": 3.39470735186118,
+      "tokens_seen": 2270822400
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.534619750283768e-05,
+      "loss": 3.0532,
+      "theoretical_loss": 3.3946595602873884,
+      "tokens_seen": 2271215616
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.515701853953842e-05,
+      "loss": 3.1007,
+      "theoretical_loss": 3.3945321678514064,
+      "tokens_seen": 2272264192
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.496783957623913e-05,
+      "loss": 3.0615,
+      "theoretical_loss": 3.394404850641165,
+      "tokens_seen": 2273312768
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.48565566539764404,
+      "objective/train/docs_used": 1282312,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.136152744293213,
+      "objective/train/original_loss": 3.1361522674560547,
+      "objective/train/theoretical_loss": 3.3943094120527944,
+      "objective/train/tokens_used": 2294559200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23977386951446533,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497844219207764,
+      "objective/train/weighted_lm_loss": 3.292649984359741,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9598386883735657,
+      "theoretical_loss": 3.3943094120527944,
+      "tokens_seen": 2274099200
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.477866061293985e-05,
+      "loss": 3.1308,
+      "theoretical_loss": 3.3942776085775743,
+      "tokens_seen": 2274361344
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.458948164964057e-05,
+      "loss": 3.0992,
+      "theoretical_loss": 3.394150441581666,
+      "tokens_seen": 2275409920
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.440030268634129e-05,
+      "loss": 3.0643,
+      "theoretical_loss": 3.3940233495745904,
+      "tokens_seen": 2276458496
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.48642486333847046,
+      "objective/train/docs_used": 1284150,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.593719959259033,
+      "objective/train/original_loss": 2.593719959259033,
+      "objective/train/theoretical_loss": 3.3939122055207807,
+      "objective/train/tokens_used": 2297836000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24082650244235992,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498665571212769,
+      "objective/train/weighted_lm_loss": 2.723041534423828,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9529795050621033,
+      "theoretical_loss": 3.3939122055207807,
+      "tokens_seen": 2277376000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.4211123723042e-05,
+      "loss": 3.0231,
+      "theoretical_loss": 3.393896332477617,
+      "tokens_seen": 2277507072
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.402194475974273e-05,
+      "loss": 3.0623,
+      "theoretical_loss": 3.3937693902121335,
+      "tokens_seen": 2278555648
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.383276579644344e-05,
+      "loss": 3.0839,
+      "theoretical_loss": 3.393642522699647,
+      "tokens_seen": 2279604224
+    },
+    {
+      "epoch": 0.81,
+      "objective/train/advantage_avg": 0.48222169280052185,
+      "objective/train/docs_used": 1285842,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.761013984680176,
+      "objective/train/original_loss": 2.761013984680176,
+      "objective/train/theoretical_loss": 3.393515729861783,
+      "objective/train/tokens_used": 2301112800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2392144352197647,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494379997253418,
+      "objective/train/weighted_lm_loss": 2.8989064693450928,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9535624980926514,
+      "theoretical_loss": 3.393515729861783,
+      "tokens_seen": 2280652800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.364358683314416e-05,
+      "loss": 3.0902,
+      "theoretical_loss": 3.393515729861783,
+      "tokens_seen": 2280652800
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.345440786984488e-05,
+      "loss": 3.111,
+      "theoretical_loss": 3.3933890116202843,
+      "tokens_seen": 2281701376
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.32652289065456e-05,
+      "loss": 3.1021,
+      "theoretical_loss": 3.3932623678970133,
+      "tokens_seen": 2282749952
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.30760499432463e-05,
+      "loss": 3.0894,
+      "theoretical_loss": 3.393135798613948,
+      "tokens_seen": 2283798528
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48043379187583923,
+      "objective/train/docs_used": 1287535,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0948588848114014,
+      "objective/train/original_loss": 3.0948591232299805,
+      "objective/train/theoretical_loss": 3.3931199826837606,
+      "objective/train/tokens_used": 2304389600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23888222873210907,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049257516860962,
+      "objective/train/weighted_lm_loss": 3.246586799621582,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9514316320419312,
+      "theoretical_loss": 3.3931199826837606,
+      "tokens_seen": 2283929600
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.288687097994704e-05,
+      "loss": 3.1324,
+      "theoretical_loss": 3.3930093036931854,
+      "tokens_seen": 2284847104
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.269769201664776e-05,
+      "loss": 3.0722,
+      "theoretical_loss": 3.392882883056939,
+      "tokens_seen": 2285895680
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.250851305334847e-05,
+      "loss": 3.0668,
+      "theoretical_loss": 3.39275653662754,
+      "tokens_seen": 2286944256
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48825782537460327,
+      "objective/train/docs_used": 1288943,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.927969217300415,
+      "objective/train/original_loss": 2.927968978881836,
+      "objective/train/theoretical_loss": 3.392724961605919,
+      "objective/train/tokens_used": 2307666400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24235625565052032,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500577688217163,
+      "objective/train/weighted_lm_loss": 3.073913335800171,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.958259642124176,
+      "theoretical_loss": 3.392724961605919,
+      "tokens_seen": 2287206400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.23193340900492e-05,
+      "loss": 3.1182,
+      "theoretical_loss": 3.3926302643274355,
+      "tokens_seen": 2287992832
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.21301551267499e-05,
+      "loss": 3.0441,
+      "theoretical_loss": 3.39250406607919,
+      "tokens_seen": 2289041408
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.194097616345063e-05,
+      "loss": 3.1382,
+      "theoretical_loss": 3.3923779418054827,
+      "tokens_seen": 2290089984
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48361656069755554,
+      "objective/train/docs_used": 1290666,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5616543292999268,
+      "objective/train/original_loss": 2.561654567718506,
+      "objective/train/theoretical_loss": 3.392330664258642,
+      "objective/train/tokens_used": 2310943200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23792539536952972,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495710372924805,
+      "objective/train/weighted_lm_loss": 2.6900863647460938,
+      "objective/train/weights_max": 1.0512185096740723,
+      "objective/train/weights_min": 0.9807561635971069,
+      "theoretical_loss": 3.392330664258642,
+      "tokens_seen": 2290483200
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.175179720015135e-05,
+      "loss": 3.1281,
+      "theoretical_loss": 3.3922518914291113,
+      "tokens_seen": 2291138560
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.156261823685207e-05,
+      "loss": 3.1114,
+      "theoretical_loss": 3.3921259148729876,
+      "tokens_seen": 2292187136
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.137343927355278e-05,
+      "loss": 3.0929,
+      "theoretical_loss": 3.39200001206014,
+      "tokens_seen": 2293235712
+    },
+    {
+      "debugging/Self-BLEU-5": 0.515096219338814,
+      "debugging/distinct-1-grams": 0.7923118197529954,
+      "debugging/distinct-2-grams": 0.9542743672238616,
+      "debugging/entropy-1-grams": 6.147062465574793,
+      "debugging/entropy-2-grams": 7.107820582543805,
+      "debugging/length": 504.1666666666667,
+      "debugging/num_segments": 18,
+      "debugging/raw_token_scores_avg": 0.012544393539428711,
+      "debugging/raw_token_scores_std": 0.04549340158700943,
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48745694756507874,
+      "objective/train/docs_used": 1292636,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8265254497528076,
+      "objective/train/original_loss": 2.8265256881713867,
+      "objective/train/theoretical_loss": 3.3919370882834223,
+      "objective/train/tokens_used": 2314220000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23968477547168732,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499640703201294,
+      "objective/train/weighted_lm_loss": 2.9688053131103516,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9514824151992798,
+      "theoretical_loss": 3.3919370882834223,
+      "tokens_seen": 2293760000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.118426031025351e-05,
+      "loss": 3.0551,
+      "theoretical_loss": 3.3918741829137113,
+      "tokens_seen": 2294284288
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.099508134695422e-05,
+      "loss": 3.1223,
+      "theoretical_loss": 3.3917484273569602,
+      "tokens_seen": 2295332864
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.080590238365494e-05,
+      "loss": 3.1222,
+      "theoretical_loss": 3.39162274531326,
+      "tokens_seen": 2296381440
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48345085978507996,
+      "objective/train/docs_used": 1294107,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.764035940170288,
+      "objective/train/original_loss": 2.764035701751709,
+      "objective/train/theoretical_loss": 3.391544231332792,
+      "objective/train/tokens_used": 2317496800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23902611434459686,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495600700378418,
+      "objective/train/weighted_lm_loss": 2.902003049850464,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9564229846000671,
+      "theoretical_loss": 3.391544231332792,
+      "tokens_seen": 2297036800
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.061672342035567e-05,
+      "loss": 3.1565,
+      "theoretical_loss": 3.391497136706099,
+      "tokens_seen": 2297430016
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.042754445705638e-05,
+      "loss": 3.16,
+      "theoretical_loss": 3.3913716014590807,
+      "tokens_seen": 2298478592
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.02383654937571e-05,
+      "loss": 3.2324,
+      "theoretical_loss": 3.3912461394959212,
+      "tokens_seen": 2299527168
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.4791503846645355,
+      "objective/train/docs_used": 1294624,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1768290996551514,
+      "objective/train/original_loss": 3.1768290996551514,
+      "objective/train/theoretical_loss": 3.3911520910702593,
+      "objective/train/tokens_used": 2320773600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23488926887512207,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049108862876892,
+      "objective/train/weighted_lm_loss": 3.3320627212524414,
+      "objective/train/weights_max": 1.0512152910232544,
+      "objective/train/weights_min": 0.962348997592926,
+      "theoretical_loss": 3.3911520910702593,
+      "tokens_seen": 2300313600
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.004918653045782e-05,
+      "loss": 3.2351,
+      "theoretical_loss": 3.391120750740452,
+      "tokens_seen": 2300575744
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.986000756715854e-05,
+      "loss": 3.2923,
+      "theoretical_loss": 3.3909954351166176,
+      "tokens_seen": 2301624320
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.967082860385925e-05,
+      "loss": 3.2683,
+      "theoretical_loss": 3.3908701925484768,
+      "tokens_seen": 2302672896
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.45928680896759033,
+      "objective/train/docs_used": 1296468,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9212799072265625,
+      "objective/train/original_loss": 2.9212799072265625,
+      "objective/train/theoretical_loss": 3.390760665170238,
+      "objective/train/tokens_used": 2324050400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2240046262741089,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0470670461654663,
+      "objective/train/weighted_lm_loss": 3.061581611633301,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9757957458496094,
+      "theoretical_loss": 3.390760665170238,
+      "tokens_seen": 2303590400
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.948164964055998e-05,
+      "loss": 3.2527,
+      "theoretical_loss": 3.3907450229602016,
+      "tokens_seen": 2303721472
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.929247067726069e-05,
+      "loss": 3.2998,
+      "theoretical_loss": 3.390619926276077,
+      "tokens_seen": 2304770048
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.910329171396141e-05,
+      "loss": 3.2132,
+      "theoretical_loss": 3.390494902420501,
+      "tokens_seen": 2305818624
+    },
+    {
+      "epoch": 0.82,
+      "objective/train/advantage_avg": 0.48398545384407043,
+      "objective/train/docs_used": 1298252,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6797232627868652,
+      "objective/train/original_loss": 2.6797232627868652,
+      "objective/train/theoretical_loss": 3.390369951317984,
+      "objective/train/tokens_used": 2327327200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24018828570842743,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049619436264038,
+      "objective/train/weighted_lm_loss": 2.812175989151001,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9517936706542969,
+      "theoretical_loss": 3.390369951317984,
+      "tokens_seen": 2306867200
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.891411275066213e-05,
+      "loss": 3.2114,
+      "theoretical_loss": 3.390369951317984,
+      "tokens_seen": 2306867200
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.872493378736285e-05,
+      "loss": 3.2249,
+      "theoretical_loss": 3.3902450728931504,
+      "tokens_seen": 2307915776
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 8.853575482406357e-05,
+      "loss": 3.179,
+      "theoretical_loss": 3.390120267070735,
+      "tokens_seen": 2308964352
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.834657586076429e-05,
+      "loss": 3.167,
+      "theoretical_loss": 3.3899955337755854,
+      "tokens_seen": 2310012928
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.46928122639656067,
+      "objective/train/docs_used": 1299979,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0463294982910156,
+      "objective/train/original_loss": 3.0463294982910156,
+      "objective/train/theoretical_loss": 3.3899799472095267,
+      "objective/train/tokens_used": 2330604000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23485510051250458,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481215715408325,
+      "objective/train/weighted_lm_loss": 3.1912734508514404,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9515340924263,
+      "theoretical_loss": 3.3899799472095267,
+      "tokens_seen": 2310144000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.815739689746501e-05,
+      "loss": 3.2139,
+      "theoretical_loss": 3.3898708729326614,
+      "tokens_seen": 2311061504
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.796821793416572e-05,
+      "loss": 3.2259,
+      "theoretical_loss": 3.3897462844670345,
+      "tokens_seen": 2312110080
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.777903897086645e-05,
+      "loss": 3.2116,
+      "theoretical_loss": 3.3896217683038863,
+      "tokens_seen": 2313158656
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.4831146001815796,
+      "objective/train/docs_used": 1302096,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2344326972961426,
+      "objective/train/original_loss": 3.2344326972961426,
+      "objective/train/theoretical_loss": 3.3895906505516047,
+      "objective/train/tokens_used": 2333880800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2407372146844864,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495350360870361,
+      "objective/train/weighted_lm_loss": 3.3936874866485596,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9515005946159363,
+      "theoretical_loss": 3.3895906505516047,
+      "tokens_seen": 2313420800
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.758986000756716e-05,
+      "loss": 3.1729,
+      "theoretical_loss": 3.3894973243685116,
+      "tokens_seen": 2314207232
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.740068104426788e-05,
+      "loss": 3.1754,
+      "theoretical_loss": 3.389372952586315,
+      "tokens_seen": 2315255808
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.72115020809686e-05,
+      "loss": 3.1716,
+      "theoretical_loss": 3.3892486528828116,
+      "tokens_seen": 2316304384
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.47961023449897766,
+      "objective/train/docs_used": 1304213,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.84677791595459,
+      "objective/train/original_loss": 2.846778392791748,
+      "objective/train/theoretical_loss": 3.3892020590616028,
+      "objective/train/tokens_used": 2337157600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24148398637771606,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049188494682312,
+      "objective/train/weighted_lm_loss": 2.9851181507110596,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951810896396637,
+      "theoretical_loss": 3.3892020590616028,
+      "tokens_seen": 2316697600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.702232311766932e-05,
+      "loss": 3.0908,
+      "theoretical_loss": 3.389124425183628,
+      "tokens_seen": 2317352960
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.683314415437003e-05,
+      "loss": 3.0297,
+      "theoretical_loss": 3.3890002694145007,
+      "tokens_seen": 2318401536
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.664396519107076e-05,
+      "loss": 3.1335,
+      "theoretical_loss": 3.388876185501276,
+      "tokens_seen": 2319450112
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.48336800932884216,
+      "objective/train/docs_used": 1306171,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2488811016082764,
+      "objective/train/original_loss": 3.2488808631896973,
+      "objective/train/theoretical_loss": 3.388814170467484,
+      "objective/train/tokens_used": 2340434400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23837092518806458,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495483875274658,
+      "objective/train/weighted_lm_loss": 3.409419298171997,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9514601826667786,
+      "theoretical_loss": 3.388814170467484,
+      "tokens_seen": 2319974400
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.645478622777148e-05,
+      "loss": 3.1275,
+      "theoretical_loss": 3.3887521733699106,
+      "tokens_seen": 2320498688
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.626560726447219e-05,
+      "loss": 3.1834,
+      "theoretical_loss": 3.388628232946471,
+      "tokens_seen": 2321547264
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.607642830117292e-05,
+      "loss": 3.1321,
+      "theoretical_loss": 3.388504364157133,
+      "tokens_seen": 2322595840
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.472857803106308,
+      "objective/train/docs_used": 1308132,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8800430297851562,
+      "objective/train/original_loss": 2.8800430297851562,
+      "objective/train/theoretical_loss": 3.3884269825077302,
+      "objective/train/tokens_used": 2343711200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23990888893604279,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485048294067383,
+      "objective/train/weighted_lm_loss": 3.0166618824005127,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9515467882156372,
+      "theoretical_loss": 3.3884269825077302,
+      "tokens_seen": 2323251200
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.588724933787363e-05,
+      "loss": 3.1415,
+      "theoretical_loss": 3.3883805669281815,
+      "tokens_seen": 2323644416
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.569807037457435e-05,
+      "loss": 3.1349,
+      "theoretical_loss": 3.388256841186011,
+      "tokens_seen": 2324692992
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.550889141127507e-05,
+      "loss": 3.0799,
+      "theoretical_loss": 3.3881331868571234,
+      "tokens_seen": 2325741568
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.4859318435192108,
+      "objective/train/docs_used": 1310381,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.184096097946167,
+      "objective/train/original_loss": 3.184096336364746,
+      "objective/train/theoretical_loss": 3.3880404929312737,
+      "objective/train/tokens_used": 2346988000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23933574557304382,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498096942901611,
+      "objective/train/weighted_lm_loss": 3.3434245586395264,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.96250981092453,
+      "theoretical_loss": 3.3880404929312737,
+      "tokens_seen": 2326528000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.531971244797579e-05,
+      "loss": 3.1258,
+      "theoretical_loss": 3.3880096038681313,
+      "tokens_seen": 2326790144
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.51305334846765e-05,
+      "loss": 3.1036,
+      "theoretical_loss": 3.387886092145755,
+      "tokens_seen": 2327838720
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.494135452137723e-05,
+      "loss": 3.0237,
+      "theoretical_loss": 3.387762651616822,
+      "tokens_seen": 2328887296
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.48883962631225586,
+      "objective/train/docs_used": 1312090,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.894986152648926,
+      "objective/train/original_loss": 2.894986152648926,
+      "objective/train/theoretical_loss": 3.3876546994974377,
+      "objective/train/tokens_used": 2350264800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24219678342342377,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501152276992798,
+      "objective/train/weighted_lm_loss": 3.03971266746521,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9689180850982666,
+      "theoretical_loss": 3.3876546994974377,
+      "tokens_seen": 2329804800
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.475217555807794e-05,
+      "loss": 3.1501,
+      "theoretical_loss": 3.3876392822082697,
+      "tokens_seen": 2329935872
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.456299659477866e-05,
+      "loss": 3.1006,
+      "theoretical_loss": 3.3875159838471416,
+      "tokens_seen": 2330984448
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.43738176314794e-05,
+      "loss": 3.0854,
+      "theoretical_loss": 3.3873927564605895,
+      "tokens_seen": 2332033024
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.49127140641212463,
+      "objective/train/docs_used": 1313833,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1920430660247803,
+      "objective/train/original_loss": 3.1920433044433594,
+      "objective/train/theoretical_loss": 3.3872695999758733,
+      "objective/train/tokens_used": 2353541600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24283026158809662,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503616333007812,
+      "objective/train/weighted_lm_loss": 3.3526406288146973,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9671012163162231,
+      "theoretical_loss": 3.3872695999758733,
+      "tokens_seen": 2333081600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.41846386681801e-05,
+      "loss": 3.0824,
+      "theoretical_loss": 3.3872695999758733,
+      "tokens_seen": 2333081600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.399545970488082e-05,
+      "loss": 3.1084,
+      "theoretical_loss": 3.3871465143203583,
+      "tokens_seen": 2334130176
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.380628074158154e-05,
+      "loss": 3.0542,
+      "theoretical_loss": 3.387023499421519,
+      "tokens_seen": 2335178752
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.361710177828226e-05,
+      "loss": 3.1007,
+      "theoretical_loss": 3.386900555206935,
+      "tokens_seen": 2336227328
+    },
+    {
+      "epoch": 0.83,
+      "objective/train/advantage_avg": 0.47514820098876953,
+      "objective/train/docs_used": 1316188,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9037365913391113,
+      "objective/train/original_loss": 2.9037368297576904,
+      "objective/train/theoretical_loss": 3.3868851921464964,
+      "objective/train/tokens_used": 2356818400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23783263564109802,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048723578453064,
+      "objective/train/weighted_lm_loss": 3.045696496963501,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9521853923797607,
+      "theoretical_loss": 3.3868851921464964,
+      "tokens_seen": 2336358400
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.342792281498297e-05,
+      "loss": 3.1275,
+      "theoretical_loss": 3.3867776816042934,
+      "tokens_seen": 2337275904
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.323874385168369e-05,
+      "loss": 3.081,
+      "theoretical_loss": 3.3866548785413872,
+      "tokens_seen": 2338324480
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.304956488838441e-05,
+      "loss": 3.0834,
+      "theoretical_loss": 3.3865321459461155,
+      "tokens_seen": 2339373056
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.48149341344833374,
+      "objective/train/docs_used": 1317929,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8814351558685303,
+      "objective/train/original_loss": 2.8814353942871094,
+      "objective/train/theoretical_loss": 3.3865014737994263,
+      "objective/train/tokens_used": 2360095200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23636046051979065,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493507385253906,
+      "objective/train/weighted_lm_loss": 3.022583484649658,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9719198942184448,
+      "theoretical_loss": 3.3865014737994263,
+      "tokens_seen": 2339635200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.286038592508513e-05,
+      "loss": 3.0261,
+      "theoretical_loss": 3.386409483746484,
+      "tokens_seen": 2340421632
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.267120696178584e-05,
+      "loss": 2.9999,
+      "theoretical_loss": 3.386286891870604,
+      "tokens_seen": 2341470208
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.248202799848657e-05,
+      "loss": 3.0883,
+      "theoretical_loss": 3.386164370246692,
+      "tokens_seen": 2342518784
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.492958128452301,
+      "objective/train/docs_used": 1319369,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9171993732452393,
+      "objective/train/original_loss": 2.9171996116638184,
+      "objective/train/theoretical_loss": 3.386118442734927,
+      "objective/train/tokens_used": 2363372000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2451806366443634,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505422353744507,
+      "objective/train/weighted_lm_loss": 3.063903570175171,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9514467716217041,
+      "theoretical_loss": 3.386118442734927,
+      "tokens_seen": 2342912000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.229284903518728e-05,
+      "loss": 3.2241,
+      "theoretical_loss": 3.3860419188030693,
+      "tokens_seen": 2343567360
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.2103670071888e-05,
+      "loss": 3.1287,
+      "theoretical_loss": 3.3859195374681637,
+      "tokens_seen": 2344615936
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.191449110858873e-05,
+      "loss": 3.0803,
+      "theoretical_loss": 3.3857972261705074,
+      "tokens_seen": 2345664512
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.483732134103775,
+      "objective/train/docs_used": 1321381,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9508039951324463,
+      "objective/train/original_loss": 2.9508039951324463,
+      "objective/train/theoretical_loss": 3.3857360967633428,
+      "objective/train/tokens_used": 2366648800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24197065830230713,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496031045913696,
+      "objective/train/weighted_lm_loss": 3.095860719680786,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9532303214073181,
+      "theoretical_loss": 3.3857360967633428,
+      "tokens_seen": 2346188800
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.172531214528944e-05,
+      "loss": 3.0983,
+      "theoretical_loss": 3.385674984838737,
+      "tokens_seen": 2346713088
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.153613318199016e-05,
+      "loss": 3.0987,
+      "theoretical_loss": 3.3855528134015946,
+      "tokens_seen": 2347761664
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.134695421869088e-05,
+      "loss": 3.1127,
+      "theoretical_loss": 3.385430711787925,
+      "tokens_seen": 2348810240
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.4847314953804016,
+      "objective/train/docs_used": 1323513,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6906464099884033,
+      "objective/train/original_loss": 2.690646171569824,
+      "objective/train/theoretical_loss": 3.38535443370504,
+      "objective/train/tokens_used": 2369925600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24226725101470947,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497045516967773,
+      "objective/train/weighted_lm_loss": 2.8229305744171143,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9514601826667786,
+      "theoretical_loss": 3.38535443370504,
+      "tokens_seen": 2349465600
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.11577752553916e-05,
+      "loss": 3.0166,
+      "theoretical_loss": 3.3853086799266787,
+      "tokens_seen": 2349858816
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.096859629209231e-05,
+      "loss": 3.0753,
+      "theoretical_loss": 3.38518671774691,
+      "tokens_seen": 2350907392
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.077941732879304e-05,
+      "loss": 3.0972,
+      "theoretical_loss": 3.385064825177776,
+      "tokens_seen": 2351955968
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.4856957793235779,
+      "objective/train/docs_used": 1325482,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.927109479904175,
+      "objective/train/original_loss": 2.927109718322754,
+      "objective/train/theoretical_loss": 3.3849734513903473,
+      "objective/train/tokens_used": 2373202400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24306103587150574,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498050451278687,
+      "objective/train/weighted_lm_loss": 3.0720131397247314,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9516735672950745,
+      "theoretical_loss": 3.3849734513903473,
+      "tokens_seen": 2352742400
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.059023836549375e-05,
+      "loss": 3.0963,
+      "theoretical_loss": 3.384943002148538,
+      "tokens_seen": 2353004544
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.040105940219447e-05,
+      "loss": 3.0522,
+      "theoretical_loss": 3.384821248588562,
+      "tokens_seen": 2354053120
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.021188043889519e-05,
+      "loss": 3.0707,
+      "theoretical_loss": 3.3846995644273132,
+      "tokens_seen": 2355101696
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.48670029640197754,
+      "objective/train/docs_used": 1326516,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.063535690307617,
+      "objective/train/original_loss": 3.063535690307617,
+      "objective/train/theoretical_loss": 3.3845931476594964,
+      "objective/train/tokens_used": 2376479200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24172568321228027,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498987436294556,
+      "objective/train/weighted_lm_loss": 3.215937614440918,
+      "objective/train/weights_max": 1.0512151718139648,
+      "objective/train/weights_min": 0.952146589756012,
+      "theoretical_loss": 3.3845931476594964,
+      "tokens_seen": 2356019200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.002270147559591e-05,
+      "loss": 3.091,
+      "theoretical_loss": 3.384577949594364,
+      "tokens_seen": 2356150272
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.983352251229663e-05,
+      "loss": 3.1252,
+      "theoretical_loss": 3.3844564040193887,
+      "tokens_seen": 2357198848
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.964434354899735e-05,
+      "loss": 3.2091,
+      "theoretical_loss": 3.384334927632162,
+      "tokens_seen": 2358247424
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.47246748208999634,
+      "objective/train/docs_used": 1327582,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9666707515716553,
+      "objective/train/original_loss": 2.9666709899902344,
+      "objective/train/theoretical_loss": 3.3842135203625627,
+      "objective/train/tokens_used": 2379756000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23522746562957764,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048442006111145,
+      "objective/train/weighted_lm_loss": 3.1088528633117676,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9515091180801392,
+      "theoretical_loss": 3.3842135203625627,
+      "tokens_seen": 2359296000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.945516458569807e-05,
+      "loss": 3.1832,
+      "theoretical_loss": 3.3842135203625627,
+      "tokens_seen": 2359296000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.926598562239878e-05,
+      "loss": 3.2233,
+      "theoretical_loss": 3.3840921821405723,
+      "tokens_seen": 2360344576
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.907680665909952e-05,
+      "loss": 3.2095,
+      "theoretical_loss": 3.3839709128962725,
+      "tokens_seen": 2361393152
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.888762769580022e-05,
+      "loss": 3.1732,
+      "theoretical_loss": 3.3838497125598486,
+      "tokens_seen": 2362441728
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.4920428693294525,
+      "objective/train/docs_used": 1329627,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9259815216064453,
+      "objective/train/original_loss": 2.9259815216064453,
+      "objective/train/theoretical_loss": 3.3838345673594072,
+      "objective/train/tokens_used": 2383032800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24389143288135529,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504441261291504,
+      "objective/train/weighted_lm_loss": 3.0741143226623535,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9753554463386536,
+      "theoretical_loss": 3.3838345673594072,
+      "tokens_seen": 2362572800
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.869844873250094e-05,
+      "loss": 3.1582,
+      "theoretical_loss": 3.383728581061586,
+      "tokens_seen": 2363490304
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.850926976920166e-05,
+      "loss": 3.1248,
+      "theoretical_loss": 3.383607518331873,
+      "tokens_seen": 2364538880
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 7.832009080590238e-05,
+      "loss": 3.1062,
+      "theoretical_loss": 3.3834865243011985,
+      "tokens_seen": 2365587456
+    },
+    {
+      "epoch": 0.84,
+      "objective/train/advantage_avg": 0.47797757387161255,
+      "objective/train/docs_used": 1331397,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0442779064178467,
+      "objective/train/original_loss": 3.044278144836426,
+      "objective/train/theoretical_loss": 3.383456286519618,
+      "objective/train/tokens_used": 2386309600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24260950088500977,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490306615829468,
+      "objective/train/weighted_lm_loss": 3.191368818283081,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9514516592025757,
+      "theoretical_loss": 3.383456286519618,
+      "tokens_seen": 2365849600
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.813091184260309e-05,
+      "loss": 3.1024,
+      "theoretical_loss": 3.383365598900151,
+      "tokens_seen": 2366636032
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.794173287930383e-05,
+      "loss": 3.1292,
+      "theoretical_loss": 3.3832447420594227,
+      "tokens_seen": 2367684608
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.775255391600455e-05,
+      "loss": 3.1855,
+      "theoretical_loss": 3.383123953709804,
+      "tokens_seen": 2368733184
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.49193400144577026,
+      "objective/train/docs_used": 1333210,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.104257106781006,
+      "objective/train/original_loss": 3.1042566299438477,
+      "objective/train/theoretical_loss": 3.383078675722453,
+      "objective/train/tokens_used": 2389586400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24367199838161469,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504320859909058,
+      "objective/train/weighted_lm_loss": 3.261072874069214,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9764650464057922,
+      "theoretical_loss": 3.383078675722453,
+      "tokens_seen": 2369126400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.756337495270525e-05,
+      "loss": 3.1193,
+      "theoretical_loss": 3.383003233782187,
+      "tokens_seen": 2369781760
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.737419598940599e-05,
+      "loss": 3.173,
+      "theoretical_loss": 3.382882582207563,
+      "tokens_seen": 2370830336
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.71850170261067e-05,
+      "loss": 3.1487,
+      "theoretical_loss": 3.3827619989170254,
+      "tokens_seen": 2371878912
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.47686776518821716,
+      "objective/train/docs_used": 1334412,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9060118198394775,
+      "objective/train/original_loss": 2.9060120582580566,
+      "objective/train/theoretical_loss": 3.3827017328567823,
+      "objective/train/tokens_used": 2392863200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.235874742269516,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048885703086853,
+      "objective/train/weighted_lm_loss": 3.0491559505462646,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9522488117218018,
+      "theoretical_loss": 3.3827017328567823,
+      "tokens_seen": 2372403200
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.699583806280741e-05,
+      "loss": 3.1017,
+      "theoretical_loss": 3.3826414838417653,
+      "tokens_seen": 2372927488
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.680665909950814e-05,
+      "loss": 3.1413,
+      "theoretical_loss": 3.382521036913075,
+      "tokens_seen": 2373976064
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.661748013620886e-05,
+      "loss": 3.1409,
+      "theoretical_loss": 3.3824006580623447,
+      "tokens_seen": 2375024640
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.4799953103065491,
+      "objective/train/docs_used": 1336383,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9855668544769287,
+      "objective/train/original_loss": 2.9855666160583496,
+      "objective/train/theoretical_loss": 3.3823254558210323,
+      "objective/train/tokens_used": 2396140000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23651105165481567,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049201488494873,
+      "objective/train/weighted_lm_loss": 3.132995128631592,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9516184329986572,
+      "theoretical_loss": 3.3823254558210323,
+      "tokens_seen": 2375680000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.642830117290956e-05,
+      "loss": 3.0911,
+      "theoretical_loss": 3.382280347221066,
+      "tokens_seen": 2376073216
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.62391222096103e-05,
+      "loss": 3.1107,
+      "theoretical_loss": 3.3821601043208283,
+      "tokens_seen": 2377121792
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.6049943246311e-05,
+      "loss": 3.1237,
+      "theoretical_loss": 3.3820399292933194,
+      "tokens_seen": 2378170368
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.47441014647483826,
+      "objective/train/docs_used": 1338132,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.338620901107788,
+      "objective/train/original_loss": 3.338620662689209,
+      "objective/train/theoretical_loss": 3.381949842523129,
+      "objective/train/tokens_used": 2399416800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2352495640516281,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486366748809814,
+      "objective/train/weighted_lm_loss": 3.5036096572875977,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9518207907676697,
+      "theoretical_loss": 3.381949842523129,
+      "tokens_seen": 2378956800
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.586076428301172e-05,
+      "loss": 3.0793,
+      "theoretical_loss": 3.381919822070328,
+      "tokens_seen": 2379218944
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.567158531971246e-05,
+      "loss": 3.1023,
+      "theoretical_loss": 3.3817997825837396,
+      "tokens_seen": 2380267520
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.548240635641317e-05,
+      "loss": 3.1106,
+      "theoretical_loss": 3.3816798107655384,
+      "tokens_seen": 2381316096
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.48399755358695984,
+      "objective/train/docs_used": 1340136,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9534103870391846,
+      "objective/train/original_loss": 2.9534106254577637,
+      "objective/train/theoretical_loss": 3.381574890880442,
+      "objective/train/tokens_used": 2402693600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24139027297496796,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496268272399902,
+      "objective/train/weighted_lm_loss": 3.0994439125061035,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9525738954544067,
+      "theoretical_loss": 3.381574890880442,
+      "tokens_seen": 2382233600
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.529322739311389e-05,
+      "loss": 3.1093,
+      "theoretical_loss": 3.3815599065478072,
+      "tokens_seen": 2382364672
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.51040484298146e-05,
+      "loss": 3.173,
+      "theoretical_loss": 3.3814400698627263,
+      "tokens_seen": 2383413248
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.491486946651533e-05,
+      "loss": 3.1798,
+      "theoretical_loss": 3.3813203006425745,
+      "tokens_seen": 2384461824
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.4814996123313904,
+      "objective/train/docs_used": 1341857,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8379721641540527,
+      "objective/train/original_loss": 2.837972640991211,
+      "objective/train/theoretical_loss": 3.3812005988197273,
+      "objective/train/tokens_used": 2405970400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2411598116159439,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493756532669067,
+      "objective/train/weighted_lm_loss": 2.9767820835113525,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9520983099937439,
+      "theoretical_loss": 3.3812005988197273,
+      "tokens_seen": 2385510400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.472569050321603e-05,
+      "loss": 3.1044,
+      "theoretical_loss": 3.3812005988197273,
+      "tokens_seen": 2385510400
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.453651153991677e-05,
+      "loss": 3.1587,
+      "theoretical_loss": 3.3810809643266593,
+      "tokens_seen": 2386558976
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.434733257661748e-05,
+      "loss": 3.1508,
+      "theoretical_loss": 3.3809613970959402,
+      "tokens_seen": 2387607552
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.41581536133182e-05,
+      "loss": 3.1208,
+      "theoretical_loss": 3.3808418970602387,
+      "tokens_seen": 2388656128
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.46042418479919434,
+      "objective/train/docs_used": 1343487,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1994292736053467,
+      "objective/train/original_loss": 3.1994290351867676,
+      "objective/train/theoretical_loss": 3.380826964277076,
+      "objective/train/tokens_used": 2409247200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23168209195137024,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.04721999168396,
+      "objective/train/weighted_lm_loss": 3.3554635047912598,
+      "objective/train/weights_max": 1.0512161254882812,
+      "objective/train/weights_min": 0.9517953991889954,
+      "theoretical_loss": 3.380826964277076,
+      "tokens_seen": 2388787200
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.396897465001892e-05,
+      "loss": 3.1114,
+      "theoretical_loss": 3.3807224641523193,
+      "tokens_seen": 2389704704
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.377979568671964e-05,
+      "loss": 3.1946,
+      "theoretical_loss": 3.380603098305044,
+      "tokens_seen": 2390753280
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.359061672342034e-05,
+      "loss": 3.1657,
+      "theoretical_loss": 3.38048379945137,
+      "tokens_seen": 2391801856
+    },
+    {
+      "epoch": 0.85,
+      "objective/train/advantage_avg": 0.4793241322040558,
+      "objective/train/docs_used": 1344994,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0667428970336914,
+      "objective/train/original_loss": 3.066742420196533,
+      "objective/train/theoretical_loss": 3.380453985197855,
+      "objective/train/tokens_used": 2412524000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23756831884384155,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491399765014648,
+      "objective/train/weighted_lm_loss": 3.2188243865966797,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.95333331823349,
+      "theoretical_loss": 3.380453985197855,
+      "tokens_seen": 2392064000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.340143776012108e-05,
+      "loss": 3.1791,
+      "theoretical_loss": 3.3803645675243534,
+      "tokens_seen": 2392850432
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.32122587968218e-05,
+      "loss": 3.1188,
+      "theoretical_loss": 3.3802454024571436,
+      "tokens_seen": 2393899008
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.30230798335225e-05,
+      "loss": 3.1065,
+      "theoretical_loss": 3.3801263041829883,
+      "tokens_seen": 2394947584
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.4877893328666687,
+      "objective/train/docs_used": 1347049,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.3766496181488037,
+      "objective/train/original_loss": 3.3766493797302246,
+      "objective/train/theoretical_loss": 3.380081659536656,
+      "objective/train/tokens_used": 2415800800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24295225739479065,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500140190124512,
+      "objective/train/weighted_lm_loss": 3.5450875759124756,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.951555073261261,
+      "theoretical_loss": 3.380081659536656,
+      "tokens_seen": 2395340800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.283390087022324e-05,
+      "loss": 3.1217,
+      "theoretical_loss": 3.3800072726352295,
+      "tokens_seen": 2395996160
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.264472190692395e-05,
+      "loss": 3.106,
+      "theoretical_loss": 3.3798883077473056,
+      "tokens_seen": 2397044736
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.245554294362467e-05,
+      "loss": 3.1241,
+      "theoretical_loss": 3.3797694094527504,
+      "tokens_seen": 2398093312
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.49422043561935425,
+      "objective/train/docs_used": 1348115,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.205146551132202,
+      "objective/train/original_loss": 3.205146551132202,
+      "objective/train/theoretical_loss": 3.379709985257241,
+      "objective/train/tokens_used": 2419077600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24489258229732513,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506669282913208,
+      "objective/train/weighted_lm_loss": 3.3676390647888184,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9589699506759644,
+      "theoretical_loss": 3.379709985257241,
+      "tokens_seen": 2398617600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.226636398032539e-05,
+      "loss": 3.0947,
+      "theoretical_loss": 3.379650577685193,
+      "tokens_seen": 2399141888
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.207718501702611e-05,
+      "loss": 3.1216,
+      "theoretical_loss": 3.379531812378357,
+      "tokens_seen": 2400190464
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.188800605372682e-05,
+      "loss": 3.1411,
+      "theoretical_loss": 3.3794131134660623,
+      "tokens_seen": 2401239040
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.49548736214637756,
+      "objective/train/docs_used": 1349979,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.4230825901031494,
+      "objective/train/original_loss": 3.4230828285217285,
+      "objective/train/theoretical_loss": 3.379338960332488,
+      "objective/train/tokens_used": 2422354400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24636338651180267,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0508012771606445,
+      "objective/train/weighted_lm_loss": 3.5968568325042725,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.974648118019104,
+      "theoretical_loss": 3.379338960332488,
+      "tokens_seen": 2401894400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.169882709042755e-05,
+      "loss": 3.1393,
+      "theoretical_loss": 3.3792944808822227,
+      "tokens_seen": 2402287616
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.150964812712826e-05,
+      "loss": 3.1068,
+      "theoretical_loss": 3.3791759145608458,
+      "tokens_seen": 2403336192
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.132046916382898e-05,
+      "loss": 3.0804,
+      "theoretical_loss": 3.3790574144360352,
+      "tokens_seen": 2404384768
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.4680725932121277,
+      "objective/train/docs_used": 1352287,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8557844161987305,
+      "objective/train/original_loss": 2.8557848930358887,
+      "objective/train/theoretical_loss": 3.378968582744336,
+      "objective/train/tokens_used": 2425631200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23578692972660065,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0480057001113892,
+      "objective/train/weighted_lm_loss": 2.99615478515625,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9522780179977417,
+      "theoretical_loss": 3.378968582744336,
+      "tokens_seen": 2405171200
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.113129020052971e-05,
+      "loss": 3.0916,
+      "theoretical_loss": 3.378938980441988,
+      "tokens_seen": 2405433344
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.094211123723042e-05,
+      "loss": 3.0778,
+      "theoretical_loss": 3.3788206125129947,
+      "tokens_seen": 2406481920
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.075293227393114e-05,
+      "loss": 3.0851,
+      "theoretical_loss": 3.3787023105834413,
+      "tokens_seen": 2407530496
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.47238680720329285,
+      "objective/train/docs_used": 1354179,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.906632423400879,
+      "objective/train/original_loss": 2.9066319465637207,
+      "objective/train/theoretical_loss": 3.378598850483736,
+      "objective/train/tokens_used": 2428908000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2311716079711914,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048413634300232,
+      "objective/train/weighted_lm_loss": 3.047044515609741,
+      "objective/train/weights_max": 1.051215648651123,
+      "objective/train/weights_min": 0.9545229077339172,
+      "theoretical_loss": 3.378598850483736,
+      "tokens_seen": 2408448000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.056375331063186e-05,
+      "loss": 3.0996,
+      "theoretical_loss": 3.3785840745878057,
+      "tokens_seen": 2408579072
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.037457434733258e-05,
+      "loss": 3.0983,
+      "theoretical_loss": 3.3784659044606604,
+      "tokens_seen": 2409627648
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.018539538403329e-05,
+      "loss": 3.0816,
+      "theoretical_loss": 3.378347800136672,
+      "tokens_seen": 2410676224
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.4815124273300171,
+      "objective/train/docs_used": 1355984,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7397754192352295,
+      "objective/train/original_loss": 2.7397756576538086,
+      "objective/train/theoretical_loss": 3.378229761550598,
+      "objective/train/tokens_used": 2432184800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23886069655418396,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493652820587158,
+      "objective/train/weighted_lm_loss": 2.875002861022949,
+      "objective/train/weights_max": 1.0512160062789917,
+      "objective/train/weights_min": 0.9514920115470886,
+      "theoretical_loss": 3.378229761550598,
+      "tokens_seen": 2411724800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.999621642073402e-05,
+      "loss": 2.9866,
+      "theoretical_loss": 3.378229761550598,
+      "tokens_seen": 2411724800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.980703745743473e-05,
+      "loss": 3.071,
+      "theoretical_loss": 3.3781117886372902,
+      "tokens_seen": 2412773376
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.961785849413545e-05,
+      "loss": 3.0636,
+      "theoretical_loss": 3.3779938813316943,
+      "tokens_seen": 2413821952
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.942867953083617e-05,
+      "loss": 2.9877,
+      "theoretical_loss": 3.377876039568847,
+      "tokens_seen": 2414870528
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.4852672517299652,
+      "objective/train/docs_used": 1358162,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6078548431396484,
+      "objective/train/original_loss": 2.6078543663024902,
+      "objective/train/theoretical_loss": 3.377861313953734,
+      "objective/train/tokens_used": 2435461600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.240381121635437,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497486591339111,
+      "objective/train/weighted_lm_loss": 2.7380173206329346,
+      "objective/train/weights_max": 1.0512151718139648,
+      "objective/train/weights_min": 0.9583688378334045,
+      "theoretical_loss": 3.377861313953734,
+      "tokens_seen": 2415001600
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.923950056753689e-05,
+      "loss": 3.0179,
+      "theoretical_loss": 3.3777582632838783,
+      "tokens_seen": 2415919104
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.905032160423761e-05,
+      "loss": 3.0409,
+      "theoretical_loss": 3.3776405524120108,
+      "tokens_seen": 2416967680
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.886114264093833e-05,
+      "loss": 3.0834,
+      "theoretical_loss": 3.3775229068885584,
+      "tokens_seen": 2418016256
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.49422746896743774,
+      "objective/train/docs_used": 1359820,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.702634811401367,
+      "objective/train/original_loss": 2.702634811401367,
+      "objective/train/theoretical_loss": 3.3774935057108135,
+      "objective/train/tokens_used": 2438738400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24477465450763702,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506671667099,
+      "objective/train/weighted_lm_loss": 2.839879274368286,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9933627843856812,
+      "theoretical_loss": 3.3774935057108135,
+      "tokens_seen": 2418278400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.867196367763905e-05,
+      "loss": 3.0768,
+      "theoretical_loss": 3.377405326648927,
+      "tokens_seen": 2419064832
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.848278471433976e-05,
+      "loss": 3.0517,
+      "theoretical_loss": 3.377287811628616,
+      "tokens_seen": 2420113408
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 6.829360575104049e-05,
+      "loss": 3.0728,
+      "theoretical_loss": 3.3771703617632136,
+      "tokens_seen": 2421161984
+    },
+    {
+      "epoch": 0.86,
+      "objective/train/advantage_avg": 0.49273377656936646,
+      "objective/train/docs_used": 1361438,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8423805236816406,
+      "objective/train/original_loss": 2.8423805236816406,
+      "objective/train/theoretical_loss": 3.377126334848307,
+      "objective/train/tokens_used": 2442015200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24471589922904968,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505174398422241,
+      "objective/train/weighted_lm_loss": 2.9853973388671875,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9665617346763611,
+      "theoretical_loss": 3.377126334848307,
+      "tokens_seen": 2421555200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.81044267877412e-05,
+      "loss": 3.0376,
+      "theoretical_loss": 3.3770529769884017,
+      "tokens_seen": 2422210560
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.791524782444192e-05,
+      "loss": 3.1151,
+      "theoretical_loss": 3.376935657239953,
+      "tokens_seen": 2423259136
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.772606886114264e-05,
+      "loss": 3.06,
+      "theoretical_loss": 3.3768184024537313,
+      "tokens_seen": 2424307712
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4682343304157257,
+      "objective/train/docs_used": 1363257,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8115761280059814,
+      "objective/train/original_loss": 2.8115761280059814,
+      "objective/train/theoretical_loss": 3.3767597994014373,
+      "objective/train/tokens_used": 2445292000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23106399178504944,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0479977130889893,
+      "objective/train/weighted_lm_loss": 2.944631814956665,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9522070288658142,
+      "theoretical_loss": 3.3767597994014373,
+      "tokens_seen": 2424832000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.753688989784336e-05,
+      "loss": 3.1218,
+      "theoretical_loss": 3.376701212565691,
+      "tokens_seen": 2425356288
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.734771093454407e-05,
+      "loss": 3.0973,
+      "theoretical_loss": 3.376584087511877,
+      "tokens_seen": 2426404864
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.71585319712448e-05,
+      "loss": 3.0884,
+      "theoretical_loss": 3.3764670272284265,
+      "tokens_seen": 2427453440
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4915653467178345,
+      "objective/train/docs_used": 1365224,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8232626914978027,
+      "objective/train/original_loss": 2.8232626914978027,
+      "objective/train/theoretical_loss": 3.376393897414129,
+      "objective/train/tokens_used": 2448568800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24267259240150452,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503901243209839,
+      "objective/train/weighted_lm_loss": 2.9657554626464844,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9560016989707947,
+      "theoretical_loss": 3.376393897414129,
+      "tokens_seen": 2428108800
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.696935300794552e-05,
+      "loss": 3.0388,
+      "theoretical_loss": 3.376350031651565,
+      "tokens_seen": 2428502016
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.678017404464623e-05,
+      "loss": 3.0579,
+      "theoretical_loss": 3.37623310071761,
+      "tokens_seen": 2429550592
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.659099508134696e-05,
+      "loss": 3.0543,
+      "theoretical_loss": 3.376116234362968,
+      "tokens_seen": 2430599168
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4831455647945404,
+      "objective/train/docs_used": 1366375,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2068450450897217,
+      "objective/train/original_loss": 3.2068448066711426,
+      "objective/train/theoretical_loss": 3.376028626938956,
+      "objective/train/tokens_used": 2451845600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2415134757757187,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495421886444092,
+      "objective/train/weighted_lm_loss": 3.365105152130127,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9523228406906128,
+      "theoretical_loss": 3.376028626938956,
+      "tokens_seen": 2431385600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.640181611804767e-05,
+      "loss": 3.0921,
+      "theoretical_loss": 3.375999432524136,
+      "tokens_seen": 2431647744
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.621263715474839e-05,
+      "loss": 3.0504,
+      "theoretical_loss": 3.3758826951377006,
+      "tokens_seen": 2432696320
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.602345819144911e-05,
+      "loss": 3.0778,
+      "theoretical_loss": 3.375766022140338,
+      "tokens_seen": 2433744896
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.48540857434272766,
+      "objective/train/docs_used": 1367967,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.798003673553467,
+      "objective/train/original_loss": 2.798003673553467,
+      "objective/train/theoretical_loss": 3.375663986037095,
+      "objective/train/tokens_used": 2455122400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24191917479038239,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497705936431885,
+      "objective/train/weighted_lm_loss": 2.936539649963379,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951850414276123,
+      "theoretical_loss": 3.375663986037095,
+      "tokens_seen": 2434662400
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.583427922814983e-05,
+      "loss": 3.1003,
+      "theoretical_loss": 3.3756494134688144,
+      "tokens_seen": 2434793472
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.564510026485054e-05,
+      "loss": 3.0541,
+      "theoretical_loss": 3.3755328690599846,
+      "tokens_seen": 2435842048
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.545592130155127e-05,
+      "loss": 3.0621,
+      "theoretical_loss": 3.3754163888507933,
+      "tokens_seen": 2436890624
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.47676169872283936,
+      "objective/train/docs_used": 1369908,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7874505519866943,
+      "objective/train/original_loss": 2.7874507904052734,
+      "objective/train/theoretical_loss": 3.375299972778273,
+      "objective/train/tokens_used": 2458399200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23362308740615845,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048863410949707,
+      "objective/train/weighted_lm_loss": 2.9224209785461426,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.951828122138977,
+      "theoretical_loss": 3.375299972778273,
+      "tokens_seen": 2437939200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.526674233825198e-05,
+      "loss": 2.9885,
+      "theoretical_loss": 3.375299972778273,
+      "tokens_seen": 2437939200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.50775633749527e-05,
+      "loss": 2.9628,
+      "theoretical_loss": 3.3751836207795463,
+      "tokens_seen": 2438987776
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.488838441165343e-05,
+      "loss": 3.0596,
+      "theoretical_loss": 3.375067332791823,
+      "tokens_seen": 2440036352
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.469920544835414e-05,
+      "loss": 3.0705,
+      "theoretical_loss": 3.3749511087524033,
+      "tokens_seen": 2441084928
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4786227345466614,
+      "objective/train/docs_used": 1371503,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.74287486076355,
+      "objective/train/original_loss": 2.7428746223449707,
+      "objective/train/theoretical_loss": 3.3749365852407216,
+      "objective/train/tokens_used": 2461676000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23829062283039093,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049073338508606,
+      "objective/train/weighted_lm_loss": 2.8782496452331543,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9517157673835754,
+      "theoretical_loss": 3.3749365852407216,
+      "tokens_seen": 2441216000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.451002648505486e-05,
+      "loss": 3.0573,
+      "theoretical_loss": 3.3748349485986737,
+      "tokens_seen": 2442133504
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.432084752175558e-05,
+      "loss": 3.1075,
+      "theoretical_loss": 3.37471885226811,
+      "tokens_seen": 2443182080
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.41316685584563e-05,
+      "loss": 3.033,
+      "theoretical_loss": 3.3746028196982762,
+      "tokens_seen": 2444230656
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4795815050601959,
+      "objective/train/docs_used": 1373215,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7482497692108154,
+      "objective/train/original_loss": 2.7482497692108154,
+      "objective/train/theoretical_loss": 3.3745738215111234,
+      "objective/train/tokens_used": 2464952800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23792575299739838,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049167513847351,
+      "objective/train/weighted_lm_loss": 2.8822453022003174,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9520523548126221,
+      "theoretical_loss": 3.3745738215111234,
+      "tokens_seen": 2444492800
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.394248959515701e-05,
+      "loss": 3.0633,
+      "theoretical_loss": 3.3744868508268233,
+      "tokens_seen": 2445279232
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.375331063185774e-05,
+      "loss": 3.0684,
+      "theoretical_loss": 3.3743709455914903,
+      "tokens_seen": 2446327808
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.356413166855845e-05,
+      "loss": 3.0596,
+      "theoretical_loss": 3.3742551039301043,
+      "tokens_seen": 2447376384
+    },
+    {
+      "epoch": 0.87,
+      "objective/train/advantage_avg": 0.4921453595161438,
+      "objective/train/docs_used": 1375012,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.813209295272827,
+      "objective/train/original_loss": 2.8132095336914062,
+      "objective/train/theoretical_loss": 3.374211679684568,
+      "objective/train/tokens_used": 2468229600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2444104254245758,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504570007324219,
+      "objective/train/weighted_lm_loss": 2.9547219276428223,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9768006205558777,
+      "theoretical_loss": 3.374211679684568,
+      "tokens_seen": 2447769600
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.337495270525917e-05,
+      "loss": 2.9949,
+      "theoretical_loss": 3.374139325780579,
+      "tokens_seen": 2448424960
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.318577374195989e-05,
+      "loss": 3.0415,
+      "theoretical_loss": 3.374023611080915,
+      "tokens_seen": 2449473536
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.299659477866061e-05,
+      "loss": 3.1023,
+      "theoretical_loss": 3.3739079597692014,
+      "tokens_seen": 2450522112
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.48276713490486145,
+      "objective/train/docs_used": 1376896,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6670351028442383,
+      "objective/train/original_loss": 2.6670355796813965,
+      "objective/train/theoretical_loss": 3.373850157864502,
+      "objective/train/tokens_used": 2471506400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23791970312595367,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494859218597412,
+      "objective/train/weighted_lm_loss": 2.799875259399414,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9536236524581909,
+      "theoretical_loss": 3.373850157864502,
+      "tokens_seen": 2451046400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.280741581536132e-05,
+      "loss": 3.1117,
+      "theoretical_loss": 3.3737923717836127,
+      "tokens_seen": 2451570688
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.261823685206205e-05,
+      "loss": 3.1263,
+      "theoretical_loss": 3.3736768470624106,
+      "tokens_seen": 2452619264
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.242905788876277e-05,
+      "loss": 2.9923,
+      "theoretical_loss": 3.373561385543943,
+      "tokens_seen": 2453667840
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.4910533130168915,
+      "objective/train/docs_used": 1379050,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7924742698669434,
+      "objective/train/original_loss": 2.7924742698669434,
+      "objective/train/theoretical_loss": 3.373489254162681,
+      "objective/train/tokens_used": 2474783200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24239566922187805,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503374338150024,
+      "objective/train/weighted_lm_loss": 2.933199405670166,
+      "objective/train/weights_max": 1.0512187480926514,
+      "objective/train/weights_min": 0.9563108682632446,
+      "theoretical_loss": 3.373489254162681,
+      "tokens_seen": 2454323200
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.22398789254635e-05,
+      "loss": 3.0166,
+      "theoretical_loss": 3.3734459871666456,
+      "tokens_seen": 2454716416
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.205069996216422e-05,
+      "loss": 3.1157,
+      "theoretical_loss": 3.373330651869039,
+      "tokens_seen": 2455764992
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.186152099886492e-05,
+      "loss": 3.1398,
+      "theoretical_loss": 3.373215379589729,
+      "tokens_seen": 2456813568
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.49097520112991333,
+      "objective/train/docs_used": 1380428,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9203779697418213,
+      "objective/train/original_loss": 2.9203779697418213,
+      "objective/train/theoretical_loss": 3.3731289666991215,
+      "objective/train/tokens_used": 2478060000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2459252029657364,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503475666046143,
+      "objective/train/weighted_lm_loss": 3.0663514137268066,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9521451592445374,
+      "theoretical_loss": 3.3731289666991215,
+      "tokens_seen": 2457600000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.167234203556564e-05,
+      "loss": 3.0337,
+      "theoretical_loss": 3.3731001702674104,
+      "tokens_seen": 2457862144
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.148316307226636e-05,
+      "loss": 3.0836,
+      "theoretical_loss": 3.3729850238408607,
+      "tokens_seen": 2458910720
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.129398410896708e-05,
+      "loss": 3.0798,
+      "theoretical_loss": 3.372869940248944,
+      "tokens_seen": 2459959296
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.4859597980976105,
+      "objective/train/docs_used": 1382125,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.264944314956665,
+      "objective/train/original_loss": 3.264944076538086,
+      "objective/train/theoretical_loss": 3.3727692936020572,
+      "objective/train/tokens_used": 2481336800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24115294218063354,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498218536376953,
+      "objective/train/weighted_lm_loss": 3.4269485473632812,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9694421291351318,
+      "theoretical_loss": 3.3727692936020572,
+      "tokens_seen": 2460876800
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.11048051456678e-05,
+      "loss": 3.0595,
+      "theoretical_loss": 3.3727549194306112,
+      "tokens_seen": 2461007872
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.0915626182368526e-05,
+      "loss": 3.1255,
+      "theoretical_loss": 3.372639961324896,
+      "tokens_seen": 2462056448
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.072644721906924e-05,
+      "loss": 3.0553,
+      "theoretical_loss": 3.37252506587092,
+      "tokens_seen": 2463105024
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.4852433204650879,
+      "objective/train/docs_used": 1384145,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.900221586227417,
+      "objective/train/original_loss": 2.900221347808838,
+      "objective/train/theoretical_loss": 3.372410233007887,
+      "objective/train/tokens_used": 2484613600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23983712494373322,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497432947158813,
+      "objective/train/weighted_lm_loss": 3.0446298122406006,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9515975117683411,
+      "theoretical_loss": 3.372410233007887,
+      "tokens_seen": 2464153600
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.053726825576996e-05,
+      "loss": 3.05,
+      "theoretical_loss": 3.372410233007887,
+      "tokens_seen": 2464153600
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.034808929247068e-05,
+      "loss": 3.1139,
+      "theoretical_loss": 3.372295462675088,
+      "tokens_seen": 2465202176
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.0158910329171394e-05,
+      "loss": 3.0191,
+      "theoretical_loss": 3.372180754811897,
+      "tokens_seen": 2466250752
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.9969731365872115e-05,
+      "loss": 3.0621,
+      "theoretical_loss": 3.3720661093577737,
+      "tokens_seen": 2467299328
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.4838484823703766,
+      "objective/train/docs_used": 1386568,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.136174201965332,
+      "objective/train/original_loss": 3.136174440383911,
+      "objective/train/theoretical_loss": 3.372051783061134,
+      "objective/train/tokens_used": 2487890400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23954464495182037,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496023893356323,
+      "objective/train/weighted_lm_loss": 3.292409896850586,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9591426253318787,
+      "theoretical_loss": 3.372051783061134,
+      "tokens_seen": 2467430400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.9780552402572835e-05,
+      "loss": 3.142,
+      "theoretical_loss": 3.3719515262522615,
+      "tokens_seen": 2468347904
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.959137343927355e-05,
+      "loss": 3.0806,
+      "theoretical_loss": 3.3718370054349878,
+      "tokens_seen": 2469396480
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.9402194475974277e-05,
+      "loss": 3.0506,
+      "theoretical_loss": 3.371722546845665,
+      "tokens_seen": 2470445056
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.47412246465682983,
+      "objective/train/docs_used": 1387925,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0952136516571045,
+      "objective/train/original_loss": 3.0952138900756836,
+      "objective/train/theoretical_loss": 3.3716939419143945,
+      "objective/train/tokens_used": 2491167200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2385615110397339,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0486245155334473,
+      "objective/train/weighted_lm_loss": 3.2452621459960938,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9514861106872559,
+      "theoretical_loss": 3.3716939419143945,
+      "tokens_seen": 2470707200
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.9213015512675e-05,
+      "loss": 3.0562,
+      "theoretical_loss": 3.3716081504240885,
+      "tokens_seen": 2471493632
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.902383654937571e-05,
+      "loss": 3.063,
+      "theoretical_loss": 3.3714938161101378,
+      "tokens_seen": 2472542208
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.883465758607643e-05,
+      "loss": 3.1033,
+      "theoretical_loss": 3.3713795438437764,
+      "tokens_seen": 2473590784
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.49264079332351685,
+      "objective/train/docs_used": 1390126,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.122264862060547,
+      "objective/train/original_loss": 3.122264862060547,
+      "objective/train/theoretical_loss": 3.371336707728296,
+      "objective/train/tokens_used": 2494444000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24525536596775055,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505108833312988,
+      "objective/train/weighted_lm_loss": 3.279707193374634,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9543718099594116,
+      "theoretical_loss": 3.371336707728296,
+      "tokens_seen": 2473984000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.864547862277715e-05,
+      "loss": 3.0441,
+      "theoretical_loss": 3.3712653335650504,
+      "tokens_seen": 2474639360
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.8456299659477866e-05,
+      "loss": 3.0489,
+      "theoretical_loss": 3.3711511852140905,
+      "tokens_seen": 2475687936
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.8267120696178586e-05,
+      "loss": 3.0745,
+      "theoretical_loss": 3.3710370987311085,
+      "tokens_seen": 2476736512
+    },
+    {
+      "epoch": 0.88,
+      "objective/train/advantage_avg": 0.4860904812812805,
+      "objective/train/docs_used": 1392376,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2137277126312256,
+      "objective/train/original_loss": 3.2137279510498047,
+      "objective/train/theoretical_loss": 3.3709800786714488,
+      "objective/train/tokens_used": 2497720800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24208112061023712,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498394966125488,
+      "objective/train/weighted_lm_loss": 3.373750925064087,
+      "objective/train/weights_max": 1.0512208938598633,
+      "objective/train/weights_min": 0.9516987800598145,
+      "theoretical_loss": 3.3709800786714488,
+      "tokens_seen": 2477260800
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.807794173287931e-05,
+      "loss": 3.0616,
+      "theoretical_loss": 3.3709230740564013,
+      "tokens_seen": 2477785088
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.788876276958002e-05,
+      "loss": 3.0668,
+      "theoretical_loss": 3.3708091111303475,
+      "tokens_seen": 2478833664
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.769958380628074e-05,
+      "loss": 3.0424,
+      "theoretical_loss": 3.370695209893409,
+      "tokens_seen": 2479882240
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.486337274312973,
+      "objective/train/docs_used": 1394461,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0017459392547607,
+      "objective/train/original_loss": 3.0017457008361816,
+      "objective/train/theoretical_loss": 3.370624052920404,
+      "objective/train/tokens_used": 2500997600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24043717980384827,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498559474945068,
+      "objective/train/weighted_lm_loss": 3.151277542114258,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9519734382629395,
+      "theoretical_loss": 3.370624052920404,
+      "tokens_seen": 2480537600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.751040484298146e-05,
+      "loss": 2.9919,
+      "theoretical_loss": 3.3705813702861294,
+      "tokens_seen": 2480930816
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.732122587968218e-05,
+      "loss": 2.9639,
+      "theoretical_loss": 3.370467592249135,
+      "tokens_seen": 2481979392
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.71320469163829e-05,
+      "loss": 3.0105,
+      "theoretical_loss": 3.3703538757231355,
+      "tokens_seen": 2483027968
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.4779159724712372,
+      "objective/train/docs_used": 1396627,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1431424617767334,
+      "objective/train/original_loss": 3.1431422233581543,
+      "objective/train/theoretical_loss": 3.370268628659605,
+      "objective/train/tokens_used": 2504274400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23592840135097504,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489908456802368,
+      "objective/train/weighted_lm_loss": 3.2960641384124756,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9546563625335693,
+      "theoretical_loss": 3.370268628659605,
+      "tokens_seen": 2483814400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.694286795308362e-05,
+      "loss": 3.0689,
+      "theoretical_loss": 3.3702402206489213,
+      "tokens_seen": 2484076544
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.675368898978434e-05,
+      "loss": 2.9845,
+      "theoretical_loss": 3.3701266269673655,
+      "tokens_seen": 2485125120
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.656451002648506e-05,
+      "loss": 3.0257,
+      "theoretical_loss": 3.3700130946194222,
+      "tokens_seen": 2486173696
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.4774656891822815,
+      "objective/train/docs_used": 1398483,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0128564834594727,
+      "objective/train/original_loss": 3.0128560066223145,
+      "objective/train/theoretical_loss": 3.369913804081346,
+      "objective/train/tokens_used": 2507551200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23861047625541687,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489592552185059,
+      "objective/train/weighted_lm_loss": 3.159787654876709,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9514344334602356,
+      "theoretical_loss": 3.369913804081346,
+      "tokens_seen": 2487091200
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.637533106318578e-05,
+      "loss": 2.9467,
+      "theoretical_loss": 3.3698996235461283,
+      "tokens_seen": 2487222272
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.618615209988649e-05,
+      "loss": 3.0314,
+      "theoretical_loss": 3.369786213688601,
+      "tokens_seen": 2488270848
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.599697313658721e-05,
+      "loss": 3.0424,
+      "theoretical_loss": 3.3696728649880403,
+      "tokens_seen": 2489319424
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.4827979803085327,
+      "objective/train/docs_used": 1400481,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7925925254821777,
+      "objective/train/original_loss": 2.7925925254821777,
+      "objective/train/theoretical_loss": 3.369559577385726,
+      "objective/train/tokens_used": 2510828000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23709921538829803,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494848489761353,
+      "objective/train/weighted_lm_loss": 2.9326014518737793,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9522310495376587,
+      "theoretical_loss": 3.369559577385726,
+      "tokens_seen": 2490368000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.580779417328793e-05,
+      "loss": 2.9912,
+      "theoretical_loss": 3.369559577385726,
+      "tokens_seen": 2490368000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.561861520998865e-05,
+      "loss": 2.9337,
+      "theoretical_loss": 3.36944635082302,
+      "tokens_seen": 2491416576
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.542943624668937e-05,
+      "loss": 2.9607,
+      "theoretical_loss": 3.3693331852413637,
+      "tokens_seen": 2492465152
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.524025728339009e-05,
+      "loss": 3.0256,
+      "theoretical_loss": 3.3692200805822816,
+      "tokens_seen": 2493513728
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.47895485162734985,
+      "objective/train/docs_used": 1401835,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9839255809783936,
+      "objective/train/original_loss": 2.9839253425598145,
+      "objective/train/theoretical_loss": 3.369205946780606,
+      "objective/train/tokens_used": 2514104800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23692239820957184,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490996837615967,
+      "objective/train/weighted_lm_loss": 3.1297733783721924,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9525783061981201,
+      "theoretical_loss": 3.369205946780606,
+      "tokens_seen": 2493644800
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.505107832009081e-05,
+      "loss": 3.0499,
+      "theoretical_loss": 3.369107036787377,
+      "tokens_seen": 2494562304
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.486189935679153e-05,
+      "loss": 2.9932,
+      "theoretical_loss": 3.3689940537983345,
+      "tokens_seen": 2495610880
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.467272039349225e-05,
+      "loss": 3.0425,
+      "theoretical_loss": 3.368881131556918,
+      "tokens_seen": 2496659456
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.48761147260665894,
+      "objective/train/docs_used": 1403825,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8729476928710938,
+      "objective/train/original_loss": 2.8729474544525146,
+      "objective/train/theoretical_loss": 3.3688529104815634,
+      "objective/train/tokens_used": 2517381600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23985113203525543,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499802827835083,
+      "objective/train/weighted_lm_loss": 3.0175294876098633,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9651005268096924,
+      "theoretical_loss": 3.3688529104815634,
+      "tokens_seen": 2496921600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.448354143019296e-05,
+      "loss": 3.0147,
+      "theoretical_loss": 3.368768270004973,
+      "tokens_seen": 2497708032
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.4294362466893684e-05,
+      "loss": 2.9441,
+      "theoretical_loss": 3.368655469084424,
+      "tokens_seen": 2498756608
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.4105183503594404e-05,
+      "loss": 2.9964,
+      "theoretical_loss": 3.3685427287372764,
+      "tokens_seen": 2499805184
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.4772385358810425,
+      "objective/train/docs_used": 1405631,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6067678928375244,
+      "objective/train/original_loss": 2.6067678928375244,
+      "objective/train/theoretical_loss": 3.3685004667118528,
+      "objective/train/tokens_used": 2520658400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2354532927274704,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489205121994019,
+      "objective/train/weighted_lm_loss": 2.7343697547912598,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9528263807296753,
+      "theoretical_loss": 3.3685004667118528,
+      "tokens_seen": 2500198400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.391600454029512e-05,
+      "loss": 3.0273,
+      "theoretical_loss": 3.3684300489056143,
+      "tokens_seen": 2500853760
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.372682557699584e-05,
+      "loss": 3.0264,
+      "theoretical_loss": 3.3683174295316025,
+      "tokens_seen": 2501902336
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.353764661369656e-05,
+      "loss": 2.9834,
+      "theoretical_loss": 3.368204870557484,
+      "tokens_seen": 2502950912
+    },
+    {
+      "epoch": 0.89,
+      "objective/train/advantage_avg": 0.4770272374153137,
+      "objective/train/docs_used": 1407612,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.106952667236328,
+      "objective/train/original_loss": 3.106952667236328,
+      "objective/train/theoretical_loss": 3.3681486137023575,
+      "objective/train/tokens_used": 2523935200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2343224287033081,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488938093185425,
+      "objective/train/weighted_lm_loss": 3.259089946746826,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9528036713600159,
+      "theoretical_loss": 3.3681486137023575,
+      "tokens_seen": 2503475200
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.334846765039727e-05,
+      "loss": 3.0631,
+      "theoretical_loss": 3.368092371925582,
+      "tokens_seen": 2503999488
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.3159288687097994e-05,
+      "loss": 3.0072,
+      "theoretical_loss": 3.3679799335782996,
+      "tokens_seen": 2505048064
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.297010972379872e-05,
+      "loss": 2.9526,
+      "theoretical_loss": 3.3678675554581172,
+      "tokens_seen": 2506096640
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.48289960622787476,
+      "objective/train/docs_used": 1409433,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1777186393737793,
+      "objective/train/original_loss": 3.1777186393737793,
+      "objective/train/theoretical_loss": 3.3677973496915516,
+      "objective/train/tokens_used": 2527212000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23917822539806366,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495057106018066,
+      "objective/train/weighted_lm_loss": 3.33475399017334,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.952046275138855,
+      "theoretical_loss": 3.3677973496915516,
+      "tokens_seen": 2506752000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.2780930760499435e-05,
+      "loss": 3.0682,
+      "theoretical_loss": 3.367755237507595,
+      "tokens_seen": 2507145216
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.2591751797200155e-05,
+      "loss": 3.0621,
+      "theoretical_loss": 3.367642979669373,
+      "tokens_seen": 2508193792
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.2402572833900876e-05,
+      "loss": 3.0179,
+      "theoretical_loss": 3.3675307818861677,
+      "tokens_seen": 2509242368
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.4875558018684387,
+      "objective/train/docs_used": 1411323,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0832877159118652,
+      "objective/train/original_loss": 3.083287239074707,
+      "objective/train/theoretical_loss": 3.367446672925454,
+      "objective/train/tokens_used": 2530488800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24067936837673187,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499789714813232,
+      "objective/train/weighted_lm_loss": 3.2369744777679443,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9582372307777405,
+      "theoretical_loss": 3.367446672925454,
+      "tokens_seen": 2510028800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.221339387060159e-05,
+      "loss": 3.0508,
+      "theoretical_loss": 3.367418644100776,
+      "tokens_seen": 2510290944
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.202421490730231e-05,
+      "loss": 3.0319,
+      "theoretical_loss": 3.367306566256072,
+      "tokens_seen": 2511339520
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.183503594400303e-05,
+      "loss": 3.0629,
+      "theoretical_loss": 3.3671945482950085,
+      "tokens_seen": 2512388096
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.4792327284812927,
+      "objective/train/docs_used": 1413432,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.026296854019165,
+      "objective/train/original_loss": 3.0262961387634277,
+      "objective/train/theoretical_loss": 3.3670965816575897,
+      "objective/train/tokens_used": 2533765600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23847414553165436,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491353273391724,
+      "objective/train/weighted_lm_loss": 3.174064874649048,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9517701268196106,
+      "theoretical_loss": 3.3670965816575897,
+      "tokens_seen": 2513305600
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.1645856980703744e-05,
+      "loss": 3.1064,
+      "theoretical_loss": 3.3670825901606167,
+      "tokens_seen": 2513436672
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.1456678017404465e-05,
+      "loss": 3.0377,
+      "theoretical_loss": 3.3669706917960047,
+      "tokens_seen": 2514485248
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.1267499054105186e-05,
+      "loss": 3.0616,
+      "theoretical_loss": 3.3668588531443593,
+      "tokens_seen": 2515533824
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.48915207386016846,
+      "objective/train/docs_used": 1415580,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.92588210105896,
+      "objective/train/original_loss": 2.92588210105896,
+      "objective/train/theoretical_loss": 3.3667470741489445,
+      "objective/train/tokens_used": 2537042400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24214540421962738,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501459836959839,
+      "objective/train/weighted_lm_loss": 3.072300434112549,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9553421139717102,
+      "theoretical_loss": 3.3667470741489445,
+      "tokens_seen": 2516582400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.10783200908059e-05,
+      "loss": 3.0839,
+      "theoretical_loss": 3.3667470741489445,
+      "tokens_seen": 2516582400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.088914112750662e-05,
+      "loss": 3.0554,
+      "theoretical_loss": 3.366635354753102,
+      "tokens_seen": 2517630976
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.069996216420735e-05,
+      "loss": 2.977,
+      "theoretical_loss": 3.3665236949002515,
+      "tokens_seen": 2518679552
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.051078320090806e-05,
+      "loss": 3.059,
+      "theoretical_loss": 3.3664120945338882,
+      "tokens_seen": 2519728128
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.4885351061820984,
+      "objective/train/docs_used": 1417591,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9278507232666016,
+      "objective/train/original_loss": 2.9278504848480225,
+      "objective/train/theoretical_loss": 3.3663981486679257,
+      "objective/train/tokens_used": 2540319200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24352295696735382,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.05009126663208,
+      "objective/train/weighted_lm_loss": 3.0739758014678955,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9517725110054016,
+      "theoretical_loss": 3.3663981486679257,
+      "tokens_seen": 2519859200
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.032160423760878e-05,
+      "loss": 2.9885,
+      "theoretical_loss": 3.3663005535975867,
+      "tokens_seen": 2520776704
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.01324252743095e-05,
+      "loss": 3.0065,
+      "theoretical_loss": 3.3661890720349965,
+      "tokens_seen": 2521825280
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.9943246311010216e-05,
+      "loss": 3.0255,
+      "theoretical_loss": 3.366077649789845,
+      "tokens_seen": 2522873856
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.48337897658348083,
+      "objective/train/docs_used": 1418957,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5253660678863525,
+      "objective/train/original_loss": 2.5253658294677734,
+      "objective/train/theoretical_loss": 3.36604980349032,
+      "objective/train/tokens_used": 2543596000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2389601469039917,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495524406433105,
+      "objective/train/weighted_lm_loss": 2.650407314300537,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9553355574607849,
+      "theoretical_loss": 3.36604980349032,
+      "tokens_seen": 2523136000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.9754067347710936e-05,
+      "loss": 2.9571,
+      "theoretical_loss": 3.365966286805936,
+      "tokens_seen": 2523922432
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.956488838441166e-05,
+      "loss": 2.9194,
+      "theoretical_loss": 3.365854983027151,
+      "tokens_seen": 2524971008
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.937570942111237e-05,
+      "loss": 2.9091,
+      "theoretical_loss": 3.3657437383974456,
+      "tokens_seen": 2526019584
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.4876956641674042,
+      "objective/train/docs_used": 1420931,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1945478916168213,
+      "objective/train/original_loss": 3.1945481300354004,
+      "objective/train/theoretical_loss": 3.3657020368992527,
+      "objective/train/tokens_used": 2546872800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24205021560192108,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499999523162842,
+      "objective/train/weighted_lm_loss": 3.353463649749756,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9520066976547241,
+      "theoretical_loss": 3.3657020368992527,
+      "tokens_seen": 2526412800
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.918653045781309e-05,
+      "loss": 2.9435,
+      "theoretical_loss": 3.3656325528608533,
+      "tokens_seen": 2527068160
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.899735149451381e-05,
+      "loss": 2.9498,
+      "theoretical_loss": 3.365521426361483,
+      "tokens_seen": 2528116736
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.8808172531214526e-05,
+      "loss": 2.9501,
+      "theoretical_loss": 3.365410358843522,
+      "tokens_seen": 2529165312
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.4870266616344452,
+      "objective/train/docs_used": 1422953,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5946903228759766,
+      "objective/train/original_loss": 2.5946898460388184,
+      "objective/train/theoretical_loss": 3.3653548471851478,
+      "objective/train/tokens_used": 2550149600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24236759543418884,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499347448349,
+      "objective/train/weighted_lm_loss": 2.725821018218994,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9607920050621033,
+      "theoretical_loss": 3.3653548471851478,
+      "tokens_seen": 2529689600
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.861899356791525e-05,
+      "loss": 2.9142,
+      "theoretical_loss": 3.365299350251229,
+      "tokens_seen": 2530213888
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.8429814604615973e-05,
+      "loss": 2.9477,
+      "theoretical_loss": 3.3651884005289423,
+      "tokens_seen": 2531262464
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.824063564131669e-05,
+      "loss": 2.9652,
+      "theoretical_loss": 3.3650775096210745,
+      "tokens_seen": 2532311040
+    },
+    {
+      "epoch": 0.9,
+      "objective/train/advantage_avg": 0.47654762864112854,
+      "objective/train/docs_used": 1425467,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.940070629119873,
+      "objective/train/original_loss": 2.940070152282715,
+      "objective/train/theoretical_loss": 3.365008232645685,
+      "objective/train/tokens_used": 2553426400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24106010794639587,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048879623413086,
+      "objective/train/weighted_lm_loss": 3.083993434906006,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.9513778686523438,
+      "theoretical_loss": 3.365008232645685,
+      "tokens_seen": 2532966400
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.805145667801741e-05,
+      "loss": 2.9732,
+      "theoretical_loss": 3.3649666774721134,
+      "tokens_seen": 2533359616
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.786227771471813e-05,
+      "loss": 3.0567,
+      "theoretical_loss": 3.3648559040266224,
+      "tokens_seen": 2534408192
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.767309875141884e-05,
+      "loss": 2.9618,
+      "theoretical_loss": 3.36474518922924,
+      "tokens_seen": 2535456768
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.45745569467544556,
+      "objective/train/docs_used": 1426787,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7048633098602295,
+      "objective/train/original_loss": 2.7048633098602295,
+      "objective/train/theoretical_loss": 3.3646621915857633,
+      "objective/train/tokens_used": 2556703200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22381484508514404,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0468831062316895,
+      "objective/train/weighted_lm_loss": 2.8340065479278564,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9606444239616394,
+      "theoretical_loss": 3.3646621915857633,
+      "tokens_seen": 2536243200
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.748391978811956e-05,
+      "loss": 3.0131,
+      "theoretical_loss": 3.36463453302468,
+      "tokens_seen": 2536505344
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.729474082482028e-05,
+      "loss": 2.9159,
+      "theoretical_loss": 3.364523935357731,
+      "tokens_seen": 2537553920
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.7105561861521e-05,
+      "loss": 3.0107,
+      "theoretical_loss": 3.3644133961732567,
+      "tokens_seen": 2538602496
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.4876222312450409,
+      "objective/train/docs_used": 1428565,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.81592059135437,
+      "objective/train/original_loss": 2.815920352935791,
+      "objective/train/theoretical_loss": 3.3643167223174584,
+      "objective/train/tokens_used": 2559980000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24069343507289886,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499857664108276,
+      "objective/train/weighted_lm_loss": 2.9560835361480713,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9616897106170654,
+      "theoretical_loss": 3.3643167223174584,
+      "tokens_seen": 2539520000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.691638289822172e-05,
+      "loss": 2.977,
+      "theoretical_loss": 3.3643029154161948,
+      "tokens_seen": 2539651072
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.672720393492244e-05,
+      "loss": 2.9811,
+      "theoretical_loss": 3.364192493031558,
+      "tokens_seen": 2540699648
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.653802497162315e-05,
+      "loss": 2.9772,
+      "theoretical_loss": 3.3640821289644336,
+      "tokens_seen": 2541748224
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.48290324211120605,
+      "objective/train/docs_used": 1430679,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6714377403259277,
+      "objective/train/original_loss": 2.6714377403259277,
+      "objective/train/theoretical_loss": 3.363971823159983,
+      "objective/train/tokens_used": 2563256800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2380242496728897,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495001077651978,
+      "objective/train/weighted_lm_loss": 2.803065299987793,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.951354444026947,
+      "theoretical_loss": 3.363971823159983,
+      "tokens_seen": 2542796800
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.634884600832388e-05,
+      "loss": 2.9188,
+      "theoretical_loss": 3.363971823159983,
+      "tokens_seen": 2542796800
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.61596670450246e-05,
+      "loss": 2.9692,
+      "theoretical_loss": 3.363861575563442,
+      "tokens_seen": 2543845376
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5970488081725313e-05,
+      "loss": 3.0068,
+      "theoretical_loss": 3.363751386120119,
+      "tokens_seen": 2544893952
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5781309118426034e-05,
+      "loss": 2.921,
+      "theoretical_loss": 3.363641254775399,
+      "tokens_seen": 2545942528
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.4920687675476074,
+      "objective/train/docs_used": 1432418,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8956644535064697,
+      "objective/train/original_loss": 2.8956642150878906,
+      "objective/train/theoretical_loss": 3.3636274924396496,
+      "objective/train/tokens_used": 2566533600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2425273358821869,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050439715385437,
+      "objective/train/weighted_lm_loss": 3.042595863342285,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 1.0194487571716309,
+      "theoretical_loss": 3.3636274924396496,
+      "tokens_seen": 2546073600
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.5592130155126755e-05,
+      "loss": 3.0193,
+      "theoretical_loss": 3.3635311814747384,
+      "tokens_seen": 2546991104
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.540295119182747e-05,
+      "loss": 3.0138,
+      "theoretical_loss": 3.3634211661636675,
+      "tokens_seen": 2548039680
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.521377222852819e-05,
+      "loss": 2.9616,
+      "theoretical_loss": 3.363311208787792,
+      "tokens_seen": 2549088256
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.4532369375228882,
+      "objective/train/docs_used": 1434243,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.017941474914551,
+      "objective/train/original_loss": 3.01794171333313,
+      "objective/train/theoretical_loss": 3.3632837284898294,
+      "objective/train/tokens_used": 2569810400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23174332082271576,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0465010404586792,
+      "objective/train/weighted_lm_loss": 3.1610023975372314,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.951921284198761,
+      "theoretical_loss": 3.3632837284898294,
+      "tokens_seen": 2549350400
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.502459326522891e-05,
+      "loss": 3.0003,
+      "theoretical_loss": 3.363201309292788,
+      "tokens_seen": 2550136832
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.483541430192962e-05,
+      "loss": 3.0131,
+      "theoretical_loss": 3.3630914676244075,
+      "tokens_seen": 2551185408
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4646235338630344e-05,
+      "loss": 3.0015,
+      "theoretical_loss": 3.3629816837284747,
+      "tokens_seen": 2552233984
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.4917280673980713,
+      "objective/train/docs_used": 1436345,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5419411659240723,
+      "objective/train/original_loss": 2.5419414043426514,
+      "objective/train/theoretical_loss": 3.362940529650914,
+      "objective/train/tokens_used": 2573087200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24304305016994476,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0504082441329956,
+      "objective/train/weighted_lm_loss": 2.669778823852539,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9585726261138916,
+      "theoretical_loss": 3.362940529650914,
+      "tokens_seen": 2552627200
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4457056375331064e-05,
+      "loss": 2.951,
+      "theoretical_loss": 3.362871957550886,
+      "tokens_seen": 2553282560
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4267877412031785e-05,
+      "loss": 2.9481,
+      "theoretical_loss": 3.3627622890376117,
+      "tokens_seen": 2554331136
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4078698448732505e-05,
+      "loss": 2.8988,
+      "theoretical_loss": 3.3626526781346944,
+      "tokens_seen": 2555379712
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.48716670274734497,
+      "objective/train/docs_used": 1438290,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6250998973846436,
+      "objective/train/original_loss": 2.6251001358032227,
+      "objective/train/theoretical_loss": 3.362597894270278,
+      "objective/train/tokens_used": 2576364000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23991335928440094,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499361753463745,
+      "objective/train/weighted_lm_loss": 2.756412982940674,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.956545352935791,
+      "theoretical_loss": 3.362597894270278,
+      "tokens_seen": 2555904000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.3889519485433226e-05,
+      "loss": 2.96,
+      "theoretical_loss": 3.3625431247882496,
+      "tokens_seen": 2556428288
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.370034052213394e-05,
+      "loss": 2.9932,
+      "theoretical_loss": 3.3624336289444643,
+      "tokens_seen": 2557476864
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.351116155883466e-05,
+      "loss": 3.0289,
+      "theoretical_loss": 3.3623241905495993,
+      "tokens_seen": 2558525440
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.4897761940956116,
+      "objective/train/docs_used": 1439355,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9495246410369873,
+      "objective/train/original_loss": 2.9495248794555664,
+      "objective/train/theoretical_loss": 3.362255820702239,
+      "objective/train/tokens_used": 2579640800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24264518916606903,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502110719680786,
+      "objective/train/weighted_lm_loss": 3.0971879959106445,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.957098126411438,
+      "theoretical_loss": 3.362255820702239,
+      "tokens_seen": 2559180800
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.332198259553538e-05,
+      "loss": 2.9996,
+      "theoretical_loss": 3.3622148095499864,
+      "tokens_seen": 2559574016
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.3132803632236095e-05,
+      "loss": 3.0646,
+      "theoretical_loss": 3.3621054858920303,
+      "tokens_seen": 2560622592
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.2943624668936815e-05,
+      "loss": 3.001,
+      "theoretical_loss": 3.3619962195222075,
+      "tokens_seen": 2561671168
+    },
+    {
+      "epoch": 0.91,
+      "objective/train/advantage_avg": 0.48951423168182373,
+      "objective/train/docs_used": 1441205,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.010582447052002,
+      "objective/train/original_loss": 3.010582685470581,
+      "objective/train/theoretical_loss": 3.3619143073080204,
+      "objective/train/tokens_used": 2582917600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24158918857574463,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050179362297058,
+      "objective/train/weighted_lm_loss": 3.161499261856079,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.9615952372550964,
+      "theoretical_loss": 3.3619143073080204,
+      "tokens_seen": 2562457600
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.2754445705637536e-05,
+      "loss": 2.9713,
+      "theoretical_loss": 3.3618870103870657,
+      "tokens_seen": 2562719744
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.256526674233825e-05,
+      "loss": 2.9824,
+      "theoretical_loss": 3.3617778584332254,
+      "tokens_seen": 2563768320
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.237608777903897e-05,
+      "loss": 3.0308,
+      "theoretical_loss": 3.3616687636073777,
+      "tokens_seen": 2564816896
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.4768475890159607,
+      "objective/train/docs_used": 1443158,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.762218713760376,
+      "objective/train/original_loss": 2.762218475341797,
+      "objective/train/theoretical_loss": 3.3615733524557143,
+      "objective/train/tokens_used": 2586194400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2334812730550766,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488715171813965,
+      "objective/train/weighted_lm_loss": 2.8970489501953125,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9876766204833984,
+      "theoretical_loss": 3.3615733524557143,
+      "tokens_seen": 2565734400
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.21869088157397e-05,
+      "loss": 2.9873,
+      "theoretical_loss": 3.3615597258562855,
+      "tokens_seen": 2565865472
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.199772985244041e-05,
+      "loss": 2.9843,
+      "theoretical_loss": 3.3614507451267834,
+      "tokens_seen": 2566914048
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.180855088914113e-05,
+      "loss": 2.954,
+      "theoretical_loss": 3.361341821365777,
+      "tokens_seen": 2567962624
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.4460161030292511,
+      "objective/train/docs_used": 1445048,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.046217441558838,
+      "objective/train/original_loss": 3.046217441558838,
+      "objective/train/theoretical_loss": 3.3612329545202426,
+      "objective/train/tokens_used": 2589471200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23430149257183075,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0457913875579834,
+      "objective/train/weighted_lm_loss": 3.190871238708496,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.9551336169242859,
+      "theoretical_loss": 3.3612329545202426,
+      "tokens_seen": 2569011200
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.1619371925841845e-05,
+      "loss": 2.9734,
+      "theoretical_loss": 3.3612329545202426,
+      "tokens_seen": 2569011200
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.1430192962542566e-05,
+      "loss": 2.9417,
+      "theoretical_loss": 3.361124144537228,
+      "tokens_seen": 2570059776
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.1241013999243287e-05,
+      "loss": 2.9385,
+      "theoretical_loss": 3.361015391363852,
+      "tokens_seen": 2571108352
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.1051835035944e-05,
+      "loss": 3.0063,
+      "theoretical_loss": 3.360906694947303,
+      "tokens_seen": 2572156928
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.48974141478538513,
+      "objective/train/docs_used": 1447122,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.636260986328125,
+      "objective/train/original_loss": 2.636261224746704,
+      "objective/train/theoretical_loss": 3.360893111883321,
+      "objective/train/tokens_used": 2592748000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2414124757051468,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050201177597046,
+      "objective/train/weighted_lm_loss": 2.769242763519287,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9594744443893433,
+      "theoretical_loss": 3.360893111883321,
+      "tokens_seen": 2572288000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.086265607264472e-05,
+      "loss": 2.9561,
+      "theoretical_loss": 3.360798055234841,
+      "tokens_seen": 2573205504
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.067347710934544e-05,
+      "loss": 2.9818,
+      "theoretical_loss": 3.3606894721737968,
+      "tokens_seen": 2574254080
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.0484298146046155e-05,
+      "loss": 2.9962,
+      "theoretical_loss": 3.36058094571157,
+      "tokens_seen": 2575302656
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.49044662714004517,
+      "objective/train/docs_used": 1449033,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7619566917419434,
+      "objective/train/original_loss": 2.7619566917419434,
+      "objective/train/theoretical_loss": 3.3605538229334218,
+      "objective/train/tokens_used": 2596024800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24158285558223724,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502727031707764,
+      "objective/train/weighted_lm_loss": 2.901848793029785,
+      "objective/train/weights_max": 1.0512210130691528,
+      "objective/train/weights_min": 0.9779994487762451,
+      "theoretical_loss": 3.3605538229334218,
+      "tokens_seen": 2575564800
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.0295119182746876e-05,
+      "loss": 3.0442,
+      "theoretical_loss": 3.360472475795633,
+      "tokens_seen": 2576351232
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.0105940219447596e-05,
+      "loss": 3.0068,
+      "theoretical_loss": 3.3603640623735247,
+      "tokens_seen": 2577399808
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.991676125614832e-05,
+      "loss": 3.0617,
+      "theoretical_loss": 3.360255705392857,
+      "tokens_seen": 2578448384
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.4713362753391266,
+      "objective/train/docs_used": 1450816,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0295400619506836,
+      "objective/train/original_loss": 3.0295395851135254,
+      "objective/train/theoretical_loss": 3.360215086065735,
+      "objective/train/tokens_used": 2599301600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23452427983283997,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0483254194259644,
+      "objective/train/weighted_lm_loss": 3.175776958465576,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9520061016082764,
+      "theoretical_loss": 3.360215086065735,
+      "tokens_seen": 2578841600
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.972758229284904e-05,
+      "loss": 2.9335,
+      "theoretical_loss": 3.3601474048013107,
+      "tokens_seen": 2579496960
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.953840332954976e-05,
+      "loss": 2.9984,
+      "theoretical_loss": 3.3600391605466364,
+      "tokens_seen": 2580545536
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.934922436625047e-05,
+      "loss": 2.9435,
+      "theoretical_loss": 3.359930972576654,
+      "tokens_seen": 2581594112
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.4855765104293823,
+      "objective/train/docs_used": 1453056,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.05781626701355,
+      "objective/train/original_loss": 3.0578160285949707,
+      "objective/train/theoretical_loss": 3.359876899682135,
+      "objective/train/tokens_used": 2602578400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24145200848579407,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497848987579346,
+      "objective/train/weighted_lm_loss": 3.208839178085327,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9515539407730103,
+      "theoretical_loss": 3.359876899682135,
+      "tokens_seen": 2582118400
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.916004540295119e-05,
+      "loss": 2.9645,
+      "theoretical_loss": 3.359822840839253,
+      "tokens_seen": 2582642688
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.897086643965191e-05,
+      "loss": 2.9902,
+      "theoretical_loss": 3.359714765282393,
+      "tokens_seen": 2583691264
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.8781687476352627e-05,
+      "loss": 3.037,
+      "theoretical_loss": 3.3596067458541015,
+      "tokens_seen": 2584739840
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.4761214852333069,
+      "objective/train/docs_used": 1455160,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8679680824279785,
+      "objective/train/original_loss": 2.8679680824279785,
+      "objective/train/theoretical_loss": 3.3595392621911433,
+      "objective/train/tokens_used": 2605855200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24079108238220215,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0488356351852417,
+      "objective/train/weighted_lm_loss": 3.006171226501465,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9513256549835205,
+      "theoretical_loss": 3.3595392621911433,
+      "tokens_seen": 2585395200
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.859250851305335e-05,
+      "loss": 3.0005,
+      "theoretical_loss": 3.3594987825024765,
+      "tokens_seen": 2585788416
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.840332954975407e-05,
+      "loss": 3.0012,
+      "theoretical_loss": 3.359390875175684,
+      "tokens_seen": 2586836992
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.821415058645478e-05,
+      "loss": 3.018,
+      "theoretical_loss": 3.3592830238219595,
+      "tokens_seen": 2587885568
+    },
+    {
+      "epoch": 0.92,
+      "objective/train/advantage_avg": 0.49262744188308716,
+      "objective/train/docs_used": 1457167,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8069980144500732,
+      "objective/train/original_loss": 2.8069982528686523,
+      "objective/train/theoretical_loss": 3.359202172007891,
+      "objective/train/tokens_used": 2609132000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24417226016521454,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0505039691925049,
+      "objective/train/weighted_lm_loss": 2.9489877223968506,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9552015066146851,
+      "theoretical_loss": 3.359202172007891,
+      "tokens_seen": 2588672000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.80249716231555e-05,
+      "loss": 3.0026,
+      "theoretical_loss": 3.359175228389607,
+      "tokens_seen": 2588934144
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.783579265985623e-05,
+      "loss": 3.021,
+      "theoretical_loss": 3.359067488826999,
+      "tokens_seen": 2589982720
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.764661369655694e-05,
+      "loss": 2.9914,
+      "theoretical_loss": 3.3589598050825775,
+      "tokens_seen": 2591031296
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.4884391129016876,
+      "objective/train/docs_used": 1459162,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.828636884689331,
+      "objective/train/original_loss": 2.82863712310791,
+      "objective/train/theoretical_loss": 3.3588656275540845,
+      "objective/train/tokens_used": 2612408800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24153073132038116,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500717163085938,
+      "objective/train/weighted_lm_loss": 2.9701390266418457,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9631984829902649,
+      "theoretical_loss": 3.3588656275540845,
+      "tokens_seen": 2591948800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.7457434733257664e-05,
+      "loss": 3.0185,
+      "theoretical_loss": 3.3588521771048514,
+      "tokens_seen": 2592079872
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.7268255769958384e-05,
+      "loss": 3.0217,
+      "theoretical_loss": 3.3587446048423995,
+      "tokens_seen": 2593128448
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.70790768066591e-05,
+      "loss": 2.9578,
+      "theoretical_loss": 3.358637088243867,
+      "tokens_seen": 2594177024
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.48765861988067627,
+      "objective/train/docs_used": 1460817,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.20979380607605,
+      "objective/train/original_loss": 3.20979380607605,
+      "objective/train/theoretical_loss": 3.3585296272579694,
+      "objective/train/tokens_used": 2615685600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2429957538843155,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500011444091797,
+      "objective/train/weighted_lm_loss": 3.370309352874756,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9553640484809875,
+      "theoretical_loss": 3.3585296272579694,
+      "tokens_seen": 2595225600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.688989784335982e-05,
+      "loss": 3.0662,
+      "theoretical_loss": 3.3585296272579694,
+      "tokens_seen": 2595225600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.670071888006054e-05,
+      "loss": 3.0268,
+      "theoretical_loss": 3.358422221833488,
+      "tokens_seen": 2596274176
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.651153991676125e-05,
+      "loss": 3.0209,
+      "theoretical_loss": 3.358314871919273,
+      "tokens_seen": 2597322752
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.632236095346197e-05,
+      "loss": 3.0275,
+      "theoretical_loss": 3.3582075774642424,
+      "tokens_seen": 2598371328
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.4868325889110565,
+      "objective/train/docs_used": 1462730,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.88214373588562,
+      "objective/train/original_loss": 2.88214373588562,
+      "objective/train/theoretical_loss": 3.358194169554296,
+      "objective/train/tokens_used": 2618962400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24065445363521576,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049906611442566,
+      "objective/train/weighted_lm_loss": 3.026564598083496,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9531733989715576,
+      "theoretical_loss": 3.358194169554296,
+      "tokens_seen": 2598502400
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.6133181990162694e-05,
+      "loss": 3.0284,
+      "theoretical_loss": 3.358100338417381,
+      "tokens_seen": 2599419904
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.594400302686341e-05,
+      "loss": 3.1054,
+      "theoretical_loss": 3.3579931547277426,
+      "tokens_seen": 2600468480
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.575482406356413e-05,
+      "loss": 3.092,
+      "theoretical_loss": 3.3578860263444463,
+      "tokens_seen": 2601517056
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.4892682433128357,
+      "objective/train/docs_used": 1464443,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9992620944976807,
+      "objective/train/original_loss": 2.9992618560791016,
+      "objective/train/theoretical_loss": 3.3578592528842823,
+      "objective/train/tokens_used": 2622239200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24054360389709473,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0501495599746704,
+      "objective/train/weighted_lm_loss": 3.1498708724975586,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9776185154914856,
+      "theoretical_loss": 3.3578592528842823,
+      "tokens_seen": 2601779200
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.5565645100264856e-05,
+      "loss": 3.0732,
+      "theoretical_loss": 3.3577789532166804,
+      "tokens_seen": 2602565632
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.537646613696557e-05,
+      "loss": 3.0749,
+      "theoretical_loss": 3.3576719352936992,
+      "tokens_seen": 2603614208
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.518728717366629e-05,
+      "loss": 3.0803,
+      "theoretical_loss": 3.357564972524824,
+      "tokens_seen": 2604662784
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.49427875876426697,
+      "objective/train/docs_used": 1466332,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.944730043411255,
+      "objective/train/original_loss": 2.944730043411255,
+      "objective/train/theoretical_loss": 3.357524875695582,
+      "objective/train/tokens_used": 2625516000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24559368193149567,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506764650344849,
+      "objective/train/weighted_lm_loss": 3.093897819519043,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9565245509147644,
+      "theoretical_loss": 3.357524875695582,
+      "tokens_seen": 2605056000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.499810821036701e-05,
+      "loss": 3.0559,
+      "theoretical_loss": 3.357458064859444,
+      "tokens_seen": 2605711360
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4808929247067724e-05,
+      "loss": 3.0196,
+      "theoretical_loss": 3.3573512122470137,
+      "tokens_seen": 2606759936
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4619750283768445e-05,
+      "loss": 3.1101,
+      "theoretical_loss": 3.3572444146370555,
+      "tokens_seen": 2607808512
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.48803937435150146,
+      "objective/train/docs_used": 1468043,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.059133529663086,
+      "objective/train/original_loss": 3.0591330528259277,
+      "objective/train/theoretical_loss": 3.357191036442247,
+      "objective/train/tokens_used": 2628792800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2422197312116623,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500352382659912,
+      "objective/train/weighted_lm_loss": 3.2130544185638428,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9526868462562561,
+      "theoretical_loss": 3.357191036442247,
+      "tokens_seen": 2608332800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.4430571320469165e-05,
+      "loss": 3.0649,
+      "theoretical_loss": 3.3571376719791575,
+      "tokens_seen": 2608857088
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.424139235716988e-05,
+      "loss": 3.0104,
+      "theoretical_loss": 3.357030984222975,
+      "tokens_seen": 2609905664
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.40522133938706e-05,
+      "loss": 3.0704,
+      "theoretical_loss": 3.3569243513182294,
+      "tokens_seen": 2610954240
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.49350228905677795,
+      "objective/train/docs_used": 1469063,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5382068157196045,
+      "objective/train/original_loss": 2.5382070541381836,
+      "objective/train/theoretical_loss": 3.356857733584695,
+      "objective/train/tokens_used": 2632069600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24541838467121124,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050597906112671,
+      "objective/train/weighted_lm_loss": 2.6664652824401855,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.952812910079956,
+      "theoretical_loss": 3.356857733584695,
+      "tokens_seen": 2611609600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.386303443057132e-05,
+      "loss": 3.0581,
+      "theoretical_loss": 3.356817773214708,
+      "tokens_seen": 2612002816
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.3673855467272034e-05,
+      "loss": 3.0308,
+      "theoretical_loss": 3.3567112498622644,
+      "tokens_seen": 2613051392
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.348467650397276e-05,
+      "loss": 3.058,
+      "theoretical_loss": 3.3566047812108186,
+      "tokens_seen": 2614099968
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.49121448397636414,
+      "objective/train/docs_used": 1470949,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.566678285598755,
+      "objective/train/original_loss": 2.566678047180176,
+      "objective/train/theoretical_loss": 3.356524965589674,
+      "objective/train/tokens_used": 2635346400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24299617111682892,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503567457199097,
+      "objective/train/weighted_lm_loss": 2.6957244873046875,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9728997945785522,
+      "theoretical_loss": 3.356524965589674,
+      "tokens_seen": 2614886400
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.329549754067348e-05,
+      "loss": 3.0031,
+      "theoretical_loss": 3.3564983672103548,
+      "tokens_seen": 2615148544
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.3106318577374196e-05,
+      "loss": 3.0581,
+      "theoretical_loss": 3.3563920078109257,
+      "tokens_seen": 2616197120
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.2917139614074916e-05,
+      "loss": 3.0728,
+      "theoretical_loss": 3.3562857029626474,
+      "tokens_seen": 2617245696
+    },
+    {
+      "epoch": 0.93,
+      "objective/train/advantage_avg": 0.4815143346786499,
+      "objective/train/docs_used": 1472903,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8542768955230713,
+      "objective/train/original_loss": 2.854276657104492,
+      "objective/train/theoretical_loss": 3.35619273093023,
+      "objective/train/tokens_used": 2638623200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23790426552295685,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493605136871338,
+      "objective/train/weighted_lm_loss": 2.994652509689331,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.952725350856781,
+      "theoretical_loss": 3.35619273093023,
+      "tokens_seen": 2618163200
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.272796065077564e-05,
+      "loss": 3.1399,
+      "theoretical_loss": 3.3561794526157023,
+      "tokens_seen": 2618294272
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.253878168747635e-05,
+      "loss": 3.0911,
+      "theoretical_loss": 3.356073256720338,
+      "tokens_seen": 2619342848
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.234960272417707e-05,
+      "loss": 3.15,
+      "theoretical_loss": 3.3559671152268686,
+      "tokens_seen": 2620391424
+    },
+    {
+      "debugging/Self-BLEU-5": 0.449855913696806,
+      "debugging/distinct-1-grams": 0.769778305351557,
+      "debugging/distinct-2-grams": 0.9467712904639874,
+      "debugging/entropy-1-grams": 5.998633443012235,
+      "debugging/entropy-2-grams": 6.951908950814323,
+      "debugging/length": 469.11764705882354,
+      "debugging/num_segments": 17,
+      "debugging/raw_token_scores_avg": 0.039095163345336914,
+      "debugging/raw_token_scores_std": 0.11093362420797348,
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.46091702580451965,
+      "objective/train/docs_used": 1474904,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9136695861816406,
+      "objective/train/original_loss": 2.9136695861816406,
+      "objective/train/theoretical_loss": 3.3558610280856715,
+      "objective/train/tokens_used": 2641900000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22473308444023132,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0472337007522583,
+      "objective/train/weighted_lm_loss": 3.0515451431274414,
+      "objective/train/weights_max": 1.0512163639068604,
+      "objective/train/weights_min": 0.9528725147247314,
+      "theoretical_loss": 3.3558610280856715,
+      "tokens_seen": 2621440000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.216042376087779e-05,
+      "loss": 3.0863,
+      "theoretical_loss": 3.3558610280856715,
+      "tokens_seen": 2621440000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.1971244797578505e-05,
+      "loss": 3.0977,
+      "theoretical_loss": 3.3557549952471906,
+      "tokens_seen": 2622488576
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.1782065834279226e-05,
+      "loss": 3.0837,
+      "theoretical_loss": 3.3556490166619337,
+      "tokens_seen": 2623537152
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.1592886870979946e-05,
+      "loss": 3.1327,
+      "theoretical_loss": 3.3555430922804743,
+      "tokens_seen": 2624585728
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.48707959055900574,
+      "objective/train/docs_used": 1477123,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9778811931610107,
+      "objective/train/original_loss": 2.97788143157959,
+      "objective/train/theoretical_loss": 3.3555298555415374,
+      "objective/train/tokens_used": 2645176800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23922058939933777,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499240159988403,
+      "objective/train/weighted_lm_loss": 3.126800298690796,
+      "objective/train/weights_max": 1.0512198209762573,
+      "objective/train/weights_min": 1.0077565908432007,
+      "theoretical_loss": 3.3555298555415374,
+      "tokens_seen": 2624716800
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.140370790768066e-05,
+      "loss": 3.0617,
+      "theoretical_loss": 3.3554372220534505,
+      "tokens_seen": 2625634304
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.121452894438139e-05,
+      "loss": 3.0449,
+      "theoretical_loss": 3.3553314059315653,
+      "tokens_seen": 2626682880
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.102534998108211e-05,
+      "loss": 3.0209,
+      "theoretical_loss": 3.3552256438655856,
+      "tokens_seen": 2627731456
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.4856823980808258,
+      "objective/train/docs_used": 1478969,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.793982982635498,
+      "objective/train/original_loss": 2.793982982635498,
+      "objective/train/theoretical_loss": 3.3551992117895626,
+      "objective/train/tokens_used": 2648453600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2396468073129654,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497863292694092,
+      "objective/train/weighted_lm_loss": 2.9343104362487793,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9753270745277405,
+      "theoretical_loss": 3.3551992117895626,
+      "tokens_seen": 2627993600
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.083617101778282e-05,
+      "loss": 3.081,
+      "theoretical_loss": 3.355119935806343,
+      "tokens_seen": 2628780032
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.064699205448354e-05,
+      "loss": 3.0635,
+      "theoretical_loss": 3.3550142817047335,
+      "tokens_seen": 2629828608
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.0457813091184263e-05,
+      "loss": 3.03,
+      "theoretical_loss": 3.3549086815117164,
+      "tokens_seen": 2630877184
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.48200660943984985,
+      "objective/train/docs_used": 1481036,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2332446575164795,
+      "objective/train/original_loss": 3.2332448959350586,
+      "objective/train/theoretical_loss": 3.3548690953276465,
+      "objective/train/tokens_used": 2651730400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2395787388086319,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049418330192566,
+      "objective/train/weighted_lm_loss": 3.3921494483947754,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9518641233444214,
+      "theoretical_loss": 3.3548690953276465,
+      "tokens_seen": 2631270400
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.026863412788498e-05,
+      "loss": 3.0466,
+      "theoretical_loss": 3.3548031351783174,
+      "tokens_seen": 2631925760
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.0079455164585697e-05,
+      "loss": 3.0208,
+      "theoretical_loss": 3.3546976426556236,
+      "tokens_seen": 2632974336
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9890276201286418e-05,
+      "loss": 2.9977,
+      "theoretical_loss": 3.3545922038947875,
+      "tokens_seen": 2634022912
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.4820900857448578,
+      "objective/train/docs_used": 1482195,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2531821727752686,
+      "objective/train/original_loss": 3.2531819343566895,
+      "objective/train/theoretical_loss": 3.3545395046598183,
+      "objective/train/tokens_used": 2655007200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23769210278987885,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494171380996704,
+      "objective/train/weighted_lm_loss": 3.413717031478882,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9524181485176086,
+      "theoretical_loss": 3.3545395046598183,
+      "tokens_seen": 2634547200
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9701097237987138e-05,
+      "loss": 3.0562,
+      "theoretical_loss": 3.3544868188470245,
+      "tokens_seen": 2635071488
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9511918274687855e-05,
+      "loss": 3.0351,
+      "theoretical_loss": 3.354381487463615,
+      "tokens_seen": 2636120064
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9322739311388576e-05,
+      "loss": 3.0414,
+      "theoretical_loss": 3.3542762096959007,
+      "tokens_seen": 2637168640
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.48411837220191956,
+      "objective/train/docs_used": 1484156,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8459889888763428,
+      "objective/train/original_loss": 2.8459887504577637,
+      "objective/train/theoretical_loss": 3.3542104382962057,
+      "objective/train/tokens_used": 2658284000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23963847756385803,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049630045890808,
+      "objective/train/weighted_lm_loss": 2.9878950119018555,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9651797413825989,
+      "theoretical_loss": 3.3542104382962057,
+      "tokens_seen": 2637824000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.9133560348089293e-05,
+      "loss": 3.0507,
+      "theoretical_loss": 3.3541709854952892,
+      "tokens_seen": 2638217216
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.894438138479001e-05,
+      "loss": 3.0462,
+      "theoretical_loss": 3.35406581481325,
+      "tokens_seen": 2639265792
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.875520242149073e-05,
+      "loss": 3.0154,
+      "theoretical_loss": 3.353960697601316,
+      "tokens_seen": 2640314368
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.48868516087532043,
+      "objective/train/docs_used": 1485777,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8094425201416016,
+      "objective/train/original_loss": 2.8094422817230225,
+      "objective/train/theoretical_loss": 3.353881894753002,
+      "objective/train/tokens_used": 2661560800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24112290143966675,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500941276550293,
+      "objective/train/weighted_lm_loss": 2.9495749473571777,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9579086303710938,
+      "theoretical_loss": 3.353881894753002,
+      "tokens_seen": 2641100800
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.856602345819145e-05,
+      "loss": 3.0786,
+      "theoretical_loss": 3.353855633811084,
+      "tokens_seen": 2641362944
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.837684449489217e-05,
+      "loss": 3.0674,
+      "theoretical_loss": 3.3537506233942116,
+      "tokens_seen": 2642411520
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.818766553159289e-05,
+      "loss": 3.0164,
+      "theoretical_loss": 3.353645666302423,
+      "tokens_seen": 2643460096
+    },
+    {
+      "epoch": 0.94,
+      "objective/train/advantage_avg": 0.48162642121315,
+      "objective/train/docs_used": 1488108,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0382301807403564,
+      "objective/train/original_loss": 3.0382299423217773,
+      "objective/train/theoretical_loss": 3.353553872552434,
+      "objective/train/tokens_used": 2664837600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23907937109470367,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0493777990341187,
+      "objective/train/weighted_lm_loss": 3.186624050140381,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9515630006790161,
+      "theoretical_loss": 3.353553872552434,
+      "tokens_seen": 2644377600
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.7998486568293606e-05,
+      "loss": 3.0749,
+      "theoretical_loss": 3.3535407624875013,
+      "tokens_seen": 2644508672
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.7809307604994323e-05,
+      "loss": 3.1002,
+      "theoretical_loss": 3.3534359119012946,
+      "tokens_seen": 2645557248
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.7620128641695044e-05,
+      "loss": 3.073,
+      "theoretical_loss": 3.3533311144957136,
+      "tokens_seen": 2646605824
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.4883487820625305,
+      "objective/train/docs_used": 1490143,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5410468578338623,
+      "objective/train/original_loss": 2.541046619415283,
+      "objective/train/theoretical_loss": 3.3532263702227305,
+      "objective/train/tokens_used": 2668114400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24362722039222717,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500731468200684,
+      "objective/train/weighted_lm_loss": 2.6677608489990234,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9517417550086975,
+      "theoretical_loss": 3.3532263702227305,
+      "tokens_seen": 2647654400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.7430949678395765e-05,
+      "loss": 3.0142,
+      "theoretical_loss": 3.3532263702227305,
+      "tokens_seen": 2647654400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.724177071509648e-05,
+      "loss": 3.0453,
+      "theoretical_loss": 3.3531216790343805,
+      "tokens_seen": 2648702976
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.7052591751797202e-05,
+      "loss": 3.0265,
+      "theoretical_loss": 3.35301704088276,
+      "tokens_seen": 2649751552
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.686341278849792e-05,
+      "loss": 3.0057,
+      "theoretical_loss": 3.3529124557200296,
+      "tokens_seen": 2650800128
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.47749945521354675,
+      "objective/train/docs_used": 1492100,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0875096321105957,
+      "objective/train/original_loss": 3.0875096321105957,
+      "objective/train/theoretical_loss": 3.35289938629809,
+      "objective/train/tokens_used": 2671391200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24302785098552704,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489848852157593,
+      "objective/train/weighted_lm_loss": 3.23630428314209,
+      "objective/train/weights_max": 1.0512157678604126,
+      "objective/train/weights_min": 0.9513412117958069,
+      "theoretical_loss": 3.35289938629809,
+      "tokens_seen": 2650931200
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.6674233825198637e-05,
+      "loss": 3.0612,
+      "theoretical_loss": 3.3528079234984105,
+      "tokens_seen": 2651848704
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.648505486189936e-05,
+      "loss": 3.0719,
+      "theoretical_loss": 3.352703444170186,
+      "tokens_seen": 2652897280
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.6295875898600078e-05,
+      "loss": 2.9922,
+      "theoretical_loss": 3.3525990176877007,
+      "tokens_seen": 2653945856
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.4898962080478668,
+      "objective/train/docs_used": 1494002,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.18452787399292,
+      "objective/train/original_loss": 3.184528350830078,
+      "objective/train/theoretical_loss": 3.3525729193186478,
+      "objective/train/tokens_used": 2674668000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24191275238990784,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502192974090576,
+      "objective/train/weighted_lm_loss": 3.344353675842285,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.9598506689071655,
+      "theoretical_loss": 3.3525729193186478,
+      "tokens_seen": 2654208000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.6106696935300795e-05,
+      "loss": 3.0289,
+      "theoretical_loss": 3.3524946440033627,
+      "tokens_seen": 2654994432
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.5917517972001515e-05,
+      "loss": 3.0558,
+      "theoretical_loss": 3.35239032306964,
+      "tokens_seen": 2656043008
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.5728339008702233e-05,
+      "loss": 3.0116,
+      "theoretical_loss": 3.352286054839063,
+      "tokens_seen": 2657091584
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.4882798194885254,
+      "objective/train/docs_used": 1495727,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.735853433609009,
+      "objective/train/original_loss": 2.7358531951904297,
+      "objective/train/theoretical_loss": 3.3522469678304483,
+      "objective/train/tokens_used": 2677944800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24260863661766052,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0500612258911133,
+      "objective/train/weighted_lm_loss": 2.8720898628234863,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9521510004997253,
+      "theoretical_loss": 3.3522469678304483,
+      "tokens_seen": 2657484800
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.553916004540295e-05,
+      "loss": 3.0711,
+      "theoretical_loss": 3.3521818392642233,
+      "tokens_seen": 2658140160
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.5349981082103674e-05,
+      "loss": 2.9868,
+      "theoretical_loss": 3.3520776762977738,
+      "tokens_seen": 2659188736
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.516080211880439e-05,
+      "loss": 3.0218,
+      "theoretical_loss": 3.3519735658924286,
+      "tokens_seen": 2660237312
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.4827539622783661,
+      "objective/train/docs_used": 1497686,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.5873148441314697,
+      "objective/train/original_loss": 2.5873146057128906,
+      "objective/train/theoretical_loss": 3.35192153038541,
+      "objective/train/tokens_used": 2681221600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23605278134346008,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049475073814392,
+      "objective/train/weighted_lm_loss": 2.7146008014678955,
+      "objective/train/weights_max": 1.051217794418335,
+      "objective/train/weights_min": 0.9633801579475403,
+      "theoretical_loss": 3.35192153038541,
+      "tokens_seen": 2660761600
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4971623155505108e-05,
+      "loss": 3.0077,
+      "theoretical_loss": 3.3518695080009633,
+      "tokens_seen": 2661285888
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.478244419220583e-05,
+      "loss": 3.0271,
+      "theoretical_loss": 3.351765502576214,
+      "tokens_seen": 2662334464
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4593265228906546e-05,
+      "loss": 3.0663,
+      "theoretical_loss": 3.3516615495710775,
+      "tokens_seen": 2663383040
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.493733286857605,
+      "objective/train/docs_used": 1499388,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9322574138641357,
+      "objective/train/original_loss": 2.932257652282715,
+      "objective/train/theoretical_loss": 3.351596605541298,
+      "objective/train/tokens_used": 2684498400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2454751431941986,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0506212711334229,
+      "objective/train/weighted_lm_loss": 3.0805580615997314,
+      "objective/train/weights_max": 1.051218867301941,
+      "objective/train/weights_min": 0.9514515995979309,
+      "theoretical_loss": 3.351596605541298,
+      "tokens_seen": 2664038400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4404086265607263e-05,
+      "loss": 3.0406,
+      "theoretical_loss": 3.351557648938513,
+      "tokens_seen": 2664431616
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4214907302307987e-05,
+      "loss": 3.0289,
+      "theoretical_loss": 3.351453800631538,
+      "tokens_seen": 2665480192
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4025728339008704e-05,
+      "loss": 3.0233,
+      "theoretical_loss": 3.3513500046032325,
+      "tokens_seen": 2666528768
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.4782050549983978,
+      "objective/train/docs_used": 1500922,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9047739505767822,
+      "objective/train/original_loss": 2.904773712158203,
+      "objective/train/theoretical_loss": 3.351272191861688,
+      "objective/train/tokens_used": 2687775200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2350698709487915,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490152835845947,
+      "objective/train/weighted_lm_loss": 3.0477681159973145,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9560204148292542,
+      "theoretical_loss": 3.351272191861688,
+      "tokens_seen": 2667315200
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.383654937570942e-05,
+      "loss": 3.0389,
+      "theoretical_loss": 3.351246260806736,
+      "tokens_seen": 2667577344
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.364737041241014e-05,
+      "loss": 3.0276,
+      "theoretical_loss": 3.3511425691952486,
+      "tokens_seen": 2668625920
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.345819144911086e-05,
+      "loss": 3.0211,
+      "theoretical_loss": 3.3510389297220318,
+      "tokens_seen": 2669674496
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.47957465052604675,
+      "objective/train/docs_used": 1502841,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7510986328125,
+      "objective/train/original_loss": 2.7510986328125,
+      "objective/train/theoretical_loss": 3.350948287915944,
+      "objective/train/tokens_used": 2691052000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23619519174098969,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049157977104187,
+      "objective/train/weighted_lm_loss": 2.886131525039673,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9544672966003418,
+      "theoretical_loss": 3.350948287915944,
+      "tokens_seen": 2670592000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.3269012485811576e-05,
+      "loss": 3.0576,
+      "theoretical_loss": 3.350935342340405,
+      "tokens_seen": 2670723072
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.30798335225123e-05,
+      "loss": 3.0318,
+      "theoretical_loss": 3.3508318070037504,
+      "tokens_seen": 2671771648
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.2890654559213017e-05,
+      "loss": 3.0846,
+      "theoretical_loss": 3.350728323665508,
+      "tokens_seen": 2672820224
+    },
+    {
+      "epoch": 0.95,
+      "objective/train/advantage_avg": 0.48705071210861206,
+      "objective/train/docs_used": 1504654,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8059308528900146,
+      "objective/train/original_loss": 2.8059306144714355,
+      "objective/train/theoretical_loss": 3.3506248922791784,
+      "objective/train/tokens_used": 2694328800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24300509691238403,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499402284622192,
+      "objective/train/weighted_lm_loss": 2.945868730545044,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9610604047775269,
+      "theoretical_loss": 3.3506248922791784,
+      "tokens_seen": 2673868800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.2701475595913734e-05,
+      "loss": 3.0519,
+      "theoretical_loss": 3.3506248922791784,
+      "tokens_seen": 2673868800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.2512296632614455e-05,
+      "loss": 3.0418,
+      "theoretical_loss": 3.3505215127983226,
+      "tokens_seen": 2674917376
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.2323117669315172e-05,
+      "loss": 3.1014,
+      "theoretical_loss": 3.3504181851765606,
+      "tokens_seen": 2675965952
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.2133938706015892e-05,
+      "loss": 3.041,
+      "theoretical_loss": 3.3503149093675724,
+      "tokens_seen": 2677014528
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.4849916100502014,
+      "objective/train/docs_used": 1506560,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9666738510131836,
+      "objective/train/original_loss": 2.9666740894317627,
+      "objective/train/theoretical_loss": 3.35030200353223,
+      "objective/train/tokens_used": 2697605600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24110575020313263,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0497246980667114,
+      "objective/train/weighted_lm_loss": 3.1141273975372314,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9574628472328186,
+      "theoretical_loss": 3.35030200353223,
+      "tokens_seen": 2677145600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1944759742716613e-05,
+      "loss": 3.0359,
+      "theoretical_loss": 3.3502116853250974,
+      "tokens_seen": 2678063104
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.175558077941733e-05,
+      "loss": 3.0588,
+      "theoretical_loss": 3.350108513002934,
+      "tokens_seen": 2679111680
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1566401816118047e-05,
+      "loss": 3.0685,
+      "theoretical_loss": 3.35000539235494,
+      "tokens_seen": 2680160256
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.4583278298377991,
+      "objective/train/docs_used": 1507767,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.6217093467712402,
+      "objective/train/original_loss": 2.6217093467712402,
+      "objective/train/theoretical_loss": 3.349979620261629,
+      "objective/train/tokens_used": 2700882400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22251355648040771,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0469634532928467,
+      "objective/train/weighted_lm_loss": 2.7458016872406006,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9549773335456848,
+      "theoretical_loss": 3.349979620261629,
+      "tokens_seen": 2680422400
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1377222852818768e-05,
+      "loss": 3.0494,
+      "theoretical_loss": 3.3499023233350336,
+      "tokens_seen": 2681208832
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1188043889519485e-05,
+      "loss": 3.0639,
+      "theoretical_loss": 3.3497993058971898,
+      "tokens_seen": 2682257408
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0998864926220206e-05,
+      "loss": 3.0573,
+      "theoretical_loss": 3.349696339995445,
+      "tokens_seen": 2683305984
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.485384076833725,
+      "objective/train/docs_used": 1509839,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9253435134887695,
+      "objective/train/original_loss": 2.9253437519073486,
+      "objective/train/theoretical_loss": 3.3496577410595694,
+      "objective/train/tokens_used": 2704159200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23941144347190857,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049755334854126,
+      "objective/train/weighted_lm_loss": 3.0702219009399414,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9517756104469299,
+      "theoretical_loss": 3.3496577410595694,
+      "tokens_seen": 2683699200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0809685962920923e-05,
+      "loss": 3.0022,
+      "theoretical_loss": 3.3495934255838926,
+      "tokens_seen": 2684354560
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0620506999621643e-05,
+      "loss": 3.0025,
+      "theoretical_loss": 3.349490562616686,
+      "tokens_seen": 2685403136
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.043132803632236e-05,
+      "loss": 3.0222,
+      "theoretical_loss": 3.349387751048037,
+      "tokens_seen": 2686451712
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.49125921726226807,
+      "objective/train/docs_used": 1511903,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1318821907043457,
+      "objective/train/original_loss": 3.1318821907043457,
+      "objective/train/theoretical_loss": 3.3493363645238787,
+      "objective/train/tokens_used": 2707436000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24440424144268036,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503684282302856,
+      "objective/train/weighted_lm_loss": 3.2890326976776123,
+      "objective/train/weights_max": 1.0512181520462036,
+      "objective/train/weights_min": 0.9706076979637146,
+      "theoretical_loss": 3.3493363645238787,
+      "tokens_seen": 2686976000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0242149073023078e-05,
+      "loss": 3.0417,
+      "theoretical_loss": 3.3492849908322158,
+      "tokens_seen": 2687500288
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.0052970109723798e-05,
+      "loss": 3.052,
+      "theoretical_loss": 3.349182281923551,
+      "tokens_seen": 2688548864
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.986379114642452e-05,
+      "loss": 3.0494,
+      "theoretical_loss": 3.3490796242764302,
+      "tokens_seen": 2689597440
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.4908863604068756,
+      "objective/train/docs_used": 1514263,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.605135917663574,
+      "objective/train/original_loss": 2.605135440826416,
+      "objective/train/theoretical_loss": 3.3490154892579884,
+      "objective/train/tokens_used": 2710712800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2420625537633896,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503190755844116,
+      "objective/train/weighted_lm_loss": 2.7363693714141846,
+      "objective/train/weights_max": 1.0512186288833618,
+      "objective/train/weights_min": 0.9990963935852051,
+      "theoretical_loss": 3.3490154892579884,
+      "tokens_seen": 2690252800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.9674612183125236e-05,
+      "loss": 2.9764,
+      "theoretical_loss": 3.348977017845299,
+      "tokens_seen": 2690646016
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.9485433219825956e-05,
+      "loss": 2.9394,
+      "theoretical_loss": 3.3488744625846607,
+      "tokens_seen": 2691694592
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.9296254256526674e-05,
+      "loss": 3.0521,
+      "theoretical_loss": 3.3487719584490776,
+      "tokens_seen": 2692743168
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.487415611743927,
+      "objective/train/docs_used": 1516259,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.661348581314087,
+      "objective/train/original_loss": 2.661348819732666,
+      "objective/train/theoretical_loss": 3.3486951138709067,
+      "objective/train/tokens_used": 2713989600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24382545053958893,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0499809980392456,
+      "objective/train/weighted_lm_loss": 2.79396915435791,
+      "objective/train/weights_max": 1.0512179136276245,
+      "objective/train/weights_min": 0.956028163433075,
+      "theoretical_loss": 3.3486951138709067,
+      "tokens_seen": 2693529600
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.910707529322739e-05,
+      "loss": 2.9722,
+      "theoretical_loss": 3.348669505393169,
+      "tokens_seen": 2693791744
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.8917896329928115e-05,
+      "loss": 3.0601,
+      "theoretical_loss": 3.348567103371614,
+      "tokens_seen": 2694840320
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.8728717366628832e-05,
+      "loss": 3.0398,
+      "theoretical_loss": 3.3484647523391473,
+      "tokens_seen": 2695888896
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.4843372106552124,
+      "objective/train/docs_used": 1518290,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.877500534057617,
+      "objective/train/original_loss": 2.877500534057617,
+      "objective/train/theoretical_loss": 3.3483752369771853,
+      "objective/train/tokens_used": 2717266400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24128593504428864,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049660086631775,
+      "objective/train/weighted_lm_loss": 3.0197174549102783,
+      "objective/train/weights_max": 1.0512170791625977,
+      "objective/train/weights_min": 0.9525272250175476,
+      "theoretical_loss": 3.3483752369771853,
+      "tokens_seen": 2696806400
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.853953840332955e-05,
+      "loss": 3.0041,
+      "theoretical_loss": 3.3483624522505617,
+      "tokens_seen": 2696937472
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.835035944003027e-05,
+      "loss": 3.0267,
+      "theoretical_loss": 3.34826020306071,
+      "tokens_seen": 2697986048
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.8161180476730987e-05,
+      "loss": 2.9848,
+      "theoretical_loss": 3.3481580047244988,
+      "tokens_seen": 2699034624
+    },
+    {
+      "epoch": 0.96,
+      "objective/train/advantage_avg": 0.4914160370826721,
+      "objective/train/docs_used": 1520209,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1949706077575684,
+      "objective/train/original_loss": 3.1949706077575684,
+      "objective/train/theoretical_loss": 3.3480558571968952,
+      "objective/train/tokens_used": 2720543200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24515222012996674,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503878593444824,
+      "objective/train/weighted_lm_loss": 3.3562815189361572,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9568387866020203,
+      "theoretical_loss": 3.3480558571968952,
+      "tokens_seen": 2700083200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.7972001513431704e-05,
+      "loss": 3.0669,
+      "theoretical_loss": 3.3480558571968952,
+      "tokens_seen": 2700083200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.7782822550132428e-05,
+      "loss": 3.0338,
+      "theoretical_loss": 3.347953760432923,
+      "tokens_seen": 2701131776
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.7593643586833145e-05,
+      "loss": 2.9885,
+      "theoretical_loss": 3.3478517143876614,
+      "tokens_seen": 2702180352
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.7404464623533862e-05,
+      "loss": 2.9584,
+      "theoretical_loss": 3.3477497190162495,
+      "tokens_seen": 2703228928
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.4775691032409668,
+      "objective/train/docs_used": 1521508,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8530027866363525,
+      "objective/train/original_loss": 2.8530025482177734,
+      "objective/train/theoretical_loss": 3.347736973155596,
+      "objective/train/tokens_used": 2723820000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23687875270843506,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489609241485596,
+      "objective/train/weighted_lm_loss": 2.991417407989502,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9562798738479614,
+      "theoretical_loss": 3.347736973155596,
+      "tokens_seen": 2703360000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.7215285660234583e-05,
+      "loss": 2.9654,
+      "theoretical_loss": 3.3476477742738817,
+      "tokens_seen": 2704277504
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.70261066969353e-05,
+      "loss": 2.9792,
+      "theoretical_loss": 3.3475458801158093,
+      "tokens_seen": 2705326080
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.6836927733636017e-05,
+      "loss": 3.0474,
+      "theoretical_loss": 3.3474440364973415,
+      "tokens_seen": 2706374656
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.48271217942237854,
+      "objective/train/docs_used": 1523597,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.2933883666992188,
+      "objective/train/original_loss": 2.293388843536377,
+      "objective/train/theoretical_loss": 3.347418583484306,
+      "objective/train/tokens_used": 2727096800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23795966804027557,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049480676651001,
+      "objective/train/weighted_lm_loss": 2.4072484970092773,
+      "objective/train/weights_max": 1.051218032836914,
+      "objective/train/weights_min": 0.955068051815033,
+      "theoretical_loss": 3.347418583484306,
+      "tokens_seen": 2706636800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.664774877033674e-05,
+      "loss": 2.9809,
+      "theoretical_loss": 3.347342243373844,
+      "tokens_seen": 2707423232
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.6458569807037458e-05,
+      "loss": 2.9979,
+      "theoretical_loss": 3.3472405007007384,
+      "tokens_seen": 2708471808
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.6269390843738175e-05,
+      "loss": 3.0455,
+      "theoretical_loss": 3.347138808433504,
+      "tokens_seen": 2709520384
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.48901796340942383,
+      "objective/train/docs_used": 1525609,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7998077869415283,
+      "objective/train/original_loss": 2.7998077869415283,
+      "objective/train/theoretical_loss": 3.3471006868194775,
+      "objective/train/tokens_used": 2730373600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2417827993631363,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050130844116211,
+      "objective/train/weighted_lm_loss": 2.9398789405822754,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.960767388343811,
+      "theoretical_loss": 3.3471006868194775,
+      "tokens_seen": 2709913600
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.6080211880438896e-05,
+      "loss": 2.9932,
+      "theoretical_loss": 3.3470371665276755,
+      "tokens_seen": 2710568960
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.5891032917139613e-05,
+      "loss": 3.0507,
+      "theoretical_loss": 3.3469355749388447,
+      "tokens_seen": 2711617536
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.570185395384033e-05,
+      "loss": 3.083,
+      "theoretical_loss": 3.3468340336226596,
+      "tokens_seen": 2712666112
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.46617740392684937,
+      "objective/train/docs_used": 1527506,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0006046295166016,
+      "objective/train/original_loss": 3.0006043910980225,
+      "objective/train/theoretical_loss": 3.3467832818029644,
+      "objective/train/tokens_used": 2733650400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22822509706020355,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.047777771949768,
+      "objective/train/weighted_lm_loss": 3.147068500518799,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.9607921838760376,
+      "theoretical_loss": 3.3467832818029644,
+      "tokens_seen": 2713190400
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.5512674990541054e-05,
+      "loss": 3.0005,
+      "theoretical_loss": 3.3467325425348244,
+      "tokens_seen": 2713714688
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.532349602724177e-05,
+      "loss": 3.0609,
+      "theoretical_loss": 3.3466311016310994,
+      "tokens_seen": 2714763264
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.513431706394249e-05,
+      "loss": 3.018,
+      "theoretical_loss": 3.3465297108673013,
+      "tokens_seen": 2715811840
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.4781047999858856,
+      "objective/train/docs_used": 1529013,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.908228874206543,
+      "objective/train/original_loss": 2.908228874206543,
+      "objective/train/theoretical_loss": 3.346466367081999,
+      "objective/train/tokens_used": 2736927200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23485645651817322,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0490041971206665,
+      "objective/train/weighted_lm_loss": 3.0513052940368652,
+      "objective/train/weights_max": 1.0512176752090454,
+      "objective/train/weights_min": 0.959873616695404,
+      "theoretical_loss": 3.346466367081999,
+      "tokens_seen": 2716467200
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4945138100643209e-05,
+      "loss": 2.99,
+      "theoretical_loss": 3.346428370199302,
+      "tokens_seen": 2716860416
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4755959137343928e-05,
+      "loss": 3.1079,
+      "theoretical_loss": 3.3463270795830296,
+      "tokens_seen": 2717908992
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4566780174044647e-05,
+      "loss": 3.1435,
+      "theoretical_loss": 3.3462258389744677,
+      "tokens_seen": 2718957568
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.4586866497993469,
+      "objective/train/docs_used": 1529588,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8062684535980225,
+      "objective/train/original_loss": 2.8062686920166016,
+      "objective/train/theoretical_loss": 3.34614994130916,
+      "objective/train/tokens_used": 2740204000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22812047600746155,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0470279455184937,
+      "objective/train/weighted_lm_loss": 2.941352128982544,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.9811699390411377,
+      "theoretical_loss": 3.34614994130916,
+      "tokens_seen": 2719744000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4377601210745365e-05,
+      "loss": 3.1722,
+      "theoretical_loss": 3.3461246483296563,
+      "tokens_seen": 2720006144
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.4188422247446084e-05,
+      "loss": 3.183,
+      "theoretical_loss": 3.346023507604691,
+      "tokens_seen": 2721054720
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3999243284146803e-05,
+      "loss": 3.0404,
+      "theoretical_loss": 3.3459224167557213,
+      "tokens_seen": 2722103296
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.4828481078147888,
+      "objective/train/docs_used": 1531474,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.01423716545105,
+      "objective/train/original_loss": 3.014237403869629,
+      "objective/train/theoretical_loss": 3.345834003142347,
+      "objective/train/tokens_used": 2743480800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2370041161775589,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0494893789291382,
+      "objective/train/weighted_lm_loss": 3.1627633571624756,
+      "objective/train/weights_max": 1.05121648311615,
+      "objective/train/weights_min": 0.9518007040023804,
+      "theoretical_loss": 3.345834003142347,
+      "tokens_seen": 2723020800
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3810064320847522e-05,
+      "loss": 3.0889,
+      "theoretical_loss": 3.3458213757389537,
+      "tokens_seen": 2723151872
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.362088535754824e-05,
+      "loss": 3.071,
+      "theoretical_loss": 3.34572038451065,
+      "tokens_seen": 2724200448
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.343170639424896e-05,
+      "loss": 3.1018,
+      "theoretical_loss": 3.3456194430271258,
+      "tokens_seen": 2725249024
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.48170891404151917,
+      "objective/train/docs_used": 1533341,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8722846508026123,
+      "objective/train/original_loss": 2.872284412384033,
+      "objective/train/theoretical_loss": 3.3455185512447527,
+      "objective/train/tokens_used": 2746757600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23601827025413513,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049370527267456,
+      "objective/train/weighted_lm_loss": 3.012676477432251,
+      "objective/train/weights_max": 1.0512162446975708,
+      "objective/train/weights_min": 0.9820363521575928,
+      "theoretical_loss": 3.3455185512447527,
+      "tokens_seen": 2726297600
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.324252743094968e-05,
+      "loss": 3.0983,
+      "theoretical_loss": 3.3455185512447527,
+      "tokens_seen": 2726297600
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.3053348467650397e-05,
+      "loss": 3.1182,
+      "theoretical_loss": 3.3454177091199586,
+      "tokens_seen": 2727346176
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.2864169504351116e-05,
+      "loss": 3.0496,
+      "theoretical_loss": 3.3453169166092236,
+      "tokens_seen": 2728394752
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.2674990541051837e-05,
+      "loss": 3.0598,
+      "theoretical_loss": 3.345216173669085,
+      "tokens_seen": 2729443328
+    },
+    {
+      "epoch": 0.97,
+      "objective/train/advantage_avg": 0.48440757393836975,
+      "objective/train/docs_used": 1535248,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1303958892822266,
+      "objective/train/original_loss": 3.1303963661193848,
+      "objective/train/theoretical_loss": 3.3452035842848376,
+      "objective/train/tokens_used": 2750034400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2397458553314209,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0496593713760376,
+      "objective/train/weighted_lm_loss": 3.2855958938598633,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.954217791557312,
+      "theoretical_loss": 3.3452035842848376,
+      "tokens_seen": 2729574400
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.2485811577752554e-05,
+      "loss": 3.0877,
+      "theoretical_loss": 3.345115480256134,
+      "tokens_seen": 2730491904
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.2296632614453273e-05,
+      "loss": 3.1178,
+      "theoretical_loss": 3.3450148363270156,
+      "tokens_seen": 2731540480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.2107453651153993e-05,
+      "loss": 3.1079,
+      "theoretical_loss": 3.3449142418384312,
+      "tokens_seen": 2732589056
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.4586898982524872,
+      "objective/train/docs_used": 1536975,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1073994636535645,
+      "objective/train/original_loss": 3.1073994636535645,
+      "objective/train/theoretical_loss": 3.3448891009362995,
+      "objective/train/tokens_used": 2753311200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.22674831748008728,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0470212697982788,
+      "objective/train/weighted_lm_loss": 3.251424789428711,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9534921050071716,
+      "theoretical_loss": 3.3448891009362995,
+      "tokens_seen": 2732851200
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.191827468785471e-05,
+      "loss": 3.0302,
+      "theoretical_loss": 3.344813696747135,
+      "tokens_seen": 2733637632
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.172909572455543e-05,
+      "loss": 3.1274,
+      "theoretical_loss": 3.3447132010099363,
+      "tokens_seen": 2734686208
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.153991676125615e-05,
+      "loss": 3.1093,
+      "theoretical_loss": 3.344612754583699,
+      "tokens_seen": 2735734784
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.4917672872543335,
+      "objective/train/docs_used": 1538829,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1836228370666504,
+      "objective/train/original_loss": 3.1836228370666504,
+      "objective/train/theoretical_loss": 3.344575099878048,
+      "objective/train/tokens_used": 2756588000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24380403757095337,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050416111946106,
+      "objective/train/weighted_lm_loss": 3.343857765197754,
+      "objective/train/weights_max": 1.0512166023254395,
+      "objective/train/weights_min": 0.969031035900116,
+      "theoretical_loss": 3.344575099878048,
+      "tokens_seen": 2736128000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.1350737797956867e-05,
+      "loss": 3.1061,
+      "theoretical_loss": 3.3445123574253417,
+      "tokens_seen": 2736783360
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.1161558834657586e-05,
+      "loss": 3.1514,
+      "theoretical_loss": 3.3444120094918346,
+      "tokens_seen": 2737831936
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0972379871358306e-05,
+      "loss": 3.0688,
+      "theoretical_loss": 3.344311710740205,
+      "tokens_seen": 2738880512
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.490246057510376,
+      "objective/train/docs_used": 1540914,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9021008014678955,
+      "objective/train/original_loss": 2.9021010398864746,
+      "objective/train/theoretical_loss": 3.3442615797941793,
+      "objective/train/tokens_used": 2759864800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24154502153396606,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502524375915527,
+      "objective/train/weighted_lm_loss": 3.0474276542663574,
+      "objective/train/weights_max": 1.051216959953308,
+      "objective/train/weights_min": 0.9797579646110535,
+      "theoretical_loss": 3.3442615797941793,
+      "tokens_seen": 2739404800
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0783200908059024e-05,
+      "loss": 3.0935,
+      "theoretical_loss": 3.344211461127532,
+      "tokens_seen": 2739929088
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0594021944759742e-05,
+      "loss": 3.1297,
+      "theoretical_loss": 3.3441112606109504,
+      "tokens_seen": 2740977664
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0404842981460461e-05,
+      "loss": 3.1092,
+      "theoretical_loss": 3.344011109147647,
+      "tokens_seen": 2742026240
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.47691646218299866,
+      "objective/train/docs_used": 1542635,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9913744926452637,
+      "objective/train/original_loss": 2.9913742542266846,
+      "objective/train/theoretical_loss": 3.3439485393739488,
+      "objective/train/tokens_used": 2763141600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2393837571144104,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0489083528518677,
+      "objective/train/weighted_lm_loss": 3.13615083694458,
+      "objective/train/weights_max": 1.0512189865112305,
+      "objective/train/weights_min": 0.9514455199241638,
+      "theoretical_loss": 3.3439485393739488,
+      "tokens_seen": 2742681600
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.021566401816118e-05,
+      "loss": 3.1106,
+      "theoretical_loss": 3.343911006694863,
+      "tokens_seen": 2743074816
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.0026485054861899e-05,
+      "loss": 3.0931,
+      "theoretical_loss": 3.3438109532098936,
+      "tokens_seen": 2744123392
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.837306091562618e-06,
+      "loss": 3.0949,
+      "theoretical_loss": 3.343710948650087,
+      "tokens_seen": 2745171968
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.49094340205192566,
+      "objective/train/docs_used": 1544447,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.071685791015625,
+      "objective/train/original_loss": 3.071685791015625,
+      "objective/train/theoretical_loss": 3.343635977311743,
+      "objective/train/tokens_used": 2766418400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24382232129573822,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0503337383270264,
+      "objective/train/weighted_lm_loss": 3.2261123657226562,
+      "objective/train/weights_max": 1.0512171983718872,
+      "objective/train/weights_min": 0.9554123282432556,
+      "theoretical_loss": 3.343635977311743,
+      "tokens_seen": 2745958400
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.648127128263337e-06,
+      "loss": 3.1831,
+      "theoretical_loss": 3.3436109929728453,
+      "tokens_seen": 2746220544
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.458948164964057e-06,
+      "loss": 3.0834,
+      "theoretical_loss": 3.3435110861356234,
+      "tokens_seen": 2747269120
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.269769201664774e-06,
+      "loss": 3.1124,
+      "theoretical_loss": 3.3434112280959294,
+      "tokens_seen": 2748317696
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.47922295331954956,
+      "objective/train/docs_used": 1546277,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.0440077781677246,
+      "objective/train/original_loss": 3.0440077781677246,
+      "objective/train/theoretical_loss": 3.343323892307056,
+      "objective/train/tokens_used": 2769695200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23427808284759521,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0491130352020264,
+      "objective/train/weighted_lm_loss": 3.1924755573272705,
+      "objective/train/weights_max": 1.0512192249298096,
+      "objective/train/weights_min": 0.9526734948158264,
+      "theoretical_loss": 3.343323892307056,
+      "tokens_seen": 2749235200
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.080590238365493e-06,
+      "loss": 3.091,
+      "theoretical_loss": 3.343311418811325,
+      "tokens_seen": 2749366272
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.891411275066214e-06,
+      "loss": 3.1046,
+      "theoretical_loss": 3.3432116582394253,
+      "tokens_seen": 2750414848
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.702232311766931e-06,
+      "loss": 3.1246,
+      "theoretical_loss": 3.3431119463378973,
+      "tokens_seen": 2751463424
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.4734799861907959,
+      "objective/train/docs_used": 1547942,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.2146964073181152,
+      "objective/train/original_loss": 3.2146964073181152,
+      "objective/train/theoretical_loss": 3.343012283064462,
+      "objective/train/tokens_used": 2772972000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23234401643276215,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0485291481018066,
+      "objective/train/weighted_lm_loss": 3.3720321655273438,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.963914155960083,
+      "theoretical_loss": 3.343012283064462,
+      "tokens_seen": 2752512000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.51305334846765e-06,
+      "loss": 3.0917,
+      "theoretical_loss": 3.343012283064462,
+      "tokens_seen": 2752512000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.32387438516837e-06,
+      "loss": 3.0486,
+      "theoretical_loss": 3.342912668376892,
+      "tokens_seen": 2753560576
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 8.134695421869088e-06,
+      "loss": 3.0753,
+      "theoretical_loss": 3.342813102233014,
+      "tokens_seen": 2754609152
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.945516458569806e-06,
+      "loss": 3.0843,
+      "theoretical_loss": 3.3427135845907063,
+      "tokens_seen": 2755657728
+    },
+    {
+      "epoch": 0.98,
+      "objective/train/advantage_avg": 0.4692471921443939,
+      "objective/train/docs_used": 1550559,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.7862179279327393,
+      "objective/train/original_loss": 2.78621768951416,
+      "objective/train/theoretical_loss": 3.342701148293589,
+      "objective/train/tokens_used": 2776248800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23171769082546234,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0481022596359253,
+      "objective/train/weighted_lm_loss": 2.9225549697875977,
+      "objective/train/weights_max": 1.0512168407440186,
+      "objective/train/weights_min": 0.9525762796401978,
+      "theoretical_loss": 3.342701148293589,
+      "tokens_seen": 2755788800
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 7.756337495270527e-06,
+      "loss": 3.1165,
+      "theoretical_loss": 3.3426141154079008,
+      "tokens_seen": 2756706304
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.567158531971245e-06,
+      "loss": 2.9891,
+      "theoretical_loss": 3.3425146946425803,
+      "tokens_seen": 2757754880
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.377979568671964e-06,
+      "loss": 3.0308,
+      "theoretical_loss": 3.3424153222527817,
+      "tokens_seen": 2758803456
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.48670539259910583,
+      "objective/train/docs_used": 1552546,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9341201782226562,
+      "objective/train/original_loss": 2.934119701385498,
+      "objective/train/theoretical_loss": 3.3423904867090948,
+      "objective/train/tokens_used": 2779525600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24417608976364136,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049911618232727,
+      "objective/train/weighted_lm_loss": 3.079969882965088,
+      "objective/train/weights_max": 1.051216721534729,
+      "objective/train/weights_min": 0.9527941942214966,
+      "theoretical_loss": 3.3423904867090948,
+      "tokens_seen": 2759065600
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 7.188800605372683e-06,
+      "loss": 3.0546,
+      "theoretical_loss": 3.342315998196593,
+      "tokens_seen": 2759852032
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.9996216420734016e-06,
+      "loss": 3.0525,
+      "theoretical_loss": 3.342216722432155,
+      "tokens_seen": 2760900608
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.81044267877412e-06,
+      "loss": 3.0923,
+      "theoretical_loss": 3.3421174949176606,
+      "tokens_seen": 2761949184
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.48612168431282043,
+      "objective/train/docs_used": 1554602,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1402394771575928,
+      "objective/train/original_loss": 3.140239715576172,
+      "objective/train/theoretical_loss": 3.3420802970306394,
+      "objective/train/tokens_used": 2782802400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23997044563293457,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0498319864273071,
+      "objective/train/weighted_lm_loss": 3.2957353591918945,
+      "objective/train/weights_max": 1.0512193441390991,
+      "objective/train/weights_min": 0.9562333226203918,
+      "theoretical_loss": 3.3420802970306394,
+      "tokens_seen": 2762342400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.62126371547484e-06,
+      "loss": 3.0371,
+      "theoretical_loss": 3.3420183156113543,
+      "tokens_seen": 2762997760
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.432084752175558e-06,
+      "loss": 3.0072,
+      "theoretical_loss": 3.3419191844715326,
+      "tokens_seen": 2764046336
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.242905788876277e-06,
+      "loss": 2.9878,
+      "theoretical_loss": 3.341820101456545,
+      "tokens_seen": 2765094912
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.48010215163230896,
+      "objective/train/docs_used": 1555428,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.860677480697632,
+      "objective/train/original_loss": 2.860677480697632,
+      "objective/train/theoretical_loss": 3.341770577982862,
+      "objective/train/tokens_used": 2786079200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23556600511074066,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049207329750061,
+      "objective/train/weighted_lm_loss": 3.00154709815979,
+      "objective/train/weights_max": 1.0512183904647827,
+      "objective/train/weights_min": 0.9520919322967529,
+      "theoretical_loss": 3.341770577982862,
+      "tokens_seen": 2765619200
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 6.053726825576997e-06,
+      "loss": 3.1445,
+      "theoretical_loss": 3.3417210665247916,
+      "tokens_seen": 2766143488
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.864547862277715e-06,
+      "loss": 3.1284,
+      "theoretical_loss": 3.3416220796347242,
+      "tokens_seen": 2767192064
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.6753688989784335e-06,
+      "loss": 3.041,
+      "theoretical_loss": 3.341523140744847,
+      "tokens_seen": 2768240640
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.48793041706085205,
+      "objective/train/docs_used": 1557592,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1938629150390625,
+      "objective/train/original_loss": 3.1938624382019043,
+      "objective/train/theoretical_loss": 3.341461328295353,
+      "objective/train/tokens_used": 2789356000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24034656584262848,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050014853477478,
+      "objective/train/weighted_lm_loss": 3.354142427444458,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9659320116043091,
+      "theoretical_loss": 3.341461328295353,
+      "tokens_seen": 2768896000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.486189935679153e-06,
+      "loss": 3.1212,
+      "theoretical_loss": 3.3414242498137154,
+      "tokens_seen": 2769289216
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.297010972379871e-06,
+      "loss": 3.0925,
+      "theoretical_loss": 3.341325406799936,
+      "tokens_seen": 2770337792
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.10783200908059e-06,
+      "loss": 3.1018,
+      "theoretical_loss": 3.341226611662167,
+      "tokens_seen": 2771386368
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.4908839166164398,
+      "objective/train/docs_used": 1559642,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9026548862457275,
+      "objective/train/original_loss": 2.9026551246643066,
+      "objective/train/theoretical_loss": 3.341152546702631,
+      "objective/train/tokens_used": 2792632800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24205824732780457,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050318717956543,
+      "objective/train/weighted_lm_loss": 3.049380302429199,
+      "objective/train/weights_max": 1.0512174367904663,
+      "objective/train/weights_min": 0.9522111415863037,
+      "theoretical_loss": 3.341152546702631,
+      "tokens_seen": 2772172800
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.918653045781309e-06,
+      "loss": 3.0673,
+      "theoretical_loss": 3.3411278643591173,
+      "tokens_seen": 2772434944
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.729474082482029e-06,
+      "loss": 3.1004,
+      "theoretical_loss": 3.341029164849549,
+      "tokens_seen": 2773483520
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.540295119182747e-06,
+      "loss": 3.2102,
+      "theoretical_loss": 3.3409305130922724,
+      "tokens_seen": 2774532096
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.4898316562175751,
+      "objective/train/docs_used": 1561371,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.8627278804779053,
+      "objective/train/original_loss": 2.862727642059326,
+      "objective/train/theoretical_loss": 3.3408442319441174,
+      "objective/train/tokens_used": 2795909600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24388957023620605,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0502229928970337,
+      "objective/train/weighted_lm_loss": 3.005845069885254,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.9519106149673462,
+      "theoretical_loss": 3.3408442319441174,
+      "tokens_seen": 2775449600
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.3511161558834655e-06,
+      "loss": 3.1312,
+      "theoretical_loss": 3.3408319090461513,
+      "tokens_seen": 2775580672
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.161937192584185e-06,
+      "loss": 3.0719,
+      "theoretical_loss": 3.340733352670099,
+      "tokens_seen": 2776629248
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.972758229284903e-06,
+      "loss": 3.1596,
+      "theoretical_loss": 3.3406348439230804,
+      "tokens_seen": 2777677824
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.48310354351997375,
+      "objective/train/docs_used": 1563208,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1156625747680664,
+      "objective/train/original_loss": 3.1156623363494873,
+      "objective/train/theoretical_loss": 3.3405363827641112,
+      "objective/train/tokens_used": 2799186400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.2416696399450302,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495388507843018,
+      "objective/train/weighted_lm_loss": 3.269275188446045,
+      "objective/train/weights_max": 1.0512175559997559,
+      "objective/train/weights_min": 0.951533854007721,
+      "theoretical_loss": 3.3405363827641112,
+      "tokens_seen": 2778726400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.7835792659856225e-06,
+      "loss": 3.1249,
+      "theoretical_loss": 3.3405363827641112,
+      "tokens_seen": 2778726400
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.5944003026863414e-06,
+      "loss": 3.1159,
+      "theoretical_loss": 3.340437969152257,
+      "tokens_seen": 2779774976
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.40522133938706e-06,
+      "loss": 3.1107,
+      "theoretical_loss": 3.340339603046636,
+      "tokens_seen": 2780823552
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.216042376087779e-06,
+      "loss": 3.1666,
+      "theoretical_loss": 3.3402412844064138,
+      "tokens_seen": 2781872128
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.4891952872276306,
+      "objective/train/docs_used": 1564970,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.351323127746582,
+      "objective/train/original_loss": 3.351323127746582,
+      "objective/train/theoretical_loss": 3.3402289979117654,
+      "objective/train/tokens_used": 2802463200,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24344053864479065,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.050157070159912,
+      "objective/train/weighted_lm_loss": 3.5188140869140625,
+      "objective/train/weights_max": 1.05121910572052,
+      "objective/train/weights_min": 0.9516726732254028,
+      "theoretical_loss": 3.3402289979117654,
+      "tokens_seen": 2782003200
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.0268634127884983e-06,
+      "loss": 3.1592,
+      "theoretical_loss": 3.340143013190809,
+      "tokens_seen": 2782920704
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.8376844494892168e-06,
+      "loss": 3.1745,
+      "theoretical_loss": 3.3400447893590903,
+      "tokens_seen": 2783969280
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.6485054861899356e-06,
+      "loss": 3.1288,
+      "theoretical_loss": 3.339946612870576,
+      "tokens_seen": 2785017856
+    },
+    {
+      "epoch": 0.99,
+      "objective/train/advantage_avg": 0.4746108055114746,
+      "objective/train/docs_used": 1566749,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.9263644218444824,
+      "objective/train/original_loss": 2.9263644218444824,
+      "objective/train/theoretical_loss": 3.33992207614106,
+      "objective/train/tokens_used": 2805740000,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23878102004528046,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.048674464225769,
+      "objective/train/weighted_lm_loss": 3.06941556930542,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9526550769805908,
+      "theoretical_loss": 3.33992207614106,
+      "tokens_seen": 2785280000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.4593265228906545e-06,
+      "loss": 3.12,
+      "theoretical_loss": 3.3398484836846345,
+      "tokens_seen": 2786066432
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.2701475595913733e-06,
+      "loss": 3.0822,
+      "theoretical_loss": 3.3397504017606847,
+      "tokens_seen": 2787115008
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 2.0809685962920926e-06,
+      "loss": 3.1112,
+      "theoretical_loss": 3.3396523670581963,
+      "tokens_seen": 2788163584
+    },
+    {
+      "epoch": 1.0,
+      "objective/train/advantage_avg": 0.4833011329174042,
+      "objective/train/docs_used": 1568853,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.1042532920837402,
+      "objective/train/original_loss": 3.104253053665161,
+      "objective/train/theoretical_loss": 3.339615616210782,
+      "objective/train/tokens_used": 2809016800,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.24029603600502014,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.0495517253875732,
+      "objective/train/weighted_lm_loss": 3.2570862770080566,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9518541097640991,
+      "theoretical_loss": 3.339615616210782,
+      "tokens_seen": 2788556800
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.8917896329928113e-06,
+      "loss": 3.08,
+      "theoretical_loss": 3.339554379536688,
+      "tokens_seen": 2789212160
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.70261066969353e-06,
+      "loss": 3.0355,
+      "theoretical_loss": 3.339456439155728,
+      "tokens_seen": 2790260736
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.5134317063942492e-06,
+      "loss": 3.0258,
+      "theoretical_loss": 3.339358545874936,
+      "tokens_seen": 2791309312
+    },
+    {
+      "epoch": 1.0,
+      "objective/train/advantage_avg": 0.48446664214134216,
+      "objective/train/docs_used": 1571029,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 3.068040132522583,
+      "objective/train/original_loss": 3.068040132522583,
+      "objective/train/theoretical_loss": 3.3393096168844973,
+      "objective/train/tokens_used": 2812293600,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23969173431396484,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049665093421936,
+      "objective/train/weighted_lm_loss": 3.2199342250823975,
+      "objective/train/weights_max": 1.0512182712554932,
+      "objective/train/weights_min": 0.9749250411987305,
+      "theoretical_loss": 3.3393096168844973,
+      "tokens_seen": 2791833600
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.3242527430949678e-06,
+      "loss": 3.0623,
+      "theoretical_loss": 3.3392606996539804,
+      "tokens_seen": 2792357888
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.1350737797956867e-06,
+      "loss": 3.0497,
+      "theoretical_loss": 3.3391629004525782,
+      "tokens_seen": 2793406464
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 9.458948164964056e-07,
+      "loss": 3.0735,
+      "theoretical_loss": 3.3390651482304983,
+      "tokens_seen": 2794455040
+    },
+    {
+      "epoch": 1.0,
+      "objective/train/advantage_avg": 0.4827611446380615,
+      "objective/train/docs_used": 1572728,
+      "objective/train/instantaneous_batch_size": 32,
+      "objective/train/instantaneous_microbatch_size": 32768,
+      "objective/train/lm_loss": 2.77453351020813,
+      "objective/train/original_loss": 2.774533748626709,
+      "objective/train/theoretical_loss": 3.3390040769305287,
+      "objective/train/tokens_used": 2815570400,
+      "objective/train/value_avg": -0.5,
+      "objective/train/value_loss": 0.23958729207515717,
+      "objective/train/value_max": -0.5,
+      "objective/train/value_min": -0.5,
+      "objective/train/value_reward_corr": NaN,
+      "objective/train/value_std": 0.0,
+      "objective/train/weight_avg": 1.049493670463562,
+      "objective/train/weighted_lm_loss": 2.9126195907592773,
+      "objective/train/weights_max": 1.0512173175811768,
+      "objective/train/weights_min": 0.95488440990448,
+      "theoretical_loss": 3.3390040769305287,
+      "tokens_seen": 2795110400
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 7.567158531971246e-07,
+      "loss": 3.0685,
+      "theoretical_loss": 3.3389674429475575,
+      "tokens_seen": 2795503616
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 5.675368898978433e-07,
+      "loss": 3.0212,
+      "theoretical_loss": 3.3388697845636224,
+      "tokens_seen": 2796552192
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.783579265985623e-07,
+      "loss": 3.0448,
+      "theoretical_loss": 3.338772173038609,
+      "tokens_seen": 2797600768
+    }
+  ],
+  "max_steps": 2670,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.427729276882387e+18,
+  "trial_name": null,
+  "trial_params": null
+}