diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,15763 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9999786256278722,
+  "eval_steps": 400,
+  "global_step": 5848,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0005129849310676499,
+      "grad_norm": 2.118435859680176,
+      "learning_rate": 3.0716723549488053e-06,
+      "loss": 7.7542,
+      "num_input_tokens_seen": 393216,
+      "step": 3
+    },
+    {
+      "epoch": 0.0010259698621352998,
+      "grad_norm": 1.6133321523666382,
+      "learning_rate": 6.1433447098976105e-06,
+      "loss": 7.78,
+      "num_input_tokens_seen": 786432,
+      "step": 6
+    },
+    {
+      "epoch": 0.0015389547932029496,
+      "grad_norm": 1.2574195861816406,
+      "learning_rate": 9.215017064846415e-06,
+      "loss": 7.7144,
+      "num_input_tokens_seen": 1179648,
+      "step": 9
+    },
+    {
+      "epoch": 0.0020519397242705997,
+      "grad_norm": 1.3165267705917358,
+      "learning_rate": 1.2286689419795221e-05,
+      "loss": 7.656,
+      "num_input_tokens_seen": 1572864,
+      "step": 12
+    },
+    {
+      "epoch": 0.0025649246553382495,
+      "grad_norm": 1.064561367034912,
+      "learning_rate": 1.5358361774744027e-05,
+      "loss": 7.662,
+      "num_input_tokens_seen": 1966080,
+      "step": 15
+    },
+    {
+      "epoch": 0.0030779095864058993,
+      "grad_norm": 1.0571919679641724,
+      "learning_rate": 1.843003412969283e-05,
+      "loss": 7.6047,
+      "num_input_tokens_seen": 2359296,
+      "step": 18
+    },
+    {
+      "epoch": 0.003590894517473549,
+      "grad_norm": 0.8261664509773254,
+      "learning_rate": 2.1501706484641635e-05,
+      "loss": 7.5477,
+      "num_input_tokens_seen": 2752512,
+      "step": 21
+    },
+    {
+      "epoch": 0.004103879448541199,
+      "grad_norm": 0.777800977230072,
+      "learning_rate": 2.4573378839590442e-05,
+      "loss": 7.5543,
+      "num_input_tokens_seen": 3145728,
+      "step": 24
+    },
+    {
+      "epoch": 0.004616864379608849,
+      "grad_norm": 0.6865202188491821,
+      "learning_rate": 2.7645051194539246e-05,
+      "loss": 7.4878,
+      "num_input_tokens_seen": 3538944,
+      "step": 27
+    },
+    {
+      "epoch": 0.005129849310676499,
+      "grad_norm": 0.694611132144928,
+      "learning_rate": 3.0716723549488054e-05,
+      "loss": 7.4608,
+      "num_input_tokens_seen": 3932160,
+      "step": 30
+    },
+    {
+      "epoch": 0.005642834241744148,
+      "grad_norm": 0.6728237271308899,
+      "learning_rate": 3.3788395904436854e-05,
+      "loss": 7.4121,
+      "num_input_tokens_seen": 4325376,
+      "step": 33
+    },
+    {
+      "epoch": 0.006155819172811799,
+      "grad_norm": 0.6782873868942261,
+      "learning_rate": 3.686006825938566e-05,
+      "loss": 7.4209,
+      "num_input_tokens_seen": 4718592,
+      "step": 36
+    },
+    {
+      "epoch": 0.006668804103879449,
+      "grad_norm": 0.6442039012908936,
+      "learning_rate": 3.993174061433447e-05,
+      "loss": 7.3416,
+      "num_input_tokens_seen": 5111808,
+      "step": 39
+    },
+    {
+      "epoch": 0.007181789034947098,
+      "grad_norm": 0.6313900947570801,
+      "learning_rate": 4.300341296928327e-05,
+      "loss": 7.3897,
+      "num_input_tokens_seen": 5505024,
+      "step": 42
+    },
+    {
+      "epoch": 0.0076947739660147485,
+      "grad_norm": 0.6429070830345154,
+      "learning_rate": 4.6075085324232084e-05,
+      "loss": 7.3358,
+      "num_input_tokens_seen": 5898240,
+      "step": 45
+    },
+    {
+      "epoch": 0.008207758897082399,
+      "grad_norm": 0.59568852186203,
+      "learning_rate": 4.9146757679180884e-05,
+      "loss": 7.2775,
+      "num_input_tokens_seen": 6291456,
+      "step": 48
+    },
+    {
+      "epoch": 0.008720743828150048,
+      "grad_norm": 0.6876631379127502,
+      "learning_rate": 5.221843003412969e-05,
+      "loss": 7.261,
+      "num_input_tokens_seen": 6684672,
+      "step": 51
+    },
+    {
+      "epoch": 0.009233728759217697,
+      "grad_norm": 0.6824859380722046,
+      "learning_rate": 5.529010238907849e-05,
+      "loss": 7.2941,
+      "num_input_tokens_seen": 7077888,
+      "step": 54
+    },
+    {
+      "epoch": 0.009746713690285349,
+      "grad_norm": 0.7125466465950012,
+      "learning_rate": 5.83617747440273e-05,
+      "loss": 7.23,
+      "num_input_tokens_seen": 7471104,
+      "step": 57
+    },
+    {
+      "epoch": 0.010259698621352998,
+      "grad_norm": 0.7616642713546753,
+      "learning_rate": 6.143344709897611e-05,
+      "loss": 7.1531,
+      "num_input_tokens_seen": 7864320,
+      "step": 60
+    },
+    {
+      "epoch": 0.010772683552420647,
+      "grad_norm": 0.7782993912696838,
+      "learning_rate": 6.450511945392491e-05,
+      "loss": 7.158,
+      "num_input_tokens_seen": 8257536,
+      "step": 63
+    },
+    {
+      "epoch": 0.011285668483488297,
+      "grad_norm": 0.7161626815795898,
+      "learning_rate": 6.757679180887371e-05,
+      "loss": 7.1733,
+      "num_input_tokens_seen": 8650752,
+      "step": 66
+    },
+    {
+      "epoch": 0.011798653414555948,
+      "grad_norm": 0.6889225244522095,
+      "learning_rate": 7.064846416382252e-05,
+      "loss": 7.1141,
+      "num_input_tokens_seen": 9043968,
+      "step": 69
+    },
+    {
+      "epoch": 0.012311638345623597,
+      "grad_norm": 0.7553271055221558,
+      "learning_rate": 7.372013651877132e-05,
+      "loss": 7.1584,
+      "num_input_tokens_seen": 9437184,
+      "step": 72
+    },
+    {
+      "epoch": 0.012824623276691247,
+      "grad_norm": 0.6760936975479126,
+      "learning_rate": 7.679180887372012e-05,
+      "loss": 7.0536,
+      "num_input_tokens_seen": 9830400,
+      "step": 75
+    },
+    {
+      "epoch": 0.013337608207758898,
+      "grad_norm": 0.6408318281173706,
+      "learning_rate": 7.986348122866894e-05,
+      "loss": 7.0168,
+      "num_input_tokens_seen": 10223616,
+      "step": 78
+    },
+    {
+      "epoch": 0.013850593138826547,
+      "grad_norm": 0.679551899433136,
+      "learning_rate": 8.293515358361774e-05,
+      "loss": 7.0783,
+      "num_input_tokens_seen": 10616832,
+      "step": 81
+    },
+    {
+      "epoch": 0.014363578069894196,
+      "grad_norm": 0.7019697427749634,
+      "learning_rate": 8.600682593856654e-05,
+      "loss": 7.1219,
+      "num_input_tokens_seen": 11010048,
+      "step": 84
+    },
+    {
+      "epoch": 0.014876563000961848,
+      "grad_norm": 0.7888438701629639,
+      "learning_rate": 8.907849829351534e-05,
+      "loss": 7.0021,
+      "num_input_tokens_seen": 11403264,
+      "step": 87
+    },
+    {
+      "epoch": 0.015389547932029497,
+      "grad_norm": 0.8103983998298645,
+      "learning_rate": 9.215017064846417e-05,
+      "loss": 7.0218,
+      "num_input_tokens_seen": 11796480,
+      "step": 90
+    },
+    {
+      "epoch": 0.015902532863097146,
+      "grad_norm": 0.8136906027793884,
+      "learning_rate": 9.522184300341297e-05,
+      "loss": 6.9954,
+      "num_input_tokens_seen": 12189696,
+      "step": 93
+    },
+    {
+      "epoch": 0.016415517794164797,
+      "grad_norm": 0.8006098866462708,
+      "learning_rate": 9.829351535836177e-05,
+      "loss": 7.0089,
+      "num_input_tokens_seen": 12582912,
+      "step": 96
+    },
+    {
+      "epoch": 0.016928502725232445,
+      "grad_norm": 0.7752631902694702,
+      "learning_rate": 0.00010136518771331057,
+      "loss": 7.0756,
+      "num_input_tokens_seen": 12976128,
+      "step": 99
+    },
+    {
+      "epoch": 0.017441487656300096,
+      "grad_norm": 0.8363745212554932,
+      "learning_rate": 0.00010443686006825938,
+      "loss": 6.9849,
+      "num_input_tokens_seen": 13369344,
+      "step": 102
+    },
+    {
+      "epoch": 0.017954472587367747,
+      "grad_norm": 0.9236883521080017,
+      "learning_rate": 0.00010750853242320818,
+      "loss": 6.9253,
+      "num_input_tokens_seen": 13762560,
+      "step": 105
+    },
+    {
+      "epoch": 0.018467457518435395,
+      "grad_norm": 0.993817925453186,
+      "learning_rate": 0.00011058020477815698,
+      "loss": 7.0273,
+      "num_input_tokens_seen": 14155776,
+      "step": 108
+    },
+    {
+      "epoch": 0.018980442449503046,
+      "grad_norm": 0.9351868033409119,
+      "learning_rate": 0.00011365187713310579,
+      "loss": 6.9702,
+      "num_input_tokens_seen": 14548992,
+      "step": 111
+    },
+    {
+      "epoch": 0.019493427380570697,
+      "grad_norm": 0.8399161696434021,
+      "learning_rate": 0.0001167235494880546,
+      "loss": 6.9723,
+      "num_input_tokens_seen": 14942208,
+      "step": 114
+    },
+    {
+      "epoch": 0.020006412311638345,
+      "grad_norm": 0.9522429704666138,
+      "learning_rate": 0.0001197952218430034,
+      "loss": 6.9254,
+      "num_input_tokens_seen": 15335424,
+      "step": 117
+    },
+    {
+      "epoch": 0.020519397242705996,
+      "grad_norm": 1.0010826587677002,
+      "learning_rate": 0.00012286689419795221,
+      "loss": 6.8872,
+      "num_input_tokens_seen": 15728640,
+      "step": 120
+    },
+    {
+      "epoch": 0.021032382173773647,
+      "grad_norm": 0.8947874903678894,
+      "learning_rate": 0.000125938566552901,
+      "loss": 6.9628,
+      "num_input_tokens_seen": 16121856,
+      "step": 123
+    },
+    {
+      "epoch": 0.021545367104841295,
+      "grad_norm": 1.0230917930603027,
+      "learning_rate": 0.00012901023890784982,
+      "loss": 6.8417,
+      "num_input_tokens_seen": 16515072,
+      "step": 126
+    },
+    {
+      "epoch": 0.022058352035908946,
+      "grad_norm": 0.9666141271591187,
+      "learning_rate": 0.00013208191126279863,
+      "loss": 6.9335,
+      "num_input_tokens_seen": 16908288,
+      "step": 129
+    },
+    {
+      "epoch": 0.022571336966976593,
+      "grad_norm": 1.1200824975967407,
+      "learning_rate": 0.00013515358361774742,
+      "loss": 6.8832,
+      "num_input_tokens_seen": 17301504,
+      "step": 132
+    },
+    {
+      "epoch": 0.023084321898044245,
+      "grad_norm": 0.9717016220092773,
+      "learning_rate": 0.00013822525597269623,
+      "loss": 6.8967,
+      "num_input_tokens_seen": 17694720,
+      "step": 135
+    },
+    {
+      "epoch": 0.023597306829111896,
+      "grad_norm": 1.024543285369873,
+      "learning_rate": 0.00014129692832764505,
+      "loss": 6.8902,
+      "num_input_tokens_seen": 18087936,
+      "step": 138
+    },
+    {
+      "epoch": 0.024110291760179543,
+      "grad_norm": 0.9085791707038879,
+      "learning_rate": 0.00014436860068259383,
+      "loss": 6.8873,
+      "num_input_tokens_seen": 18481152,
+      "step": 141
+    },
+    {
+      "epoch": 0.024623276691247194,
+      "grad_norm": 0.8841372132301331,
+      "learning_rate": 0.00014744027303754265,
+      "loss": 6.8524,
+      "num_input_tokens_seen": 18874368,
+      "step": 144
+    },
+    {
+      "epoch": 0.025136261622314846,
+      "grad_norm": 1.0399245023727417,
+      "learning_rate": 0.00015051194539249146,
+      "loss": 6.8402,
+      "num_input_tokens_seen": 19267584,
+      "step": 147
+    },
+    {
+      "epoch": 0.025649246553382493,
+      "grad_norm": 1.4088637828826904,
+      "learning_rate": 0.00015358361774744025,
+      "loss": 6.8282,
+      "num_input_tokens_seen": 19660800,
+      "step": 150
+    },
+    {
+      "epoch": 0.026162231484450144,
+      "grad_norm": 1.1549632549285889,
+      "learning_rate": 0.00015665529010238906,
+      "loss": 6.8356,
+      "num_input_tokens_seen": 20054016,
+      "step": 153
+    },
+    {
+      "epoch": 0.026675216415517795,
+      "grad_norm": 1.6987155675888062,
+      "learning_rate": 0.00015972696245733788,
+      "loss": 6.787,
+      "num_input_tokens_seen": 20447232,
+      "step": 156
+    },
+    {
+      "epoch": 0.027188201346585443,
+      "grad_norm": 1.1561607122421265,
+      "learning_rate": 0.00016279863481228666,
+      "loss": 6.7794,
+      "num_input_tokens_seen": 20840448,
+      "step": 159
+    },
+    {
+      "epoch": 0.027701186277653094,
+      "grad_norm": 1.8383941650390625,
+      "learning_rate": 0.00016587030716723548,
+      "loss": 6.7788,
+      "num_input_tokens_seen": 21233664,
+      "step": 162
+    },
+    {
+      "epoch": 0.028214171208720745,
+      "grad_norm": 1.4902769327163696,
+      "learning_rate": 0.0001689419795221843,
+      "loss": 6.7697,
+      "num_input_tokens_seen": 21626880,
+      "step": 165
+    },
+    {
+      "epoch": 0.028727156139788393,
+      "grad_norm": 1.2899839878082275,
+      "learning_rate": 0.00017201365187713308,
+      "loss": 6.8425,
+      "num_input_tokens_seen": 22020096,
+      "step": 168
+    },
+    {
+      "epoch": 0.029240141070856044,
+      "grad_norm": 1.4876312017440796,
+      "learning_rate": 0.0001750853242320819,
+      "loss": 6.776,
+      "num_input_tokens_seen": 22413312,
+      "step": 171
+    },
+    {
+      "epoch": 0.029753126001923695,
+      "grad_norm": 1.0720467567443848,
+      "learning_rate": 0.00017815699658703068,
+      "loss": 6.7536,
+      "num_input_tokens_seen": 22806528,
+      "step": 174
+    },
+    {
+      "epoch": 0.030266110932991343,
+      "grad_norm": 1.0955810546875,
+      "learning_rate": 0.0001812286689419795,
+      "loss": 6.7726,
+      "num_input_tokens_seen": 23199744,
+      "step": 177
+    },
+    {
+      "epoch": 0.030779095864058994,
+      "grad_norm": 1.5811485052108765,
+      "learning_rate": 0.00018430034129692833,
+      "loss": 6.7334,
+      "num_input_tokens_seen": 23592960,
+      "step": 180
+    },
+    {
+      "epoch": 0.031292080795126645,
+      "grad_norm": 1.4859919548034668,
+      "learning_rate": 0.0001873720136518771,
+      "loss": 6.7376,
+      "num_input_tokens_seen": 23986176,
+      "step": 183
+    },
+    {
+      "epoch": 0.03180506572619429,
+      "grad_norm": 1.0954172611236572,
+      "learning_rate": 0.00019044368600682594,
+      "loss": 6.7563,
+      "num_input_tokens_seen": 24379392,
+      "step": 186
+    },
+    {
+      "epoch": 0.03231805065726194,
+      "grad_norm": 1.2160760164260864,
+      "learning_rate": 0.00019351535836177475,
+      "loss": 6.7449,
+      "num_input_tokens_seen": 24772608,
+      "step": 189
+    },
+    {
+      "epoch": 0.032831035588329595,
+      "grad_norm": 1.6859344244003296,
+      "learning_rate": 0.00019658703071672354,
+      "loss": 6.7386,
+      "num_input_tokens_seen": 25165824,
+      "step": 192
+    },
+    {
+      "epoch": 0.03334402051939724,
+      "grad_norm": 1.3483397960662842,
+      "learning_rate": 0.00019965870307167235,
+      "loss": 6.7087,
+      "num_input_tokens_seen": 25559040,
+      "step": 195
+    },
+    {
+      "epoch": 0.03385700545046489,
+      "grad_norm": 1.5949305295944214,
+      "learning_rate": 0.00020273037542662114,
+      "loss": 6.6816,
+      "num_input_tokens_seen": 25952256,
+      "step": 198
+    },
+    {
+      "epoch": 0.034369990381532545,
+      "grad_norm": 1.3635272979736328,
+      "learning_rate": 0.00020580204778156995,
+      "loss": 6.6855,
+      "num_input_tokens_seen": 26345472,
+      "step": 201
+    },
+    {
+      "epoch": 0.03488297531260019,
+      "grad_norm": 1.3199516534805298,
+      "learning_rate": 0.00020887372013651877,
+      "loss": 6.7078,
+      "num_input_tokens_seen": 26738688,
+      "step": 204
+    },
+    {
+      "epoch": 0.03539596024366784,
+      "grad_norm": 1.3045519590377808,
+      "learning_rate": 0.00021194539249146755,
+      "loss": 6.6587,
+      "num_input_tokens_seen": 27131904,
+      "step": 207
+    },
+    {
+      "epoch": 0.035908945174735495,
+      "grad_norm": 1.1506019830703735,
+      "learning_rate": 0.00021501706484641637,
+      "loss": 6.7181,
+      "num_input_tokens_seen": 27525120,
+      "step": 210
+    },
+    {
+      "epoch": 0.03642193010580314,
+      "grad_norm": 1.068679690361023,
+      "learning_rate": 0.00021808873720136518,
+      "loss": 6.6458,
+      "num_input_tokens_seen": 27918336,
+      "step": 213
+    },
+    {
+      "epoch": 0.03693491503687079,
+      "grad_norm": 1.2845734357833862,
+      "learning_rate": 0.00022116040955631397,
+      "loss": 6.6676,
+      "num_input_tokens_seen": 28311552,
+      "step": 216
+    },
+    {
+      "epoch": 0.037447899967938444,
+      "grad_norm": 1.4203448295593262,
+      "learning_rate": 0.00022423208191126278,
+      "loss": 6.6261,
+      "num_input_tokens_seen": 28704768,
+      "step": 219
+    },
+    {
+      "epoch": 0.03796088489900609,
+      "grad_norm": 1.3917193412780762,
+      "learning_rate": 0.00022730375426621157,
+      "loss": 6.6926,
+      "num_input_tokens_seen": 29097984,
+      "step": 222
+    },
+    {
+      "epoch": 0.03847386983007374,
+      "grad_norm": 1.2271850109100342,
+      "learning_rate": 0.00023037542662116038,
+      "loss": 6.6867,
+      "num_input_tokens_seen": 29491200,
+      "step": 225
+    },
+    {
+      "epoch": 0.038986854761141394,
+      "grad_norm": 1.958269715309143,
+      "learning_rate": 0.0002334470989761092,
+      "loss": 6.6826,
+      "num_input_tokens_seen": 29884416,
+      "step": 228
+    },
+    {
+      "epoch": 0.03949983969220904,
+      "grad_norm": 1.7181731462478638,
+      "learning_rate": 0.00023651877133105799,
+      "loss": 6.6605,
+      "num_input_tokens_seen": 30277632,
+      "step": 231
+    },
+    {
+      "epoch": 0.04001282462327669,
+      "grad_norm": 1.3246721029281616,
+      "learning_rate": 0.0002395904436860068,
+      "loss": 6.6036,
+      "num_input_tokens_seen": 30670848,
+      "step": 234
+    },
+    {
+      "epoch": 0.040525809554344344,
+      "grad_norm": 1.2964049577713013,
+      "learning_rate": 0.00024266211604095561,
+      "loss": 6.6086,
+      "num_input_tokens_seen": 31064064,
+      "step": 237
+    },
+    {
+      "epoch": 0.04103879448541199,
+      "grad_norm": 1.2255417108535767,
+      "learning_rate": 0.00024573378839590443,
+      "loss": 6.6079,
+      "num_input_tokens_seen": 31457280,
+      "step": 240
+    },
+    {
+      "epoch": 0.04155177941647964,
+      "grad_norm": 1.6006697416305542,
+      "learning_rate": 0.0002488054607508532,
+      "loss": 6.5652,
+      "num_input_tokens_seen": 31850496,
+      "step": 243
+    },
+    {
+      "epoch": 0.042064764347547294,
+      "grad_norm": 1.1786364316940308,
+      "learning_rate": 0.000251877133105802,
+      "loss": 6.6156,
+      "num_input_tokens_seen": 32243712,
+      "step": 246
+    },
+    {
+      "epoch": 0.04257774927861494,
+      "grad_norm": 1.554391622543335,
+      "learning_rate": 0.00025494880546075084,
+      "loss": 6.6044,
+      "num_input_tokens_seen": 32636928,
+      "step": 249
+    },
+    {
+      "epoch": 0.04309073420968259,
+      "grad_norm": 1.8817625045776367,
+      "learning_rate": 0.00025802047781569963,
+      "loss": 6.5893,
+      "num_input_tokens_seen": 33030144,
+      "step": 252
+    },
+    {
+      "epoch": 0.043603719140750244,
+      "grad_norm": 1.1505640745162964,
+      "learning_rate": 0.0002610921501706484,
+      "loss": 6.578,
+      "num_input_tokens_seen": 33423360,
+      "step": 255
+    },
+    {
+      "epoch": 0.04411670407181789,
+      "grad_norm": 2.1356940269470215,
+      "learning_rate": 0.00026416382252559726,
+      "loss": 6.6012,
+      "num_input_tokens_seen": 33816576,
+      "step": 258
+    },
+    {
+      "epoch": 0.04462968900288554,
+      "grad_norm": 1.7814842462539673,
+      "learning_rate": 0.00026723549488054605,
+      "loss": 6.5964,
+      "num_input_tokens_seen": 34209792,
+      "step": 261
+    },
+    {
+      "epoch": 0.04514267393395319,
+      "grad_norm": 2.086648941040039,
+      "learning_rate": 0.00027030716723549483,
+      "loss": 6.6411,
+      "num_input_tokens_seen": 34603008,
+      "step": 264
+    },
+    {
+      "epoch": 0.04565565886502084,
+      "grad_norm": 1.9855871200561523,
+      "learning_rate": 0.0002733788395904437,
+      "loss": 6.5595,
+      "num_input_tokens_seen": 34996224,
+      "step": 267
+    },
+    {
+      "epoch": 0.04616864379608849,
+      "grad_norm": 1.3594361543655396,
+      "learning_rate": 0.00027645051194539246,
+      "loss": 6.6081,
+      "num_input_tokens_seen": 35389440,
+      "step": 270
+    },
+    {
+      "epoch": 0.04668162872715614,
+      "grad_norm": 1.9229851961135864,
+      "learning_rate": 0.00027952218430034125,
+      "loss": 6.5241,
+      "num_input_tokens_seen": 35782656,
+      "step": 273
+    },
+    {
+      "epoch": 0.04719461365822379,
+      "grad_norm": 1.7178096771240234,
+      "learning_rate": 0.0002825938566552901,
+      "loss": 6.5881,
+      "num_input_tokens_seen": 36175872,
+      "step": 276
+    },
+    {
+      "epoch": 0.04770759858929144,
+      "grad_norm": 1.7998623847961426,
+      "learning_rate": 0.0002856655290102389,
+      "loss": 6.5847,
+      "num_input_tokens_seen": 36569088,
+      "step": 279
+    },
+    {
+      "epoch": 0.04822058352035909,
+      "grad_norm": 2.0001308917999268,
+      "learning_rate": 0.00028873720136518766,
+      "loss": 6.5402,
+      "num_input_tokens_seen": 36962304,
+      "step": 282
+    },
+    {
+      "epoch": 0.04873356845142674,
+      "grad_norm": 1.416505217552185,
+      "learning_rate": 0.0002918088737201365,
+      "loss": 6.5869,
+      "num_input_tokens_seen": 37355520,
+      "step": 285
+    },
+    {
+      "epoch": 0.04924655338249439,
+      "grad_norm": 1.462956190109253,
+      "learning_rate": 0.0002948805460750853,
+      "loss": 6.5351,
+      "num_input_tokens_seen": 37748736,
+      "step": 288
+    },
+    {
+      "epoch": 0.049759538313562036,
+      "grad_norm": 2.0115163326263428,
+      "learning_rate": 0.0002979522184300341,
+      "loss": 6.5625,
+      "num_input_tokens_seen": 38141952,
+      "step": 291
+    },
+    {
+      "epoch": 0.05027252324462969,
+      "grad_norm": 1.7845978736877441,
+      "learning_rate": 0.00029948936133195183,
+      "loss": 6.6064,
+      "num_input_tokens_seen": 38535168,
+      "step": 294
+    },
+    {
+      "epoch": 0.05078550817569734,
+      "grad_norm": 1.81064772605896,
+      "learning_rate": 0.0002979729497586631,
+      "loss": 6.5544,
+      "num_input_tokens_seen": 38928384,
+      "step": 297
+    },
+    {
+      "epoch": 0.051298493106764986,
+      "grad_norm": 1.8805071115493774,
+      "learning_rate": 0.00029647934160747185,
+      "loss": 6.5701,
+      "num_input_tokens_seen": 39321600,
+      "step": 300
+    },
+    {
+      "epoch": 0.05181147803783264,
+      "grad_norm": 2.1542809009552,
+      "learning_rate": 0.0002950079710284063,
+      "loss": 6.5521,
+      "num_input_tokens_seen": 39714816,
+      "step": 303
+    },
+    {
+      "epoch": 0.05232446296890029,
+      "grad_norm": 1.9905306100845337,
+      "learning_rate": 0.0002935582916359803,
+      "loss": 6.5324,
+      "num_input_tokens_seen": 40108032,
+      "step": 306
+    },
+    {
+      "epoch": 0.052837447899967936,
+      "grad_norm": 1.9549764394760132,
+      "learning_rate": 0.00029212977565671515,
+      "loss": 6.5147,
+      "num_input_tokens_seen": 40501248,
+      "step": 309
+    },
+    {
+      "epoch": 0.05335043283103559,
+      "grad_norm": 1.7094388008117676,
+      "learning_rate": 0.0002907219131218538,
+      "loss": 6.5199,
+      "num_input_tokens_seen": 40894464,
+      "step": 312
+    },
+    {
+      "epoch": 0.05386341776210324,
+      "grad_norm": 1.6284552812576294,
+      "learning_rate": 0.00028933421110246486,
+      "loss": 6.5146,
+      "num_input_tokens_seen": 41287680,
+      "step": 315
+    },
+    {
+      "epoch": 0.054376402693170886,
+      "grad_norm": 1.983896017074585,
+      "learning_rate": 0.0002879661929843272,
+      "loss": 6.5427,
+      "num_input_tokens_seen": 41680896,
+      "step": 318
+    },
+    {
+      "epoch": 0.05488938762423854,
+      "grad_norm": 1.9521673917770386,
+      "learning_rate": 0.00028661739778017726,
+      "loss": 6.5047,
+      "num_input_tokens_seen": 42074112,
+      "step": 321
+    },
+    {
+      "epoch": 0.05540237255530619,
+      "grad_norm": 2.61079740524292,
+      "learning_rate": 0.0002852873794770615,
+      "loss": 6.5187,
+      "num_input_tokens_seen": 42467328,
+      "step": 324
+    },
+    {
+      "epoch": 0.055915357486373836,
+      "grad_norm": 2.143825054168701,
+      "learning_rate": 0.00028397570641669755,
+      "loss": 6.5335,
+      "num_input_tokens_seen": 42860544,
+      "step": 327
+    },
+    {
+      "epoch": 0.05642834241744149,
+      "grad_norm": 1.2572081089019775,
+      "learning_rate": 0.00028268196070688857,
+      "loss": 6.492,
+      "num_input_tokens_seen": 43253760,
+      "step": 330
+    },
+    {
+      "epoch": 0.05694132734850914,
+      "grad_norm": 1.3765265941619873,
+      "learning_rate": 0.0002814057376621684,
+      "loss": 6.5031,
+      "num_input_tokens_seen": 43646976,
+      "step": 333
+    },
+    {
+      "epoch": 0.057454312279576786,
+      "grad_norm": 1.4847021102905273,
+      "learning_rate": 0.00028014664527197685,
+      "loss": 6.5166,
+      "num_input_tokens_seen": 44040192,
+      "step": 336
+    },
+    {
+      "epoch": 0.05796729721064444,
+      "grad_norm": 1.3950855731964111,
+      "learning_rate": 0.0002789043036947781,
+      "loss": 6.5069,
+      "num_input_tokens_seen": 44433408,
+      "step": 339
+    },
+    {
+      "epoch": 0.05848028214171209,
+      "grad_norm": 1.9534938335418701,
+      "learning_rate": 0.0002776783447766403,
+      "loss": 6.4242,
+      "num_input_tokens_seen": 44826624,
+      "step": 342
+    },
+    {
+      "epoch": 0.058993267072779736,
+      "grad_norm": 1.5846917629241943,
+      "learning_rate": 0.00027646841159289,
+      "loss": 6.4923,
+      "num_input_tokens_seen": 45219840,
+      "step": 345
+    },
+    {
+      "epoch": 0.05950625200384739,
+      "grad_norm": 1.5529935359954834,
+      "learning_rate": 0.00027527415801154584,
+      "loss": 6.5015,
+      "num_input_tokens_seen": 45613056,
+      "step": 348
+    },
+    {
+      "epoch": 0.06001923693491504,
+      "grad_norm": 2.177635908126831,
+      "learning_rate": 0.000274095248277319,
+      "loss": 6.4769,
+      "num_input_tokens_seen": 46006272,
+      "step": 351
+    },
+    {
+      "epoch": 0.060532221865982686,
+      "grad_norm": 1.630927324295044,
+      "learning_rate": 0.0002729313566150449,
+      "loss": 6.4383,
+      "num_input_tokens_seen": 46399488,
+      "step": 354
+    },
+    {
+      "epoch": 0.06104520679705034,
+      "grad_norm": 1.6595220565795898,
+      "learning_rate": 0.0002717821668514831,
+      "loss": 6.4398,
+      "num_input_tokens_seen": 46792704,
+      "step": 357
+    },
+    {
+      "epoch": 0.06155819172811799,
+      "grad_norm": 2.464336395263672,
+      "learning_rate": 0.0002706473720544871,
+      "loss": 6.4676,
+      "num_input_tokens_seen": 47185920,
+      "step": 360
+    },
+    {
+      "epoch": 0.062071176659185635,
+      "grad_norm": 1.580959439277649,
+      "learning_rate": 0.0002695266741886108,
+      "loss": 6.4727,
+      "num_input_tokens_seen": 47579136,
+      "step": 363
+    },
+    {
+      "epoch": 0.06258416159025329,
+      "grad_norm": 1.2866970300674438,
+      "learning_rate": 0.0002684197837862717,
+      "loss": 6.4078,
+      "num_input_tokens_seen": 47972352,
+      "step": 366
+    },
+    {
+      "epoch": 0.06309714652132094,
+      "grad_norm": 1.84207022190094,
+      "learning_rate": 0.00026732641963364995,
+      "loss": 6.3775,
+      "num_input_tokens_seen": 48365568,
+      "step": 369
+    },
+    {
+      "epoch": 0.06361013145238859,
+      "grad_norm": 1.3852074146270752,
+      "learning_rate": 0.0002662463084705468,
+      "loss": 6.4169,
+      "num_input_tokens_seen": 48758784,
+      "step": 372
+    },
+    {
+      "epoch": 0.06412311638345623,
+      "grad_norm": 1.644254207611084,
+      "learning_rate": 0.00026517918470347554,
+      "loss": 6.4822,
+      "num_input_tokens_seen": 49152000,
+      "step": 375
+    },
+    {
+      "epoch": 0.06463610131452388,
+      "grad_norm": 1.1741936206817627,
+      "learning_rate": 0.0002641247901313028,
+      "loss": 6.4092,
+      "num_input_tokens_seen": 49545216,
+      "step": 378
+    },
+    {
+      "epoch": 0.06514908624559154,
+      "grad_norm": 2.0758259296417236,
+      "learning_rate": 0.0002630828736827938,
+      "loss": 6.4429,
+      "num_input_tokens_seen": 49938432,
+      "step": 381
+    },
+    {
+      "epoch": 0.06566207117665919,
+      "grad_norm": 1.7567379474639893,
+      "learning_rate": 0.00026205319116545786,
+      "loss": 6.4423,
+      "num_input_tokens_seen": 50331648,
+      "step": 384
+    },
+    {
+      "epoch": 0.06617505610772684,
+      "grad_norm": 1.2850079536437988,
+      "learning_rate": 0.0002610355050251228,
+      "loss": 6.4584,
+      "num_input_tokens_seen": 50724864,
+      "step": 387
+    },
+    {
+      "epoch": 0.06668804103879448,
+      "grad_norm": 1.6754025220870972,
+      "learning_rate": 0.00026002958411570134,
+      "loss": 6.461,
+      "num_input_tokens_seen": 51118080,
+      "step": 390
+    },
+    {
+      "epoch": 0.06720102596986213,
+      "grad_norm": 1.3733254671096802,
+      "learning_rate": 0.0002590352034786418,
+      "loss": 6.4098,
+      "num_input_tokens_seen": 51511296,
+      "step": 393
+    },
+    {
+      "epoch": 0.06771401090092978,
+      "grad_norm": 1.1443592309951782,
+      "learning_rate": 0.0002580521441315865,
+      "loss": 6.34,
+      "num_input_tokens_seen": 51904512,
+      "step": 396
+    },
+    {
+      "epoch": 0.06822699583199744,
+      "grad_norm": 1.9371726512908936,
+      "learning_rate": 0.0002570801928657861,
+      "loss": 6.4019,
+      "num_input_tokens_seen": 52297728,
+      "step": 399
+    },
+    {
+      "epoch": 0.06839799080901998,
+      "eval_accuracy": 0.1277788633773001,
+      "eval_loss": 6.768958568572998,
+      "eval_runtime": 112.6432,
+      "eval_samples_per_second": 2.663,
+      "eval_steps_per_second": 1.332,
+      "num_input_tokens_seen": 52428800,
+      "step": 400
+    },
+    {
+      "epoch": 0.06873998076306509,
+      "grad_norm": 1.4626785516738892,
+      "learning_rate": 0.0002561191420518449,
+      "loss": 6.3792,
+      "num_input_tokens_seen": 52690944,
+      "step": 402
+    },
+    {
+      "epoch": 0.06925296569413274,
+      "grad_norm": 1.1538268327713013,
+      "learning_rate": 0.0002551687894533952,
+      "loss": 6.3429,
+      "num_input_tokens_seen": 53084160,
+      "step": 405
+    },
+    {
+      "epoch": 0.06976595062520038,
+      "grad_norm": 1.803175926208496,
+      "learning_rate": 0.00025422893804831985,
+      "loss": 6.3593,
+      "num_input_tokens_seen": 53477376,
+      "step": 408
+    },
+    {
+      "epoch": 0.07027893555626803,
+      "grad_norm": 1.3619705438613892,
+      "learning_rate": 0.0002532993958571671,
+      "loss": 6.3489,
+      "num_input_tokens_seen": 53870592,
+      "step": 411
+    },
+    {
+      "epoch": 0.07079192048733568,
+      "grad_norm": 1.1999845504760742,
+      "learning_rate": 0.0002523799757784144,
+      "loss": 6.3924,
+      "num_input_tokens_seen": 54263808,
+      "step": 414
+    },
+    {
+      "epoch": 0.07130490541840333,
+      "grad_norm": 1.1951202154159546,
+      "learning_rate": 0.000251470495430264,
+      "loss": 6.356,
+      "num_input_tokens_seen": 54657024,
+      "step": 417
+    },
+    {
+      "epoch": 0.07181789034947099,
+      "grad_norm": 1.117151141166687,
+      "learning_rate": 0.0002505707769986641,
+      "loss": 6.2931,
+      "num_input_tokens_seen": 55050240,
+      "step": 420
+    },
+    {
+      "epoch": 0.07233087528053864,
+      "grad_norm": 1.0864099264144897,
+      "learning_rate": 0.00024968064709126914,
+      "loss": 6.3978,
+      "num_input_tokens_seen": 55443456,
+      "step": 423
+    },
+    {
+      "epoch": 0.07284386021160628,
+      "grad_norm": 1.4912980794906616,
+      "learning_rate": 0.0002487999365970663,
+      "loss": 6.3532,
+      "num_input_tokens_seen": 55836672,
+      "step": 426
+    },
+    {
+      "epoch": 0.07335684514267393,
+      "grad_norm": 1.2617565393447876,
+      "learning_rate": 0.0002479284805514112,
+      "loss": 6.3529,
+      "num_input_tokens_seen": 56229888,
+      "step": 429
+    },
+    {
+      "epoch": 0.07386983007374158,
+      "grad_norm": 1.585567831993103,
+      "learning_rate": 0.00024706611800622653,
+      "loss": 6.2868,
+      "num_input_tokens_seen": 56623104,
+      "step": 432
+    },
+    {
+      "epoch": 0.07438281500480923,
+      "grad_norm": 1.342955231666565,
+      "learning_rate": 0.00024621269190513393,
+      "loss": 6.3653,
+      "num_input_tokens_seen": 57016320,
+      "step": 435
+    },
+    {
+      "epoch": 0.07489579993587689,
+      "grad_norm": 1.0312269926071167,
+      "learning_rate": 0.00024536804896329673,
+      "loss": 6.3066,
+      "num_input_tokens_seen": 57409536,
+      "step": 438
+    },
+    {
+      "epoch": 0.07540878486694454,
+      "grad_norm": 1.047814130783081,
+      "learning_rate": 0.00024453203955176697,
+      "loss": 6.2996,
+      "num_input_tokens_seen": 57802752,
+      "step": 441
+    },
+    {
+      "epoch": 0.07592176979801218,
+      "grad_norm": 2.0140538215637207,
+      "learning_rate": 0.00024370451758613725,
+      "loss": 6.3169,
+      "num_input_tokens_seen": 58195968,
+      "step": 444
+    },
+    {
+      "epoch": 0.07643475472907983,
+      "grad_norm": 1.7778139114379883,
+      "learning_rate": 0.00024288534041930982,
+      "loss": 6.4133,
+      "num_input_tokens_seen": 58589184,
+      "step": 447
+    },
+    {
+      "epoch": 0.07694773966014748,
+      "grad_norm": 1.4507876634597778,
+      "learning_rate": 0.0002420743687382041,
+      "loss": 6.3126,
+      "num_input_tokens_seen": 58982400,
+      "step": 450
+    },
+    {
+      "epoch": 0.07746072459121513,
+      "grad_norm": 1.4134477376937866,
+      "learning_rate": 0.0002412714664642326,
+      "loss": 6.2931,
+      "num_input_tokens_seen": 59375616,
+      "step": 453
+    },
+    {
+      "epoch": 0.07797370952228279,
+      "grad_norm": 0.8874240517616272,
+      "learning_rate": 0.00024047650065738447,
+      "loss": 6.3292,
+      "num_input_tokens_seen": 59768832,
+      "step": 456
+    },
+    {
+      "epoch": 0.07848669445335044,
+      "grad_norm": 0.8925871253013611,
+      "learning_rate": 0.00023968934142376222,
+      "loss": 6.3195,
+      "num_input_tokens_seen": 60162048,
+      "step": 459
+    },
+    {
+      "epoch": 0.07899967938441808,
+      "grad_norm": 1.0737918615341187,
+      "learning_rate": 0.00023890986182642624,
+      "loss": 6.3276,
+      "num_input_tokens_seen": 60555264,
+      "step": 462
+    },
+    {
+      "epoch": 0.07951266431548573,
+      "grad_norm": 1.271182894706726,
+      "learning_rate": 0.00023813793779940825,
+      "loss": 6.271,
+      "num_input_tokens_seen": 60948480,
+      "step": 465
+    },
+    {
+      "epoch": 0.08002564924655338,
+      "grad_norm": 1.3476979732513428,
+      "learning_rate": 0.0002373734480647611,
+      "loss": 6.2534,
+      "num_input_tokens_seen": 61341696,
+      "step": 468
+    },
+    {
+      "epoch": 0.08053863417762103,
+      "grad_norm": 1.1347360610961914,
+      "learning_rate": 0.00023661627405251905,
+      "loss": 6.322,
+      "num_input_tokens_seen": 61734912,
+      "step": 471
+    },
+    {
+      "epoch": 0.08105161910868869,
+      "grad_norm": 1.2227282524108887,
+      "learning_rate": 0.00023586629982344883,
+      "loss": 6.2605,
+      "num_input_tokens_seen": 62128128,
+      "step": 474
+    },
+    {
+      "epoch": 0.08156460403975634,
+      "grad_norm": 1.0676379203796387,
+      "learning_rate": 0.0002351234119944769,
+      "loss": 6.2544,
+      "num_input_tokens_seen": 62521344,
+      "step": 477
+    },
+    {
+      "epoch": 0.08207758897082398,
+      "grad_norm": 1.1656867265701294,
+      "learning_rate": 0.00023438749966668443,
+      "loss": 6.2735,
+      "num_input_tokens_seen": 62914560,
+      "step": 480
+    },
+    {
+      "epoch": 0.08259057390189163,
+      "grad_norm": 0.9971214532852173,
+      "learning_rate": 0.00023365845435576572,
+      "loss": 6.2611,
+      "num_input_tokens_seen": 63307776,
+      "step": 483
+    },
+    {
+      "epoch": 0.08310355883295928,
+      "grad_norm": 1.160860300064087,
+      "learning_rate": 0.0002329361699248514,
+      "loss": 6.2435,
+      "num_input_tokens_seen": 63700992,
+      "step": 486
+    },
+    {
+      "epoch": 0.08361654376402693,
+      "grad_norm": 0.8638364672660828,
+      "learning_rate": 0.00023222054251960172,
+      "loss": 6.2793,
+      "num_input_tokens_seen": 64094208,
+      "step": 489
+    },
+    {
+      "epoch": 0.08412952869509459,
+      "grad_norm": 0.9435164928436279,
+      "learning_rate": 0.00023151147050548,
+      "loss": 6.278,
+      "num_input_tokens_seen": 64487424,
+      "step": 492
+    },
+    {
+      "epoch": 0.08464251362616224,
+      "grad_norm": 0.7893585562705994,
+      "learning_rate": 0.00023080885440712032,
+      "loss": 6.2768,
+      "num_input_tokens_seen": 64880640,
+      "step": 495
+    },
+    {
+      "epoch": 0.08515549855722988,
+      "grad_norm": 1.150215983390808,
+      "learning_rate": 0.00023011259684970676,
+      "loss": 6.2422,
+      "num_input_tokens_seen": 65273856,
+      "step": 498
+    },
+    {
+      "epoch": 0.08566848348829753,
+      "grad_norm": 1.1255900859832764,
+      "learning_rate": 0.00022942260250228647,
+      "loss": 6.2772,
+      "num_input_tokens_seen": 65667072,
+      "step": 501
+    },
+    {
+      "epoch": 0.08618146841936518,
+      "grad_norm": 1.0153459310531616,
+      "learning_rate": 0.00022873877802294162,
+      "loss": 6.2121,
+      "num_input_tokens_seen": 66060288,
+      "step": 504
+    },
+    {
+      "epoch": 0.08669445335043283,
+      "grad_norm": 0.8988346457481384,
+      "learning_rate": 0.0002280610320057476,
+      "loss": 6.2168,
+      "num_input_tokens_seen": 66453504,
+      "step": 507
+    },
+    {
+      "epoch": 0.08720743828150049,
+      "grad_norm": 1.5252900123596191,
+      "learning_rate": 0.00022738927492945034,
+      "loss": 6.269,
+      "num_input_tokens_seen": 66846720,
+      "step": 510
+    },
+    {
+      "epoch": 0.08772042321256814,
+      "grad_norm": 1.5005996227264404,
+      "learning_rate": 0.00022672341910779707,
+      "loss": 6.2683,
+      "num_input_tokens_seen": 67239936,
+      "step": 513
+    },
+    {
+      "epoch": 0.08823340814363578,
+      "grad_norm": 1.3754152059555054,
+      "learning_rate": 0.00022606337864145685,
+      "loss": 6.2707,
+      "num_input_tokens_seen": 67633152,
+      "step": 516
+    },
+    {
+      "epoch": 0.08874639307470343,
+      "grad_norm": 1.0265483856201172,
+      "learning_rate": 0.0002254090693714725,
+      "loss": 6.2469,
+      "num_input_tokens_seen": 68026368,
+      "step": 519
+    },
+    {
+      "epoch": 0.08925937800577108,
+      "grad_norm": 1.0772042274475098,
+      "learning_rate": 0.00022476040883418578,
+      "loss": 6.2262,
+      "num_input_tokens_seen": 68419584,
+      "step": 522
+    },
+    {
+      "epoch": 0.08977236293683873,
+      "grad_norm": 1.050948977470398,
+      "learning_rate": 0.00022411731621758152,
+      "loss": 6.2141,
+      "num_input_tokens_seen": 68812800,
+      "step": 525
+    },
+    {
+      "epoch": 0.09028534786790637,
+      "grad_norm": 1.455889344215393,
+      "learning_rate": 0.00022347971231899736,
+      "loss": 6.2429,
+      "num_input_tokens_seen": 69206016,
+      "step": 528
+    },
+    {
+      "epoch": 0.09079833279897404,
+      "grad_norm": 1.0375335216522217,
+      "learning_rate": 0.00022284751950415004,
+      "loss": 6.2112,
+      "num_input_tokens_seen": 69599232,
+      "step": 531
+    },
+    {
+      "epoch": 0.09131131773004168,
+      "grad_norm": 0.9029484987258911,
+      "learning_rate": 0.00022222066166742937,
+      "loss": 6.212,
+      "num_input_tokens_seen": 69992448,
+      "step": 534
+    },
+    {
+      "epoch": 0.09182430266110933,
+      "grad_norm": 2.0414113998413086,
+      "learning_rate": 0.0002215990641934136,
+      "loss": 6.2324,
+      "num_input_tokens_seen": 70385664,
+      "step": 537
+    },
+    {
+      "epoch": 0.09233728759217698,
+      "grad_norm": 1.7731704711914062,
+      "learning_rate": 0.00022098265391956294,
+      "loss": 6.2663,
+      "num_input_tokens_seen": 70778880,
+      "step": 540
+    },
+    {
+      "epoch": 0.09285027252324463,
+      "grad_norm": 1.9474400281906128,
+      "learning_rate": 0.00022037135910004776,
+      "loss": 6.2006,
+      "num_input_tokens_seen": 71172096,
+      "step": 543
+    },
+    {
+      "epoch": 0.09336325745431227,
+      "grad_norm": 1.139887809753418,
+      "learning_rate": 0.00021976510937067167,
+      "loss": 6.1835,
+      "num_input_tokens_seen": 71565312,
+      "step": 546
+    },
+    {
+      "epoch": 0.09387624238537993,
+      "grad_norm": 1.4211649894714355,
+      "learning_rate": 0.0002191638357148503,
+      "loss": 6.2367,
+      "num_input_tokens_seen": 71958528,
+      "step": 549
+    },
+    {
+      "epoch": 0.09438922731644758,
+      "grad_norm": 1.0333606004714966,
+      "learning_rate": 0.00021856747043060817,
+      "loss": 6.1811,
+      "num_input_tokens_seen": 72351744,
+      "step": 552
+    },
+    {
+      "epoch": 0.09490221224751523,
+      "grad_norm": 1.1093227863311768,
+      "learning_rate": 0.00021797594709855838,
+      "loss": 6.1716,
+      "num_input_tokens_seen": 72744960,
+      "step": 555
+    },
+    {
+      "epoch": 0.09541519717858288,
+      "grad_norm": 1.3098039627075195,
+      "learning_rate": 0.00021738920055083008,
+      "loss": 6.2282,
+      "num_input_tokens_seen": 73138176,
+      "step": 558
+    },
+    {
+      "epoch": 0.09592818210965053,
+      "grad_norm": 0.9683685898780823,
+      "learning_rate": 0.00021680716684091162,
+      "loss": 6.1501,
+      "num_input_tokens_seen": 73531392,
+      "step": 561
+    },
+    {
+      "epoch": 0.09644116704071817,
+      "grad_norm": 0.9972584247589111,
+      "learning_rate": 0.0002162297832143763,
+      "loss": 6.1839,
+      "num_input_tokens_seen": 73924608,
+      "step": 564
+    },
+    {
+      "epoch": 0.09695415197178583,
+      "grad_norm": 0.8736885190010071,
+      "learning_rate": 0.00021565698808046193,
+      "loss": 6.1591,
+      "num_input_tokens_seen": 74317824,
+      "step": 567
+    },
+    {
+      "epoch": 0.09746713690285348,
+      "grad_norm": 1.025628924369812,
+      "learning_rate": 0.0002150887209844738,
+      "loss": 6.2475,
+      "num_input_tokens_seen": 74711040,
+      "step": 570
+    },
+    {
+      "epoch": 0.09798012183392113,
+      "grad_norm": 1.068459153175354,
+      "learning_rate": 0.00021452492258098351,
+      "loss": 6.1618,
+      "num_input_tokens_seen": 75104256,
+      "step": 573
+    },
+    {
+      "epoch": 0.09849310676498878,
+      "grad_norm": 0.8722976446151733,
+      "learning_rate": 0.0002139655346077961,
+      "loss": 6.1769,
+      "num_input_tokens_seen": 75497472,
+      "step": 576
+    },
+    {
+      "epoch": 0.09900609169605643,
+      "grad_norm": 0.99879390001297,
+      "learning_rate": 0.00021341049986066098,
+      "loss": 6.1479,
+      "num_input_tokens_seen": 75890688,
+      "step": 579
+    },
+    {
+      "epoch": 0.09951907662712407,
+      "grad_norm": 1.2947535514831543,
+      "learning_rate": 0.00021285976216869982,
+      "loss": 6.1689,
+      "num_input_tokens_seen": 76283904,
+      "step": 582
+    },
+    {
+      "epoch": 0.10003206155819173,
+      "grad_norm": 1.198506236076355,
+      "learning_rate": 0.00021231326637052871,
+      "loss": 6.176,
+      "num_input_tokens_seen": 76677120,
+      "step": 585
+    },
+    {
+      "epoch": 0.10054504648925938,
+      "grad_norm": 1.9186298847198486,
+      "learning_rate": 0.00021177095829105132,
+      "loss": 6.1542,
+      "num_input_tokens_seen": 77070336,
+      "step": 588
+    },
+    {
+      "epoch": 0.10105803142032703,
+      "grad_norm": 1.6377959251403809,
+      "learning_rate": 0.00021123278471890086,
+      "loss": 6.1783,
+      "num_input_tokens_seen": 77463552,
+      "step": 591
+    },
+    {
+      "epoch": 0.10157101635139468,
+      "grad_norm": 1.5491153001785278,
+      "learning_rate": 0.00021069869338450912,
+      "loss": 6.192,
+      "num_input_tokens_seen": 77856768,
+      "step": 594
+    },
+    {
+      "epoch": 0.10208400128246232,
+      "grad_norm": 1.4104523658752441,
+      "learning_rate": 0.0002101686329387827,
+      "loss": 6.2015,
+      "num_input_tokens_seen": 78249984,
+      "step": 597
+    },
+    {
+      "epoch": 0.10259698621352997,
+      "grad_norm": 1.230622410774231,
+      "learning_rate": 0.00020964255293236627,
+      "loss": 6.1604,
+      "num_input_tokens_seen": 78643200,
+      "step": 600
+    },
+    {
+      "epoch": 0.10310997114459763,
+      "grad_norm": 0.9526540040969849,
+      "learning_rate": 0.00020912040379547395,
+      "loss": 6.1395,
+      "num_input_tokens_seen": 79036416,
+      "step": 603
+    },
+    {
+      "epoch": 0.10362295607566528,
+      "grad_norm": 1.131076455116272,
+      "learning_rate": 0.00020860213681827064,
+      "loss": 6.1538,
+      "num_input_tokens_seen": 79429632,
+      "step": 606
+    },
+    {
+      "epoch": 0.10413594100673293,
+      "grad_norm": 1.2227041721343994,
+      "learning_rate": 0.00020808770413178535,
+      "loss": 6.1001,
+      "num_input_tokens_seen": 79822848,
+      "step": 609
+    },
+    {
+      "epoch": 0.10464892593780058,
+      "grad_norm": 1.2456010580062866,
+      "learning_rate": 0.00020757705868933984,
+      "loss": 6.153,
+      "num_input_tokens_seen": 80216064,
+      "step": 612
+    },
+    {
+      "epoch": 0.10516191086886822,
+      "grad_norm": 1.1259610652923584,
+      "learning_rate": 0.00020707015424847639,
+      "loss": 6.1156,
+      "num_input_tokens_seen": 80609280,
+      "step": 615
+    },
+    {
+      "epoch": 0.10567489579993587,
+      "grad_norm": 1.1174367666244507,
+      "learning_rate": 0.00020656694535336808,
+      "loss": 6.1389,
+      "num_input_tokens_seen": 81002496,
+      "step": 618
+    },
+    {
+      "epoch": 0.10618788073100352,
+      "grad_norm": 1.1163129806518555,
+      "learning_rate": 0.00020606738731769765,
+      "loss": 6.1592,
+      "num_input_tokens_seen": 81395712,
+      "step": 621
+    },
+    {
+      "epoch": 0.10670086566207118,
+      "grad_norm": 1.0666199922561646,
+      "learning_rate": 0.0002055714362079892,
+      "loss": 6.1443,
+      "num_input_tokens_seen": 81788928,
+      "step": 624
+    },
+    {
+      "epoch": 0.10721385059313883,
+      "grad_norm": 1.0415575504302979,
+      "learning_rate": 0.00020507904882737917,
+      "loss": 6.1783,
+      "num_input_tokens_seen": 82182144,
+      "step": 627
+    },
+    {
+      "epoch": 0.10772683552420648,
+      "grad_norm": 1.8121472597122192,
+      "learning_rate": 0.00020459018269981298,
+      "loss": 6.1281,
+      "num_input_tokens_seen": 82575360,
+      "step": 630
+    },
+    {
+      "epoch": 0.10823982045527412,
+      "grad_norm": 1.4155458211898804,
+      "learning_rate": 0.00020410479605465385,
+      "loss": 6.1657,
+      "num_input_tokens_seen": 82968576,
+      "step": 633
+    },
+    {
+      "epoch": 0.10875280538634177,
+      "grad_norm": 1.4348151683807373,
+      "learning_rate": 0.00020362284781169176,
+      "loss": 6.1204,
+      "num_input_tokens_seen": 83361792,
+      "step": 636
+    },
+    {
+      "epoch": 0.10926579031740942,
+      "grad_norm": 1.1229435205459595,
+      "learning_rate": 0.00020314429756653965,
+      "loss": 6.1741,
+      "num_input_tokens_seen": 83755008,
+      "step": 639
+    },
+    {
+      "epoch": 0.10977877524847708,
+      "grad_norm": 1.871185064315796,
+      "learning_rate": 0.00020266910557640547,
+      "loss": 6.1443,
+      "num_input_tokens_seen": 84148224,
+      "step": 642
+    },
+    {
+      "epoch": 0.11029176017954473,
+      "grad_norm": 1.2954288721084595,
+      "learning_rate": 0.00020219723274622864,
+      "loss": 6.0994,
+      "num_input_tokens_seen": 84541440,
+      "step": 645
+    },
+    {
+      "epoch": 0.11080474511061238,
+      "grad_norm": 1.6798019409179688,
+      "learning_rate": 0.00020172864061517005,
+      "loss": 6.105,
+      "num_input_tokens_seen": 84934656,
+      "step": 648
+    },
+    {
+      "epoch": 0.11131773004168002,
+      "grad_norm": 1.2881441116333008,
+      "learning_rate": 0.00020126329134344468,
+      "loss": 6.0997,
+      "num_input_tokens_seen": 85327872,
+      "step": 651
+    },
+    {
+      "epoch": 0.11183071497274767,
+      "grad_norm": 1.2833970785140991,
+      "learning_rate": 0.000200801147699487,
+      "loss": 6.084,
+      "num_input_tokens_seen": 85721088,
+      "step": 654
+    },
+    {
+      "epoch": 0.11234369990381532,
+      "grad_norm": 1.1184037923812866,
+      "learning_rate": 0.00020034217304743868,
+      "loss": 6.0939,
+      "num_input_tokens_seen": 86114304,
+      "step": 657
+    },
+    {
+      "epoch": 0.11285668483488298,
+      "grad_norm": 1.2673637866973877,
+      "learning_rate": 0.00019988633133495007,
+      "loss": 6.058,
+      "num_input_tokens_seen": 86507520,
+      "step": 660
+    },
+    {
+      "epoch": 0.11336966976595063,
+      "grad_norm": 1.0385109186172485,
+      "learning_rate": 0.00019943358708128528,
+      "loss": 6.0954,
+      "num_input_tokens_seen": 86900736,
+      "step": 663
+    },
+    {
+      "epoch": 0.11388265469701828,
+      "grad_norm": 1.233398675918579,
+      "learning_rate": 0.00019898390536572197,
+      "loss": 6.1543,
+      "num_input_tokens_seen": 87293952,
+      "step": 666
+    },
+    {
+      "epoch": 0.11439563962808592,
+      "grad_norm": 0.970950186252594,
+      "learning_rate": 0.00019853725181623823,
+      "loss": 6.1156,
+      "num_input_tokens_seen": 87687168,
+      "step": 669
+    },
+    {
+      "epoch": 0.11490862455915357,
+      "grad_norm": 1.1220591068267822,
+      "learning_rate": 0.00019809359259847711,
+      "loss": 6.1181,
+      "num_input_tokens_seen": 88080384,
+      "step": 672
+    },
+    {
+      "epoch": 0.11542160949022122,
+      "grad_norm": 1.175992488861084,
+      "learning_rate": 0.00019765289440498121,
+      "loss": 6.1052,
+      "num_input_tokens_seen": 88473600,
+      "step": 675
+    },
+    {
+      "epoch": 0.11593459442128888,
+      "grad_norm": 1.138728141784668,
+      "learning_rate": 0.00019721512444468987,
+      "loss": 6.059,
+      "num_input_tokens_seen": 88866816,
+      "step": 678
+    },
+    {
+      "epoch": 0.11644757935235653,
+      "grad_norm": 1.0036921501159668,
+      "learning_rate": 0.00019678025043269053,
+      "loss": 6.065,
+      "num_input_tokens_seen": 89260032,
+      "step": 681
+    },
+    {
+      "epoch": 0.11696056428342418,
+      "grad_norm": 0.8844671249389648,
+      "learning_rate": 0.00019634824058021848,
+      "loss": 6.1027,
+      "num_input_tokens_seen": 89653248,
+      "step": 684
+    },
+    {
+      "epoch": 0.11747354921449182,
+      "grad_norm": 1.0989590883255005,
+      "learning_rate": 0.000195919063584896,
+      "loss": 6.1392,
+      "num_input_tokens_seen": 90046464,
+      "step": 687
+    },
+    {
+      "epoch": 0.11798653414555947,
+      "grad_norm": 0.9273776412010193,
+      "learning_rate": 0.00019549268862120603,
+      "loss": 6.097,
+      "num_input_tokens_seen": 90439680,
+      "step": 690
+    },
+    {
+      "epoch": 0.11849951907662712,
+      "grad_norm": 0.8641604781150818,
+      "learning_rate": 0.00019506908533119244,
+      "loss": 6.08,
+      "num_input_tokens_seen": 90832896,
+      "step": 693
+    },
+    {
+      "epoch": 0.11901250400769478,
+      "grad_norm": 0.8257124423980713,
+      "learning_rate": 0.00019464822381538125,
+      "loss": 6.0782,
+      "num_input_tokens_seen": 91226112,
+      "step": 696
+    },
+    {
+      "epoch": 0.11952548893876243,
+      "grad_norm": 1.1454071998596191,
+      "learning_rate": 0.00019423007462391608,
+      "loss": 6.0874,
+      "num_input_tokens_seen": 91619328,
+      "step": 699
+    },
+    {
+      "epoch": 0.12003847386983008,
+      "grad_norm": 1.0243558883666992,
+      "learning_rate": 0.0001938146087479026,
+      "loss": 6.0659,
+      "num_input_tokens_seen": 92012544,
+      "step": 702
+    },
+    {
+      "epoch": 0.12055145880089772,
+      "grad_norm": 1.1402223110198975,
+      "learning_rate": 0.0001934017976109553,
+      "loss": 6.0855,
+      "num_input_tokens_seen": 92405760,
+      "step": 705
+    },
+    {
+      "epoch": 0.12106444373196537,
+      "grad_norm": 1.1279404163360596,
+      "learning_rate": 0.00019299161306094212,
+      "loss": 6.0553,
+      "num_input_tokens_seen": 92798976,
+      "step": 708
+    },
+    {
+      "epoch": 0.12157742866303302,
+      "grad_norm": 1.2544893026351929,
+      "learning_rate": 0.00019258402736191987,
+      "loss": 6.0772,
+      "num_input_tokens_seen": 93192192,
+      "step": 711
+    },
+    {
+      "epoch": 0.12209041359410068,
+      "grad_norm": 1.333325743675232,
+      "learning_rate": 0.00019217901318625737,
+      "loss": 6.0254,
+      "num_input_tokens_seen": 93585408,
+      "step": 714
+    },
+    {
+      "epoch": 0.12260339852516833,
+      "grad_norm": 1.4925867319107056,
+      "learning_rate": 0.00019177654360693922,
+      "loss": 6.1594,
+      "num_input_tokens_seen": 93978624,
+      "step": 717
+    },
+    {
+      "epoch": 0.12311638345623598,
+      "grad_norm": 1.4974321126937866,
+      "learning_rate": 0.00019137659209004636,
+      "loss": 6.0507,
+      "num_input_tokens_seen": 94371840,
+      "step": 720
+    },
+    {
+      "epoch": 0.12362936838730362,
+      "grad_norm": 1.6772838830947876,
+      "learning_rate": 0.00019097913248740852,
+      "loss": 6.1063,
+      "num_input_tokens_seen": 94765056,
+      "step": 723
+    },
+    {
+      "epoch": 0.12414235331837127,
+      "grad_norm": 1.1892170906066895,
+      "learning_rate": 0.00019058413902942387,
+      "loss": 6.0525,
+      "num_input_tokens_seen": 95158272,
+      "step": 726
+    },
+    {
+      "epoch": 0.12465533824943892,
+      "grad_norm": 1.5597805976867676,
+      "learning_rate": 0.00019019158631804098,
+      "loss": 6.0913,
+      "num_input_tokens_seen": 95551488,
+      "step": 729
+    },
+    {
+      "epoch": 0.12516832318050658,
+      "grad_norm": 1.638031005859375,
+      "learning_rate": 0.0001898014493198996,
+      "loss": 6.1035,
+      "num_input_tokens_seen": 95944704,
+      "step": 732
+    },
+    {
+      "epoch": 0.1256813081115742,
+      "grad_norm": 1.4688829183578491,
+      "learning_rate": 0.00018941370335962538,
+      "loss": 6.0601,
+      "num_input_tokens_seen": 96337920,
+      "step": 735
+    },
+    {
+      "epoch": 0.12619429304264188,
+      "grad_norm": 0.9651637077331543,
+      "learning_rate": 0.00018902832411327452,
+      "loss": 6.068,
+      "num_input_tokens_seen": 96731136,
+      "step": 738
+    },
+    {
+      "epoch": 0.1267072779737095,
+      "grad_norm": 1.2612296342849731,
+      "learning_rate": 0.00018864528760192487,
+      "loss": 6.0142,
+      "num_input_tokens_seen": 97124352,
+      "step": 741
+    },
+    {
+      "epoch": 0.12722026290477717,
+      "grad_norm": 1.0166645050048828,
+      "learning_rate": 0.00018826457018540895,
+      "loss": 6.0268,
+      "num_input_tokens_seen": 97517568,
+      "step": 744
+    },
+    {
+      "epoch": 0.12773324783584483,
+      "grad_norm": 1.159142255783081,
+      "learning_rate": 0.00018788614855618575,
+      "loss": 6.0269,
+      "num_input_tokens_seen": 97910784,
+      "step": 747
+    },
+    {
+      "epoch": 0.12824623276691247,
+      "grad_norm": 0.9123517870903015,
+      "learning_rate": 0.00018750999973334755,
+      "loss": 6.0037,
+      "num_input_tokens_seen": 98304000,
+      "step": 750
+    },
+    {
+      "epoch": 0.12875921769798013,
+      "grad_norm": 0.9361982345581055,
+      "learning_rate": 0.00018713610105675787,
+      "loss": 6.0246,
+      "num_input_tokens_seen": 98697216,
+      "step": 753
+    },
+    {
+      "epoch": 0.12927220262904776,
+      "grad_norm": 0.8802709579467773,
+      "learning_rate": 0.00018676443018131788,
+      "loss": 6.0012,
+      "num_input_tokens_seen": 99090432,
+      "step": 756
+    },
+    {
+      "epoch": 0.12978518756011542,
+      "grad_norm": 1.0109879970550537,
+      "learning_rate": 0.00018639496507135743,
+      "loss": 6.0781,
+      "num_input_tokens_seen": 99483648,
+      "step": 759
+    },
+    {
+      "epoch": 0.13029817249118308,
+      "grad_norm": 0.9797167778015137,
+      "learning_rate": 0.00018602768399514743,
+      "loss": 6.0611,
+      "num_input_tokens_seen": 99876864,
+      "step": 762
+    },
+    {
+      "epoch": 0.13081115742225072,
+      "grad_norm": 1.554618000984192,
+      "learning_rate": 0.0001856625655195309,
+      "loss": 6.0584,
+      "num_input_tokens_seen": 100270080,
+      "step": 765
+    },
+    {
+      "epoch": 0.13132414235331838,
+      "grad_norm": 1.2623248100280762,
+      "learning_rate": 0.00018529958850466993,
+      "loss": 6.0177,
+      "num_input_tokens_seen": 100663296,
+      "step": 768
+    },
+    {
+      "epoch": 0.131837127284386,
+      "grad_norm": 1.2730941772460938,
+      "learning_rate": 0.000184938732098904,
+      "loss": 6.0187,
+      "num_input_tokens_seen": 101056512,
+      "step": 771
+    },
+    {
+      "epoch": 0.13235011221545367,
+      "grad_norm": 1.1981124877929688,
+      "learning_rate": 0.00018457997573371942,
+      "loss": 6.0086,
+      "num_input_tokens_seen": 101449728,
+      "step": 774
+    },
+    {
+      "epoch": 0.1328630971465213,
+      "grad_norm": 1.0194454193115234,
+      "learning_rate": 0.00018422329911882464,
+      "loss": 6.0152,
+      "num_input_tokens_seen": 101842944,
+      "step": 777
+    },
+    {
+      "epoch": 0.13337608207758897,
+      "grad_norm": 1.068668246269226,
+      "learning_rate": 0.0001838686822373302,
+      "loss": 6.0552,
+      "num_input_tokens_seen": 102236160,
+      "step": 780
+    },
+    {
+      "epoch": 0.13388906700865663,
+      "grad_norm": 1.023908019065857,
+      "learning_rate": 0.00018351610534103057,
+      "loss": 6.0448,
+      "num_input_tokens_seen": 102629376,
+      "step": 783
+    },
+    {
+      "epoch": 0.13440205193972427,
+      "grad_norm": 0.8301390409469604,
+      "learning_rate": 0.0001831655489457848,
+      "loss": 5.979,
+      "num_input_tokens_seen": 103022592,
+      "step": 786
+    },
+    {
+      "epoch": 0.13491503687079193,
+      "grad_norm": 1.0532444715499878,
+      "learning_rate": 0.00018281699382699399,
+      "loss": 6.0356,
+      "num_input_tokens_seen": 103415808,
+      "step": 789
+    },
+    {
+      "epoch": 0.13542802180185956,
+      "grad_norm": 0.9144531488418579,
+      "learning_rate": 0.00018247042101517312,
+      "loss": 5.9964,
+      "num_input_tokens_seen": 103809024,
+      "step": 792
+    },
+    {
+      "epoch": 0.13594100673292722,
+      "grad_norm": 0.9134213328361511,
+      "learning_rate": 0.00018212581179161483,
+      "loss": 6.0034,
+      "num_input_tokens_seen": 104202240,
+      "step": 795
+    },
+    {
+      "epoch": 0.13645399166399488,
+      "grad_norm": 0.9252693057060242,
+      "learning_rate": 0.0001817831476841428,
+      "loss": 6.0547,
+      "num_input_tokens_seen": 104595456,
+      "step": 798
+    },
+    {
+      "epoch": 0.13679598161803996,
+      "eval_accuracy": 0.14596971177332682,
+      "eval_loss": 6.421415328979492,
+      "eval_runtime": 112.8503,
+      "eval_samples_per_second": 2.658,
+      "eval_steps_per_second": 1.329,
+      "num_input_tokens_seen": 104857600,
+      "step": 800
+    },
+    {
+      "epoch": 0.13696697659506252,
+      "grad_norm": 0.7578924298286438,
+      "learning_rate": 0.00018144241046295307,
+      "loss": 6.0183,
+      "num_input_tokens_seen": 104988672,
+      "step": 801
+    },
+    {
+      "epoch": 0.13747996152613018,
+      "grad_norm": 0.8038005232810974,
+      "learning_rate": 0.0001811035821365402,
+      "loss": 6.0242,
+      "num_input_tokens_seen": 105381888,
+      "step": 804
+    },
+    {
+      "epoch": 0.1379929464571978,
+      "grad_norm": 0.8382763266563416,
+      "learning_rate": 0.0001807666449477075,
+      "loss": 6.0535,
+      "num_input_tokens_seen": 105775104,
+      "step": 807
+    },
+    {
+      "epoch": 0.13850593138826547,
+      "grad_norm": 0.8043891787528992,
+      "learning_rate": 0.0001804315813696581,
+      "loss": 6.0307,
+      "num_input_tokens_seen": 106168320,
+      "step": 810
+    },
+    {
+      "epoch": 0.1390189163193331,
+      "grad_norm": 1.0049474239349365,
+      "learning_rate": 0.00018009837410216546,
+      "loss": 5.9799,
+      "num_input_tokens_seen": 106561536,
+      "step": 813
+    },
+    {
+      "epoch": 0.13953190125040077,
+      "grad_norm": 1.1410833597183228,
+      "learning_rate": 0.00017976700606782165,
+      "loss": 5.9542,
+      "num_input_tokens_seen": 106954752,
+      "step": 816
+    },
+    {
+      "epoch": 0.14004488618146843,
+      "grad_norm": 1.1920111179351807,
+      "learning_rate": 0.0001794374604083612,
+      "loss": 6.0421,
+      "num_input_tokens_seen": 107347968,
+      "step": 819
+    },
+    {
+      "epoch": 0.14055787111253606,
+      "grad_norm": 1.410753607749939,
+      "learning_rate": 0.00017910972048105852,
+      "loss": 6.0533,
+      "num_input_tokens_seen": 107741184,
+      "step": 822
+    },
+    {
+      "epoch": 0.14107085604360373,
+      "grad_norm": 1.0810803174972534,
+      "learning_rate": 0.00017878376985519786,
+      "loss": 6.0042,
+      "num_input_tokens_seen": 108134400,
+      "step": 825
+    },
+    {
+      "epoch": 0.14158384097467136,
+      "grad_norm": 0.937443196773529,
+      "learning_rate": 0.00017845959230861343,
+      "loss": 5.9796,
+      "num_input_tokens_seen": 108527616,
+      "step": 828
+    },
+    {
+      "epoch": 0.14209682590573902,
+      "grad_norm": 0.9939092397689819,
+      "learning_rate": 0.00017813717182429826,
+      "loss": 5.9832,
+      "num_input_tokens_seen": 108920832,
+      "step": 831
+    },
+    {
+      "epoch": 0.14260981083680666,
+      "grad_norm": 0.9864884614944458,
+      "learning_rate": 0.00017781649258708038,
+      "loss": 5.9771,
+      "num_input_tokens_seen": 109314048,
+      "step": 834
+    },
+    {
+      "epoch": 0.14312279576787432,
+      "grad_norm": 1.1324708461761475,
+      "learning_rate": 0.0001774975389803645,
+      "loss": 6.0005,
+      "num_input_tokens_seen": 109707264,
+      "step": 837
+    },
+    {
+      "epoch": 0.14363578069894198,
+      "grad_norm": 1.1927917003631592,
+      "learning_rate": 0.00017718029558293758,
+      "loss": 6.0208,
+      "num_input_tokens_seen": 110100480,
+      "step": 840
+    },
+    {
+      "epoch": 0.1441487656300096,
+      "grad_norm": 1.1395940780639648,
+      "learning_rate": 0.00017686474716583739,
+      "loss": 5.9824,
+      "num_input_tokens_seen": 110493696,
+      "step": 843
+    },
+    {
+      "epoch": 0.14466175056107727,
+      "grad_norm": 1.562849998474121,
+      "learning_rate": 0.00017655087868928166,
+      "loss": 5.9618,
+      "num_input_tokens_seen": 110886912,
+      "step": 846
+    },
+    {
+      "epoch": 0.1451747354921449,
+      "grad_norm": 1.2808341979980469,
+      "learning_rate": 0.00017623867529965745,
+      "loss": 6.0031,
+      "num_input_tokens_seen": 111280128,
+      "step": 849
+    },
+    {
+      "epoch": 0.14568772042321257,
+      "grad_norm": 1.1808559894561768,
+      "learning_rate": 0.00017592812232656866,
+      "loss": 5.9783,
+      "num_input_tokens_seen": 111673344,
+      "step": 852
+    },
+    {
+      "epoch": 0.14620070535428023,
+      "grad_norm": 1.1873037815093994,
+      "learning_rate": 0.00017561920527994052,
+      "loss": 5.9943,
+      "num_input_tokens_seen": 112066560,
+      "step": 855
+    },
+    {
+      "epoch": 0.14671369028534786,
+      "grad_norm": 1.1178746223449707,
+      "learning_rate": 0.00017531190984717987,
+      "loss": 5.938,
+      "num_input_tokens_seen": 112459776,
+      "step": 858
+    },
+    {
+      "epoch": 0.14722667521641553,
+      "grad_norm": 1.8096652030944824,
+      "learning_rate": 0.00017500622189039,
+      "loss": 6.0226,
+      "num_input_tokens_seen": 112852992,
+      "step": 861
+    },
+    {
+      "epoch": 0.14773966014748316,
+      "grad_norm": 1.264701247215271,
+      "learning_rate": 0.00017470212744363856,
+      "loss": 6.0132,
+      "num_input_tokens_seen": 113246208,
+      "step": 864
+    },
+    {
+      "epoch": 0.14825264507855082,
+      "grad_norm": 1.6313904523849487,
+      "learning_rate": 0.00017439961271027758,
+      "loss": 5.9518,
+      "num_input_tokens_seen": 113639424,
+      "step": 867
+    },
+    {
+      "epoch": 0.14876563000961845,
+      "grad_norm": 1.2754333019256592,
+      "learning_rate": 0.00017409866406031439,
+      "loss": 5.9424,
+      "num_input_tokens_seen": 114032640,
+      "step": 870
+    },
+    {
+      "epoch": 0.14927861494068612,
+      "grad_norm": 1.5135891437530518,
+      "learning_rate": 0.00017379926802783236,
+      "loss": 5.9789,
+      "num_input_tokens_seen": 114425856,
+      "step": 873
+    },
+    {
+      "epoch": 0.14979159987175378,
+      "grad_norm": 0.951026439666748,
+      "learning_rate": 0.00017350141130845995,
+      "loss": 5.9601,
+      "num_input_tokens_seen": 114819072,
+      "step": 876
+    },
+    {
+      "epoch": 0.1503045848028214,
+      "grad_norm": 1.3585782051086426,
+      "learning_rate": 0.00017320508075688773,
+      "loss": 5.9518,
+      "num_input_tokens_seen": 115212288,
+      "step": 879
+    },
+    {
+      "epoch": 0.15081756973388907,
+      "grad_norm": 1.0978291034698486,
+      "learning_rate": 0.0001729102633844315,
+      "loss": 5.9492,
+      "num_input_tokens_seen": 115605504,
+      "step": 882
+    },
+    {
+      "epoch": 0.1513305546649567,
+      "grad_norm": 1.389070987701416,
+      "learning_rate": 0.0001726169463566411,
+      "loss": 5.9284,
+      "num_input_tokens_seen": 115998720,
+      "step": 885
+    },
+    {
+      "epoch": 0.15184353959602437,
+      "grad_norm": 0.956652045249939,
+      "learning_rate": 0.00017232511699095387,
+      "loss": 6.0113,
+      "num_input_tokens_seen": 116391936,
+      "step": 888
+    },
+    {
+      "epoch": 0.15235652452709203,
+      "grad_norm": 1.1337711811065674,
+      "learning_rate": 0.00017203476275439095,
+      "loss": 5.904,
+      "num_input_tokens_seen": 116785152,
+      "step": 891
+    },
+    {
+      "epoch": 0.15286950945815966,
+      "grad_norm": 0.9648370742797852,
+      "learning_rate": 0.00017174587126129703,
+      "loss": 5.9447,
+      "num_input_tokens_seen": 117178368,
+      "step": 894
+    },
+    {
+      "epoch": 0.15338249438922733,
+      "grad_norm": 0.9501051902770996,
+      "learning_rate": 0.00017145843027112077,
+      "loss": 5.9404,
+      "num_input_tokens_seen": 117571584,
+      "step": 897
+    },
+    {
+      "epoch": 0.15389547932029496,
+      "grad_norm": 0.9637885093688965,
+      "learning_rate": 0.00017117242768623688,
+      "loss": 5.9458,
+      "num_input_tokens_seen": 117964800,
+      "step": 900
+    },
+    {
+      "epoch": 0.15440846425136262,
+      "grad_norm": 1.0075721740722656,
+      "learning_rate": 0.00017088785154980728,
+      "loss": 5.9596,
+      "num_input_tokens_seen": 118358016,
+      "step": 903
+    },
+    {
+      "epoch": 0.15492144918243025,
+      "grad_norm": 1.1554243564605713,
+      "learning_rate": 0.00017060469004368157,
+      "loss": 5.9451,
+      "num_input_tokens_seen": 118751232,
+      "step": 906
+    },
+    {
+      "epoch": 0.15543443411349792,
+      "grad_norm": 0.8994986414909363,
+      "learning_rate": 0.0001703229314863357,
+      "loss": 5.9276,
+      "num_input_tokens_seen": 119144448,
+      "step": 909
+    },
+    {
+      "epoch": 0.15594741904456558,
+      "grad_norm": 0.9552657604217529,
+      "learning_rate": 0.0001700425643308478,
+      "loss": 5.9344,
+      "num_input_tokens_seen": 119537664,
+      "step": 912
+    },
+    {
+      "epoch": 0.1564604039756332,
+      "grad_norm": 1.1688953638076782,
+      "learning_rate": 0.00016976357716291072,
+      "loss": 5.9453,
+      "num_input_tokens_seen": 119930880,
+      "step": 915
+    },
+    {
+      "epoch": 0.15697338890670087,
+      "grad_norm": 0.9850606918334961,
+      "learning_rate": 0.0001694859586988799,
+      "loss": 5.9218,
+      "num_input_tokens_seen": 120324096,
+      "step": 918
+    },
+    {
+      "epoch": 0.1574863738377685,
+      "grad_norm": 0.9341318607330322,
+      "learning_rate": 0.00016920969778385703,
+      "loss": 5.8967,
+      "num_input_tokens_seen": 120717312,
+      "step": 921
+    },
+    {
+      "epoch": 0.15799935876883617,
+      "grad_norm": 1.1161161661148071,
+      "learning_rate": 0.00016893478338980708,
+      "loss": 5.9717,
+      "num_input_tokens_seen": 121110528,
+      "step": 924
+    },
+    {
+      "epoch": 0.1585123436999038,
+      "grad_norm": 1.0169016122817993,
+      "learning_rate": 0.00016866120461370946,
+      "loss": 5.9749,
+      "num_input_tokens_seen": 121503744,
+      "step": 927
+    },
+    {
+      "epoch": 0.15902532863097146,
+      "grad_norm": 0.8988534212112427,
+      "learning_rate": 0.00016838895067574185,
+      "loss": 5.9448,
+      "num_input_tokens_seen": 121896960,
+      "step": 930
+    },
+    {
+      "epoch": 0.15953831356203912,
+      "grad_norm": 0.7732037305831909,
+      "learning_rate": 0.00016811801091749597,
+      "loss": 5.928,
+      "num_input_tokens_seen": 122290176,
+      "step": 933
+    },
+    {
+      "epoch": 0.16005129849310676,
+      "grad_norm": 0.7758464217185974,
+      "learning_rate": 0.00016784837480022532,
+      "loss": 5.9203,
+      "num_input_tokens_seen": 122683392,
+      "step": 936
+    },
+    {
+      "epoch": 0.16056428342417442,
+      "grad_norm": 0.688848614692688,
+      "learning_rate": 0.0001675800319031231,
+      "loss": 5.9253,
+      "num_input_tokens_seen": 123076608,
+      "step": 939
+    },
+    {
+      "epoch": 0.16107726835524205,
+      "grad_norm": 0.8796403408050537,
+      "learning_rate": 0.00016731297192163077,
+      "loss": 5.9361,
+      "num_input_tokens_seen": 123469824,
+      "step": 942
+    },
+    {
+      "epoch": 0.16159025328630972,
+      "grad_norm": 1.0328707695007324,
+      "learning_rate": 0.00016704718466577608,
+      "loss": 5.94,
+      "num_input_tokens_seen": 123863040,
+      "step": 945
+    },
+    {
+      "epoch": 0.16210323821737738,
+      "grad_norm": 1.015504240989685,
+      "learning_rate": 0.00016678266005854003,
+      "loss": 5.9536,
+      "num_input_tokens_seen": 124256256,
+      "step": 948
+    },
+    {
+      "epoch": 0.162616223148445,
+      "grad_norm": 0.8219988346099854,
+      "learning_rate": 0.00016651938813425204,
+      "loss": 5.9519,
+      "num_input_tokens_seen": 124649472,
+      "step": 951
+    },
+    {
+      "epoch": 0.16312920807951267,
+      "grad_norm": 1.0020133256912231,
+      "learning_rate": 0.00016625735903701302,
+      "loss": 5.9622,
+      "num_input_tokens_seen": 125042688,
+      "step": 954
+    },
+    {
+      "epoch": 0.1636421930105803,
+      "grad_norm": 0.8336507678031921,
+      "learning_rate": 0.00016599656301914591,
+      "loss": 5.9003,
+      "num_input_tokens_seen": 125435904,
+      "step": 957
+    },
+    {
+      "epoch": 0.16415517794164797,
+      "grad_norm": 0.9200095534324646,
+      "learning_rate": 0.0001657369904396722,
+      "loss": 5.8612,
+      "num_input_tokens_seen": 125829120,
+      "step": 960
+    },
+    {
+      "epoch": 0.1646681628727156,
+      "grad_norm": 0.858650267124176,
+      "learning_rate": 0.0001654786317628154,
+      "loss": 5.9106,
+      "num_input_tokens_seen": 126222336,
+      "step": 963
+    },
+    {
+      "epoch": 0.16518114780378326,
+      "grad_norm": 0.8560724258422852,
+      "learning_rate": 0.00016522147755652932,
+      "loss": 5.9117,
+      "num_input_tokens_seen": 126615552,
+      "step": 966
+    },
+    {
+      "epoch": 0.16569413273485092,
+      "grad_norm": 0.8329317569732666,
+      "learning_rate": 0.00016496551849105217,
+      "loss": 5.9295,
+      "num_input_tokens_seen": 127008768,
+      "step": 969
+    },
+    {
+      "epoch": 0.16620711766591856,
+      "grad_norm": 0.9380521774291992,
+      "learning_rate": 0.00016471074533748437,
+      "loss": 5.9553,
+      "num_input_tokens_seen": 127401984,
+      "step": 972
+    },
+    {
+      "epoch": 0.16672010259698622,
+      "grad_norm": 1.0690613985061646,
+      "learning_rate": 0.00016445714896639137,
+      "loss": 5.9229,
+      "num_input_tokens_seen": 127795200,
+      "step": 975
+    },
+    {
+      "epoch": 0.16723308752805385,
+      "grad_norm": 1.3576298952102661,
+      "learning_rate": 0.00016420472034642939,
+      "loss": 5.9454,
+      "num_input_tokens_seen": 128188416,
+      "step": 978
+    },
+    {
+      "epoch": 0.16774607245912151,
+      "grad_norm": 1.040351390838623,
+      "learning_rate": 0.00016395345054299445,
+      "loss": 5.9541,
+      "num_input_tokens_seen": 128581632,
+      "step": 981
+    },
+    {
+      "epoch": 0.16825905739018918,
+      "grad_norm": 0.8309887647628784,
+      "learning_rate": 0.0001637033307168943,
+      "loss": 5.8765,
+      "num_input_tokens_seen": 128974848,
+      "step": 984
+    },
+    {
+      "epoch": 0.1687720423212568,
+      "grad_norm": 0.7443415522575378,
+      "learning_rate": 0.00016345435212304236,
+      "loss": 5.9289,
+      "num_input_tokens_seen": 129368064,
+      "step": 987
+    },
+    {
+      "epoch": 0.16928502725232447,
+      "grad_norm": 0.8244521617889404,
+      "learning_rate": 0.00016320650610917334,
+      "loss": 5.9387,
+      "num_input_tokens_seen": 129761280,
+      "step": 990
+    },
+    {
+      "epoch": 0.1697980121833921,
+      "grad_norm": 0.8613632321357727,
+      "learning_rate": 0.0001629597841145805,
+      "loss": 5.9035,
+      "num_input_tokens_seen": 130154496,
+      "step": 993
+    },
+    {
+      "epoch": 0.17031099711445977,
+      "grad_norm": 0.9145336151123047,
+      "learning_rate": 0.00016271417766887378,
+      "loss": 5.9495,
+      "num_input_tokens_seen": 130547712,
+      "step": 996
+    },
+    {
+      "epoch": 0.1708239820455274,
+      "grad_norm": 1.0651459693908691,
+      "learning_rate": 0.00016246967839075817,
+      "loss": 5.9386,
+      "num_input_tokens_seen": 130940928,
+      "step": 999
+    },
+    {
+      "epoch": 0.17133696697659506,
+      "grad_norm": 1.1779698133468628,
+      "learning_rate": 0.00016222627798683257,
+      "loss": 5.8951,
+      "num_input_tokens_seen": 131334144,
+      "step": 1002
+    },
+    {
+      "epoch": 0.17184995190766272,
+      "grad_norm": 0.9768991470336914,
+      "learning_rate": 0.00016198396825040817,
+      "loss": 5.9006,
+      "num_input_tokens_seen": 131727360,
+      "step": 1005
+    },
+    {
+      "epoch": 0.17236293683873036,
+      "grad_norm": 0.8397189974784851,
+      "learning_rate": 0.00016174274106034645,
+      "loss": 5.9255,
+      "num_input_tokens_seen": 132120576,
+      "step": 1008
+    },
+    {
+      "epoch": 0.17287592176979802,
+      "grad_norm": 0.7937173843383789,
+      "learning_rate": 0.00016150258837991562,
+      "loss": 5.8806,
+      "num_input_tokens_seen": 132513792,
+      "step": 1011
+    },
+    {
+      "epoch": 0.17338890670086565,
+      "grad_norm": 0.8085054159164429,
+      "learning_rate": 0.00016126350225566634,
+      "loss": 5.893,
+      "num_input_tokens_seen": 132907008,
+      "step": 1014
+    },
+    {
+      "epoch": 0.17390189163193331,
+      "grad_norm": 0.836296021938324,
+      "learning_rate": 0.0001610254748163253,
+      "loss": 5.8943,
+      "num_input_tokens_seen": 133300224,
+      "step": 1017
+    },
+    {
+      "epoch": 0.17441487656300098,
+      "grad_norm": 0.8128154873847961,
+      "learning_rate": 0.0001607884982717066,
+      "loss": 5.9156,
+      "num_input_tokens_seen": 133693440,
+      "step": 1020
+    },
+    {
+      "epoch": 0.1749278614940686,
+      "grad_norm": 1.1624642610549927,
+      "learning_rate": 0.00016055256491164112,
+      "loss": 5.8715,
+      "num_input_tokens_seen": 134086656,
+      "step": 1023
+    },
+    {
+      "epoch": 0.17544084642513627,
+      "grad_norm": 0.7400571703910828,
+      "learning_rate": 0.000160317667104923,
+      "loss": 5.9113,
+      "num_input_tokens_seen": 134479872,
+      "step": 1026
+    },
+    {
+      "epoch": 0.1759538313562039,
+      "grad_norm": 0.864396333694458,
+      "learning_rate": 0.0001600837972982725,
+      "loss": 5.8986,
+      "num_input_tokens_seen": 134873088,
+      "step": 1029
+    },
+    {
+      "epoch": 0.17646681628727157,
+      "grad_norm": 0.8100318312644958,
+      "learning_rate": 0.00015985094801531627,
+      "loss": 5.9568,
+      "num_input_tokens_seen": 135266304,
+      "step": 1032
+    },
+    {
+      "epoch": 0.1769798012183392,
+      "grad_norm": 0.739395797252655,
+      "learning_rate": 0.0001596191118555833,
+      "loss": 5.9094,
+      "num_input_tokens_seen": 135659520,
+      "step": 1035
+    },
+    {
+      "epoch": 0.17749278614940686,
+      "grad_norm": 0.8485215306282043,
+      "learning_rate": 0.0001593882814935171,
+      "loss": 5.9509,
+      "num_input_tokens_seen": 136052736,
+      "step": 1038
+    },
+    {
+      "epoch": 0.17800577108047452,
+      "grad_norm": 0.8100500106811523,
+      "learning_rate": 0.00015915844967750344,
+      "loss": 5.8577,
+      "num_input_tokens_seen": 136445952,
+      "step": 1041
+    },
+    {
+      "epoch": 0.17851875601154216,
+      "grad_norm": 0.9649944305419922,
+      "learning_rate": 0.00015892960922891358,
+      "loss": 5.901,
+      "num_input_tokens_seen": 136839168,
+      "step": 1044
+    },
+    {
+      "epoch": 0.17903174094260982,
+      "grad_norm": 1.0253026485443115,
+      "learning_rate": 0.00015870175304116244,
+      "loss": 5.8591,
+      "num_input_tokens_seen": 137232384,
+      "step": 1047
+    },
+    {
+      "epoch": 0.17954472587367745,
+      "grad_norm": 1.2840728759765625,
+      "learning_rate": 0.00015847487407878166,
+      "loss": 5.9175,
+      "num_input_tokens_seen": 137625600,
+      "step": 1050
+    },
+    {
+      "epoch": 0.1800577108047451,
+      "grad_norm": 0.9364380240440369,
+      "learning_rate": 0.0001582489653765074,
+      "loss": 5.8954,
+      "num_input_tokens_seen": 138018816,
+      "step": 1053
+    },
+    {
+      "epoch": 0.18057069573581275,
+      "grad_norm": 0.835299551486969,
+      "learning_rate": 0.0001580240200383818,
+      "loss": 5.866,
+      "num_input_tokens_seen": 138412032,
+      "step": 1056
+    },
+    {
+      "epoch": 0.1810836806668804,
+      "grad_norm": 1.4820502996444702,
+      "learning_rate": 0.0001578000312368693,
+      "loss": 5.8628,
+      "num_input_tokens_seen": 138805248,
+      "step": 1059
+    },
+    {
+      "epoch": 0.18159666559794807,
+      "grad_norm": 1.0213690996170044,
+      "learning_rate": 0.0001575769922119859,
+      "loss": 5.8842,
+      "num_input_tokens_seen": 139198464,
+      "step": 1062
+    },
+    {
+      "epoch": 0.1821096505290157,
+      "grad_norm": 1.2635438442230225,
+      "learning_rate": 0.0001573548962704424,
+      "loss": 5.8898,
+      "num_input_tokens_seen": 139591680,
+      "step": 1065
+    },
+    {
+      "epoch": 0.18262263546008337,
+      "grad_norm": 0.9599955677986145,
+      "learning_rate": 0.00015713373678480076,
+      "loss": 5.9028,
+      "num_input_tokens_seen": 139984896,
+      "step": 1068
+    },
+    {
+      "epoch": 0.183135620391151,
+      "grad_norm": 1.3038582801818848,
+      "learning_rate": 0.00015691350719264352,
+      "loss": 5.898,
+      "num_input_tokens_seen": 140378112,
+      "step": 1071
+    },
+    {
+      "epoch": 0.18364860532221866,
+      "grad_norm": 1.0840892791748047,
+      "learning_rate": 0.00015669420099575582,
+      "loss": 5.8597,
+      "num_input_tokens_seen": 140771328,
+      "step": 1074
+    },
+    {
+      "epoch": 0.18416159025328632,
+      "grad_norm": 1.0119037628173828,
+      "learning_rate": 0.00015647581175932002,
+      "loss": 5.8969,
+      "num_input_tokens_seen": 141164544,
+      "step": 1077
+    },
+    {
+      "epoch": 0.18467457518435396,
+      "grad_norm": 0.8829667568206787,
+      "learning_rate": 0.00015625833311112293,
+      "loss": 5.8546,
+      "num_input_tokens_seen": 141557760,
+      "step": 1080
+    },
+    {
+      "epoch": 0.18518756011542162,
+      "grad_norm": 0.8768784403800964,
+      "learning_rate": 0.00015604175874077463,
+      "loss": 5.8718,
+      "num_input_tokens_seen": 141950976,
+      "step": 1083
+    },
+    {
+      "epoch": 0.18570054504648925,
+      "grad_norm": 0.9819164276123047,
+      "learning_rate": 0.00015582608239893955,
+      "loss": 5.8585,
+      "num_input_tokens_seen": 142344192,
+      "step": 1086
+    },
+    {
+      "epoch": 0.1862135299775569,
+      "grad_norm": 0.8090091943740845,
+      "learning_rate": 0.00015561129789657898,
+      "loss": 5.8592,
+      "num_input_tokens_seen": 142737408,
+      "step": 1089
+    },
+    {
+      "epoch": 0.18672651490862455,
+      "grad_norm": 0.878285825252533,
+      "learning_rate": 0.0001553973991042052,
+      "loss": 5.9156,
+      "num_input_tokens_seen": 143130624,
+      "step": 1092
+    },
+    {
+      "epoch": 0.1872394998396922,
+      "grad_norm": 0.8004051446914673,
+      "learning_rate": 0.00015518437995114688,
+      "loss": 5.8415,
+      "num_input_tokens_seen": 143523840,
+      "step": 1095
+    },
+    {
+      "epoch": 0.18775248477075987,
+      "grad_norm": 0.8821293711662292,
+      "learning_rate": 0.0001549722344248251,
+      "loss": 5.8736,
+      "num_input_tokens_seen": 143917056,
+      "step": 1098
+    },
+    {
+      "epoch": 0.1882654697018275,
+      "grad_norm": 0.8214676380157471,
+      "learning_rate": 0.00015476095657004097,
+      "loss": 5.8634,
+      "num_input_tokens_seen": 144310272,
+      "step": 1101
+    },
+    {
+      "epoch": 0.18877845463289517,
+      "grad_norm": 0.9714133739471436,
+      "learning_rate": 0.00015455054048827327,
+      "loss": 5.8468,
+      "num_input_tokens_seen": 144703488,
+      "step": 1104
+    },
+    {
+      "epoch": 0.1892914395639628,
+      "grad_norm": 0.9200727939605713,
+      "learning_rate": 0.00015434098033698665,
+      "loss": 5.8887,
+      "num_input_tokens_seen": 145096704,
+      "step": 1107
+    },
+    {
+      "epoch": 0.18980442449503046,
+      "grad_norm": 0.8920320868492126,
+      "learning_rate": 0.00015413227032895076,
+      "loss": 5.8708,
+      "num_input_tokens_seen": 145489920,
+      "step": 1110
+    },
+    {
+      "epoch": 0.19031740942609812,
+      "grad_norm": 0.7470078468322754,
+      "learning_rate": 0.00015392440473156833,
+      "loss": 5.8795,
+      "num_input_tokens_seen": 145883136,
+      "step": 1113
+    },
+    {
+      "epoch": 0.19083039435716576,
+      "grad_norm": 0.8388041853904724,
+      "learning_rate": 0.0001537173778662143,
+      "loss": 5.823,
+      "num_input_tokens_seen": 146276352,
+      "step": 1116
+    },
+    {
+      "epoch": 0.19134337928823342,
+      "grad_norm": 0.767766535282135,
+      "learning_rate": 0.00015351118410758416,
+      "loss": 5.8513,
+      "num_input_tokens_seen": 146669568,
+      "step": 1119
+    },
+    {
+      "epoch": 0.19185636421930105,
+      "grad_norm": 0.8732740879058838,
+      "learning_rate": 0.00015330581788305177,
+      "loss": 5.8557,
+      "num_input_tokens_seen": 147062784,
+      "step": 1122
+    },
+    {
+      "epoch": 0.1923693491503687,
+      "grad_norm": 0.8404717445373535,
+      "learning_rate": 0.0001531012736720371,
+      "loss": 5.8324,
+      "num_input_tokens_seen": 147456000,
+      "step": 1125
+    },
+    {
+      "epoch": 0.19288233408143635,
+      "grad_norm": 0.9904493093490601,
+      "learning_rate": 0.0001528975460053826,
+      "loss": 5.8828,
+      "num_input_tokens_seen": 147849216,
+      "step": 1128
+    },
+    {
+      "epoch": 0.193395319012504,
+      "grad_norm": 1.0272847414016724,
+      "learning_rate": 0.00015269462946473922,
+      "loss": 5.8644,
+      "num_input_tokens_seen": 148242432,
+      "step": 1131
+    },
+    {
+      "epoch": 0.19390830394357167,
+      "grad_norm": 0.9573217630386353,
+      "learning_rate": 0.00015249251868196107,
+      "loss": 5.8459,
+      "num_input_tokens_seen": 148635648,
+      "step": 1134
+    },
+    {
+      "epoch": 0.1944212888746393,
+      "grad_norm": 0.9274708032608032,
+      "learning_rate": 0.00015229120833850902,
+      "loss": 5.8528,
+      "num_input_tokens_seen": 149028864,
+      "step": 1137
+    },
+    {
+      "epoch": 0.19493427380570696,
+      "grad_norm": 0.8022924661636353,
+      "learning_rate": 0.0001520906931648627,
+      "loss": 5.8369,
+      "num_input_tokens_seen": 149422080,
+      "step": 1140
+    },
+    {
+      "epoch": 0.1954472587367746,
+      "grad_norm": 1.0030078887939453,
+      "learning_rate": 0.00015189096793994132,
+      "loss": 5.8514,
+      "num_input_tokens_seen": 149815296,
+      "step": 1143
+    },
+    {
+      "epoch": 0.19596024366784226,
+      "grad_norm": 1.0330564975738525,
+      "learning_rate": 0.00015169202749053254,
+      "loss": 5.877,
+      "num_input_tokens_seen": 150208512,
+      "step": 1146
+    },
+    {
+      "epoch": 0.1964732285989099,
+      "grad_norm": 0.8017846345901489,
+      "learning_rate": 0.00015149386669072978,
+      "loss": 5.9143,
+      "num_input_tokens_seen": 150601728,
+      "step": 1149
+    },
+    {
+      "epoch": 0.19698621352997756,
+      "grad_norm": 0.9474872946739197,
+      "learning_rate": 0.00015129648046137753,
+      "loss": 5.8327,
+      "num_input_tokens_seen": 150994944,
+      "step": 1152
+    },
+    {
+      "epoch": 0.19749919846104522,
+      "grad_norm": 0.8487737774848938,
+      "learning_rate": 0.0001510998637695244,
+      "loss": 5.9011,
+      "num_input_tokens_seen": 151388160,
+      "step": 1155
+    },
+    {
+      "epoch": 0.19801218339211285,
+      "grad_norm": 0.8053280711174011,
+      "learning_rate": 0.00015090401162788414,
+      "loss": 5.8002,
+      "num_input_tokens_seen": 151781376,
+      "step": 1158
+    },
+    {
+      "epoch": 0.1985251683231805,
+      "grad_norm": 0.7677531838417053,
+      "learning_rate": 0.00015070891909430456,
+      "loss": 5.8301,
+      "num_input_tokens_seen": 152174592,
+      "step": 1161
+    },
+    {
+      "epoch": 0.19903815325424815,
+      "grad_norm": 0.8054178357124329,
+      "learning_rate": 0.0001505145812712434,
+      "loss": 5.8065,
+      "num_input_tokens_seen": 152567808,
+      "step": 1164
+    },
+    {
+      "epoch": 0.1995511381853158,
+      "grad_norm": 1.0484933853149414,
+      "learning_rate": 0.00015032099330525203,
+      "loss": 5.8322,
+      "num_input_tokens_seen": 152961024,
+      "step": 1167
+    },
+    {
+      "epoch": 0.20006412311638347,
+      "grad_norm": 0.8616706132888794,
+      "learning_rate": 0.0001501281503864666,
+      "loss": 5.8494,
+      "num_input_tokens_seen": 153354240,
+      "step": 1170
+    },
+    {
+      "epoch": 0.2005771080474511,
+      "grad_norm": 1.0345689058303833,
+      "learning_rate": 0.00014993604774810574,
+      "loss": 5.8326,
+      "num_input_tokens_seen": 153747456,
+      "step": 1173
+    },
+    {
+      "epoch": 0.20109009297851876,
+      "grad_norm": 0.9733481407165527,
+      "learning_rate": 0.00014974468066597592,
+      "loss": 5.8334,
+      "num_input_tokens_seen": 154140672,
+      "step": 1176
+    },
+    {
+      "epoch": 0.2016030779095864,
+      "grad_norm": 0.9011761546134949,
+      "learning_rate": 0.0001495540444579833,
+      "loss": 5.7905,
+      "num_input_tokens_seen": 154533888,
+      "step": 1179
+    },
+    {
+      "epoch": 0.20211606284065406,
+      "grad_norm": 0.8033789992332458,
+      "learning_rate": 0.00014936413448365292,
+      "loss": 5.8216,
+      "num_input_tokens_seen": 154927104,
+      "step": 1182
+    },
+    {
+      "epoch": 0.2026290477717217,
+      "grad_norm": 0.8766458630561829,
+      "learning_rate": 0.00014917494614365384,
+      "loss": 5.8183,
+      "num_input_tokens_seen": 155320320,
+      "step": 1185
+    },
+    {
+      "epoch": 0.20314203270278935,
+      "grad_norm": 0.8766114711761475,
+      "learning_rate": 0.00014898647487933156,
+      "loss": 5.8486,
+      "num_input_tokens_seen": 155713536,
+      "step": 1188
+    },
+    {
+      "epoch": 0.20365501763385702,
+      "grad_norm": 0.988873302936554,
+      "learning_rate": 0.00014879871617224662,
+      "loss": 5.8093,
+      "num_input_tokens_seen": 156106752,
+      "step": 1191
+    },
+    {
+      "epoch": 0.20416800256492465,
+      "grad_norm": 0.9486966729164124,
+      "learning_rate": 0.00014861166554371963,
+      "loss": 5.7705,
+      "num_input_tokens_seen": 156499968,
+      "step": 1194
+    },
+    {
+      "epoch": 0.2046809874959923,
+      "grad_norm": 0.8582146763801575,
+      "learning_rate": 0.00014842531855438251,
+      "loss": 5.7997,
+      "num_input_tokens_seen": 156893184,
+      "step": 1197
+    },
+    {
+      "epoch": 0.20519397242705995,
+      "grad_norm": 0.7633207440376282,
+      "learning_rate": 0.00014823967080373592,
+      "loss": 5.8133,
+      "num_input_tokens_seen": 157286400,
+      "step": 1200
+    },
+    {
+      "epoch": 0.20519397242705995,
+      "eval_accuracy": 0.15496498941540465,
+      "eval_loss": 6.256631851196289,
+      "eval_runtime": 110.7502,
+      "eval_samples_per_second": 2.709,
+      "eval_steps_per_second": 1.354,
+      "num_input_tokens_seen": 157286400,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2057069573581276,
+      "grad_norm": 0.7945148944854736,
+      "learning_rate": 0.000148054717929713,
+      "loss": 5.8051,
+      "num_input_tokens_seen": 157679616,
+      "step": 1203
+    },
+    {
+      "epoch": 0.20621994228919527,
+      "grad_norm": 0.6455596089363098,
+      "learning_rate": 0.00014787045560824864,
+      "loss": 5.7968,
+      "num_input_tokens_seen": 158072832,
+      "step": 1206
+    },
+    {
+      "epoch": 0.2067329272202629,
+      "grad_norm": 0.7505893111228943,
+      "learning_rate": 0.00014768687955285517,
+      "loss": 5.7999,
+      "num_input_tokens_seen": 158466048,
+      "step": 1209
+    },
+    {
+      "epoch": 0.20724591215133056,
+      "grad_norm": 0.7592454552650452,
+      "learning_rate": 0.00014750398551420315,
+      "loss": 5.8526,
+      "num_input_tokens_seen": 158859264,
+      "step": 1212
+    },
+    {
+      "epoch": 0.2077588970823982,
+      "grad_norm": 0.8120488524436951,
+      "learning_rate": 0.00014732176927970863,
+      "loss": 5.8122,
+      "num_input_tokens_seen": 159252480,
+      "step": 1215
+    },
+    {
+      "epoch": 0.20827188201346586,
+      "grad_norm": 0.9561596512794495,
+      "learning_rate": 0.0001471402266731254,
+      "loss": 5.7933,
+      "num_input_tokens_seen": 159645696,
+      "step": 1218
+    },
+    {
+      "epoch": 0.2087848669445335,
+      "grad_norm": 1.0503617525100708,
+      "learning_rate": 0.00014695935355414297,
+      "loss": 5.8015,
+      "num_input_tokens_seen": 160038912,
+      "step": 1221
+    },
+    {
+      "epoch": 0.20929785187560115,
+      "grad_norm": 0.7630879282951355,
+      "learning_rate": 0.00014677914581799015,
+      "loss": 5.8202,
+      "num_input_tokens_seen": 160432128,
+      "step": 1224
+    },
+    {
+      "epoch": 0.20981083680666882,
+      "grad_norm": 0.8692222237586975,
+      "learning_rate": 0.00014659959939504366,
+      "loss": 5.8312,
+      "num_input_tokens_seen": 160825344,
+      "step": 1227
+    },
+    {
+      "epoch": 0.21032382173773645,
+      "grad_norm": 0.9576478004455566,
+      "learning_rate": 0.00014642071025044203,
+      "loss": 5.8261,
+      "num_input_tokens_seen": 161218560,
+      "step": 1230
+    },
+    {
+      "epoch": 0.2108368066688041,
+      "grad_norm": 1.0278856754302979,
+      "learning_rate": 0.000146242474383705,
+      "loss": 5.8203,
+      "num_input_tokens_seen": 161611776,
+      "step": 1233
+    },
+    {
+      "epoch": 0.21134979159987174,
+      "grad_norm": 1.0111125707626343,
+      "learning_rate": 0.00014606488782835757,
+      "loss": 5.78,
+      "num_input_tokens_seen": 162004992,
+      "step": 1236
+    },
+    {
+      "epoch": 0.2118627765309394,
+      "grad_norm": 1.093246340751648,
+      "learning_rate": 0.00014588794665155937,
+      "loss": 5.8341,
+      "num_input_tokens_seen": 162398208,
+      "step": 1239
+    },
+    {
+      "epoch": 0.21237576146200704,
+      "grad_norm": 0.9989133477210999,
+      "learning_rate": 0.0001457116469537388,
+      "loss": 5.8199,
+      "num_input_tokens_seen": 162791424,
+      "step": 1242
+    },
+    {
+      "epoch": 0.2128887463930747,
+      "grad_norm": 0.9265642762184143,
+      "learning_rate": 0.00014553598486823202,
+      "loss": 5.833,
+      "num_input_tokens_seen": 163184640,
+      "step": 1245
+    },
+    {
+      "epoch": 0.21340173132414236,
+      "grad_norm": 0.9529325366020203,
+      "learning_rate": 0.0001453609565609269,
+      "loss": 5.7129,
+      "num_input_tokens_seen": 163577856,
+      "step": 1248
+    },
+    {
+      "epoch": 0.21391471625521,
+      "grad_norm": 0.8420143723487854,
+      "learning_rate": 0.00014518655822991146,
+      "loss": 5.7953,
+      "num_input_tokens_seen": 163971072,
+      "step": 1251
+    },
+    {
+      "epoch": 0.21442770118627766,
+      "grad_norm": 0.977813720703125,
+      "learning_rate": 0.0001450127861051269,
+      "loss": 5.8014,
+      "num_input_tokens_seen": 164364288,
+      "step": 1254
+    },
+    {
+      "epoch": 0.2149406861173453,
+      "grad_norm": 0.8765429854393005,
+      "learning_rate": 0.00014483963644802545,
+      "loss": 5.8276,
+      "num_input_tokens_seen": 164757504,
+      "step": 1257
+    },
+    {
+      "epoch": 0.21545367104841295,
+      "grad_norm": 0.8605163097381592,
+      "learning_rate": 0.00014466710555123243,
+      "loss": 5.726,
+      "num_input_tokens_seen": 165150720,
+      "step": 1260
+    },
+    {
+      "epoch": 0.21596665597948062,
+      "grad_norm": 1.005022644996643,
+      "learning_rate": 0.000144495189738213,
+      "loss": 5.8138,
+      "num_input_tokens_seen": 165543936,
+      "step": 1263
+    },
+    {
+      "epoch": 0.21647964091054825,
+      "grad_norm": 0.8421231508255005,
+      "learning_rate": 0.00014432388536294303,
+      "loss": 5.8112,
+      "num_input_tokens_seen": 165937152,
+      "step": 1266
+    },
+    {
+      "epoch": 0.2169926258416159,
+      "grad_norm": 0.8746516108512878,
+      "learning_rate": 0.00014415318880958418,
+      "loss": 5.8362,
+      "num_input_tokens_seen": 166330368,
+      "step": 1269
+    },
+    {
+      "epoch": 0.21750561077268354,
+      "grad_norm": 0.9044854044914246,
+      "learning_rate": 0.0001439830964921636,
+      "loss": 5.8002,
+      "num_input_tokens_seen": 166723584,
+      "step": 1272
+    },
+    {
+      "epoch": 0.2180185957037512,
+      "grad_norm": 1.2117860317230225,
+      "learning_rate": 0.00014381360485425735,
+      "loss": 5.8231,
+      "num_input_tokens_seen": 167116800,
+      "step": 1275
+    },
+    {
+      "epoch": 0.21853158063481884,
+      "grad_norm": 1.057684302330017,
+      "learning_rate": 0.00014364471036867806,
+      "loss": 5.8179,
+      "num_input_tokens_seen": 167510016,
+      "step": 1278
+    },
+    {
+      "epoch": 0.2190445655658865,
+      "grad_norm": 0.8717806339263916,
+      "learning_rate": 0.00014347640953716679,
+      "loss": 5.7661,
+      "num_input_tokens_seen": 167903232,
+      "step": 1281
+    },
+    {
+      "epoch": 0.21955755049695416,
+      "grad_norm": 0.7429178953170776,
+      "learning_rate": 0.00014330869889008863,
+      "loss": 5.7949,
+      "num_input_tokens_seen": 168296448,
+      "step": 1284
+    },
+    {
+      "epoch": 0.2200705354280218,
+      "grad_norm": 0.7271013855934143,
+      "learning_rate": 0.00014314157498613212,
+      "loss": 5.8544,
+      "num_input_tokens_seen": 168689664,
+      "step": 1287
+    },
+    {
+      "epoch": 0.22058352035908946,
+      "grad_norm": 0.8151692748069763,
+      "learning_rate": 0.0001429750344120129,
+      "loss": 5.808,
+      "num_input_tokens_seen": 169082880,
+      "step": 1290
+    },
+    {
+      "epoch": 0.2210965052901571,
+      "grad_norm": 0.7940250039100647,
+      "learning_rate": 0.00014280907378218079,
+      "loss": 5.8021,
+      "num_input_tokens_seen": 169476096,
+      "step": 1293
+    },
+    {
+      "epoch": 0.22160949022122475,
+      "grad_norm": 0.7792456150054932,
+      "learning_rate": 0.00014264368973853074,
+      "loss": 5.8054,
+      "num_input_tokens_seen": 169869312,
+      "step": 1296
+    },
+    {
+      "epoch": 0.22212247515229241,
+      "grad_norm": 0.7758190035820007,
+      "learning_rate": 0.00014247887895011744,
+      "loss": 5.7821,
+      "num_input_tokens_seen": 170262528,
+      "step": 1299
+    },
+    {
+      "epoch": 0.22263546008336005,
+      "grad_norm": 1.006454348564148,
+      "learning_rate": 0.00014231463811287352,
+      "loss": 5.8103,
+      "num_input_tokens_seen": 170655744,
+      "step": 1302
+    },
+    {
+      "epoch": 0.2231484450144277,
+      "grad_norm": 0.9445181488990784,
+      "learning_rate": 0.00014215096394933147,
+      "loss": 5.7801,
+      "num_input_tokens_seen": 171048960,
+      "step": 1305
+    },
+    {
+      "epoch": 0.22366142994549534,
+      "grad_norm": 1.0699506998062134,
+      "learning_rate": 0.00014198785320834877,
+      "loss": 5.7746,
+      "num_input_tokens_seen": 171442176,
+      "step": 1308
+    },
+    {
+      "epoch": 0.224174414876563,
+      "grad_norm": 0.8202515244483948,
+      "learning_rate": 0.0001418253026648367,
+      "loss": 5.7614,
+      "num_input_tokens_seen": 171835392,
+      "step": 1311
+    },
+    {
+      "epoch": 0.22468739980763064,
+      "grad_norm": 0.8101188540458679,
+      "learning_rate": 0.00014166330911949266,
+      "loss": 5.772,
+      "num_input_tokens_seen": 172228608,
+      "step": 1314
+    },
+    {
+      "epoch": 0.2252003847386983,
+      "grad_norm": 0.8872966766357422,
+      "learning_rate": 0.00014150186939853544,
+      "loss": 5.7827,
+      "num_input_tokens_seen": 172621824,
+      "step": 1317
+    },
+    {
+      "epoch": 0.22571336966976596,
+      "grad_norm": 0.9942976236343384,
+      "learning_rate": 0.00014134098035344428,
+      "loss": 5.7677,
+      "num_input_tokens_seen": 173015040,
+      "step": 1320
+    },
+    {
+      "epoch": 0.2262263546008336,
+      "grad_norm": 0.8756197094917297,
+      "learning_rate": 0.00014118063886070086,
+      "loss": 5.7569,
+      "num_input_tokens_seen": 173408256,
+      "step": 1323
+    },
+    {
+      "epoch": 0.22673933953190126,
+      "grad_norm": 0.9162293672561646,
+      "learning_rate": 0.00014102084182153463,
+      "loss": 5.7365,
+      "num_input_tokens_seen": 173801472,
+      "step": 1326
+    },
+    {
+      "epoch": 0.2272523244629689,
+      "grad_norm": 0.7763002514839172,
+      "learning_rate": 0.00014086158616167125,
+      "loss": 5.7591,
+      "num_input_tokens_seen": 174194688,
+      "step": 1329
+    },
+    {
+      "epoch": 0.22776530939403655,
+      "grad_norm": 0.7513299584388733,
+      "learning_rate": 0.0001407028688310842,
+      "loss": 5.7568,
+      "num_input_tokens_seen": 174587904,
+      "step": 1332
+    },
+    {
+      "epoch": 0.2282782943251042,
+      "grad_norm": 0.8344148397445679,
+      "learning_rate": 0.0001405446868037495,
+      "loss": 5.7722,
+      "num_input_tokens_seen": 174981120,
+      "step": 1335
+    },
+    {
+      "epoch": 0.22879127925617185,
+      "grad_norm": 0.9340312480926514,
+      "learning_rate": 0.00014038703707740325,
+      "loss": 5.774,
+      "num_input_tokens_seen": 175374336,
+      "step": 1338
+    },
+    {
+      "epoch": 0.2293042641872395,
+      "grad_norm": 0.8781185746192932,
+      "learning_rate": 0.0001402299166733024,
+      "loss": 5.7994,
+      "num_input_tokens_seen": 175767552,
+      "step": 1341
+    },
+    {
+      "epoch": 0.22981724911830714,
+      "grad_norm": 0.7272279262542725,
+      "learning_rate": 0.00014007332263598843,
+      "loss": 5.8141,
+      "num_input_tokens_seen": 176160768,
+      "step": 1344
+    },
+    {
+      "epoch": 0.2303302340493748,
+      "grad_norm": 0.8324047327041626,
+      "learning_rate": 0.0001399172520330537,
+      "loss": 5.7908,
+      "num_input_tokens_seen": 176553984,
+      "step": 1347
+    },
+    {
+      "epoch": 0.23084321898044244,
+      "grad_norm": 1.018019199371338,
+      "learning_rate": 0.00013976170195491086,
+      "loss": 5.7865,
+      "num_input_tokens_seen": 176947200,
+      "step": 1350
+    },
+    {
+      "epoch": 0.2313562039115101,
+      "grad_norm": 0.9174796342849731,
+      "learning_rate": 0.00013960666951456512,
+      "loss": 5.7007,
+      "num_input_tokens_seen": 177340416,
+      "step": 1353
+    },
+    {
+      "epoch": 0.23186918884257776,
+      "grad_norm": 0.9878000617027283,
+      "learning_rate": 0.00013945215184738905,
+      "loss": 5.7603,
+      "num_input_tokens_seen": 177733632,
+      "step": 1356
+    },
+    {
+      "epoch": 0.2323821737736454,
+      "grad_norm": 0.9942120909690857,
+      "learning_rate": 0.00013929814611090044,
+      "loss": 5.7836,
+      "num_input_tokens_seen": 178126848,
+      "step": 1359
+    },
+    {
+      "epoch": 0.23289515870471306,
+      "grad_norm": 1.0599764585494995,
+      "learning_rate": 0.00013914464948454254,
+      "loss": 5.7588,
+      "num_input_tokens_seen": 178520064,
+      "step": 1362
+    },
+    {
+      "epoch": 0.2334081436357807,
+      "grad_norm": 0.9592947959899902,
+      "learning_rate": 0.00013899165916946712,
+      "loss": 5.7805,
+      "num_input_tokens_seen": 178913280,
+      "step": 1365
+    },
+    {
+      "epoch": 0.23392112856684835,
+      "grad_norm": 0.8882340788841248,
+      "learning_rate": 0.00013883917238832015,
+      "loss": 5.722,
+      "num_input_tokens_seen": 179306496,
+      "step": 1368
+    },
+    {
+      "epoch": 0.23443411349791599,
+      "grad_norm": 1.0210182666778564,
+      "learning_rate": 0.00013868718638503002,
+      "loss": 5.7775,
+      "num_input_tokens_seen": 179699712,
+      "step": 1371
+    },
+    {
+      "epoch": 0.23494709842898365,
+      "grad_norm": 1.022925853729248,
+      "learning_rate": 0.00013853569842459833,
+      "loss": 5.7809,
+      "num_input_tokens_seen": 180092928,
+      "step": 1374
+    },
+    {
+      "epoch": 0.2354600833600513,
+      "grad_norm": 0.926238477230072,
+      "learning_rate": 0.00013838470579289325,
+      "loss": 5.7873,
+      "num_input_tokens_seen": 180486144,
+      "step": 1377
+    },
+    {
+      "epoch": 0.23597306829111894,
+      "grad_norm": 0.9598406553268433,
+      "learning_rate": 0.000138234205796445,
+      "loss": 5.7696,
+      "num_input_tokens_seen": 180879360,
+      "step": 1380
+    },
+    {
+      "epoch": 0.2364860532221866,
+      "grad_norm": 0.8754788637161255,
+      "learning_rate": 0.00013808419576224448,
+      "loss": 5.7407,
+      "num_input_tokens_seen": 181272576,
+      "step": 1383
+    },
+    {
+      "epoch": 0.23699903815325424,
+      "grad_norm": 0.8794489502906799,
+      "learning_rate": 0.0001379346730375435,
+      "loss": 5.7445,
+      "num_input_tokens_seen": 181665792,
+      "step": 1386
+    },
+    {
+      "epoch": 0.2375120230843219,
+      "grad_norm": 0.7969871759414673,
+      "learning_rate": 0.0001377856349896579,
+      "loss": 5.7955,
+      "num_input_tokens_seen": 182059008,
+      "step": 1389
+    },
+    {
+      "epoch": 0.23802500801538956,
+      "grad_norm": 0.9116011261940002,
+      "learning_rate": 0.00013763707900577292,
+      "loss": 5.7498,
+      "num_input_tokens_seen": 182452224,
+      "step": 1392
+    },
+    {
+      "epoch": 0.2385379929464572,
+      "grad_norm": 1.0278836488723755,
+      "learning_rate": 0.0001374890024927507,
+      "loss": 5.7964,
+      "num_input_tokens_seen": 182845440,
+      "step": 1395
+    },
+    {
+      "epoch": 0.23905097787752486,
+      "grad_norm": 0.8830828070640564,
+      "learning_rate": 0.00013734140287694022,
+      "loss": 5.7192,
+      "num_input_tokens_seen": 183238656,
+      "step": 1398
+    },
+    {
+      "epoch": 0.2395639628085925,
+      "grad_norm": 0.9770954847335815,
+      "learning_rate": 0.0001371942776039894,
+      "loss": 5.7229,
+      "num_input_tokens_seen": 183631872,
+      "step": 1401
+    },
+    {
+      "epoch": 0.24007694773966015,
+      "grad_norm": 0.7094408273696899,
+      "learning_rate": 0.0001370476241386595,
+      "loss": 5.7209,
+      "num_input_tokens_seen": 184025088,
+      "step": 1404
+    },
+    {
+      "epoch": 0.24058993267072779,
+      "grad_norm": 0.9037938117980957,
+      "learning_rate": 0.00013690143996464142,
+      "loss": 5.8047,
+      "num_input_tokens_seen": 184418304,
+      "step": 1407
+    },
+    {
+      "epoch": 0.24110291760179545,
+      "grad_norm": 0.7936687469482422,
+      "learning_rate": 0.00013675572258437476,
+      "loss": 5.7976,
+      "num_input_tokens_seen": 184811520,
+      "step": 1410
+    },
+    {
+      "epoch": 0.2416159025328631,
+      "grad_norm": 0.7403805255889893,
+      "learning_rate": 0.00013661046951886816,
+      "loss": 5.7839,
+      "num_input_tokens_seen": 185204736,
+      "step": 1413
+    },
+    {
+      "epoch": 0.24212888746393074,
+      "grad_norm": 0.7771823406219482,
+      "learning_rate": 0.00013646567830752246,
+      "loss": 5.7907,
+      "num_input_tokens_seen": 185597952,
+      "step": 1416
+    },
+    {
+      "epoch": 0.2426418723949984,
+      "grad_norm": 0.6545729637145996,
+      "learning_rate": 0.0001363213465079555,
+      "loss": 5.6881,
+      "num_input_tokens_seen": 185991168,
+      "step": 1419
+    },
+    {
+      "epoch": 0.24315485732606604,
+      "grad_norm": 0.8105820417404175,
+      "learning_rate": 0.00013617747169582915,
+      "loss": 5.7786,
+      "num_input_tokens_seen": 186384384,
+      "step": 1422
+    },
+    {
+      "epoch": 0.2436678422571337,
+      "grad_norm": 0.9515424370765686,
+      "learning_rate": 0.00013603405146467827,
+      "loss": 5.7501,
+      "num_input_tokens_seen": 186777600,
+      "step": 1425
+    },
+    {
+      "epoch": 0.24418082718820136,
+      "grad_norm": 0.8837321400642395,
+      "learning_rate": 0.00013589108342574154,
+      "loss": 5.7674,
+      "num_input_tokens_seen": 187170816,
+      "step": 1428
+    },
+    {
+      "epoch": 0.244693812119269,
+      "grad_norm": 0.7665640711784363,
+      "learning_rate": 0.0001357485652077945,
+      "loss": 5.7271,
+      "num_input_tokens_seen": 187564032,
+      "step": 1431
+    },
+    {
+      "epoch": 0.24520679705033666,
+      "grad_norm": 0.7923889756202698,
+      "learning_rate": 0.00013560649445698437,
+      "loss": 5.7707,
+      "num_input_tokens_seen": 187957248,
+      "step": 1434
+    },
+    {
+      "epoch": 0.2457197819814043,
+      "grad_norm": 0.806024968624115,
+      "learning_rate": 0.00013546486883666656,
+      "loss": 5.7383,
+      "num_input_tokens_seen": 188350464,
+      "step": 1437
+    },
+    {
+      "epoch": 0.24623276691247195,
+      "grad_norm": 0.8087600469589233,
+      "learning_rate": 0.00013532368602724355,
+      "loss": 5.746,
+      "num_input_tokens_seen": 188743680,
+      "step": 1440
+    },
+    {
+      "epoch": 0.24674575184353958,
+      "grad_norm": 0.7250015735626221,
+      "learning_rate": 0.00013518294372600513,
+      "loss": 5.7275,
+      "num_input_tokens_seen": 189136896,
+      "step": 1443
+    },
+    {
+      "epoch": 0.24725873677460725,
+      "grad_norm": 0.8613927364349365,
+      "learning_rate": 0.00013504263964697066,
+      "loss": 5.7787,
+      "num_input_tokens_seen": 189530112,
+      "step": 1446
+    },
+    {
+      "epoch": 0.2477717217056749,
+      "grad_norm": 0.839963972568512,
+      "learning_rate": 0.00013490277152073324,
+      "loss": 5.7404,
+      "num_input_tokens_seen": 189923328,
+      "step": 1449
+    },
+    {
+      "epoch": 0.24828470663674254,
+      "grad_norm": 1.002913236618042,
+      "learning_rate": 0.0001347633370943054,
+      "loss": 5.7409,
+      "num_input_tokens_seen": 190316544,
+      "step": 1452
+    },
+    {
+      "epoch": 0.2487976915678102,
+      "grad_norm": 0.9510200619697571,
+      "learning_rate": 0.00013462433413096678,
+      "loss": 5.7916,
+      "num_input_tokens_seen": 190709760,
+      "step": 1455
+    },
+    {
+      "epoch": 0.24931067649887784,
+      "grad_norm": 0.8563526272773743,
+      "learning_rate": 0.00013448576041011335,
+      "loss": 5.692,
+      "num_input_tokens_seen": 191102976,
+      "step": 1458
+    },
+    {
+      "epoch": 0.2498236614299455,
+      "grad_norm": 1.1031644344329834,
+      "learning_rate": 0.0001343476137271086,
+      "loss": 5.7583,
+      "num_input_tokens_seen": 191496192,
+      "step": 1461
+    },
+    {
+      "epoch": 0.25033664636101316,
+      "grad_norm": 1.085344672203064,
+      "learning_rate": 0.00013420989189313586,
+      "loss": 5.7663,
+      "num_input_tokens_seen": 191889408,
+      "step": 1464
+    },
+    {
+      "epoch": 0.2508496312920808,
+      "grad_norm": 0.8237776160240173,
+      "learning_rate": 0.00013407259273505302,
+      "loss": 5.7291,
+      "num_input_tokens_seen": 192282624,
+      "step": 1467
+    },
+    {
+      "epoch": 0.2513626162231484,
+      "grad_norm": 0.7341859340667725,
+      "learning_rate": 0.00013393571409524825,
+      "loss": 5.7751,
+      "num_input_tokens_seen": 192675840,
+      "step": 1470
+    },
+    {
+      "epoch": 0.2518756011542161,
+      "grad_norm": 0.7785446047782898,
+      "learning_rate": 0.0001337992538314978,
+      "loss": 5.705,
+      "num_input_tokens_seen": 193069056,
+      "step": 1473
+    },
+    {
+      "epoch": 0.25238858608528375,
+      "grad_norm": 0.9106130003929138,
+      "learning_rate": 0.00013366320981682498,
+      "loss": 5.7583,
+      "num_input_tokens_seen": 193462272,
+      "step": 1476
+    },
+    {
+      "epoch": 0.2529015710163514,
+      "grad_norm": 0.8381192684173584,
+      "learning_rate": 0.0001335275799393611,
+      "loss": 5.725,
+      "num_input_tokens_seen": 193855488,
+      "step": 1479
+    },
+    {
+      "epoch": 0.253414555947419,
+      "grad_norm": 0.8275421261787415,
+      "learning_rate": 0.00013339236210220762,
+      "loss": 5.727,
+      "num_input_tokens_seen": 194248704,
+      "step": 1482
+    },
+    {
+      "epoch": 0.2539275408784867,
+      "grad_norm": 0.9162700176239014,
+      "learning_rate": 0.00013325755422330005,
+      "loss": 5.7105,
+      "num_input_tokens_seen": 194641920,
+      "step": 1485
+    },
+    {
+      "epoch": 0.25444052580955434,
+      "grad_norm": 0.7449747323989868,
+      "learning_rate": 0.0001331231542352734,
+      "loss": 5.7681,
+      "num_input_tokens_seen": 195035136,
+      "step": 1488
+    },
+    {
+      "epoch": 0.254953510740622,
+      "grad_norm": 0.7723684310913086,
+      "learning_rate": 0.00013298916008532878,
+      "loss": 5.7201,
+      "num_input_tokens_seen": 195428352,
+      "step": 1491
+    },
+    {
+      "epoch": 0.25546649567168966,
+      "grad_norm": 0.7799750566482544,
+      "learning_rate": 0.000132855569735102,
+      "loss": 5.7213,
+      "num_input_tokens_seen": 195821568,
+      "step": 1494
+    },
+    {
+      "epoch": 0.25597948060275727,
+      "grad_norm": 1.017113447189331,
+      "learning_rate": 0.00013272238116053312,
+      "loss": 5.7102,
+      "num_input_tokens_seen": 196214784,
+      "step": 1497
+    },
+    {
+      "epoch": 0.25649246553382493,
+      "grad_norm": 0.9866935014724731,
+      "learning_rate": 0.00013258959235173777,
+      "loss": 5.7064,
+      "num_input_tokens_seen": 196608000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2570054504648926,
+      "grad_norm": 1.0269203186035156,
+      "learning_rate": 0.0001324572013128796,
+      "loss": 5.7444,
+      "num_input_tokens_seen": 197001216,
+      "step": 1503
+    },
+    {
+      "epoch": 0.25751843539596025,
+      "grad_norm": 1.189927101135254,
+      "learning_rate": 0.00013232520606204452,
+      "loss": 5.6448,
+      "num_input_tokens_seen": 197394432,
+      "step": 1506
+    },
+    {
+      "epoch": 0.2580314203270279,
+      "grad_norm": 1.0342806577682495,
+      "learning_rate": 0.0001321936046311159,
+      "loss": 5.6614,
+      "num_input_tokens_seen": 197787648,
+      "step": 1509
+    },
+    {
+      "epoch": 0.2585444052580955,
+      "grad_norm": 0.8518815040588379,
+      "learning_rate": 0.0001320623950656514,
+      "loss": 5.7448,
+      "num_input_tokens_seen": 198180864,
+      "step": 1512
+    },
+    {
+      "epoch": 0.2590573901891632,
+      "grad_norm": 0.7017694711685181,
+      "learning_rate": 0.00013193157542476102,
+      "loss": 5.7127,
+      "num_input_tokens_seen": 198574080,
+      "step": 1515
+    },
+    {
+      "epoch": 0.25957037512023085,
+      "grad_norm": 0.7911322712898254,
+      "learning_rate": 0.00013180114378098651,
+      "loss": 5.6725,
+      "num_input_tokens_seen": 198967296,
+      "step": 1518
+    },
+    {
+      "epoch": 0.2600833600512985,
+      "grad_norm": 0.7968602776527405,
+      "learning_rate": 0.0001316710982201822,
+      "loss": 5.7116,
+      "num_input_tokens_seen": 199360512,
+      "step": 1521
+    },
+    {
+      "epoch": 0.26059634498236617,
+      "grad_norm": 0.8894298672676086,
+      "learning_rate": 0.0001315414368413969,
+      "loss": 5.7022,
+      "num_input_tokens_seen": 199753728,
+      "step": 1524
+    },
+    {
+      "epoch": 0.2611093299134338,
+      "grad_norm": 0.9683092832565308,
+      "learning_rate": 0.00013141215775675717,
+      "loss": 5.7418,
+      "num_input_tokens_seen": 200146944,
+      "step": 1527
+    },
+    {
+      "epoch": 0.26162231484450144,
+      "grad_norm": 0.947652280330658,
+      "learning_rate": 0.000131283259091352,
+      "loss": 5.7165,
+      "num_input_tokens_seen": 200540160,
+      "step": 1530
+    },
+    {
+      "epoch": 0.2621352997755691,
+      "grad_norm": 0.7747431993484497,
+      "learning_rate": 0.00013115473898311848,
+      "loss": 5.7537,
+      "num_input_tokens_seen": 200933376,
+      "step": 1533
+    },
+    {
+      "epoch": 0.26264828470663676,
+      "grad_norm": 0.719679594039917,
+      "learning_rate": 0.00013102659558272893,
+      "loss": 5.7737,
+      "num_input_tokens_seen": 201326592,
+      "step": 1536
+    },
+    {
+      "epoch": 0.26316126963770436,
+      "grad_norm": 0.7812837958335876,
+      "learning_rate": 0.000130898827053479,
+      "loss": 5.7438,
+      "num_input_tokens_seen": 201719808,
+      "step": 1539
+    },
+    {
+      "epoch": 0.263674254568772,
+      "grad_norm": 0.8203752040863037,
+      "learning_rate": 0.00013077143157117724,
+      "loss": 5.7158,
+      "num_input_tokens_seen": 202113024,
+      "step": 1542
+    },
+    {
+      "epoch": 0.2641872394998397,
+      "grad_norm": 0.9190983772277832,
+      "learning_rate": 0.00013064440732403566,
+      "loss": 5.6373,
+      "num_input_tokens_seen": 202506240,
+      "step": 1545
+    },
+    {
+      "epoch": 0.26470022443090735,
+      "grad_norm": 0.894138753414154,
+      "learning_rate": 0.0001305177525125614,
+      "loss": 5.7164,
+      "num_input_tokens_seen": 202899456,
+      "step": 1548
+    },
+    {
+      "epoch": 0.265213209361975,
+      "grad_norm": 1.0378000736236572,
+      "learning_rate": 0.00013039146534944986,
+      "loss": 5.7008,
+      "num_input_tokens_seen": 203292672,
+      "step": 1551
+    },
+    {
+      "epoch": 0.2657261942930426,
+      "grad_norm": 0.9447348117828369,
+      "learning_rate": 0.00013026554405947864,
+      "loss": 5.7429,
+      "num_input_tokens_seen": 203685888,
+      "step": 1554
+    },
+    {
+      "epoch": 0.2662391792241103,
+      "grad_norm": 0.8675848841667175,
+      "learning_rate": 0.00013013998687940264,
+      "loss": 5.7207,
+      "num_input_tokens_seen": 204079104,
+      "step": 1557
+    },
+    {
+      "epoch": 0.26675216415517794,
+      "grad_norm": 1.0198581218719482,
+      "learning_rate": 0.00013001479205785067,
+      "loss": 5.7049,
+      "num_input_tokens_seen": 204472320,
+      "step": 1560
+    },
+    {
+      "epoch": 0.2672651490862456,
+      "grad_norm": 0.863447368144989,
+      "learning_rate": 0.0001298899578552225,
+      "loss": 5.753,
+      "num_input_tokens_seen": 204865536,
+      "step": 1563
+    },
+    {
+      "epoch": 0.26777813401731326,
+      "grad_norm": 0.9340473413467407,
+      "learning_rate": 0.0001297654825435875,
+      "loss": 5.6951,
+      "num_input_tokens_seen": 205258752,
+      "step": 1566
+    },
+    {
+      "epoch": 0.26829111894838087,
+      "grad_norm": 0.826303243637085,
+      "learning_rate": 0.0001296413644065842,
+      "loss": 5.6856,
+      "num_input_tokens_seen": 205651968,
+      "step": 1569
+    },
+    {
+      "epoch": 0.26880410387944853,
+      "grad_norm": 0.8205902576446533,
+      "learning_rate": 0.0001295176017393209,
+      "loss": 5.7166,
+      "num_input_tokens_seen": 206045184,
+      "step": 1572
+    },
+    {
+      "epoch": 0.2693170888105162,
+      "grad_norm": 0.8139010667800903,
+      "learning_rate": 0.00012939419284827716,
+      "loss": 5.7012,
+      "num_input_tokens_seen": 206438400,
+      "step": 1575
+    },
+    {
+      "epoch": 0.26983007374158385,
+      "grad_norm": 0.8484136462211609,
+      "learning_rate": 0.00012927113605120665,
+      "loss": 5.7306,
+      "num_input_tokens_seen": 206831616,
+      "step": 1578
+    },
+    {
+      "epoch": 0.2703430586726515,
+      "grad_norm": 0.8395585417747498,
+      "learning_rate": 0.00012914842967704074,
+      "loss": 5.7253,
+      "num_input_tokens_seen": 207224832,
+      "step": 1581
+    },
+    {
+      "epoch": 0.2708560436037191,
+      "grad_norm": 0.8231976628303528,
+      "learning_rate": 0.00012902607206579324,
+      "loss": 5.6968,
+      "num_input_tokens_seen": 207618048,
+      "step": 1584
+    },
+    {
+      "epoch": 0.2713690285347868,
+      "grad_norm": 0.9288123250007629,
+      "learning_rate": 0.000128904061568466,
+      "loss": 5.6838,
+      "num_input_tokens_seen": 208011264,
+      "step": 1587
+    },
+    {
+      "epoch": 0.27188201346585444,
+      "grad_norm": 1.3254705667495728,
+      "learning_rate": 0.00012878239654695573,
+      "loss": 5.7356,
+      "num_input_tokens_seen": 208404480,
+      "step": 1590
+    },
+    {
+      "epoch": 0.2723949983969221,
+      "grad_norm": 0.9656926393508911,
+      "learning_rate": 0.0001286610753739614,
+      "loss": 5.7178,
+      "num_input_tokens_seen": 208797696,
+      "step": 1593
+    },
+    {
+      "epoch": 0.27290798332798977,
+      "grad_norm": 0.7304670214653015,
+      "learning_rate": 0.00012854009643289304,
+      "loss": 5.7276,
+      "num_input_tokens_seen": 209190912,
+      "step": 1596
+    },
+    {
+      "epoch": 0.2734209682590574,
+      "grad_norm": 0.7497060298919678,
+      "learning_rate": 0.0001284194581177811,
+      "loss": 5.7212,
+      "num_input_tokens_seen": 209584128,
+      "step": 1599
+    },
+    {
+      "epoch": 0.2735919632360799,
+      "eval_accuracy": 0.16197361993160722,
+      "eval_loss": 6.1410651206970215,
+      "eval_runtime": 110.7292,
+      "eval_samples_per_second": 2.709,
+      "eval_steps_per_second": 1.355,
+      "num_input_tokens_seen": 209715200,
+      "step": 1600
+    },
+    {
+      "epoch": 0.27393395319012503,
+      "grad_norm": 0.8801946640014648,
+      "learning_rate": 0.0001282991588331871,
+      "loss": 5.6859,
+      "num_input_tokens_seen": 209977344,
+      "step": 1602
+    },
+    {
+      "epoch": 0.2744469381211927,
+      "grad_norm": 0.8806388974189758,
+      "learning_rate": 0.00012817919699411473,
+      "loss": 5.6518,
+      "num_input_tokens_seen": 210370560,
+      "step": 1605
+    },
+    {
+      "epoch": 0.27495992305226036,
+      "grad_norm": 0.8406085968017578,
+      "learning_rate": 0.00012805957102592246,
+      "loss": 5.6947,
+      "num_input_tokens_seen": 210763776,
+      "step": 1608
+    },
+    {
+      "epoch": 0.27547290798332796,
+      "grad_norm": 0.985683798789978,
+      "learning_rate": 0.0001279402793642365,
+      "loss": 5.6736,
+      "num_input_tokens_seen": 211156992,
+      "step": 1611
+    },
+    {
+      "epoch": 0.2759858929143956,
+      "grad_norm": 1.0117186307907104,
+      "learning_rate": 0.00012782132045486498,
+      "loss": 5.688,
+      "num_input_tokens_seen": 211550208,
+      "step": 1614
+    },
+    {
+      "epoch": 0.2764988778454633,
+      "grad_norm": 0.7577993869781494,
+      "learning_rate": 0.00012770269275371276,
+      "loss": 5.6798,
+      "num_input_tokens_seen": 211943424,
+      "step": 1617
+    },
+    {
+      "epoch": 0.27701186277653095,
+      "grad_norm": 1.0011804103851318,
+      "learning_rate": 0.0001275843947266976,
+      "loss": 5.6961,
+      "num_input_tokens_seen": 212336640,
+      "step": 1620
+    },
+    {
+      "epoch": 0.2775248477075986,
+      "grad_norm": 0.7885441184043884,
+      "learning_rate": 0.00012746642484966631,
+      "loss": 5.7085,
+      "num_input_tokens_seen": 212729856,
+      "step": 1623
+    },
+    {
+      "epoch": 0.2780378326386662,
+      "grad_norm": 0.7686509490013123,
+      "learning_rate": 0.00012734878160831288,
+      "loss": 5.7337,
+      "num_input_tokens_seen": 213123072,
+      "step": 1626
+    },
+    {
+      "epoch": 0.2785508175697339,
+      "grad_norm": 0.7514293789863586,
+      "learning_rate": 0.00012723146349809627,
+      "loss": 5.6868,
+      "num_input_tokens_seen": 213516288,
+      "step": 1629
+    },
+    {
+      "epoch": 0.27906380250080154,
+      "grad_norm": 0.7466459274291992,
+      "learning_rate": 0.00012711446902415993,
+      "loss": 5.6678,
+      "num_input_tokens_seen": 213909504,
+      "step": 1632
+    },
+    {
+      "epoch": 0.2795767874318692,
+      "grad_norm": 0.7304571866989136,
+      "learning_rate": 0.00012699779670125177,
+      "loss": 5.677,
+      "num_input_tokens_seen": 214302720,
+      "step": 1635
+    },
+    {
+      "epoch": 0.28008977236293686,
+      "grad_norm": 0.7830135226249695,
+      "learning_rate": 0.00012688144505364484,
+      "loss": 5.6716,
+      "num_input_tokens_seen": 214695936,
+      "step": 1638
+    },
+    {
+      "epoch": 0.28060275729400447,
+      "grad_norm": 0.8072492480278015,
+      "learning_rate": 0.00012676541261505907,
+      "loss": 5.7114,
+      "num_input_tokens_seen": 215089152,
+      "step": 1641
+    },
+    {
+      "epoch": 0.28111574222507213,
+      "grad_norm": 0.828734815120697,
+      "learning_rate": 0.00012664969792858355,
+      "loss": 5.6624,
+      "num_input_tokens_seen": 215482368,
+      "step": 1644
+    },
+    {
+      "epoch": 0.2816287271561398,
+      "grad_norm": 1.1204993724822998,
+      "learning_rate": 0.00012653429954659974,
+      "loss": 5.6849,
+      "num_input_tokens_seen": 215875584,
+      "step": 1647
+    },
+    {
+      "epoch": 0.28214171208720745,
+      "grad_norm": 0.8877683877944946,
+      "learning_rate": 0.00012641921603070546,
+      "loss": 5.7019,
+      "num_input_tokens_seen": 216268800,
+      "step": 1650
+    },
+    {
+      "epoch": 0.2826546970182751,
+      "grad_norm": 0.9409082531929016,
+      "learning_rate": 0.00012630444595163954,
+      "loss": 5.6977,
+      "num_input_tokens_seen": 216662016,
+      "step": 1653
+    },
+    {
+      "epoch": 0.2831676819493427,
+      "grad_norm": 1.058484435081482,
+      "learning_rate": 0.0001261899878892072,
+      "loss": 5.716,
+      "num_input_tokens_seen": 217055232,
+      "step": 1656
+    },
+    {
+      "epoch": 0.2836806668804104,
+      "grad_norm": 0.8193328380584717,
+      "learning_rate": 0.00012607584043220635,
+      "loss": 5.6651,
+      "num_input_tokens_seen": 217448448,
+      "step": 1659
+    },
+    {
+      "epoch": 0.28419365181147804,
+      "grad_norm": 0.8166428208351135,
+      "learning_rate": 0.00012596200217835447,
+      "loss": 5.6376,
+      "num_input_tokens_seen": 217841664,
+      "step": 1662
+    },
+    {
+      "epoch": 0.2847066367425457,
+      "grad_norm": 0.9603435397148132,
+      "learning_rate": 0.00012584847173421627,
+      "loss": 5.7189,
+      "num_input_tokens_seen": 218234880,
+      "step": 1665
+    },
+    {
+      "epoch": 0.2852196216736133,
+      "grad_norm": 0.8467148542404175,
+      "learning_rate": 0.000125735247715132,
+      "loss": 5.6642,
+      "num_input_tokens_seen": 218628096,
+      "step": 1668
+    },
+    {
+      "epoch": 0.28573260660468097,
+      "grad_norm": 0.8301926255226135,
+      "learning_rate": 0.00012562232874514657,
+      "loss": 5.6971,
+      "num_input_tokens_seen": 219021312,
+      "step": 1671
+    },
+    {
+      "epoch": 0.28624559153574863,
+      "grad_norm": 0.8587663769721985,
+      "learning_rate": 0.0001255097134569393,
+      "loss": 5.6961,
+      "num_input_tokens_seen": 219414528,
+      "step": 1674
+    },
+    {
+      "epoch": 0.2867585764668163,
+      "grad_norm": 0.9333747625350952,
+      "learning_rate": 0.00012539740049175436,
+      "loss": 5.6821,
+      "num_input_tokens_seen": 219807744,
+      "step": 1677
+    },
+    {
+      "epoch": 0.28727156139788396,
+      "grad_norm": 0.7336766123771667,
+      "learning_rate": 0.00012528538849933206,
+      "loss": 5.678,
+      "num_input_tokens_seen": 220200960,
+      "step": 1680
+    },
+    {
+      "epoch": 0.28778454632895156,
+      "grad_norm": 0.7425720691680908,
+      "learning_rate": 0.00012517367613784042,
+      "loss": 5.6576,
+      "num_input_tokens_seen": 220594176,
+      "step": 1683
+    },
+    {
+      "epoch": 0.2882975312600192,
+      "grad_norm": 0.7801720499992371,
+      "learning_rate": 0.00012506226207380784,
+      "loss": 5.6991,
+      "num_input_tokens_seen": 220987392,
+      "step": 1686
+    },
+    {
+      "epoch": 0.2888105161910869,
+      "grad_norm": 0.7652679681777954,
+      "learning_rate": 0.00012495114498205616,
+      "loss": 5.6489,
+      "num_input_tokens_seen": 221380608,
+      "step": 1689
+    },
+    {
+      "epoch": 0.28932350112215455,
+      "grad_norm": 0.8375071287155151,
+      "learning_rate": 0.00012484032354563457,
+      "loss": 5.6568,
+      "num_input_tokens_seen": 221773824,
+      "step": 1692
+    },
+    {
+      "epoch": 0.2898364860532222,
+      "grad_norm": 0.7536932826042175,
+      "learning_rate": 0.0001247297964557539,
+      "loss": 5.6788,
+      "num_input_tokens_seen": 222167040,
+      "step": 1695
+    },
+    {
+      "epoch": 0.2903494709842898,
+      "grad_norm": 0.807601273059845,
+      "learning_rate": 0.0001246195624117219,
+      "loss": 5.6461,
+      "num_input_tokens_seen": 222560256,
+      "step": 1698
+    },
+    {
+      "epoch": 0.2908624559153575,
+      "grad_norm": 0.700380802154541,
+      "learning_rate": 0.0001245096201208786,
+      "loss": 5.6886,
+      "num_input_tokens_seen": 222953472,
+      "step": 1701
+    },
+    {
+      "epoch": 0.29137544084642514,
+      "grad_norm": 0.7354556322097778,
+      "learning_rate": 0.00012439996829853315,
+      "loss": 5.6543,
+      "num_input_tokens_seen": 223346688,
+      "step": 1704
+    },
+    {
+      "epoch": 0.2918884257774928,
+      "grad_norm": 0.8027917146682739,
+      "learning_rate": 0.00012429060566790032,
+      "loss": 5.7035,
+      "num_input_tokens_seen": 223739904,
+      "step": 1707
+    },
+    {
+      "epoch": 0.29240141070856046,
+      "grad_norm": 0.9573730826377869,
+      "learning_rate": 0.0001241815309600383,
+      "loss": 5.6513,
+      "num_input_tokens_seen": 224133120,
+      "step": 1710
+    },
+    {
+      "epoch": 0.29291439563962807,
+      "grad_norm": 1.0752445459365845,
+      "learning_rate": 0.00012407274291378672,
+      "loss": 5.6466,
+      "num_input_tokens_seen": 224526336,
+      "step": 1713
+    },
+    {
+      "epoch": 0.29342738057069573,
+      "grad_norm": 1.0931577682495117,
+      "learning_rate": 0.0001239642402757056,
+      "loss": 5.6842,
+      "num_input_tokens_seen": 224919552,
+      "step": 1716
+    },
+    {
+      "epoch": 0.2939403655017634,
+      "grad_norm": 0.7436386346817017,
+      "learning_rate": 0.00012385602180001445,
+      "loss": 5.645,
+      "num_input_tokens_seen": 225312768,
+      "step": 1719
+    },
+    {
+      "epoch": 0.29445335043283105,
+      "grad_norm": 0.7766621708869934,
+      "learning_rate": 0.0001237480862485324,
+      "loss": 5.6611,
+      "num_input_tokens_seen": 225705984,
+      "step": 1722
+    },
+    {
+      "epoch": 0.2949663353638987,
+      "grad_norm": 0.8995407223701477,
+      "learning_rate": 0.0001236404323906186,
+      "loss": 5.6912,
+      "num_input_tokens_seen": 226099200,
+      "step": 1725
+    },
+    {
+      "epoch": 0.2954793202949663,
+      "grad_norm": 0.9217162728309631,
+      "learning_rate": 0.00012353305900311327,
+      "loss": 5.6695,
+      "num_input_tokens_seen": 226492416,
+      "step": 1728
+    },
+    {
+      "epoch": 0.295992305226034,
+      "grad_norm": 1.1063520908355713,
+      "learning_rate": 0.00012342596487027938,
+      "loss": 5.6392,
+      "num_input_tokens_seen": 226885632,
+      "step": 1731
+    },
+    {
+      "epoch": 0.29650529015710164,
+      "grad_norm": 1.064606785774231,
+      "learning_rate": 0.00012331914878374486,
+      "loss": 5.6703,
+      "num_input_tokens_seen": 227278848,
+      "step": 1734
+    },
+    {
+      "epoch": 0.2970182750881693,
+      "grad_norm": 0.8207647800445557,
+      "learning_rate": 0.00012321260954244523,
+      "loss": 5.6174,
+      "num_input_tokens_seen": 227672064,
+      "step": 1737
+    },
+    {
+      "epoch": 0.2975312600192369,
+      "grad_norm": 0.9838363528251648,
+      "learning_rate": 0.00012310634595256696,
+      "loss": 5.6604,
+      "num_input_tokens_seen": 228065280,
+      "step": 1740
+    },
+    {
+      "epoch": 0.29804424495030457,
+      "grad_norm": 1.094573974609375,
+      "learning_rate": 0.0001230003568274913,
+      "loss": 5.6628,
+      "num_input_tokens_seen": 228458496,
+      "step": 1743
+    },
+    {
+      "epoch": 0.29855722988137223,
+      "grad_norm": 0.8992403745651245,
+      "learning_rate": 0.00012289464098773857,
+      "loss": 5.6452,
+      "num_input_tokens_seen": 228851712,
+      "step": 1746
+    },
+    {
+      "epoch": 0.2990702148124399,
+      "grad_norm": 0.9246178269386292,
+      "learning_rate": 0.00012278919726091303,
+      "loss": 5.6766,
+      "num_input_tokens_seen": 229244928,
+      "step": 1749
+    },
+    {
+      "epoch": 0.29958319974350756,
+      "grad_norm": 0.8067333102226257,
+      "learning_rate": 0.00012268402448164836,
+      "loss": 5.6916,
+      "num_input_tokens_seen": 229638144,
+      "step": 1752
+    },
+    {
+      "epoch": 0.30009618467457516,
+      "grad_norm": 0.8054561614990234,
+      "learning_rate": 0.00012257912149155346,
+      "loss": 5.6736,
+      "num_input_tokens_seen": 230031360,
+      "step": 1755
+    },
+    {
+      "epoch": 0.3006091696056428,
+      "grad_norm": 0.8408488631248474,
+      "learning_rate": 0.00012247448713915892,
+      "loss": 5.7006,
+      "num_input_tokens_seen": 230424576,
+      "step": 1758
+    },
+    {
+      "epoch": 0.3011221545367105,
+      "grad_norm": 0.8754010200500488,
+      "learning_rate": 0.00012237012027986385,
+      "loss": 5.6319,
+      "num_input_tokens_seen": 230817792,
+      "step": 1761
+    },
+    {
+      "epoch": 0.30163513946777815,
+      "grad_norm": 0.9594668745994568,
+      "learning_rate": 0.00012226601977588348,
+      "loss": 5.6849,
+      "num_input_tokens_seen": 231211008,
+      "step": 1764
+    },
+    {
+      "epoch": 0.3021481243988458,
+      "grad_norm": 0.7682183384895325,
+      "learning_rate": 0.0001221621844961969,
+      "loss": 5.6842,
+      "num_input_tokens_seen": 231604224,
+      "step": 1767
+    },
+    {
+      "epoch": 0.3026611093299134,
+      "grad_norm": 0.8172413110733032,
+      "learning_rate": 0.00012205861331649545,
+      "loss": 5.7111,
+      "num_input_tokens_seen": 231997440,
+      "step": 1770
+    },
+    {
+      "epoch": 0.3031740942609811,
+      "grad_norm": 0.893372118473053,
+      "learning_rate": 0.0001219553051191317,
+      "loss": 5.6743,
+      "num_input_tokens_seen": 232390656,
+      "step": 1773
+    },
+    {
+      "epoch": 0.30368707919204874,
+      "grad_norm": 0.8585564494132996,
+      "learning_rate": 0.00012185225879306862,
+      "loss": 5.6044,
+      "num_input_tokens_seen": 232783872,
+      "step": 1776
+    },
+    {
+      "epoch": 0.3042000641231164,
+      "grad_norm": 0.7689789533615112,
+      "learning_rate": 0.00012174947323382965,
+      "loss": 5.6363,
+      "num_input_tokens_seen": 233177088,
+      "step": 1779
+    },
+    {
+      "epoch": 0.30471304905418406,
+      "grad_norm": 0.7540669441223145,
+      "learning_rate": 0.00012164694734344876,
+      "loss": 5.6607,
+      "num_input_tokens_seen": 233570304,
+      "step": 1782
+    },
+    {
+      "epoch": 0.30522603398525167,
+      "grad_norm": 0.9404392242431641,
+      "learning_rate": 0.00012154468003042123,
+      "loss": 5.6585,
+      "num_input_tokens_seen": 233963520,
+      "step": 1785
+    },
+    {
+      "epoch": 0.3057390189163193,
+      "grad_norm": 1.020546793937683,
+      "learning_rate": 0.00012144267020965491,
+      "loss": 5.629,
+      "num_input_tokens_seen": 234356736,
+      "step": 1788
+    },
+    {
+      "epoch": 0.306252003847387,
+      "grad_norm": 0.9944835305213928,
+      "learning_rate": 0.00012134091680242182,
+      "loss": 5.6689,
+      "num_input_tokens_seen": 234749952,
+      "step": 1791
+    },
+    {
+      "epoch": 0.30676498877845465,
+      "grad_norm": 0.9175474047660828,
+      "learning_rate": 0.00012123941873631032,
+      "loss": 5.652,
+      "num_input_tokens_seen": 235143168,
+      "step": 1794
+    },
+    {
+      "epoch": 0.30727797370952226,
+      "grad_norm": 0.8481835722923279,
+      "learning_rate": 0.00012113817494517742,
+      "loss": 5.6716,
+      "num_input_tokens_seen": 235536384,
+      "step": 1797
+    },
+    {
+      "epoch": 0.3077909586405899,
+      "grad_norm": 0.8672162294387817,
+      "learning_rate": 0.00012103718436910204,
+      "loss": 5.6861,
+      "num_input_tokens_seen": 235929600,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3083039435716576,
+      "grad_norm": 0.730492353439331,
+      "learning_rate": 0.00012093644595433816,
+      "loss": 5.6866,
+      "num_input_tokens_seen": 236322816,
+      "step": 1803
+    },
+    {
+      "epoch": 0.30881692850272524,
+      "grad_norm": 0.7994592189788818,
+      "learning_rate": 0.00012083595865326879,
+      "loss": 5.6567,
+      "num_input_tokens_seen": 236716032,
+      "step": 1806
+    },
+    {
+      "epoch": 0.3093299134337929,
+      "grad_norm": 0.8021286129951477,
+      "learning_rate": 0.00012073572142436013,
+      "loss": 5.6251,
+      "num_input_tokens_seen": 237109248,
+      "step": 1809
+    },
+    {
+      "epoch": 0.3098428983648605,
+      "grad_norm": 0.721517026424408,
+      "learning_rate": 0.0001206357332321163,
+      "loss": 5.6599,
+      "num_input_tokens_seen": 237502464,
+      "step": 1812
+    },
+    {
+      "epoch": 0.31035588329592817,
+      "grad_norm": 0.9358505606651306,
+      "learning_rate": 0.00012053599304703434,
+      "loss": 5.6717,
+      "num_input_tokens_seen": 237895680,
+      "step": 1815
+    },
+    {
+      "epoch": 0.31086886822699583,
+      "grad_norm": 1.005147099494934,
+      "learning_rate": 0.0001204364998455597,
+      "loss": 5.6534,
+      "num_input_tokens_seen": 238288896,
+      "step": 1818
+    },
+    {
+      "epoch": 0.3113818531580635,
+      "grad_norm": 0.7538228034973145,
+      "learning_rate": 0.00012033725261004223,
+      "loss": 5.6279,
+      "num_input_tokens_seen": 238682112,
+      "step": 1821
+    },
+    {
+      "epoch": 0.31189483808913115,
+      "grad_norm": 0.7190991640090942,
+      "learning_rate": 0.00012023825032869223,
+      "loss": 5.6295,
+      "num_input_tokens_seen": 239075328,
+      "step": 1824
+    },
+    {
+      "epoch": 0.31240782302019876,
+      "grad_norm": 0.8383211493492126,
+      "learning_rate": 0.00012013949199553745,
+      "loss": 5.7043,
+      "num_input_tokens_seen": 239468544,
+      "step": 1827
+    },
+    {
+      "epoch": 0.3129208079512664,
+      "grad_norm": 0.8222533464431763,
+      "learning_rate": 0.00012004097661037986,
+      "loss": 5.6339,
+      "num_input_tokens_seen": 239861760,
+      "step": 1830
+    },
+    {
+      "epoch": 0.3134337928823341,
+      "grad_norm": 0.7332392930984497,
+      "learning_rate": 0.00011994270317875327,
+      "loss": 5.6096,
+      "num_input_tokens_seen": 240254976,
+      "step": 1833
+    },
+    {
+      "epoch": 0.31394677781340175,
+      "grad_norm": 0.7699775099754333,
+      "learning_rate": 0.00011984467071188111,
+      "loss": 5.6614,
+      "num_input_tokens_seen": 240648192,
+      "step": 1836
+    },
+    {
+      "epoch": 0.3144597627444694,
+      "grad_norm": 0.6810494065284729,
+      "learning_rate": 0.00011974687822663465,
+      "loss": 5.6252,
+      "num_input_tokens_seen": 241041408,
+      "step": 1839
+    },
+    {
+      "epoch": 0.314972747675537,
+      "grad_norm": 0.7561641931533813,
+      "learning_rate": 0.00011964932474549163,
+      "loss": 5.5747,
+      "num_input_tokens_seen": 241434624,
+      "step": 1842
+    },
+    {
+      "epoch": 0.3154857326066047,
+      "grad_norm": 0.9112014770507812,
+      "learning_rate": 0.00011955200929649517,
+      "loss": 5.6209,
+      "num_input_tokens_seen": 241827840,
+      "step": 1845
+    },
+    {
+      "epoch": 0.31599871753767234,
+      "grad_norm": 0.8621751666069031,
+      "learning_rate": 0.00011945493091321312,
+      "loss": 5.6557,
+      "num_input_tokens_seen": 242221056,
+      "step": 1848
+    },
+    {
+      "epoch": 0.31651170246874,
+      "grad_norm": 0.7570284605026245,
+      "learning_rate": 0.00011935808863469773,
+      "loss": 5.6446,
+      "num_input_tokens_seen": 242614272,
+      "step": 1851
+    },
+    {
+      "epoch": 0.3170246873998076,
+      "grad_norm": 0.8017822504043579,
+      "learning_rate": 0.00011926148150544575,
+      "loss": 5.6767,
+      "num_input_tokens_seen": 243007488,
+      "step": 1854
+    },
+    {
+      "epoch": 0.31753767233087526,
+      "grad_norm": 0.7850795984268188,
+      "learning_rate": 0.00011916510857535883,
+      "loss": 5.62,
+      "num_input_tokens_seen": 243400704,
+      "step": 1857
+    },
+    {
+      "epoch": 0.3180506572619429,
+      "grad_norm": 0.774463951587677,
+      "learning_rate": 0.00011906896889970413,
+      "loss": 5.6407,
+      "num_input_tokens_seen": 243793920,
+      "step": 1860
+    },
+    {
+      "epoch": 0.3185636421930106,
+      "grad_norm": 0.8820813894271851,
+      "learning_rate": 0.00011897306153907562,
+      "loss": 5.6399,
+      "num_input_tokens_seen": 244187136,
+      "step": 1863
+    },
+    {
+      "epoch": 0.31907662712407825,
+      "grad_norm": 0.8753612041473389,
+      "learning_rate": 0.00011887738555935545,
+      "loss": 5.6036,
+      "num_input_tokens_seen": 244580352,
+      "step": 1866
+    },
+    {
+      "epoch": 0.31958961205514586,
+      "grad_norm": 0.8607076406478882,
+      "learning_rate": 0.00011878194003167571,
+      "loss": 5.6037,
+      "num_input_tokens_seen": 244973568,
+      "step": 1869
+    },
+    {
+      "epoch": 0.3201025969862135,
+      "grad_norm": 0.9494906663894653,
+      "learning_rate": 0.00011868672403238055,
+      "loss": 5.5947,
+      "num_input_tokens_seen": 245366784,
+      "step": 1872
+    },
+    {
+      "epoch": 0.3206155819172812,
+      "grad_norm": 0.9436231851577759,
+      "learning_rate": 0.00011859173664298873,
+      "loss": 5.6752,
+      "num_input_tokens_seen": 245760000,
+      "step": 1875
+    },
+    {
+      "epoch": 0.32112856684834884,
+      "grad_norm": 0.8782811760902405,
+      "learning_rate": 0.00011849697695015632,
+      "loss": 5.6304,
+      "num_input_tokens_seen": 246153216,
+      "step": 1878
+    },
+    {
+      "epoch": 0.3216415517794165,
+      "grad_norm": 0.8508527278900146,
+      "learning_rate": 0.00011840244404563977,
+      "loss": 5.6076,
+      "num_input_tokens_seen": 246546432,
+      "step": 1881
+    },
+    {
+      "epoch": 0.3221545367104841,
+      "grad_norm": 0.7841192483901978,
+      "learning_rate": 0.00011830813702625953,
+      "loss": 5.568,
+      "num_input_tokens_seen": 246939648,
+      "step": 1884
+    },
+    {
+      "epoch": 0.32266752164155177,
+      "grad_norm": 0.8864216804504395,
+      "learning_rate": 0.0001182140549938636,
+      "loss": 5.6292,
+      "num_input_tokens_seen": 247332864,
+      "step": 1887
+    },
+    {
+      "epoch": 0.32318050657261943,
+      "grad_norm": 0.7558512091636658,
+      "learning_rate": 0.00011812019705529174,
+      "loss": 5.6347,
+      "num_input_tokens_seen": 247726080,
+      "step": 1890
+    },
+    {
+      "epoch": 0.3236934915036871,
+      "grad_norm": 0.8658297657966614,
+      "learning_rate": 0.00011802656232233979,
+      "loss": 5.6167,
+      "num_input_tokens_seen": 248119296,
+      "step": 1893
+    },
+    {
+      "epoch": 0.32420647643475475,
+      "grad_norm": 0.7362368702888489,
+      "learning_rate": 0.00011793314991172442,
+      "loss": 5.5635,
+      "num_input_tokens_seen": 248512512,
+      "step": 1896
+    },
+    {
+      "epoch": 0.32471946136582236,
+      "grad_norm": 0.7577558755874634,
+      "learning_rate": 0.00011783995894504806,
+      "loss": 5.6168,
+      "num_input_tokens_seen": 248905728,
+      "step": 1899
+    },
+    {
+      "epoch": 0.32523244629689,
+      "grad_norm": 0.7319400906562805,
+      "learning_rate": 0.00011774698854876431,
+      "loss": 5.6247,
+      "num_input_tokens_seen": 249298944,
+      "step": 1902
+    },
+    {
+      "epoch": 0.3257454312279577,
+      "grad_norm": 0.7369369864463806,
+      "learning_rate": 0.00011765423785414348,
+      "loss": 5.6446,
+      "num_input_tokens_seen": 249692160,
+      "step": 1905
+    },
+    {
+      "epoch": 0.32625841615902534,
+      "grad_norm": 0.7148075103759766,
+      "learning_rate": 0.00011756170599723845,
+      "loss": 5.5845,
+      "num_input_tokens_seen": 250085376,
+      "step": 1908
+    },
+    {
+      "epoch": 0.326771401090093,
+      "grad_norm": 0.8362352252006531,
+      "learning_rate": 0.00011746939211885098,
+      "loss": 5.6083,
+      "num_input_tokens_seen": 250478592,
+      "step": 1911
+    },
+    {
+      "epoch": 0.3272843860211606,
+      "grad_norm": 0.7224807739257812,
+      "learning_rate": 0.00011737729536449814,
+      "loss": 5.5792,
+      "num_input_tokens_seen": 250871808,
+      "step": 1914
+    },
+    {
+      "epoch": 0.3277973709522283,
+      "grad_norm": 0.8332315683364868,
+      "learning_rate": 0.00011728541488437912,
+      "loss": 5.6376,
+      "num_input_tokens_seen": 251265024,
+      "step": 1917
+    },
+    {
+      "epoch": 0.32831035588329593,
+      "grad_norm": 0.89626544713974,
+      "learning_rate": 0.00011719374983334221,
+      "loss": 5.6722,
+      "num_input_tokens_seen": 251658240,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3288233408143636,
+      "grad_norm": 0.6044060587882996,
+      "learning_rate": 0.0001171022993708523,
+      "loss": 5.6473,
+      "num_input_tokens_seen": 252051456,
+      "step": 1923
+    },
+    {
+      "epoch": 0.3293363257454312,
+      "grad_norm": 0.6592041850090027,
+      "learning_rate": 0.00011701106266095837,
+      "loss": 5.624,
+      "num_input_tokens_seen": 252444672,
+      "step": 1926
+    },
+    {
+      "epoch": 0.32984931067649886,
+      "grad_norm": 0.7988864183425903,
+      "learning_rate": 0.00011692003887226147,
+      "loss": 5.604,
+      "num_input_tokens_seen": 252837888,
+      "step": 1929
+    },
+    {
+      "epoch": 0.3303622956075665,
+      "grad_norm": 0.9502041935920715,
+      "learning_rate": 0.00011682922717788286,
+      "loss": 5.659,
+      "num_input_tokens_seen": 253231104,
+      "step": 1932
+    },
+    {
+      "epoch": 0.3308752805386342,
+      "grad_norm": 1.0182008743286133,
+      "learning_rate": 0.0001167386267554325,
+      "loss": 5.6019,
+      "num_input_tokens_seen": 253624320,
+      "step": 1935
+    },
+    {
+      "epoch": 0.33138826546970185,
+      "grad_norm": 0.9730847477912903,
+      "learning_rate": 0.00011664823678697777,
+      "loss": 5.6701,
+      "num_input_tokens_seen": 254017536,
+      "step": 1938
+    },
+    {
+      "epoch": 0.33190125040076945,
+      "grad_norm": 0.7735222578048706,
+      "learning_rate": 0.00011655805645901238,
+      "loss": 5.5851,
+      "num_input_tokens_seen": 254410752,
+      "step": 1941
+    },
+    {
+      "epoch": 0.3324142353318371,
+      "grad_norm": 0.7792080044746399,
+      "learning_rate": 0.0001164680849624257,
+      "loss": 5.6015,
+      "num_input_tokens_seen": 254803968,
+      "step": 1944
+    },
+    {
+      "epoch": 0.3329272202629048,
+      "grad_norm": 0.7463663816452026,
+      "learning_rate": 0.0001163783214924723,
+      "loss": 5.6114,
+      "num_input_tokens_seen": 255197184,
+      "step": 1947
+    },
+    {
+      "epoch": 0.33344020519397244,
+      "grad_norm": 0.6915552020072937,
+      "learning_rate": 0.00011628876524874155,
+      "loss": 5.6049,
+      "num_input_tokens_seen": 255590400,
+      "step": 1950
+    },
+    {
+      "epoch": 0.3339531901250401,
+      "grad_norm": 0.7225996851921082,
+      "learning_rate": 0.00011619941543512788,
+      "loss": 5.6132,
+      "num_input_tokens_seen": 255983616,
+      "step": 1953
+    },
+    {
+      "epoch": 0.3344661750561077,
+      "grad_norm": 0.7305698990821838,
+      "learning_rate": 0.00011611027125980086,
+      "loss": 5.6121,
+      "num_input_tokens_seen": 256376832,
+      "step": 1956
+    },
+    {
+      "epoch": 0.33497915998717537,
+      "grad_norm": 0.699140191078186,
+      "learning_rate": 0.00011602133193517582,
+      "loss": 5.5685,
+      "num_input_tokens_seen": 256770048,
+      "step": 1959
+    },
+    {
+      "epoch": 0.33549214491824303,
+      "grad_norm": 0.7200695872306824,
+      "learning_rate": 0.00011593259667788463,
+      "loss": 5.639,
+      "num_input_tokens_seen": 257163264,
+      "step": 1962
+    },
+    {
+      "epoch": 0.3360051298493107,
+      "grad_norm": 0.84376060962677,
+      "learning_rate": 0.0001158440647087466,
+      "loss": 5.6694,
+      "num_input_tokens_seen": 257556480,
+      "step": 1965
+    },
+    {
+      "epoch": 0.33651811478037835,
+      "grad_norm": 0.8291401863098145,
+      "learning_rate": 0.00011575573525274,
+      "loss": 5.5855,
+      "num_input_tokens_seen": 257949696,
+      "step": 1968
+    },
+    {
+      "epoch": 0.33703109971144596,
+      "grad_norm": 0.743291437625885,
+      "learning_rate": 0.0001156676075389733,
+      "loss": 5.5808,
+      "num_input_tokens_seen": 258342912,
+      "step": 1971
+    },
+    {
+      "epoch": 0.3375440846425136,
+      "grad_norm": 0.9974462389945984,
+      "learning_rate": 0.000115579680800657,
+      "loss": 5.5863,
+      "num_input_tokens_seen": 258736128,
+      "step": 1974
+    },
+    {
+      "epoch": 0.3380570695735813,
+      "grad_norm": 1.0641543865203857,
+      "learning_rate": 0.00011549195427507569,
+      "loss": 5.6162,
+      "num_input_tokens_seen": 259129344,
+      "step": 1977
+    },
+    {
+      "epoch": 0.33857005450464894,
+      "grad_norm": 1.3743962049484253,
+      "learning_rate": 0.00011540442720356016,
+      "loss": 5.6052,
+      "num_input_tokens_seen": 259522560,
+      "step": 1980
+    },
+    {
+      "epoch": 0.33908303943571655,
+      "grad_norm": 0.8301076889038086,
+      "learning_rate": 0.0001153170988314599,
+      "loss": 5.5922,
+      "num_input_tokens_seen": 259915776,
+      "step": 1983
+    },
+    {
+      "epoch": 0.3395960243667842,
+      "grad_norm": 0.7537018656730652,
+      "learning_rate": 0.00011522996840811572,
+      "loss": 5.5989,
+      "num_input_tokens_seen": 260308992,
+      "step": 1986
+    },
+    {
+      "epoch": 0.34010900929785187,
+      "grad_norm": 0.9778670072555542,
+      "learning_rate": 0.00011514303518683271,
+      "loss": 5.614,
+      "num_input_tokens_seen": 260702208,
+      "step": 1989
+    },
+    {
+      "epoch": 0.34062199422891953,
+      "grad_norm": 0.9663039445877075,
+      "learning_rate": 0.00011505629842485338,
+      "loss": 5.6108,
+      "num_input_tokens_seen": 261095424,
+      "step": 1992
+    },
+    {
+      "epoch": 0.3411349791599872,
+      "grad_norm": 0.9101848006248474,
+      "learning_rate": 0.00011496975738333083,
+      "loss": 5.5891,
+      "num_input_tokens_seen": 261488640,
+      "step": 1995
+    },
+    {
+      "epoch": 0.3416479640910548,
+      "grad_norm": 0.8312708735466003,
+      "learning_rate": 0.00011488341132730259,
+      "loss": 5.6175,
+      "num_input_tokens_seen": 261881856,
+      "step": 1998
+    },
+    {
+      "epoch": 0.3419899540450999,
+      "eval_accuracy": 0.16692558215274386,
+      "eval_loss": 6.050157070159912,
+      "eval_runtime": 112.2283,
+      "eval_samples_per_second": 2.673,
+      "eval_steps_per_second": 1.337,
+      "num_input_tokens_seen": 262144000,
+      "step": 2000
+    },
+    {
+      "epoch": 0.34216094902212246,
+      "grad_norm": 0.836723268032074,
+      "learning_rate": 0.00011479725952566419,
+      "loss": 5.5988,
+      "num_input_tokens_seen": 262275072,
+      "step": 2001
+    },
+    {
+      "epoch": 0.3426739339531901,
+      "grad_norm": 0.7804883122444153,
+      "learning_rate": 0.00011471130125114323,
+      "loss": 5.6296,
+      "num_input_tokens_seen": 262668288,
+      "step": 2004
+    },
+    {
+      "epoch": 0.3431869188842578,
+      "grad_norm": 0.9573701620101929,
+      "learning_rate": 0.00011462553578027366,
+      "loss": 5.5844,
+      "num_input_tokens_seen": 263061504,
+      "step": 2007
+    },
+    {
+      "epoch": 0.34369990381532545,
+      "grad_norm": 0.9088414311408997,
+      "learning_rate": 0.00011453996239337006,
+      "loss": 5.5551,
+      "num_input_tokens_seen": 263454720,
+      "step": 2010
+    },
+    {
+      "epoch": 0.34421288874639305,
+      "grad_norm": 0.8941265940666199,
+      "learning_rate": 0.00011445458037450239,
+      "loss": 5.5586,
+      "num_input_tokens_seen": 263847936,
+      "step": 2013
+    },
+    {
+      "epoch": 0.3447258736774607,
+      "grad_norm": 0.7578518390655518,
+      "learning_rate": 0.00011436938901147081,
+      "loss": 5.6165,
+      "num_input_tokens_seen": 264241152,
+      "step": 2016
+    },
+    {
+      "epoch": 0.3452388586085284,
+      "grad_norm": 0.7264053821563721,
+      "learning_rate": 0.00011428438759578074,
+      "loss": 5.5951,
+      "num_input_tokens_seen": 264634368,
+      "step": 2019
+    },
+    {
+      "epoch": 0.34575184353959604,
+      "grad_norm": 0.7484355568885803,
+      "learning_rate": 0.00011419957542261805,
+      "loss": 5.6023,
+      "num_input_tokens_seen": 265027584,
+      "step": 2022
+    },
+    {
+      "epoch": 0.3462648284706637,
+      "grad_norm": 0.7840693593025208,
+      "learning_rate": 0.0001141149517908246,
+      "loss": 5.5978,
+      "num_input_tokens_seen": 265420800,
+      "step": 2025
+    },
+    {
+      "epoch": 0.3467778134017313,
+      "grad_norm": 0.7896338701248169,
+      "learning_rate": 0.0001140305160028738,
+      "loss": 5.6215,
+      "num_input_tokens_seen": 265814016,
+      "step": 2028
+    },
+    {
+      "epoch": 0.34729079833279897,
+      "grad_norm": 0.8777353763580322,
+      "learning_rate": 0.00011394626736484653,
+      "loss": 5.5965,
+      "num_input_tokens_seen": 266207232,
+      "step": 2031
+    },
+    {
+      "epoch": 0.34780378326386663,
+      "grad_norm": 0.8751804232597351,
+      "learning_rate": 0.00011386220518640724,
+      "loss": 5.6445,
+      "num_input_tokens_seen": 266600448,
+      "step": 2034
+    },
+    {
+      "epoch": 0.3483167681949343,
+      "grad_norm": 0.8036639094352722,
+      "learning_rate": 0.00011377832878078,
+      "loss": 5.5957,
+      "num_input_tokens_seen": 266993664,
+      "step": 2037
+    },
+    {
+      "epoch": 0.34882975312600195,
+      "grad_norm": 0.8183003664016724,
+      "learning_rate": 0.00011369463746472517,
+      "loss": 5.6243,
+      "num_input_tokens_seen": 267386880,
+      "step": 2040
+    },
+    {
+      "epoch": 0.34934273805706956,
+      "grad_norm": 0.8002908825874329,
+      "learning_rate": 0.00011361113055851587,
+      "loss": 5.5953,
+      "num_input_tokens_seen": 267780096,
+      "step": 2043
+    },
+    {
+      "epoch": 0.3498557229881372,
+      "grad_norm": 0.6631841063499451,
+      "learning_rate": 0.00011352780738591478,
+      "loss": 5.6013,
+      "num_input_tokens_seen": 268173312,
+      "step": 2046
+    },
+    {
+      "epoch": 0.3503687079192049,
+      "grad_norm": 0.7779785394668579,
+      "learning_rate": 0.00011344466727415132,
+      "loss": 5.6058,
+      "num_input_tokens_seen": 268566528,
+      "step": 2049
+    },
+    {
+      "epoch": 0.35088169285027254,
+      "grad_norm": 0.722675621509552,
+      "learning_rate": 0.00011336170955389853,
+      "loss": 5.6014,
+      "num_input_tokens_seen": 268959744,
+      "step": 2052
+    },
+    {
+      "epoch": 0.35139467778134015,
+      "grad_norm": 0.725713312625885,
+      "learning_rate": 0.00011327893355925084,
+      "loss": 5.6318,
+      "num_input_tokens_seen": 269352960,
+      "step": 2055
+    },
+    {
+      "epoch": 0.3519076627124078,
+      "grad_norm": 0.7272054553031921,
+      "learning_rate": 0.0001131963386277012,
+      "loss": 5.5913,
+      "num_input_tokens_seen": 269746176,
+      "step": 2058
+    },
+    {
+      "epoch": 0.35242064764347547,
+      "grad_norm": 0.7865688800811768,
+      "learning_rate": 0.00011311392410011913,
+      "loss": 5.5727,
+      "num_input_tokens_seen": 270139392,
+      "step": 2061
+    },
+    {
+      "epoch": 0.35293363257454313,
+      "grad_norm": 0.754695475101471,
+      "learning_rate": 0.00011303168932072842,
+      "loss": 5.5762,
+      "num_input_tokens_seen": 270532608,
+      "step": 2064
+    },
+    {
+      "epoch": 0.3534466175056108,
+      "grad_norm": 0.7348251342773438,
+      "learning_rate": 0.00011294963363708538,
+      "loss": 5.5913,
+      "num_input_tokens_seen": 270925824,
+      "step": 2067
+    },
+    {
+      "epoch": 0.3539596024366784,
+      "grad_norm": 0.8406401872634888,
+      "learning_rate": 0.00011286775640005698,
+      "loss": 5.5496,
+      "num_input_tokens_seen": 271319040,
+      "step": 2070
+    },
+    {
+      "epoch": 0.35447258736774606,
+      "grad_norm": 0.8418242335319519,
+      "learning_rate": 0.00011278605696379935,
+      "loss": 5.5903,
+      "num_input_tokens_seen": 271712256,
+      "step": 2073
+    },
+    {
+      "epoch": 0.3549855722988137,
+      "grad_norm": 0.6441095471382141,
+      "learning_rate": 0.00011270453468573625,
+      "loss": 5.5503,
+      "num_input_tokens_seen": 272105472,
+      "step": 2076
+    },
+    {
+      "epoch": 0.3554985572298814,
+      "grad_norm": 0.7358053922653198,
+      "learning_rate": 0.00011262318892653804,
+      "loss": 5.5992,
+      "num_input_tokens_seen": 272498688,
+      "step": 2079
+    },
+    {
+      "epoch": 0.35601154216094905,
+      "grad_norm": 0.7976645231246948,
+      "learning_rate": 0.00011254201905010056,
+      "loss": 5.594,
+      "num_input_tokens_seen": 272891904,
+      "step": 2082
+    },
+    {
+      "epoch": 0.35652452709201665,
+      "grad_norm": 0.9197404980659485,
+      "learning_rate": 0.00011246102442352411,
+      "loss": 5.5648,
+      "num_input_tokens_seen": 273285120,
+      "step": 2085
+    },
+    {
+      "epoch": 0.3570375120230843,
+      "grad_norm": 0.9233546853065491,
+      "learning_rate": 0.00011238020441709289,
+      "loss": 5.5126,
+      "num_input_tokens_seen": 273678336,
+      "step": 2088
+    },
+    {
+      "epoch": 0.357550496954152,
+      "grad_norm": 0.8510675430297852,
+      "learning_rate": 0.00011229955840425433,
+      "loss": 5.5816,
+      "num_input_tokens_seen": 274071552,
+      "step": 2091
+    },
+    {
+      "epoch": 0.35806348188521964,
+      "grad_norm": 0.7524028420448303,
+      "learning_rate": 0.00011221908576159871,
+      "loss": 5.5925,
+      "num_input_tokens_seen": 274464768,
+      "step": 2094
+    },
+    {
+      "epoch": 0.3585764668162873,
+      "grad_norm": 0.9298664927482605,
+      "learning_rate": 0.00011213878586883904,
+      "loss": 5.5632,
+      "num_input_tokens_seen": 274857984,
+      "step": 2097
+    },
+    {
+      "epoch": 0.3590894517473549,
+      "grad_norm": 0.8467714190483093,
+      "learning_rate": 0.00011205865810879076,
+      "loss": 5.5589,
+      "num_input_tokens_seen": 275251200,
+      "step": 2100
+    },
+    {
+      "epoch": 0.35960243667842257,
+      "grad_norm": 0.7781933546066284,
+      "learning_rate": 0.00011197870186735193,
+      "loss": 5.5408,
+      "num_input_tokens_seen": 275644416,
+      "step": 2103
+    },
+    {
+      "epoch": 0.3601154216094902,
+      "grad_norm": 0.8665353655815125,
+      "learning_rate": 0.00011189891653348355,
+      "loss": 5.6069,
+      "num_input_tokens_seen": 276037632,
+      "step": 2106
+    },
+    {
+      "epoch": 0.3606284065405579,
+      "grad_norm": 0.8551245927810669,
+      "learning_rate": 0.00011181930149918981,
+      "loss": 5.5846,
+      "num_input_tokens_seen": 276430848,
+      "step": 2109
+    },
+    {
+      "epoch": 0.3611413914716255,
+      "grad_norm": 0.7167636752128601,
+      "learning_rate": 0.00011173985615949868,
+      "loss": 5.5516,
+      "num_input_tokens_seen": 276824064,
+      "step": 2112
+    },
+    {
+      "epoch": 0.36165437640269316,
+      "grad_norm": 0.6893343329429626,
+      "learning_rate": 0.00011166057991244258,
+      "loss": 5.5724,
+      "num_input_tokens_seen": 277217280,
+      "step": 2115
+    },
+    {
+      "epoch": 0.3621673613337608,
+      "grad_norm": 0.9303981065750122,
+      "learning_rate": 0.00011158147215903933,
+      "loss": 5.5756,
+      "num_input_tokens_seen": 277610496,
+      "step": 2118
+    },
+    {
+      "epoch": 0.3626803462648285,
+      "grad_norm": 0.7787050008773804,
+      "learning_rate": 0.00011150253230327296,
+      "loss": 5.5545,
+      "num_input_tokens_seen": 278003712,
+      "step": 2121
+    },
+    {
+      "epoch": 0.36319333119589614,
+      "grad_norm": 0.7556629180908203,
+      "learning_rate": 0.00011142375975207502,
+      "loss": 5.5149,
+      "num_input_tokens_seen": 278396928,
+      "step": 2124
+    },
+    {
+      "epoch": 0.36370631612696375,
+      "grad_norm": 0.8528605103492737,
+      "learning_rate": 0.00011134515391530575,
+      "loss": 5.5498,
+      "num_input_tokens_seen": 278790144,
+      "step": 2127
+    },
+    {
+      "epoch": 0.3642193010580314,
+      "grad_norm": 0.8373255729675293,
+      "learning_rate": 0.00011126671420573558,
+      "loss": 5.5908,
+      "num_input_tokens_seen": 279183360,
+      "step": 2130
+    },
+    {
+      "epoch": 0.36473228598909907,
+      "grad_norm": 0.778972327709198,
+      "learning_rate": 0.0001111884400390267,
+      "loss": 5.579,
+      "num_input_tokens_seen": 279576576,
+      "step": 2133
+    },
+    {
+      "epoch": 0.36524527092016673,
+      "grad_norm": 0.7942299246788025,
+      "learning_rate": 0.00011111033083371468,
+      "loss": 5.5897,
+      "num_input_tokens_seen": 279969792,
+      "step": 2136
+    },
+    {
+      "epoch": 0.3657582558512344,
+      "grad_norm": 0.7748274207115173,
+      "learning_rate": 0.00011103238601119048,
+      "loss": 5.5885,
+      "num_input_tokens_seen": 280363008,
+      "step": 2139
+    },
+    {
+      "epoch": 0.366271240782302,
+      "grad_norm": 0.7882058024406433,
+      "learning_rate": 0.00011095460499568234,
+      "loss": 5.6277,
+      "num_input_tokens_seen": 280756224,
+      "step": 2142
+    },
+    {
+      "epoch": 0.36678422571336966,
+      "grad_norm": 0.7407231330871582,
+      "learning_rate": 0.00011087698721423798,
+      "loss": 5.562,
+      "num_input_tokens_seen": 281149440,
+      "step": 2145
+    },
+    {
+      "epoch": 0.3672972106444373,
+      "grad_norm": 0.8401018381118774,
+      "learning_rate": 0.0001107995320967068,
+      "loss": 5.5526,
+      "num_input_tokens_seen": 281542656,
+      "step": 2148
+    },
+    {
+      "epoch": 0.367810195575505,
+      "grad_norm": 0.7504671812057495,
+      "learning_rate": 0.00011072223907572236,
+      "loss": 5.5194,
+      "num_input_tokens_seen": 281935872,
+      "step": 2151
+    },
+    {
+      "epoch": 0.36832318050657264,
+      "grad_norm": 0.8152016401290894,
+      "learning_rate": 0.0001106451075866849,
+      "loss": 5.5838,
+      "num_input_tokens_seen": 282329088,
+      "step": 2154
+    },
+    {
+      "epoch": 0.36883616543764025,
+      "grad_norm": 0.764788031578064,
+      "learning_rate": 0.00011056813706774403,
+      "loss": 5.5741,
+      "num_input_tokens_seen": 282722304,
+      "step": 2157
+    },
+    {
+      "epoch": 0.3693491503687079,
+      "grad_norm": 0.7509755492210388,
+      "learning_rate": 0.00011049132695978147,
+      "loss": 5.5572,
+      "num_input_tokens_seen": 283115520,
+      "step": 2160
+    },
+    {
+      "epoch": 0.3698621352997756,
+      "grad_norm": 1.0009026527404785,
+      "learning_rate": 0.0001104146767063941,
+      "loss": 5.5376,
+      "num_input_tokens_seen": 283508736,
+      "step": 2163
+    },
+    {
+      "epoch": 0.37037512023084324,
+      "grad_norm": 0.7605016231536865,
+      "learning_rate": 0.00011033818575387697,
+      "loss": 5.5529,
+      "num_input_tokens_seen": 283901952,
+      "step": 2166
+    },
+    {
+      "epoch": 0.37088810516191084,
+      "grad_norm": 0.7910396456718445,
+      "learning_rate": 0.00011026185355120653,
+      "loss": 5.5987,
+      "num_input_tokens_seen": 284295168,
+      "step": 2169
+    },
+    {
+      "epoch": 0.3714010900929785,
+      "grad_norm": 0.7264419794082642,
+      "learning_rate": 0.00011018567955002388,
+      "loss": 5.5723,
+      "num_input_tokens_seen": 284688384,
+      "step": 2172
+    },
+    {
+      "epoch": 0.37191407502404616,
+      "grad_norm": 0.6918433308601379,
+      "learning_rate": 0.00011010966320461834,
+      "loss": 5.5759,
+      "num_input_tokens_seen": 285081600,
+      "step": 2175
+    },
+    {
+      "epoch": 0.3724270599551138,
+      "grad_norm": 0.7263005375862122,
+      "learning_rate": 0.00011003380397191095,
+      "loss": 5.5918,
+      "num_input_tokens_seen": 285474816,
+      "step": 2178
+    },
+    {
+      "epoch": 0.3729400448861815,
+      "grad_norm": 0.8244202733039856,
+      "learning_rate": 0.00010995810131143818,
+      "loss": 5.5039,
+      "num_input_tokens_seen": 285868032,
+      "step": 2181
+    },
+    {
+      "epoch": 0.3734530298172491,
+      "grad_norm": 0.8637891411781311,
+      "learning_rate": 0.00010988255468533583,
+      "loss": 5.5602,
+      "num_input_tokens_seen": 286261248,
+      "step": 2184
+    },
+    {
+      "epoch": 0.37396601474831676,
+      "grad_norm": 0.7446593046188354,
+      "learning_rate": 0.0001098071635583229,
+      "loss": 5.573,
+      "num_input_tokens_seen": 286654464,
+      "step": 2187
+    },
+    {
+      "epoch": 0.3744789996793844,
+      "grad_norm": 0.8517831563949585,
+      "learning_rate": 0.00010973192739768566,
+      "loss": 5.5137,
+      "num_input_tokens_seen": 287047680,
+      "step": 2190
+    },
+    {
+      "epoch": 0.3749919846104521,
+      "grad_norm": 0.8291754722595215,
+      "learning_rate": 0.00010965684567326188,
+      "loss": 5.5965,
+      "num_input_tokens_seen": 287440896,
+      "step": 2193
+    },
+    {
+      "epoch": 0.37550496954151974,
+      "grad_norm": 0.7934954762458801,
+      "learning_rate": 0.00010958191785742515,
+      "loss": 5.5761,
+      "num_input_tokens_seen": 287834112,
+      "step": 2196
+    },
+    {
+      "epoch": 0.37601795447258735,
+      "grad_norm": 1.1249563694000244,
+      "learning_rate": 0.00010950714342506926,
+      "loss": 5.5857,
+      "num_input_tokens_seen": 288227328,
+      "step": 2199
+    },
+    {
+      "epoch": 0.376530939403655,
+      "grad_norm": 0.9391211867332458,
+      "learning_rate": 0.00010943252185359275,
+      "loss": 5.5403,
+      "num_input_tokens_seen": 288620544,
+      "step": 2202
+    },
+    {
+      "epoch": 0.37704392433472267,
+      "grad_norm": 0.8083456754684448,
+      "learning_rate": 0.00010935805262288362,
+      "loss": 5.5593,
+      "num_input_tokens_seen": 289013760,
+      "step": 2205
+    },
+    {
+      "epoch": 0.37755690926579033,
+      "grad_norm": 0.8864873051643372,
+      "learning_rate": 0.00010928373521530409,
+      "loss": 5.5901,
+      "num_input_tokens_seen": 289406976,
+      "step": 2208
+    },
+    {
+      "epoch": 0.378069894196858,
+      "grad_norm": 0.7634648084640503,
+      "learning_rate": 0.00010920956911567537,
+      "loss": 5.5755,
+      "num_input_tokens_seen": 289800192,
+      "step": 2211
+    },
+    {
+      "epoch": 0.3785828791279256,
+      "grad_norm": 0.9811239242553711,
+      "learning_rate": 0.00010913555381126287,
+      "loss": 5.5405,
+      "num_input_tokens_seen": 290193408,
+      "step": 2214
+    },
+    {
+      "epoch": 0.37909586405899326,
+      "grad_norm": 0.8969237208366394,
+      "learning_rate": 0.00010906168879176115,
+      "loss": 5.6022,
+      "num_input_tokens_seen": 290586624,
+      "step": 2217
+    },
+    {
+      "epoch": 0.3796088489900609,
+      "grad_norm": 0.8845155835151672,
+      "learning_rate": 0.00010898797354927919,
+      "loss": 5.554,
+      "num_input_tokens_seen": 290979840,
+      "step": 2220
+    },
+    {
+      "epoch": 0.3801218339211286,
+      "grad_norm": 0.7560102343559265,
+      "learning_rate": 0.0001089144075783257,
+      "loss": 5.6002,
+      "num_input_tokens_seen": 291373056,
+      "step": 2223
+    },
+    {
+      "epoch": 0.38063481885219624,
+      "grad_norm": 0.7519661784172058,
+      "learning_rate": 0.00010884099037579465,
+      "loss": 5.5744,
+      "num_input_tokens_seen": 291766272,
+      "step": 2226
+    },
+    {
+      "epoch": 0.38114780378326385,
+      "grad_norm": 0.7482137084007263,
+      "learning_rate": 0.00010876772144095075,
+      "loss": 5.4982,
+      "num_input_tokens_seen": 292159488,
+      "step": 2229
+    },
+    {
+      "epoch": 0.3816607887143315,
+      "grad_norm": 0.7390425205230713,
+      "learning_rate": 0.00010869460027541504,
+      "loss": 5.5839,
+      "num_input_tokens_seen": 292552704,
+      "step": 2232
+    },
+    {
+      "epoch": 0.3821737736453992,
+      "grad_norm": 0.7970213890075684,
+      "learning_rate": 0.00010862162638315081,
+      "loss": 5.5299,
+      "num_input_tokens_seen": 292945920,
+      "step": 2235
+    },
+    {
+      "epoch": 0.38268675857646683,
+      "grad_norm": 1.0196114778518677,
+      "learning_rate": 0.00010854879927044931,
+      "loss": 5.5759,
+      "num_input_tokens_seen": 293339136,
+      "step": 2238
+    },
+    {
+      "epoch": 0.38319974350753444,
+      "grad_norm": 0.8929862380027771,
+      "learning_rate": 0.00010847611844591587,
+      "loss": 5.5529,
+      "num_input_tokens_seen": 293732352,
+      "step": 2241
+    },
+    {
+      "epoch": 0.3837127284386021,
+      "grad_norm": 0.7914404273033142,
+      "learning_rate": 0.00010840358342045581,
+      "loss": 5.5529,
+      "num_input_tokens_seen": 294125568,
+      "step": 2244
+    },
+    {
+      "epoch": 0.38422571336966976,
+      "grad_norm": 0.8195559978485107,
+      "learning_rate": 0.00010833119370726075,
+      "loss": 5.5227,
+      "num_input_tokens_seen": 294518784,
+      "step": 2247
+    },
+    {
+      "epoch": 0.3847386983007374,
+      "grad_norm": 0.947847306728363,
+      "learning_rate": 0.00010825894882179485,
+      "loss": 5.5733,
+      "num_input_tokens_seen": 294912000,
+      "step": 2250
+    },
+    {
+      "epoch": 0.3852516832318051,
+      "grad_norm": 0.9748887419700623,
+      "learning_rate": 0.00010818684828178117,
+      "loss": 5.5793,
+      "num_input_tokens_seen": 295305216,
+      "step": 2253
+    },
+    {
+      "epoch": 0.3857646681628727,
+      "grad_norm": 0.8942933678627014,
+      "learning_rate": 0.00010811489160718815,
+      "loss": 5.5403,
+      "num_input_tokens_seen": 295698432,
+      "step": 2256
+    },
+    {
+      "epoch": 0.38627765309394035,
+      "grad_norm": 0.7008263468742371,
+      "learning_rate": 0.00010804307832021618,
+      "loss": 5.5767,
+      "num_input_tokens_seen": 296091648,
+      "step": 2259
+    },
+    {
+      "epoch": 0.386790638025008,
+      "grad_norm": 0.7309878468513489,
+      "learning_rate": 0.0001079714079452843,
+      "loss": 5.5122,
+      "num_input_tokens_seen": 296484864,
+      "step": 2262
+    },
+    {
+      "epoch": 0.3873036229560757,
+      "grad_norm": 0.9144716858863831,
+      "learning_rate": 0.000107899880009017,
+      "loss": 5.57,
+      "num_input_tokens_seen": 296878080,
+      "step": 2265
+    },
+    {
+      "epoch": 0.38781660788714334,
+      "grad_norm": 0.961901068687439,
+      "learning_rate": 0.00010782849404023096,
+      "loss": 5.5156,
+      "num_input_tokens_seen": 297271296,
+      "step": 2268
+    },
+    {
+      "epoch": 0.38832959281821094,
+      "grad_norm": 0.7054316997528076,
+      "learning_rate": 0.00010775724956992224,
+      "loss": 5.5626,
+      "num_input_tokens_seen": 297664512,
+      "step": 2271
+    },
+    {
+      "epoch": 0.3888425777492786,
+      "grad_norm": 0.8600339889526367,
+      "learning_rate": 0.00010768614613125303,
+      "loss": 5.5521,
+      "num_input_tokens_seen": 298057728,
+      "step": 2274
+    },
+    {
+      "epoch": 0.38935556268034627,
+      "grad_norm": 0.7894279956817627,
+      "learning_rate": 0.0001076151832595391,
+      "loss": 5.5412,
+      "num_input_tokens_seen": 298450944,
+      "step": 2277
+    },
+    {
+      "epoch": 0.38986854761141393,
+      "grad_norm": 0.7673327922821045,
+      "learning_rate": 0.0001075443604922369,
+      "loss": 5.584,
+      "num_input_tokens_seen": 298844160,
+      "step": 2280
+    },
+    {
+      "epoch": 0.3903815325424816,
+      "grad_norm": 0.7792801856994629,
+      "learning_rate": 0.00010747367736893089,
+      "loss": 5.5592,
+      "num_input_tokens_seen": 299237376,
+      "step": 2283
+    },
+    {
+      "epoch": 0.3908945174735492,
+      "grad_norm": 0.8032937049865723,
+      "learning_rate": 0.00010740313343132098,
+      "loss": 5.5543,
+      "num_input_tokens_seen": 299630592,
+      "step": 2286
+    },
+    {
+      "epoch": 0.39140750240461686,
+      "grad_norm": 0.731970489025116,
+      "learning_rate": 0.00010733272822321011,
+      "loss": 5.5259,
+      "num_input_tokens_seen": 300023808,
+      "step": 2289
+    },
+    {
+      "epoch": 0.3919204873356845,
+      "grad_norm": 0.7217367887496948,
+      "learning_rate": 0.00010726246129049176,
+      "loss": 5.5442,
+      "num_input_tokens_seen": 300417024,
+      "step": 2292
+    },
+    {
+      "epoch": 0.3924334722667522,
+      "grad_norm": 0.7392825484275818,
+      "learning_rate": 0.00010719233218113771,
+      "loss": 5.5274,
+      "num_input_tokens_seen": 300810240,
+      "step": 2295
+    },
+    {
+      "epoch": 0.3929464571978198,
+      "grad_norm": 0.7724013924598694,
+      "learning_rate": 0.00010712234044518587,
+      "loss": 5.5069,
+      "num_input_tokens_seen": 301203456,
+      "step": 2298
+    },
+    {
+      "epoch": 0.39345944212888745,
+      "grad_norm": 0.709718644618988,
+      "learning_rate": 0.00010705248563472809,
+      "loss": 5.5211,
+      "num_input_tokens_seen": 301596672,
+      "step": 2301
+    },
+    {
+      "epoch": 0.3939724270599551,
+      "grad_norm": 0.7409883141517639,
+      "learning_rate": 0.00010698276730389805,
+      "loss": 5.5102,
+      "num_input_tokens_seen": 301989888,
+      "step": 2304
+    },
+    {
+      "epoch": 0.39448541199102277,
+      "grad_norm": 0.8129496574401855,
+      "learning_rate": 0.0001069131850088595,
+      "loss": 5.5545,
+      "num_input_tokens_seen": 302383104,
+      "step": 2307
+    },
+    {
+      "epoch": 0.39499839692209043,
+      "grad_norm": 1.0027920007705688,
+      "learning_rate": 0.00010684373830779422,
+      "loss": 5.5445,
+      "num_input_tokens_seen": 302776320,
+      "step": 2310
+    },
+    {
+      "epoch": 0.39551138185315804,
+      "grad_norm": 0.8895756006240845,
+      "learning_rate": 0.0001067744267608903,
+      "loss": 5.5625,
+      "num_input_tokens_seen": 303169536,
+      "step": 2313
+    },
+    {
+      "epoch": 0.3960243667842257,
+      "grad_norm": 0.8327840566635132,
+      "learning_rate": 0.00010670524993033049,
+      "loss": 5.5472,
+      "num_input_tokens_seen": 303562752,
+      "step": 2316
+    },
+    {
+      "epoch": 0.39653735171529336,
+      "grad_norm": 1.1410460472106934,
+      "learning_rate": 0.00010663620738028051,
+      "loss": 5.5659,
+      "num_input_tokens_seen": 303955968,
+      "step": 2319
+    },
+    {
+      "epoch": 0.397050336646361,
+      "grad_norm": 0.889072835445404,
+      "learning_rate": 0.0001065672986768775,
+      "loss": 5.5594,
+      "num_input_tokens_seen": 304349184,
+      "step": 2322
+    },
+    {
+      "epoch": 0.3975633215774287,
+      "grad_norm": 0.8344824910163879,
+      "learning_rate": 0.0001064985233882187,
+      "loss": 5.553,
+      "num_input_tokens_seen": 304742400,
+      "step": 2325
+    },
+    {
+      "epoch": 0.3980763065084963,
+      "grad_norm": 0.7969459891319275,
+      "learning_rate": 0.00010642988108434991,
+      "loss": 5.5389,
+      "num_input_tokens_seen": 305135616,
+      "step": 2328
+    },
+    {
+      "epoch": 0.39858929143956395,
+      "grad_norm": 0.9471580386161804,
+      "learning_rate": 0.00010636137133725434,
+      "loss": 5.5615,
+      "num_input_tokens_seen": 305528832,
+      "step": 2331
+    },
+    {
+      "epoch": 0.3991022763706316,
+      "grad_norm": 0.8734350204467773,
+      "learning_rate": 0.00010629299372084134,
+      "loss": 5.5455,
+      "num_input_tokens_seen": 305922048,
+      "step": 2334
+    },
+    {
+      "epoch": 0.3996152613016993,
+      "grad_norm": 0.8351041078567505,
+      "learning_rate": 0.00010622474781093524,
+      "loss": 5.5332,
+      "num_input_tokens_seen": 306315264,
+      "step": 2337
+    },
+    {
+      "epoch": 0.40012824623276694,
+      "grad_norm": 0.8178178668022156,
+      "learning_rate": 0.00010615663318526436,
+      "loss": 5.5456,
+      "num_input_tokens_seen": 306708480,
+      "step": 2340
+    },
+    {
+      "epoch": 0.40064123116383454,
+      "grad_norm": 0.8616231679916382,
+      "learning_rate": 0.00010608864942345,
+      "loss": 5.5559,
+      "num_input_tokens_seen": 307101696,
+      "step": 2343
+    },
+    {
+      "epoch": 0.4011542160949022,
+      "grad_norm": 0.9160477519035339,
+      "learning_rate": 0.00010602079610699554,
+      "loss": 5.5369,
+      "num_input_tokens_seen": 307494912,
+      "step": 2346
+    },
+    {
+      "epoch": 0.40166720102596987,
+      "grad_norm": 0.8481185436248779,
+      "learning_rate": 0.00010595307281927571,
+      "loss": 5.5697,
+      "num_input_tokens_seen": 307888128,
+      "step": 2349
+    },
+    {
+      "epoch": 0.40218018595703753,
+      "grad_norm": 0.7999601364135742,
+      "learning_rate": 0.00010588547914552566,
+      "loss": 5.5475,
+      "num_input_tokens_seen": 308281344,
+      "step": 2352
+    },
+    {
+      "epoch": 0.40269317088810513,
+      "grad_norm": 0.8336549997329712,
+      "learning_rate": 0.00010581801467283045,
+      "loss": 5.5177,
+      "num_input_tokens_seen": 308674560,
+      "step": 2355
+    },
+    {
+      "epoch": 0.4032061558191728,
+      "grad_norm": 0.9885947108268738,
+      "learning_rate": 0.00010575067899011441,
+      "loss": 5.5241,
+      "num_input_tokens_seen": 309067776,
+      "step": 2358
+    },
+    {
+      "epoch": 0.40371914075024046,
+      "grad_norm": 0.811789870262146,
+      "learning_rate": 0.00010568347168813064,
+      "loss": 5.5635,
+      "num_input_tokens_seen": 309460992,
+      "step": 2361
+    },
+    {
+      "epoch": 0.4042321256813081,
+      "grad_norm": 0.7453095316886902,
+      "learning_rate": 0.00010561639235945043,
+      "loss": 5.5208,
+      "num_input_tokens_seen": 309854208,
+      "step": 2364
+    },
+    {
+      "epoch": 0.4047451106123758,
+      "grad_norm": 0.7175402045249939,
+      "learning_rate": 0.00010554944059845314,
+      "loss": 5.5112,
+      "num_input_tokens_seen": 310247424,
+      "step": 2367
+    },
+    {
+      "epoch": 0.4052580955434434,
+      "grad_norm": 0.7702206373214722,
+      "learning_rate": 0.00010548261600131565,
+      "loss": 5.5175,
+      "num_input_tokens_seen": 310640640,
+      "step": 2370
+    },
+    {
+      "epoch": 0.40577108047451105,
+      "grad_norm": 0.7227572798728943,
+      "learning_rate": 0.00010541591816600227,
+      "loss": 5.5596,
+      "num_input_tokens_seen": 311033856,
+      "step": 2373
+    },
+    {
+      "epoch": 0.4062840654055787,
+      "grad_norm": 0.8014532327651978,
+      "learning_rate": 0.00010534934669225456,
+      "loss": 5.4984,
+      "num_input_tokens_seen": 311427072,
+      "step": 2376
+    },
+    {
+      "epoch": 0.40679705033664637,
+      "grad_norm": 0.867141604423523,
+      "learning_rate": 0.0001052829011815812,
+      "loss": 5.5651,
+      "num_input_tokens_seen": 311820288,
+      "step": 2379
+    },
+    {
+      "epoch": 0.40731003526771403,
+      "grad_norm": 0.6916822791099548,
+      "learning_rate": 0.00010521658123724799,
+      "loss": 5.5142,
+      "num_input_tokens_seen": 312213504,
+      "step": 2382
+    },
+    {
+      "epoch": 0.40782302019878164,
+      "grad_norm": 0.7513076066970825,
+      "learning_rate": 0.00010515038646426796,
+      "loss": 5.5373,
+      "num_input_tokens_seen": 312606720,
+      "step": 2385
+    },
+    {
+      "epoch": 0.4083360051298493,
+      "grad_norm": 0.7861223220825195,
+      "learning_rate": 0.00010508431646939135,
+      "loss": 5.5649,
+      "num_input_tokens_seen": 312999936,
+      "step": 2388
+    },
+    {
+      "epoch": 0.40884899006091696,
+      "grad_norm": 0.7609034180641174,
+      "learning_rate": 0.00010501837086109599,
+      "loss": 5.5171,
+      "num_input_tokens_seen": 313393152,
+      "step": 2391
+    },
+    {
+      "epoch": 0.4093619749919846,
+      "grad_norm": 0.6941331624984741,
+      "learning_rate": 0.00010495254924957736,
+      "loss": 5.5279,
+      "num_input_tokens_seen": 313786368,
+      "step": 2394
+    },
+    {
+      "epoch": 0.4098749599230523,
+      "grad_norm": 0.6960221529006958,
+      "learning_rate": 0.00010488685124673906,
+      "loss": 5.53,
+      "num_input_tokens_seen": 314179584,
+      "step": 2397
+    },
+    {
+      "epoch": 0.4103879448541199,
+      "grad_norm": 0.7227168083190918,
+      "learning_rate": 0.00010482127646618314,
+      "loss": 5.5014,
+      "num_input_tokens_seen": 314572800,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4103879448541199,
+      "eval_accuracy": 0.16866471258752647,
+      "eval_loss": 5.9827094078063965,
+      "eval_runtime": 115.7853,
+      "eval_samples_per_second": 2.591,
+      "eval_steps_per_second": 1.296,
+      "num_input_tokens_seen": 314572800,
+      "step": 2400
+    },
+    {
+      "epoch": 0.41090092978518755,
+      "grad_norm": 0.7502657771110535,
+      "learning_rate": 0.00010475582452320052,
+      "loss": 5.5249,
+      "num_input_tokens_seen": 314966016,
+      "step": 2403
+    },
+    {
+      "epoch": 0.4114139147162552,
+      "grad_norm": 0.709670901298523,
+      "learning_rate": 0.00010469049503476158,
+      "loss": 5.5021,
+      "num_input_tokens_seen": 315359232,
+      "step": 2406
+    },
+    {
+      "epoch": 0.4119268996473229,
+      "grad_norm": 0.8333126902580261,
+      "learning_rate": 0.00010462528761950672,
+      "loss": 5.5293,
+      "num_input_tokens_seen": 315752448,
+      "step": 2409
+    },
+    {
+      "epoch": 0.41243988457839054,
+      "grad_norm": 0.7035155296325684,
+      "learning_rate": 0.00010456020189773697,
+      "loss": 5.5508,
+      "num_input_tokens_seen": 316145664,
+      "step": 2412
+    },
+    {
+      "epoch": 0.41295286950945814,
+      "grad_norm": 0.7859997749328613,
+      "learning_rate": 0.00010449523749140482,
+      "loss": 5.5175,
+      "num_input_tokens_seen": 316538880,
+      "step": 2415
+    },
+    {
+      "epoch": 0.4134658544405258,
+      "grad_norm": 0.7992687821388245,
+      "learning_rate": 0.00010443039402410475,
+      "loss": 5.5136,
+      "num_input_tokens_seen": 316932096,
+      "step": 2418
+    },
+    {
+      "epoch": 0.41397883937159347,
+      "grad_norm": 0.8525195717811584,
+      "learning_rate": 0.00010436567112106444,
+      "loss": 5.54,
+      "num_input_tokens_seen": 317325312,
+      "step": 2421
+    },
+    {
+      "epoch": 0.4144918243026611,
+      "grad_norm": 0.6531423330307007,
+      "learning_rate": 0.00010430106840913532,
+      "loss": 5.4994,
+      "num_input_tokens_seen": 317718528,
+      "step": 2424
+    },
+    {
+      "epoch": 0.41500480923372873,
+      "grad_norm": 0.6764413714408875,
+      "learning_rate": 0.00010423658551678376,
+      "loss": 5.496,
+      "num_input_tokens_seen": 318111744,
+      "step": 2427
+    },
+    {
+      "epoch": 0.4155177941647964,
+      "grad_norm": 0.6776644587516785,
+      "learning_rate": 0.00010417222207408196,
+      "loss": 5.5749,
+      "num_input_tokens_seen": 318504960,
+      "step": 2430
+    },
+    {
+      "epoch": 0.41603077909586406,
+      "grad_norm": 0.790438711643219,
+      "learning_rate": 0.00010410797771269917,
+      "loss": 5.5339,
+      "num_input_tokens_seen": 318898176,
+      "step": 2433
+    },
+    {
+      "epoch": 0.4165437640269317,
+      "grad_norm": 0.8480133414268494,
+      "learning_rate": 0.00010404385206589268,
+      "loss": 5.5411,
+      "num_input_tokens_seen": 319291392,
+      "step": 2436
+    },
+    {
+      "epoch": 0.4170567489579994,
+      "grad_norm": 0.832699716091156,
+      "learning_rate": 0.00010397984476849915,
+      "loss": 5.5524,
+      "num_input_tokens_seen": 319684608,
+      "step": 2439
+    },
+    {
+      "epoch": 0.417569733889067,
+      "grad_norm": 0.8338193297386169,
+      "learning_rate": 0.00010391595545692583,
+      "loss": 5.4927,
+      "num_input_tokens_seen": 320077824,
+      "step": 2442
+    },
+    {
+      "epoch": 0.41808271882013465,
+      "grad_norm": 0.7665431499481201,
+      "learning_rate": 0.00010385218376914195,
+      "loss": 5.5396,
+      "num_input_tokens_seen": 320471040,
+      "step": 2445
+    },
+    {
+      "epoch": 0.4185957037512023,
+      "grad_norm": 0.719890832901001,
+      "learning_rate": 0.00010378852934466992,
+      "loss": 5.5215,
+      "num_input_tokens_seen": 320864256,
+      "step": 2448
+    },
+    {
+      "epoch": 0.41910868868226997,
+      "grad_norm": 0.7127965688705444,
+      "learning_rate": 0.000103724991824577,
+      "loss": 5.517,
+      "num_input_tokens_seen": 321257472,
+      "step": 2451
+    },
+    {
+      "epoch": 0.41962167361333763,
+      "grad_norm": 0.841174840927124,
+      "learning_rate": 0.00010366157085146666,
+      "loss": 5.5549,
+      "num_input_tokens_seen": 321650688,
+      "step": 2454
+    },
+    {
+      "epoch": 0.42013465854440524,
+      "grad_norm": 0.9073885083198547,
+      "learning_rate": 0.00010359826606947015,
+      "loss": 5.5391,
+      "num_input_tokens_seen": 322043904,
+      "step": 2457
+    },
+    {
+      "epoch": 0.4206476434754729,
+      "grad_norm": 0.7966265082359314,
+      "learning_rate": 0.00010353507712423819,
+      "loss": 5.5094,
+      "num_input_tokens_seen": 322437120,
+      "step": 2460
+    },
+    {
+      "epoch": 0.42116062840654056,
+      "grad_norm": 0.7716068029403687,
+      "learning_rate": 0.00010347200366293252,
+      "loss": 5.5039,
+      "num_input_tokens_seen": 322830336,
+      "step": 2463
+    },
+    {
+      "epoch": 0.4216736133376082,
+      "grad_norm": 1.1247206926345825,
+      "learning_rate": 0.00010340904533421777,
+      "loss": 5.5764,
+      "num_input_tokens_seen": 323223552,
+      "step": 2466
+    },
+    {
+      "epoch": 0.4221865982686759,
+      "grad_norm": 1.0969719886779785,
+      "learning_rate": 0.00010334620178825307,
+      "loss": 5.5091,
+      "num_input_tokens_seen": 323616768,
+      "step": 2469
+    },
+    {
+      "epoch": 0.4226995831997435,
+      "grad_norm": 0.7282251119613647,
+      "learning_rate": 0.00010328347267668404,
+      "loss": 5.5254,
+      "num_input_tokens_seen": 324009984,
+      "step": 2472
+    },
+    {
+      "epoch": 0.42321256813081115,
+      "grad_norm": 0.7151831984519958,
+      "learning_rate": 0.0001032208576526346,
+      "loss": 5.5016,
+      "num_input_tokens_seen": 324403200,
+      "step": 2475
+    },
+    {
+      "epoch": 0.4237255530618788,
+      "grad_norm": 0.7762022018432617,
+      "learning_rate": 0.0001031583563706989,
+      "loss": 5.4836,
+      "num_input_tokens_seen": 324796416,
+      "step": 2478
+    },
+    {
+      "epoch": 0.4242385379929465,
+      "grad_norm": 0.7001504898071289,
+      "learning_rate": 0.00010309596848693339,
+      "loss": 5.5204,
+      "num_input_tokens_seen": 325189632,
+      "step": 2481
+    },
+    {
+      "epoch": 0.4247515229240141,
+      "grad_norm": 0.8730801343917847,
+      "learning_rate": 0.00010303369365884883,
+      "loss": 5.5267,
+      "num_input_tokens_seen": 325582848,
+      "step": 2484
+    },
+    {
+      "epoch": 0.42526450785508174,
+      "grad_norm": 0.9579359889030457,
+      "learning_rate": 0.00010297153154540234,
+      "loss": 5.4667,
+      "num_input_tokens_seen": 325976064,
+      "step": 2487
+    },
+    {
+      "epoch": 0.4257774927861494,
+      "grad_norm": 0.7636502385139465,
+      "learning_rate": 0.00010290948180698962,
+      "loss": 5.5169,
+      "num_input_tokens_seen": 326369280,
+      "step": 2490
+    },
+    {
+      "epoch": 0.42629047771721706,
+      "grad_norm": 0.7500234246253967,
+      "learning_rate": 0.00010284754410543722,
+      "loss": 5.4919,
+      "num_input_tokens_seen": 326762496,
+      "step": 2493
+    },
+    {
+      "epoch": 0.4268034626482847,
+      "grad_norm": 0.9112027883529663,
+      "learning_rate": 0.0001027857181039946,
+      "loss": 5.5179,
+      "num_input_tokens_seen": 327155712,
+      "step": 2496
+    },
+    {
+      "epoch": 0.42731644757935233,
+      "grad_norm": 0.820213794708252,
+      "learning_rate": 0.00010272400346732667,
+      "loss": 5.5183,
+      "num_input_tokens_seen": 327548928,
+      "step": 2499
+    },
+    {
+      "epoch": 0.42782943251042,
+      "grad_norm": 0.8203981518745422,
+      "learning_rate": 0.00010266239986150597,
+      "loss": 5.532,
+      "num_input_tokens_seen": 327942144,
+      "step": 2502
+    },
+    {
+      "epoch": 0.42834241744148766,
+      "grad_norm": 0.7337089776992798,
+      "learning_rate": 0.00010260090695400518,
+      "loss": 5.4943,
+      "num_input_tokens_seen": 328335360,
+      "step": 2505
+    },
+    {
+      "epoch": 0.4288554023725553,
+      "grad_norm": 0.7428235411643982,
+      "learning_rate": 0.00010253952441368959,
+      "loss": 5.4861,
+      "num_input_tokens_seen": 328728576,
+      "step": 2508
+    },
+    {
+      "epoch": 0.429368387303623,
+      "grad_norm": 0.7361696362495422,
+      "learning_rate": 0.00010247825191080954,
+      "loss": 5.5521,
+      "num_input_tokens_seen": 329121792,
+      "step": 2511
+    },
+    {
+      "epoch": 0.4298813722346906,
+      "grad_norm": 0.6974912285804749,
+      "learning_rate": 0.00010241708911699302,
+      "loss": 5.456,
+      "num_input_tokens_seen": 329515008,
+      "step": 2514
+    },
+    {
+      "epoch": 0.43039435716575825,
+      "grad_norm": 0.8302775621414185,
+      "learning_rate": 0.00010235603570523828,
+      "loss": 5.507,
+      "num_input_tokens_seen": 329908224,
+      "step": 2517
+    },
+    {
+      "epoch": 0.4309073420968259,
+      "grad_norm": 0.8034529089927673,
+      "learning_rate": 0.00010229509134990649,
+      "loss": 5.4999,
+      "num_input_tokens_seen": 330301440,
+      "step": 2520
+    },
+    {
+      "epoch": 0.43142032702789357,
+      "grad_norm": 0.812213122844696,
+      "learning_rate": 0.00010223425572671442,
+      "loss": 5.5129,
+      "num_input_tokens_seen": 330694656,
+      "step": 2523
+    },
+    {
+      "epoch": 0.43193331195896123,
+      "grad_norm": 0.9187823534011841,
+      "learning_rate": 0.00010217352851272726,
+      "loss": 5.5116,
+      "num_input_tokens_seen": 331087872,
+      "step": 2526
+    },
+    {
+      "epoch": 0.43244629689002884,
+      "grad_norm": 0.9143493175506592,
+      "learning_rate": 0.00010211290938635132,
+      "loss": 5.4893,
+      "num_input_tokens_seen": 331481088,
+      "step": 2529
+    },
+    {
+      "epoch": 0.4329592818210965,
+      "grad_norm": 0.6335490942001343,
+      "learning_rate": 0.00010205239802732692,
+      "loss": 5.4349,
+      "num_input_tokens_seen": 331874304,
+      "step": 2532
+    },
+    {
+      "epoch": 0.43347226675216416,
+      "grad_norm": 0.7708688974380493,
+      "learning_rate": 0.00010199199411672136,
+      "loss": 5.4729,
+      "num_input_tokens_seen": 332267520,
+      "step": 2535
+    },
+    {
+      "epoch": 0.4339852516832318,
+      "grad_norm": 0.7687310576438904,
+      "learning_rate": 0.00010193169733692172,
+      "loss": 5.5084,
+      "num_input_tokens_seen": 332660736,
+      "step": 2538
+    },
+    {
+      "epoch": 0.4344982366142995,
+      "grad_norm": 0.8705409169197083,
+      "learning_rate": 0.00010187150737162795,
+      "loss": 5.5312,
+      "num_input_tokens_seen": 333053952,
+      "step": 2541
+    },
+    {
+      "epoch": 0.4350112215453671,
+      "grad_norm": 0.7544601559638977,
+      "learning_rate": 0.00010181142390584588,
+      "loss": 5.5007,
+      "num_input_tokens_seen": 333447168,
+      "step": 2544
+    },
+    {
+      "epoch": 0.43552420647643475,
+      "grad_norm": 0.7180626392364502,
+      "learning_rate": 0.00010175144662588028,
+      "loss": 5.5181,
+      "num_input_tokens_seen": 333840384,
+      "step": 2547
+    },
+    {
+      "epoch": 0.4360371914075024,
+      "grad_norm": 0.8776599764823914,
+      "learning_rate": 0.00010169157521932794,
+      "loss": 5.5253,
+      "num_input_tokens_seen": 334233600,
+      "step": 2550
+    },
+    {
+      "epoch": 0.4365501763385701,
+      "grad_norm": 0.8420502543449402,
+      "learning_rate": 0.00010163180937507096,
+      "loss": 5.4906,
+      "num_input_tokens_seen": 334626816,
+      "step": 2553
+    },
+    {
+      "epoch": 0.4370631612696377,
+      "grad_norm": 0.7820854783058167,
+      "learning_rate": 0.00010157214878326983,
+      "loss": 5.4878,
+      "num_input_tokens_seen": 335020032,
+      "step": 2556
+    },
+    {
+      "epoch": 0.43757614620070534,
+      "grad_norm": 0.7041083574295044,
+      "learning_rate": 0.00010151259313535675,
+      "loss": 5.5047,
+      "num_input_tokens_seen": 335413248,
+      "step": 2559
+    },
+    {
+      "epoch": 0.438089131131773,
+      "grad_norm": 0.7176365852355957,
+      "learning_rate": 0.00010145314212402889,
+      "loss": 5.4753,
+      "num_input_tokens_seen": 335806464,
+      "step": 2562
+    },
+    {
+      "epoch": 0.43860211606284066,
+      "grad_norm": 0.6593925356864929,
+      "learning_rate": 0.00010139379544324182,
+      "loss": 5.5398,
+      "num_input_tokens_seen": 336199680,
+      "step": 2565
+    },
+    {
+      "epoch": 0.4391151009939083,
+      "grad_norm": 0.8498782515525818,
+      "learning_rate": 0.00010133455278820273,
+      "loss": 5.5204,
+      "num_input_tokens_seen": 336592896,
+      "step": 2568
+    },
+    {
+      "epoch": 0.43962808592497593,
+      "grad_norm": 0.7824472188949585,
+      "learning_rate": 0.00010127541385536402,
+      "loss": 5.4865,
+      "num_input_tokens_seen": 336986112,
+      "step": 2571
+    },
+    {
+      "epoch": 0.4401410708560436,
+      "grad_norm": 0.7467549443244934,
+      "learning_rate": 0.00010121637834241672,
+      "loss": 5.4581,
+      "num_input_tokens_seen": 337379328,
+      "step": 2574
+    },
+    {
+      "epoch": 0.44065405578711125,
+      "grad_norm": 0.8907204866409302,
+      "learning_rate": 0.00010115744594828388,
+      "loss": 5.5488,
+      "num_input_tokens_seen": 337772544,
+      "step": 2577
+    },
+    {
+      "epoch": 0.4411670407181789,
+      "grad_norm": 0.9740023016929626,
+      "learning_rate": 0.00010109861637311432,
+      "loss": 5.5207,
+      "num_input_tokens_seen": 338165760,
+      "step": 2580
+    },
+    {
+      "epoch": 0.4416800256492466,
+      "grad_norm": 0.9154981970787048,
+      "learning_rate": 0.00010103988931827606,
+      "loss": 5.4704,
+      "num_input_tokens_seen": 338558976,
+      "step": 2583
+    },
+    {
+      "epoch": 0.4421930105803142,
+      "grad_norm": 0.8180415630340576,
+      "learning_rate": 0.00010098126448635004,
+      "loss": 5.5134,
+      "num_input_tokens_seen": 338952192,
+      "step": 2586
+    },
+    {
+      "epoch": 0.44270599551138184,
+      "grad_norm": 0.8424299359321594,
+      "learning_rate": 0.00010092274158112377,
+      "loss": 5.5021,
+      "num_input_tokens_seen": 339345408,
+      "step": 2589
+    },
+    {
+      "epoch": 0.4432189804424495,
+      "grad_norm": 0.7481082081794739,
+      "learning_rate": 0.00010086432030758502,
+      "loss": 5.4675,
+      "num_input_tokens_seen": 339738624,
+      "step": 2592
+    },
+    {
+      "epoch": 0.44373196537351717,
+      "grad_norm": 0.9558732509613037,
+      "learning_rate": 0.00010080600037191566,
+      "loss": 5.4996,
+      "num_input_tokens_seen": 340131840,
+      "step": 2595
+    },
+    {
+      "epoch": 0.44424495030458483,
+      "grad_norm": 0.9134954810142517,
+      "learning_rate": 0.00010074778148148528,
+      "loss": 5.5097,
+      "num_input_tokens_seen": 340525056,
+      "step": 2598
+    },
+    {
+      "epoch": 0.44475793523565244,
+      "grad_norm": 0.7287417054176331,
+      "learning_rate": 0.00010068966334484521,
+      "loss": 5.5043,
+      "num_input_tokens_seen": 340918272,
+      "step": 2601
+    },
+    {
+      "epoch": 0.4452709201667201,
+      "grad_norm": 0.9164344668388367,
+      "learning_rate": 0.00010063164567172234,
+      "loss": 5.5109,
+      "num_input_tokens_seen": 341311488,
+      "step": 2604
+    },
+    {
+      "epoch": 0.44578390509778776,
+      "grad_norm": 0.7782894968986511,
+      "learning_rate": 0.00010057372817301295,
+      "loss": 5.5104,
+      "num_input_tokens_seen": 341704704,
+      "step": 2607
+    },
+    {
+      "epoch": 0.4462968900288554,
+      "grad_norm": 0.8201740980148315,
+      "learning_rate": 0.00010051591056077674,
+      "loss": 5.5767,
+      "num_input_tokens_seen": 342097920,
+      "step": 2610
+    },
+    {
+      "epoch": 0.446809874959923,
+      "grad_norm": 0.8876894116401672,
+      "learning_rate": 0.00010045819254823074,
+      "loss": 5.4695,
+      "num_input_tokens_seen": 342491136,
+      "step": 2613
+    },
+    {
+      "epoch": 0.4473228598909907,
+      "grad_norm": 0.708038866519928,
+      "learning_rate": 0.0001004005738497435,
+      "loss": 5.4691,
+      "num_input_tokens_seen": 342884352,
+      "step": 2616
+    },
+    {
+      "epoch": 0.44783584482205835,
+      "grad_norm": 0.79575514793396,
+      "learning_rate": 0.0001003430541808289,
+      "loss": 5.4651,
+      "num_input_tokens_seen": 343277568,
+      "step": 2619
+    },
+    {
+      "epoch": 0.448348829753126,
+      "grad_norm": 0.8515266180038452,
+      "learning_rate": 0.00010028563325814057,
+      "loss": 5.4751,
+      "num_input_tokens_seen": 343670784,
+      "step": 2622
+    },
+    {
+      "epoch": 0.44886181468419367,
+      "grad_norm": 0.8329154253005981,
+      "learning_rate": 0.00010022831079946566,
+      "loss": 5.5093,
+      "num_input_tokens_seen": 344064000,
+      "step": 2625
+    },
+    {
+      "epoch": 0.4493747996152613,
+      "grad_norm": 0.871041476726532,
+      "learning_rate": 0.00010017108652371934,
+      "loss": 5.4697,
+      "num_input_tokens_seen": 344457216,
+      "step": 2628
+    },
+    {
+      "epoch": 0.44988778454632894,
+      "grad_norm": 0.649675190448761,
+      "learning_rate": 0.0001001139601509388,
+      "loss": 5.4813,
+      "num_input_tokens_seen": 344850432,
+      "step": 2631
+    },
+    {
+      "epoch": 0.4504007694773966,
+      "grad_norm": 0.7647591829299927,
+      "learning_rate": 0.00010005693140227763,
+      "loss": 5.4817,
+      "num_input_tokens_seen": 345243648,
+      "step": 2634
+    },
+    {
+      "epoch": 0.45091375440846426,
+      "grad_norm": 0.8665961027145386,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 5.4681,
+      "num_input_tokens_seen": 345636864,
+      "step": 2637
+    },
+    {
+      "epoch": 0.4514267393395319,
+      "grad_norm": 0.7397317290306091,
+      "learning_rate": 9.994316566747503e-05,
+      "loss": 5.4471,
+      "num_input_tokens_seen": 346030080,
+      "step": 2640
+    },
+    {
+      "epoch": 0.45193972427059953,
+      "grad_norm": 0.7339237928390503,
+      "learning_rate": 9.988642812917122e-05,
+      "loss": 5.4694,
+      "num_input_tokens_seen": 346423296,
+      "step": 2643
+    },
+    {
+      "epoch": 0.4524527092016672,
+      "grad_norm": 0.7354670166969299,
+      "learning_rate": 9.98297871106506e-05,
+      "loss": 5.4715,
+      "num_input_tokens_seen": 346816512,
+      "step": 2646
+    },
+    {
+      "epoch": 0.45296569413273485,
+      "grad_norm": 0.7800298929214478,
+      "learning_rate": 9.977324233856346e-05,
+      "loss": 5.5178,
+      "num_input_tokens_seen": 347209728,
+      "step": 2649
+    },
+    {
+      "epoch": 0.4534786790638025,
+      "grad_norm": 0.7750239968299866,
+      "learning_rate": 9.971679354064264e-05,
+      "loss": 5.4624,
+      "num_input_tokens_seen": 347602944,
+      "step": 2652
+    },
+    {
+      "epoch": 0.4539916639948702,
+      "grad_norm": 0.8229271173477173,
+      "learning_rate": 9.966044044569793e-05,
+      "loss": 5.5072,
+      "num_input_tokens_seen": 347996160,
+      "step": 2655
+    },
+    {
+      "epoch": 0.4545046489259378,
+      "grad_norm": 0.7565569877624512,
+      "learning_rate": 9.960418278361088e-05,
+      "loss": 5.5323,
+      "num_input_tokens_seen": 348389376,
+      "step": 2658
+    },
+    {
+      "epoch": 0.45501763385700544,
+      "grad_norm": 0.7968035936355591,
+      "learning_rate": 9.954802028532911e-05,
+      "loss": 5.4457,
+      "num_input_tokens_seen": 348782592,
+      "step": 2661
+    },
+    {
+      "epoch": 0.4555306187880731,
+      "grad_norm": 1.092264175415039,
+      "learning_rate": 9.949195268286099e-05,
+      "loss": 5.5038,
+      "num_input_tokens_seen": 349175808,
+      "step": 2664
+    },
+    {
+      "epoch": 0.45604360371914077,
+      "grad_norm": 0.9976704120635986,
+      "learning_rate": 9.943597970927025e-05,
+      "loss": 5.4596,
+      "num_input_tokens_seen": 349569024,
+      "step": 2667
+    },
+    {
+      "epoch": 0.4565565886502084,
+      "grad_norm": 0.8629297018051147,
+      "learning_rate": 9.938010109867075e-05,
+      "loss": 5.4183,
+      "num_input_tokens_seen": 349962240,
+      "step": 2670
+    },
+    {
+      "epoch": 0.45706957358127603,
+      "grad_norm": 0.9318130016326904,
+      "learning_rate": 9.932431658622104e-05,
+      "loss": 5.5005,
+      "num_input_tokens_seen": 350355456,
+      "step": 2673
+    },
+    {
+      "epoch": 0.4575825585123437,
+      "grad_norm": 0.7205513715744019,
+      "learning_rate": 9.926862590811912e-05,
+      "loss": 5.4921,
+      "num_input_tokens_seen": 350748672,
+      "step": 2676
+    },
+    {
+      "epoch": 0.45809554344341136,
+      "grad_norm": 0.8188350200653076,
+      "learning_rate": 9.921302880159722e-05,
+      "loss": 5.4676,
+      "num_input_tokens_seen": 351141888,
+      "step": 2679
+    },
+    {
+      "epoch": 0.458608528374479,
+      "grad_norm": 0.7740142941474915,
+      "learning_rate": 9.915752500491666e-05,
+      "loss": 5.4431,
+      "num_input_tokens_seen": 351535104,
+      "step": 2682
+    },
+    {
+      "epoch": 0.4591215133055466,
+      "grad_norm": 0.7324191331863403,
+      "learning_rate": 9.910211425736248e-05,
+      "loss": 5.4386,
+      "num_input_tokens_seen": 351928320,
+      "step": 2685
+    },
+    {
+      "epoch": 0.4596344982366143,
+      "grad_norm": 0.7066339254379272,
+      "learning_rate": 9.904679629923856e-05,
+      "loss": 5.5035,
+      "num_input_tokens_seen": 352321536,
+      "step": 2688
+    },
+    {
+      "epoch": 0.46014748316768195,
+      "grad_norm": 0.7234504222869873,
+      "learning_rate": 9.899157087186225e-05,
+      "loss": 5.4922,
+      "num_input_tokens_seen": 352714752,
+      "step": 2691
+    },
+    {
+      "epoch": 0.4606604680987496,
+      "grad_norm": 0.7445735335350037,
+      "learning_rate": 9.893643771755952e-05,
+      "loss": 5.4954,
+      "num_input_tokens_seen": 353107968,
+      "step": 2694
+    },
+    {
+      "epoch": 0.46117345302981727,
+      "grad_norm": 0.7736021876335144,
+      "learning_rate": 9.88813965796597e-05,
+      "loss": 5.4861,
+      "num_input_tokens_seen": 353501184,
+      "step": 2697
+    },
+    {
+      "epoch": 0.4616864379608849,
+      "grad_norm": 0.8421680927276611,
+      "learning_rate": 9.882644720249061e-05,
+      "loss": 5.4398,
+      "num_input_tokens_seen": 353894400,
+      "step": 2700
+    },
+    {
+      "epoch": 0.46219942289195254,
+      "grad_norm": 0.8024502992630005,
+      "learning_rate": 9.877158933137354e-05,
+      "loss": 5.4792,
+      "num_input_tokens_seen": 354287616,
+      "step": 2703
+    },
+    {
+      "epoch": 0.4627124078230202,
+      "grad_norm": 0.6904874444007874,
+      "learning_rate": 9.871682271261825e-05,
+      "loss": 5.4698,
+      "num_input_tokens_seen": 354680832,
+      "step": 2706
+    },
+    {
+      "epoch": 0.46322539275408786,
+      "grad_norm": 0.7565279603004456,
+      "learning_rate": 9.866214709351803e-05,
+      "loss": 5.4867,
+      "num_input_tokens_seen": 355074048,
+      "step": 2709
+    },
+    {
+      "epoch": 0.4637383776851555,
+      "grad_norm": 0.7363823056221008,
+      "learning_rate": 9.860756222234493e-05,
+      "loss": 5.5109,
+      "num_input_tokens_seen": 355467264,
+      "step": 2712
+    },
+    {
+      "epoch": 0.46425136261622313,
+      "grad_norm": 0.74873948097229,
+      "learning_rate": 9.855306784834474e-05,
+      "loss": 5.4505,
+      "num_input_tokens_seen": 355860480,
+      "step": 2715
+    },
+    {
+      "epoch": 0.4647643475472908,
+      "grad_norm": 0.7366782426834106,
+      "learning_rate": 9.849866372173222e-05,
+      "loss": 5.5185,
+      "num_input_tokens_seen": 356253696,
+      "step": 2718
+    },
+    {
+      "epoch": 0.46527733247835845,
+      "grad_norm": 0.8568825125694275,
+      "learning_rate": 9.84443495936863e-05,
+      "loss": 5.4669,
+      "num_input_tokens_seen": 356646912,
+      "step": 2721
+    },
+    {
+      "epoch": 0.4657903174094261,
+      "grad_norm": 0.7414649724960327,
+      "learning_rate": 9.839012521634527e-05,
+      "loss": 5.4915,
+      "num_input_tokens_seen": 357040128,
+      "step": 2724
+    },
+    {
+      "epoch": 0.4663033023404938,
+      "grad_norm": 0.8652457594871521,
+      "learning_rate": 9.83359903428021e-05,
+      "loss": 5.4666,
+      "num_input_tokens_seen": 357433344,
+      "step": 2727
+    },
+    {
+      "epoch": 0.4668162872715614,
+      "grad_norm": 0.6931141018867493,
+      "learning_rate": 9.828194472709959e-05,
+      "loss": 5.4974,
+      "num_input_tokens_seen": 357826560,
+      "step": 2730
+    },
+    {
+      "epoch": 0.46732927220262904,
+      "grad_norm": 0.8068703413009644,
+      "learning_rate": 9.822798812422577e-05,
+      "loss": 5.4778,
+      "num_input_tokens_seen": 358219776,
+      "step": 2733
+    },
+    {
+      "epoch": 0.4678422571336967,
+      "grad_norm": 0.7154794931411743,
+      "learning_rate": 9.817412029010924e-05,
+      "loss": 5.4866,
+      "num_input_tokens_seen": 358612992,
+      "step": 2736
+    },
+    {
+      "epoch": 0.46835524206476437,
+      "grad_norm": 0.6981579065322876,
+      "learning_rate": 9.81203409816145e-05,
+      "loss": 5.4718,
+      "num_input_tokens_seen": 359006208,
+      "step": 2739
+    },
+    {
+      "epoch": 0.46886822699583197,
+      "grad_norm": 0.8242044448852539,
+      "learning_rate": 9.806664995653737e-05,
+      "loss": 5.4839,
+      "num_input_tokens_seen": 359399424,
+      "step": 2742
+    },
+    {
+      "epoch": 0.46938121192689963,
+      "grad_norm": 0.7493621706962585,
+      "learning_rate": 9.80130469736003e-05,
+      "loss": 5.4704,
+      "num_input_tokens_seen": 359792640,
+      "step": 2745
+    },
+    {
+      "epoch": 0.4698941968579673,
+      "grad_norm": 0.7475427389144897,
+      "learning_rate": 9.7959531792448e-05,
+      "loss": 5.4021,
+      "num_input_tokens_seen": 360185856,
+      "step": 2748
+    },
+    {
+      "epoch": 0.47040718178903496,
+      "grad_norm": 0.7679263353347778,
+      "learning_rate": 9.79061041736428e-05,
+      "loss": 5.5059,
+      "num_input_tokens_seen": 360579072,
+      "step": 2751
+    },
+    {
+      "epoch": 0.4709201667201026,
+      "grad_norm": 0.7734596729278564,
+      "learning_rate": 9.785276387866011e-05,
+      "loss": 5.4497,
+      "num_input_tokens_seen": 360972288,
+      "step": 2754
+    },
+    {
+      "epoch": 0.4714331516511702,
+      "grad_norm": 0.7543107867240906,
+      "learning_rate": 9.779951066988407e-05,
+      "loss": 5.4706,
+      "num_input_tokens_seen": 361365504,
+      "step": 2757
+    },
+    {
+      "epoch": 0.4719461365822379,
+      "grad_norm": 0.6790075898170471,
+      "learning_rate": 9.774634431060301e-05,
+      "loss": 5.4785,
+      "num_input_tokens_seen": 361758720,
+      "step": 2760
+    },
+    {
+      "epoch": 0.47245912151330555,
+      "grad_norm": 0.7988852262496948,
+      "learning_rate": 9.769326456500506e-05,
+      "loss": 5.4941,
+      "num_input_tokens_seen": 362151936,
+      "step": 2763
+    },
+    {
+      "epoch": 0.4729721064443732,
+      "grad_norm": 0.6978922486305237,
+      "learning_rate": 9.76402711981738e-05,
+      "loss": 5.4991,
+      "num_input_tokens_seen": 362545152,
+      "step": 2766
+    },
+    {
+      "epoch": 0.47348509137544087,
+      "grad_norm": 0.7577718496322632,
+      "learning_rate": 9.758736397608374e-05,
+      "loss": 5.4926,
+      "num_input_tokens_seen": 362938368,
+      "step": 2769
+    },
+    {
+      "epoch": 0.4739980763065085,
+      "grad_norm": 0.6399986147880554,
+      "learning_rate": 9.753454266559622e-05,
+      "loss": 5.4783,
+      "num_input_tokens_seen": 363331584,
+      "step": 2772
+    },
+    {
+      "epoch": 0.47451106123757614,
+      "grad_norm": 0.7283456921577454,
+      "learning_rate": 9.74818070344549e-05,
+      "loss": 5.5014,
+      "num_input_tokens_seen": 363724800,
+      "step": 2775
+    },
+    {
+      "epoch": 0.4750240461686438,
+      "grad_norm": 0.8536427021026611,
+      "learning_rate": 9.742915685128152e-05,
+      "loss": 5.5269,
+      "num_input_tokens_seen": 364118016,
+      "step": 2778
+    },
+    {
+      "epoch": 0.47553703109971146,
+      "grad_norm": 0.6984924077987671,
+      "learning_rate": 9.737659188557171e-05,
+      "loss": 5.467,
+      "num_input_tokens_seen": 364511232,
+      "step": 2781
+    },
+    {
+      "epoch": 0.4760500160307791,
+      "grad_norm": 0.8646853566169739,
+      "learning_rate": 9.732411190769063e-05,
+      "loss": 5.4627,
+      "num_input_tokens_seen": 364904448,
+      "step": 2784
+    },
+    {
+      "epoch": 0.47656300096184673,
+      "grad_norm": 0.7577709555625916,
+      "learning_rate": 9.727171668886887e-05,
+      "loss": 5.4473,
+      "num_input_tokens_seen": 365297664,
+      "step": 2787
+    },
+    {
+      "epoch": 0.4770759858929144,
+      "grad_norm": 0.7367388010025024,
+      "learning_rate": 9.721940600119815e-05,
+      "loss": 5.4691,
+      "num_input_tokens_seen": 365690880,
+      "step": 2790
+    },
+    {
+      "epoch": 0.47758897082398205,
+      "grad_norm": 0.7202689051628113,
+      "learning_rate": 9.716717961762733e-05,
+      "loss": 5.5151,
+      "num_input_tokens_seen": 366084096,
+      "step": 2793
+    },
+    {
+      "epoch": 0.4781019557550497,
+      "grad_norm": 0.7965312004089355,
+      "learning_rate": 9.711503731195804e-05,
+      "loss": 5.4734,
+      "num_input_tokens_seen": 366477312,
+      "step": 2796
+    },
+    {
+      "epoch": 0.4786149406861173,
+      "grad_norm": 0.7794646620750427,
+      "learning_rate": 9.706297885884074e-05,
+      "loss": 5.4882,
+      "num_input_tokens_seen": 366870528,
+      "step": 2799
+    },
+    {
+      "epoch": 0.47878593566313987,
+      "eval_accuracy": 0.17308907344080768,
+      "eval_loss": 5.920318603515625,
+      "eval_runtime": 109.4183,
+      "eval_samples_per_second": 2.742,
+      "eval_steps_per_second": 1.371,
+      "num_input_tokens_seen": 367001600,
+      "step": 2800
+    },
+    {
+      "epoch": 0.479127925617185,
+      "grad_norm": 0.6703746914863586,
+      "learning_rate": 9.701100403377059e-05,
+      "loss": 5.5227,
+      "num_input_tokens_seen": 367263744,
+      "step": 2802
+    },
+    {
+      "epoch": 0.47964091054825264,
+      "grad_norm": 0.649358868598938,
+      "learning_rate": 9.695911261308335e-05,
+      "loss": 5.5274,
+      "num_input_tokens_seen": 367656960,
+      "step": 2805
+    },
+    {
+      "epoch": 0.4801538954793203,
+      "grad_norm": 0.7234277725219727,
+      "learning_rate": 9.69073043739513e-05,
+      "loss": 5.4809,
+      "num_input_tokens_seen": 368050176,
+      "step": 2808
+    },
+    {
+      "epoch": 0.48066688041038796,
+      "grad_norm": 0.8192933797836304,
+      "learning_rate": 9.685557909437936e-05,
+      "loss": 5.4696,
+      "num_input_tokens_seen": 368443392,
+      "step": 2811
+    },
+    {
+      "epoch": 0.48117986534145557,
+      "grad_norm": 0.8990679383277893,
+      "learning_rate": 9.680393655320099e-05,
+      "loss": 5.4669,
+      "num_input_tokens_seen": 368836608,
+      "step": 2814
+    },
+    {
+      "epoch": 0.48169285027252323,
+      "grad_norm": 0.8200316429138184,
+      "learning_rate": 9.67523765300742e-05,
+      "loss": 5.4802,
+      "num_input_tokens_seen": 369229824,
+      "step": 2817
+    },
+    {
+      "epoch": 0.4822058352035909,
+      "grad_norm": 0.9789479970932007,
+      "learning_rate": 9.670089880547766e-05,
+      "loss": 5.4415,
+      "num_input_tokens_seen": 369623040,
+      "step": 2820
+    },
+    {
+      "epoch": 0.48271882013465855,
+      "grad_norm": 0.7308698892593384,
+      "learning_rate": 9.664950316070681e-05,
+      "loss": 5.5066,
+      "num_input_tokens_seen": 370016256,
+      "step": 2823
+    },
+    {
+      "epoch": 0.4832318050657262,
+      "grad_norm": 0.6770713925361633,
+      "learning_rate": 9.659818937786982e-05,
+      "loss": 5.4506,
+      "num_input_tokens_seen": 370409472,
+      "step": 2826
+    },
+    {
+      "epoch": 0.4837447899967938,
+      "grad_norm": 0.6626781225204468,
+      "learning_rate": 9.654695723988381e-05,
+      "loss": 5.4453,
+      "num_input_tokens_seen": 370802688,
+      "step": 2829
+    },
+    {
+      "epoch": 0.4842577749278615,
+      "grad_norm": 0.741698682308197,
+      "learning_rate": 9.649580653047106e-05,
+      "loss": 5.4754,
+      "num_input_tokens_seen": 371195904,
+      "step": 2832
+    },
+    {
+      "epoch": 0.48477075985892915,
+      "grad_norm": 0.7719034552574158,
+      "learning_rate": 9.644473703415494e-05,
+      "loss": 5.4889,
+      "num_input_tokens_seen": 371589120,
+      "step": 2835
+    },
+    {
+      "epoch": 0.4852837447899968,
+      "grad_norm": 0.7475199103355408,
+      "learning_rate": 9.63937485362564e-05,
+      "loss": 5.4272,
+      "num_input_tokens_seen": 371982336,
+      "step": 2838
+    },
+    {
+      "epoch": 0.48579672972106447,
+      "grad_norm": 0.7785484790802002,
+      "learning_rate": 9.634284082288993e-05,
+      "loss": 5.4695,
+      "num_input_tokens_seen": 372375552,
+      "step": 2841
+    },
+    {
+      "epoch": 0.4863097146521321,
+      "grad_norm": 0.6962818503379822,
+      "learning_rate": 9.629201368095994e-05,
+      "loss": 5.4975,
+      "num_input_tokens_seen": 372768768,
+      "step": 2844
+    },
+    {
+      "epoch": 0.48682269958319974,
+      "grad_norm": 0.7307711839675903,
+      "learning_rate": 9.624126689815691e-05,
+      "loss": 5.4963,
+      "num_input_tokens_seen": 373161984,
+      "step": 2847
+    },
+    {
+      "epoch": 0.4873356845142674,
+      "grad_norm": 0.9694541692733765,
+      "learning_rate": 9.61906002629538e-05,
+      "loss": 5.4076,
+      "num_input_tokens_seen": 373555200,
+      "step": 2850
+    },
+    {
+      "epoch": 0.48784866944533506,
+      "grad_norm": 0.7529440522193909,
+      "learning_rate": 9.614001356460217e-05,
+      "loss": 5.4576,
+      "num_input_tokens_seen": 373948416,
+      "step": 2853
+    },
+    {
+      "epoch": 0.4883616543764027,
+      "grad_norm": 0.8865497708320618,
+      "learning_rate": 9.608950659312869e-05,
+      "loss": 5.4596,
+      "num_input_tokens_seen": 374341632,
+      "step": 2856
+    },
+    {
+      "epoch": 0.4888746393074703,
+      "grad_norm": 0.8430432677268982,
+      "learning_rate": 9.603907913933133e-05,
+      "loss": 5.4806,
+      "num_input_tokens_seen": 374734848,
+      "step": 2859
+    },
+    {
+      "epoch": 0.489387624238538,
+      "grad_norm": 0.6669235229492188,
+      "learning_rate": 9.598873099477574e-05,
+      "loss": 5.4507,
+      "num_input_tokens_seen": 375128064,
+      "step": 2862
+    },
+    {
+      "epoch": 0.48990060916960565,
+      "grad_norm": 0.8070666790008545,
+      "learning_rate": 9.593846195179174e-05,
+      "loss": 5.454,
+      "num_input_tokens_seen": 375521280,
+      "step": 2865
+    },
+    {
+      "epoch": 0.4904135941006733,
+      "grad_norm": 0.8225948214530945,
+      "learning_rate": 9.588827180346961e-05,
+      "loss": 5.4561,
+      "num_input_tokens_seen": 375914496,
+      "step": 2868
+    },
+    {
+      "epoch": 0.4909265790317409,
+      "grad_norm": 0.7412498593330383,
+      "learning_rate": 9.583816034365655e-05,
+      "loss": 5.4657,
+      "num_input_tokens_seen": 376307712,
+      "step": 2871
+    },
+    {
+      "epoch": 0.4914395639628086,
+      "grad_norm": 0.7847759127616882,
+      "learning_rate": 9.578812736695315e-05,
+      "loss": 5.4268,
+      "num_input_tokens_seen": 376700928,
+      "step": 2874
+    },
+    {
+      "epoch": 0.49195254889387624,
+      "grad_norm": 0.7222384214401245,
+      "learning_rate": 9.573817266870979e-05,
+      "loss": 5.4318,
+      "num_input_tokens_seen": 377094144,
+      "step": 2877
+    },
+    {
+      "epoch": 0.4924655338249439,
+      "grad_norm": 0.6922466158866882,
+      "learning_rate": 9.568829604502318e-05,
+      "loss": 5.5184,
+      "num_input_tokens_seen": 377487360,
+      "step": 2880
+    },
+    {
+      "epoch": 0.49297851875601156,
+      "grad_norm": 0.7505002021789551,
+      "learning_rate": 9.563849729273287e-05,
+      "loss": 5.4798,
+      "num_input_tokens_seen": 377880576,
+      "step": 2883
+    },
+    {
+      "epoch": 0.49349150368707917,
+      "grad_norm": 0.705833911895752,
+      "learning_rate": 9.558877620941768e-05,
+      "loss": 5.4977,
+      "num_input_tokens_seen": 378273792,
+      "step": 2886
+    },
+    {
+      "epoch": 0.49400448861814683,
+      "grad_norm": 0.7315141558647156,
+      "learning_rate": 9.553913259339242e-05,
+      "loss": 5.428,
+      "num_input_tokens_seen": 378667008,
+      "step": 2889
+    },
+    {
+      "epoch": 0.4945174735492145,
+      "grad_norm": 0.7071065902709961,
+      "learning_rate": 9.548956624370426e-05,
+      "loss": 5.4213,
+      "num_input_tokens_seen": 379060224,
+      "step": 2892
+    },
+    {
+      "epoch": 0.49503045848028215,
+      "grad_norm": 0.7307475209236145,
+      "learning_rate": 9.54400769601295e-05,
+      "loss": 5.4333,
+      "num_input_tokens_seen": 379453440,
+      "step": 2895
+    },
+    {
+      "epoch": 0.4955434434113498,
+      "grad_norm": 0.7351901531219482,
+      "learning_rate": 9.539066454316994e-05,
+      "loss": 5.4426,
+      "num_input_tokens_seen": 379846656,
+      "step": 2898
+    },
+    {
+      "epoch": 0.4960564283424174,
+      "grad_norm": 0.7794121503829956,
+      "learning_rate": 9.534132879404975e-05,
+      "loss": 5.4382,
+      "num_input_tokens_seen": 380239872,
+      "step": 2901
+    },
+    {
+      "epoch": 0.4965694132734851,
+      "grad_norm": 0.7838775515556335,
+      "learning_rate": 9.529206951471193e-05,
+      "loss": 5.4391,
+      "num_input_tokens_seen": 380633088,
+      "step": 2904
+    },
+    {
+      "epoch": 0.49708239820455274,
+      "grad_norm": 0.729987382888794,
+      "learning_rate": 9.524288650781515e-05,
+      "loss": 5.4505,
+      "num_input_tokens_seen": 381026304,
+      "step": 2907
+    },
+    {
+      "epoch": 0.4975953831356204,
+      "grad_norm": 0.7023864984512329,
+      "learning_rate": 9.519377957673018e-05,
+      "loss": 5.4664,
+      "num_input_tokens_seen": 381419520,
+      "step": 2910
+    },
+    {
+      "epoch": 0.49810836806668807,
+      "grad_norm": 0.7854782342910767,
+      "learning_rate": 9.51447485255368e-05,
+      "loss": 5.4174,
+      "num_input_tokens_seen": 381812736,
+      "step": 2913
+    },
+    {
+      "epoch": 0.4986213529977557,
+      "grad_norm": 0.8409479856491089,
+      "learning_rate": 9.509579315902049e-05,
+      "loss": 5.413,
+      "num_input_tokens_seen": 382205952,
+      "step": 2916
+    },
+    {
+      "epoch": 0.49913433792882334,
+      "grad_norm": 0.9801114201545715,
+      "learning_rate": 9.504691328266901e-05,
+      "loss": 5.4627,
+      "num_input_tokens_seen": 382599168,
+      "step": 2919
+    },
+    {
+      "epoch": 0.499647322859891,
+      "grad_norm": 0.699877917766571,
+      "learning_rate": 9.499810870266937e-05,
+      "loss": 5.4361,
+      "num_input_tokens_seen": 382992384,
+      "step": 2922
+    },
+    {
+      "epoch": 0.5001603077909587,
+      "grad_norm": 0.7811382412910461,
+      "learning_rate": 9.494937922590444e-05,
+      "loss": 5.4357,
+      "num_input_tokens_seen": 383385600,
+      "step": 2925
+    },
+    {
+      "epoch": 0.5006732927220263,
+      "grad_norm": 0.6606900095939636,
+      "learning_rate": 9.49007246599498e-05,
+      "loss": 5.4534,
+      "num_input_tokens_seen": 383778816,
+      "step": 2928
+    },
+    {
+      "epoch": 0.501186277653094,
+      "grad_norm": 0.7077214121818542,
+      "learning_rate": 9.485214481307057e-05,
+      "loss": 5.4578,
+      "num_input_tokens_seen": 384172032,
+      "step": 2931
+    },
+    {
+      "epoch": 0.5016992625841616,
+      "grad_norm": 0.7163876891136169,
+      "learning_rate": 9.480363949421822e-05,
+      "loss": 5.4555,
+      "num_input_tokens_seen": 384565248,
+      "step": 2934
+    },
+    {
+      "epoch": 0.5022122475152292,
+      "grad_norm": 0.7486274838447571,
+      "learning_rate": 9.475520851302736e-05,
+      "loss": 5.4676,
+      "num_input_tokens_seen": 384958464,
+      "step": 2937
+    },
+    {
+      "epoch": 0.5027252324462969,
+      "grad_norm": 0.8384826183319092,
+      "learning_rate": 9.470685167981269e-05,
+      "loss": 5.4334,
+      "num_input_tokens_seen": 385351680,
+      "step": 2940
+    },
+    {
+      "epoch": 0.5032382173773645,
+      "grad_norm": 0.7711573243141174,
+      "learning_rate": 9.465856880556584e-05,
+      "loss": 5.3987,
+      "num_input_tokens_seen": 385744896,
+      "step": 2943
+    },
+    {
+      "epoch": 0.5037512023084322,
+      "grad_norm": 0.7309294939041138,
+      "learning_rate": 9.461035970195224e-05,
+      "loss": 5.4298,
+      "num_input_tokens_seen": 386138112,
+      "step": 2946
+    },
+    {
+      "epoch": 0.5042641872394998,
+      "grad_norm": 0.7861335873603821,
+      "learning_rate": 9.45622241813081e-05,
+      "loss": 5.4336,
+      "num_input_tokens_seen": 386531328,
+      "step": 2949
+    },
+    {
+      "epoch": 0.5047771721705675,
+      "grad_norm": 0.6272249221801758,
+      "learning_rate": 9.451416205663726e-05,
+      "loss": 5.4306,
+      "num_input_tokens_seen": 386924544,
+      "step": 2952
+    },
+    {
+      "epoch": 0.5052901571016352,
+      "grad_norm": 0.805742084980011,
+      "learning_rate": 9.446617314160821e-05,
+      "loss": 5.4855,
+      "num_input_tokens_seen": 387317760,
+      "step": 2955
+    },
+    {
+      "epoch": 0.5058031420327028,
+      "grad_norm": 0.7901838421821594,
+      "learning_rate": 9.441825725055105e-05,
+      "loss": 5.4566,
+      "num_input_tokens_seen": 387710976,
+      "step": 2958
+    },
+    {
+      "epoch": 0.5063161269637705,
+      "grad_norm": 0.7398175597190857,
+      "learning_rate": 9.437041419845438e-05,
+      "loss": 5.4069,
+      "num_input_tokens_seen": 388104192,
+      "step": 2961
+    },
+    {
+      "epoch": 0.506829111894838,
+      "grad_norm": 0.6904522776603699,
+      "learning_rate": 9.432264380096243e-05,
+      "loss": 5.45,
+      "num_input_tokens_seen": 388497408,
+      "step": 2964
+    },
+    {
+      "epoch": 0.5073420968259057,
+      "grad_norm": 0.8031904697418213,
+      "learning_rate": 9.4274945874372e-05,
+      "loss": 5.413,
+      "num_input_tokens_seen": 388890624,
+      "step": 2967
+    },
+    {
+      "epoch": 0.5078550817569734,
+      "grad_norm": 0.892519474029541,
+      "learning_rate": 9.422732023562952e-05,
+      "loss": 5.4264,
+      "num_input_tokens_seen": 389283840,
+      "step": 2970
+    },
+    {
+      "epoch": 0.508368066688041,
+      "grad_norm": 0.8635051846504211,
+      "learning_rate": 9.417976670232808e-05,
+      "loss": 5.4243,
+      "num_input_tokens_seen": 389677056,
+      "step": 2973
+    },
+    {
+      "epoch": 0.5088810516191087,
+      "grad_norm": 0.785637617111206,
+      "learning_rate": 9.413228509270448e-05,
+      "loss": 5.4366,
+      "num_input_tokens_seen": 390070272,
+      "step": 2976
+    },
+    {
+      "epoch": 0.5093940365501763,
+      "grad_norm": 0.6426643133163452,
+      "learning_rate": 9.408487522563637e-05,
+      "loss": 5.4627,
+      "num_input_tokens_seen": 390463488,
+      "step": 2979
+    },
+    {
+      "epoch": 0.509907021481244,
+      "grad_norm": 0.7258966565132141,
+      "learning_rate": 9.403753692063932e-05,
+      "loss": 5.4237,
+      "num_input_tokens_seen": 390856704,
+      "step": 2982
+    },
+    {
+      "epoch": 0.5104200064123117,
+      "grad_norm": 0.7019416093826294,
+      "learning_rate": 9.39902699978639e-05,
+      "loss": 5.3984,
+      "num_input_tokens_seen": 391249920,
+      "step": 2985
+    },
+    {
+      "epoch": 0.5109329913433793,
+      "grad_norm": 0.6688271760940552,
+      "learning_rate": 9.394307427809288e-05,
+      "loss": 5.4452,
+      "num_input_tokens_seen": 391643136,
+      "step": 2988
+    },
+    {
+      "epoch": 0.511445976274447,
+      "grad_norm": 0.6243648529052734,
+      "learning_rate": 9.389594958273828e-05,
+      "loss": 5.4079,
+      "num_input_tokens_seen": 392036352,
+      "step": 2991
+    },
+    {
+      "epoch": 0.5119589612055145,
+      "grad_norm": 0.7106574177742004,
+      "learning_rate": 9.384889573383865e-05,
+      "loss": 5.4911,
+      "num_input_tokens_seen": 392429568,
+      "step": 2994
+    },
+    {
+      "epoch": 0.5124719461365822,
+      "grad_norm": 0.8549032211303711,
+      "learning_rate": 9.380191255405614e-05,
+      "loss": 5.4275,
+      "num_input_tokens_seen": 392822784,
+      "step": 2997
+    },
+    {
+      "epoch": 0.5129849310676499,
+      "grad_norm": 0.7520581483840942,
+      "learning_rate": 9.375499986667377e-05,
+      "loss": 5.4381,
+      "num_input_tokens_seen": 393216000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5134979159987175,
+      "grad_norm": 1.052897572517395,
+      "learning_rate": 9.370815749559257e-05,
+      "loss": 5.4058,
+      "num_input_tokens_seen": 393609216,
+      "step": 3003
+    },
+    {
+      "epoch": 0.5140109009297852,
+      "grad_norm": 0.8729445338249207,
+      "learning_rate": 9.366138526532885e-05,
+      "loss": 5.4444,
+      "num_input_tokens_seen": 394002432,
+      "step": 3006
+    },
+    {
+      "epoch": 0.5145238858608528,
+      "grad_norm": 0.7415926456451416,
+      "learning_rate": 9.361468300101144e-05,
+      "loss": 5.4457,
+      "num_input_tokens_seen": 394395648,
+      "step": 3009
+    },
+    {
+      "epoch": 0.5150368707919205,
+      "grad_norm": 0.7771437764167786,
+      "learning_rate": 9.356805052837894e-05,
+      "loss": 5.4288,
+      "num_input_tokens_seen": 394788864,
+      "step": 3012
+    },
+    {
+      "epoch": 0.5155498557229882,
+      "grad_norm": 0.8604034781455994,
+      "learning_rate": 9.352148767377697e-05,
+      "loss": 5.4217,
+      "num_input_tokens_seen": 395182080,
+      "step": 3015
+    },
+    {
+      "epoch": 0.5160628406540558,
+      "grad_norm": 0.9626191854476929,
+      "learning_rate": 9.347499426415546e-05,
+      "loss": 5.4037,
+      "num_input_tokens_seen": 395575296,
+      "step": 3018
+    },
+    {
+      "epoch": 0.5165758255851234,
+      "grad_norm": 0.8346033096313477,
+      "learning_rate": 9.342857012706596e-05,
+      "loss": 5.414,
+      "num_input_tokens_seen": 395968512,
+      "step": 3021
+    },
+    {
+      "epoch": 0.517088810516191,
+      "grad_norm": 0.7749696969985962,
+      "learning_rate": 9.338221509065894e-05,
+      "loss": 5.4262,
+      "num_input_tokens_seen": 396361728,
+      "step": 3024
+    },
+    {
+      "epoch": 0.5176017954472587,
+      "grad_norm": 0.844420850276947,
+      "learning_rate": 9.333592898368119e-05,
+      "loss": 5.4352,
+      "num_input_tokens_seen": 396754944,
+      "step": 3027
+    },
+    {
+      "epoch": 0.5181147803783264,
+      "grad_norm": 0.7230442762374878,
+      "learning_rate": 9.328971163547297e-05,
+      "loss": 5.5282,
+      "num_input_tokens_seen": 397148160,
+      "step": 3030
+    },
+    {
+      "epoch": 0.518627765309394,
+      "grad_norm": 0.9192338585853577,
+      "learning_rate": 9.324356287596562e-05,
+      "loss": 5.4224,
+      "num_input_tokens_seen": 397541376,
+      "step": 3033
+    },
+    {
+      "epoch": 0.5191407502404617,
+      "grad_norm": 0.9499441385269165,
+      "learning_rate": 9.319748253567871e-05,
+      "loss": 5.4896,
+      "num_input_tokens_seen": 397934592,
+      "step": 3036
+    },
+    {
+      "epoch": 0.5196537351715294,
+      "grad_norm": 0.7503839135169983,
+      "learning_rate": 9.315147044571765e-05,
+      "loss": 5.4228,
+      "num_input_tokens_seen": 398327808,
+      "step": 3039
+    },
+    {
+      "epoch": 0.520166720102597,
+      "grad_norm": 0.754388153553009,
+      "learning_rate": 9.310552643777079e-05,
+      "loss": 5.4824,
+      "num_input_tokens_seen": 398721024,
+      "step": 3042
+    },
+    {
+      "epoch": 0.5206797050336647,
+      "grad_norm": 0.8488169312477112,
+      "learning_rate": 9.305965034410718e-05,
+      "loss": 5.4188,
+      "num_input_tokens_seen": 399114240,
+      "step": 3045
+    },
+    {
+      "epoch": 0.5211926899647323,
+      "grad_norm": 0.8866889476776123,
+      "learning_rate": 9.301384199757371e-05,
+      "loss": 5.4401,
+      "num_input_tokens_seen": 399507456,
+      "step": 3048
+    },
+    {
+      "epoch": 0.5217056748957999,
+      "grad_norm": 0.8220815062522888,
+      "learning_rate": 9.296810123159271e-05,
+      "loss": 5.459,
+      "num_input_tokens_seen": 399900672,
+      "step": 3051
+    },
+    {
+      "epoch": 0.5222186598268675,
+      "grad_norm": 0.7505759000778198,
+      "learning_rate": 9.292242788015935e-05,
+      "loss": 5.4215,
+      "num_input_tokens_seen": 400293888,
+      "step": 3054
+    },
+    {
+      "epoch": 0.5227316447579352,
+      "grad_norm": 0.767932116985321,
+      "learning_rate": 9.287682177783917e-05,
+      "loss": 5.4263,
+      "num_input_tokens_seen": 400687104,
+      "step": 3057
+    },
+    {
+      "epoch": 0.5232446296890029,
+      "grad_norm": 0.7310931086540222,
+      "learning_rate": 9.283128275976545e-05,
+      "loss": 5.4805,
+      "num_input_tokens_seen": 401080320,
+      "step": 3060
+    },
+    {
+      "epoch": 0.5237576146200705,
+      "grad_norm": 0.7426648736000061,
+      "learning_rate": 9.278581066163683e-05,
+      "loss": 5.4506,
+      "num_input_tokens_seen": 401473536,
+      "step": 3063
+    },
+    {
+      "epoch": 0.5242705995511382,
+      "grad_norm": 0.8278624415397644,
+      "learning_rate": 9.27404053197147e-05,
+      "loss": 5.4258,
+      "num_input_tokens_seen": 401866752,
+      "step": 3066
+    },
+    {
+      "epoch": 0.5247835844822059,
+      "grad_norm": 0.7115198373794556,
+      "learning_rate": 9.269506657082087e-05,
+      "loss": 5.3972,
+      "num_input_tokens_seen": 402259968,
+      "step": 3069
+    },
+    {
+      "epoch": 0.5252965694132735,
+      "grad_norm": 0.8112291693687439,
+      "learning_rate": 9.264979425233496e-05,
+      "loss": 5.4267,
+      "num_input_tokens_seen": 402653184,
+      "step": 3072
+    },
+    {
+      "epoch": 0.5258095543443412,
+      "grad_norm": 0.7363867163658142,
+      "learning_rate": 9.260458820219201e-05,
+      "loss": 5.4101,
+      "num_input_tokens_seen": 403046400,
+      "step": 3075
+    },
+    {
+      "epoch": 0.5263225392754087,
+      "grad_norm": 0.8078411221504211,
+      "learning_rate": 9.25594482588801e-05,
+      "loss": 5.4623,
+      "num_input_tokens_seen": 403439616,
+      "step": 3078
+    },
+    {
+      "epoch": 0.5268355242064764,
+      "grad_norm": 0.8161293268203735,
+      "learning_rate": 9.251437426143784e-05,
+      "loss": 5.4603,
+      "num_input_tokens_seen": 403832832,
+      "step": 3081
+    },
+    {
+      "epoch": 0.527348509137544,
+      "grad_norm": 0.778689444065094,
+      "learning_rate": 9.2469366049452e-05,
+      "loss": 5.4116,
+      "num_input_tokens_seen": 404226048,
+      "step": 3084
+    },
+    {
+      "epoch": 0.5278614940686117,
+      "grad_norm": 0.9100328683853149,
+      "learning_rate": 9.24244234630551e-05,
+      "loss": 5.4603,
+      "num_input_tokens_seen": 404619264,
+      "step": 3087
+    },
+    {
+      "epoch": 0.5283744789996794,
+      "grad_norm": 0.8067951798439026,
+      "learning_rate": 9.237954634292307e-05,
+      "loss": 5.4426,
+      "num_input_tokens_seen": 405012480,
+      "step": 3090
+    },
+    {
+      "epoch": 0.528887463930747,
+      "grad_norm": 0.7273784279823303,
+      "learning_rate": 9.233473453027276e-05,
+      "loss": 5.3976,
+      "num_input_tokens_seen": 405405696,
+      "step": 3093
+    },
+    {
+      "epoch": 0.5294004488618147,
+      "grad_norm": 0.9762039184570312,
+      "learning_rate": 9.228998786685971e-05,
+      "loss": 5.4157,
+      "num_input_tokens_seen": 405798912,
+      "step": 3096
+    },
+    {
+      "epoch": 0.5299134337928824,
+      "grad_norm": 0.7714497447013855,
+      "learning_rate": 9.22453061949758e-05,
+      "loss": 5.4444,
+      "num_input_tokens_seen": 406192128,
+      "step": 3099
+    },
+    {
+      "epoch": 0.53042641872395,
+      "grad_norm": 0.7574513554573059,
+      "learning_rate": 9.220068935744674e-05,
+      "loss": 5.4365,
+      "num_input_tokens_seen": 406585344,
+      "step": 3102
+    },
+    {
+      "epoch": 0.5309394036550177,
+      "grad_norm": 0.8316619396209717,
+      "learning_rate": 9.215613719763e-05,
+      "loss": 5.4588,
+      "num_input_tokens_seen": 406978560,
+      "step": 3105
+    },
+    {
+      "epoch": 0.5314523885860852,
+      "grad_norm": 0.819129228591919,
+      "learning_rate": 9.211164955941232e-05,
+      "loss": 5.4262,
+      "num_input_tokens_seen": 407371776,
+      "step": 3108
+    },
+    {
+      "epoch": 0.5319653735171529,
+      "grad_norm": 0.7421338558197021,
+      "learning_rate": 9.206722628720746e-05,
+      "loss": 5.4259,
+      "num_input_tokens_seen": 407764992,
+      "step": 3111
+    },
+    {
+      "epoch": 0.5324783584482206,
+      "grad_norm": 0.7415031790733337,
+      "learning_rate": 9.202286722595394e-05,
+      "loss": 5.3804,
+      "num_input_tokens_seen": 408158208,
+      "step": 3114
+    },
+    {
+      "epoch": 0.5329913433792882,
+      "grad_norm": 0.7613891959190369,
+      "learning_rate": 9.197857222111274e-05,
+      "loss": 5.4539,
+      "num_input_tokens_seen": 408551424,
+      "step": 3117
+    },
+    {
+      "epoch": 0.5335043283103559,
+      "grad_norm": 0.7640434503555298,
+      "learning_rate": 9.19343411186651e-05,
+      "loss": 5.4272,
+      "num_input_tokens_seen": 408944640,
+      "step": 3120
+    },
+    {
+      "epoch": 0.5340173132414235,
+      "grad_norm": 0.7618759870529175,
+      "learning_rate": 9.189017376511012e-05,
+      "loss": 5.4546,
+      "num_input_tokens_seen": 409337856,
+      "step": 3123
+    },
+    {
+      "epoch": 0.5345302981724912,
+      "grad_norm": 0.7451426386833191,
+      "learning_rate": 9.184607000746269e-05,
+      "loss": 5.4063,
+      "num_input_tokens_seen": 409731072,
+      "step": 3126
+    },
+    {
+      "epoch": 0.5350432831035589,
+      "grad_norm": 0.8144820928573608,
+      "learning_rate": 9.18020296932512e-05,
+      "loss": 5.3909,
+      "num_input_tokens_seen": 410124288,
+      "step": 3129
+    },
+    {
+      "epoch": 0.5355562680346265,
+      "grad_norm": 0.7408854365348816,
+      "learning_rate": 9.175805267051529e-05,
+      "loss": 5.4057,
+      "num_input_tokens_seen": 410517504,
+      "step": 3132
+    },
+    {
+      "epoch": 0.5360692529656942,
+      "grad_norm": 0.6958907246589661,
+      "learning_rate": 9.171413878780367e-05,
+      "loss": 5.4055,
+      "num_input_tokens_seen": 410910720,
+      "step": 3135
+    },
+    {
+      "epoch": 0.5365822378967617,
+      "grad_norm": 0.948639452457428,
+      "learning_rate": 9.167028789417202e-05,
+      "loss": 5.4399,
+      "num_input_tokens_seen": 411303936,
+      "step": 3138
+    },
+    {
+      "epoch": 0.5370952228278294,
+      "grad_norm": 0.9219982028007507,
+      "learning_rate": 9.162649983918063e-05,
+      "loss": 5.4244,
+      "num_input_tokens_seen": 411697152,
+      "step": 3141
+    },
+    {
+      "epoch": 0.5376082077588971,
+      "grad_norm": 0.8096942901611328,
+      "learning_rate": 9.15827744728924e-05,
+      "loss": 5.4215,
+      "num_input_tokens_seen": 412090368,
+      "step": 3144
+    },
+    {
+      "epoch": 0.5381211926899647,
+      "grad_norm": 0.7412171363830566,
+      "learning_rate": 9.153911164587056e-05,
+      "loss": 5.3988,
+      "num_input_tokens_seen": 412483584,
+      "step": 3147
+    },
+    {
+      "epoch": 0.5386341776210324,
+      "grad_norm": 0.878857433795929,
+      "learning_rate": 9.149551120917665e-05,
+      "loss": 5.4578,
+      "num_input_tokens_seen": 412876800,
+      "step": 3150
+    },
+    {
+      "epoch": 0.5391471625521,
+      "grad_norm": 0.6796370148658752,
+      "learning_rate": 9.145197301436826e-05,
+      "loss": 5.4093,
+      "num_input_tokens_seen": 413270016,
+      "step": 3153
+    },
+    {
+      "epoch": 0.5396601474831677,
+      "grad_norm": 0.7488420009613037,
+      "learning_rate": 9.140849691349699e-05,
+      "loss": 5.415,
+      "num_input_tokens_seen": 413663232,
+      "step": 3156
+    },
+    {
+      "epoch": 0.5401731324142354,
+      "grad_norm": 0.7959953546524048,
+      "learning_rate": 9.136508275910631e-05,
+      "loss": 5.4424,
+      "num_input_tokens_seen": 414056448,
+      "step": 3159
+    },
+    {
+      "epoch": 0.540686117345303,
+      "grad_norm": 0.7761291265487671,
+      "learning_rate": 9.132173040422948e-05,
+      "loss": 5.3982,
+      "num_input_tokens_seen": 414449664,
+      "step": 3162
+    },
+    {
+      "epoch": 0.5411991022763706,
+      "grad_norm": 0.7197316884994507,
+      "learning_rate": 9.127843970238739e-05,
+      "loss": 5.4369,
+      "num_input_tokens_seen": 414842880,
+      "step": 3165
+    },
+    {
+      "epoch": 0.5417120872074382,
+      "grad_norm": 0.8164528012275696,
+      "learning_rate": 9.123521050758656e-05,
+      "loss": 5.3976,
+      "num_input_tokens_seen": 415236096,
+      "step": 3168
+    },
+    {
+      "epoch": 0.5422250721385059,
+      "grad_norm": 0.7773632407188416,
+      "learning_rate": 9.119204267431711e-05,
+      "loss": 5.4227,
+      "num_input_tokens_seen": 415629312,
+      "step": 3171
+    },
+    {
+      "epoch": 0.5427380570695736,
+      "grad_norm": 0.7797026634216309,
+      "learning_rate": 9.114893605755055e-05,
+      "loss": 5.4028,
+      "num_input_tokens_seen": 416022528,
+      "step": 3174
+    },
+    {
+      "epoch": 0.5432510420006412,
+      "grad_norm": 0.8309365510940552,
+      "learning_rate": 9.110589051273787e-05,
+      "loss": 5.38,
+      "num_input_tokens_seen": 416415744,
+      "step": 3177
+    },
+    {
+      "epoch": 0.5437640269317089,
+      "grad_norm": 0.7560862302780151,
+      "learning_rate": 9.106290589580741e-05,
+      "loss": 5.4071,
+      "num_input_tokens_seen": 416808960,
+      "step": 3180
+    },
+    {
+      "epoch": 0.5442770118627765,
+      "grad_norm": 0.9633191227912903,
+      "learning_rate": 9.101998206316296e-05,
+      "loss": 5.454,
+      "num_input_tokens_seen": 417202176,
+      "step": 3183
+    },
+    {
+      "epoch": 0.5447899967938442,
+      "grad_norm": 0.9686263203620911,
+      "learning_rate": 9.097711887168163e-05,
+      "loss": 5.4424,
+      "num_input_tokens_seen": 417595392,
+      "step": 3186
+    },
+    {
+      "epoch": 0.5453029817249119,
+      "grad_norm": 0.7610862255096436,
+      "learning_rate": 9.093431617871184e-05,
+      "loss": 5.4298,
+      "num_input_tokens_seen": 417988608,
+      "step": 3189
+    },
+    {
+      "epoch": 0.5458159666559795,
+      "grad_norm": 0.8192333579063416,
+      "learning_rate": 9.08915738420714e-05,
+      "loss": 5.3675,
+      "num_input_tokens_seen": 418381824,
+      "step": 3192
+    },
+    {
+      "epoch": 0.5463289515870471,
+      "grad_norm": 0.8405448198318481,
+      "learning_rate": 9.084889172004556e-05,
+      "loss": 5.4132,
+      "num_input_tokens_seen": 418775040,
+      "step": 3195
+    },
+    {
+      "epoch": 0.5468419365181147,
+      "grad_norm": 0.8114674687385559,
+      "learning_rate": 9.080626967138484e-05,
+      "loss": 5.3972,
+      "num_input_tokens_seen": 419168256,
+      "step": 3198
+    },
+    {
+      "epoch": 0.5471839264721599,
+      "eval_accuracy": 0.17817944960104218,
+      "eval_loss": 5.861401081085205,
+      "eval_runtime": 114.3884,
+      "eval_samples_per_second": 2.623,
+      "eval_steps_per_second": 1.311,
+      "num_input_tokens_seen": 419430400,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5473549214491824,
+      "grad_norm": 0.7660786509513855,
+      "learning_rate": 9.076370755530334e-05,
+      "loss": 5.4147,
+      "num_input_tokens_seen": 419561472,
+      "step": 3201
+    },
+    {
+      "epoch": 0.5478679063802501,
+      "grad_norm": 0.8808948397636414,
+      "learning_rate": 9.072120523147654e-05,
+      "loss": 5.4063,
+      "num_input_tokens_seen": 419954688,
+      "step": 3204
+    },
+    {
+      "epoch": 0.5483808913113177,
+      "grad_norm": 0.751136302947998,
+      "learning_rate": 9.067876256003947e-05,
+      "loss": 5.393,
+      "num_input_tokens_seen": 420347904,
+      "step": 3207
+    },
+    {
+      "epoch": 0.5488938762423854,
+      "grad_norm": 0.7583978772163391,
+      "learning_rate": 9.063637940158486e-05,
+      "loss": 5.441,
+      "num_input_tokens_seen": 420741120,
+      "step": 3210
+    },
+    {
+      "epoch": 0.549406861173453,
+      "grad_norm": 0.685180127620697,
+      "learning_rate": 9.059405561716102e-05,
+      "loss": 5.3506,
+      "num_input_tokens_seen": 421134336,
+      "step": 3213
+    },
+    {
+      "epoch": 0.5499198461045207,
+      "grad_norm": 0.7538748979568481,
+      "learning_rate": 9.05517910682701e-05,
+      "loss": 5.4059,
+      "num_input_tokens_seen": 421527552,
+      "step": 3216
+    },
+    {
+      "epoch": 0.5504328310355884,
+      "grad_norm": 0.7428572773933411,
+      "learning_rate": 9.050958561686607e-05,
+      "loss": 5.4318,
+      "num_input_tokens_seen": 421920768,
+      "step": 3219
+    },
+    {
+      "epoch": 0.5509458159666559,
+      "grad_norm": 0.6747097373008728,
+      "learning_rate": 9.046743912535294e-05,
+      "loss": 5.412,
+      "num_input_tokens_seen": 422313984,
+      "step": 3222
+    },
+    {
+      "epoch": 0.5514588008977236,
+      "grad_norm": 0.7077423930168152,
+      "learning_rate": 9.042535145658275e-05,
+      "loss": 5.4399,
+      "num_input_tokens_seen": 422707200,
+      "step": 3225
+    },
+    {
+      "epoch": 0.5519717858287913,
+      "grad_norm": 0.7870452404022217,
+      "learning_rate": 9.038332247385375e-05,
+      "loss": 5.4146,
+      "num_input_tokens_seen": 423100416,
+      "step": 3228
+    },
+    {
+      "epoch": 0.5524847707598589,
+      "grad_norm": 0.788215160369873,
+      "learning_rate": 9.034135204090863e-05,
+      "loss": 5.3864,
+      "num_input_tokens_seen": 423493632,
+      "step": 3231
+    },
+    {
+      "epoch": 0.5529977556909266,
+      "grad_norm": 0.8093016743659973,
+      "learning_rate": 9.029944002193249e-05,
+      "loss": 5.4134,
+      "num_input_tokens_seen": 423886848,
+      "step": 3234
+    },
+    {
+      "epoch": 0.5535107406219942,
+      "grad_norm": 0.8293936252593994,
+      "learning_rate": 9.025758628155108e-05,
+      "loss": 5.403,
+      "num_input_tokens_seen": 424280064,
+      "step": 3237
+    },
+    {
+      "epoch": 0.5540237255530619,
+      "grad_norm": 0.8486737012863159,
+      "learning_rate": 9.021579068482906e-05,
+      "loss": 5.4037,
+      "num_input_tokens_seen": 424673280,
+      "step": 3240
+    },
+    {
+      "epoch": 0.5545367104841296,
+      "grad_norm": 0.7581062316894531,
+      "learning_rate": 9.017405309726795e-05,
+      "loss": 5.4085,
+      "num_input_tokens_seen": 425066496,
+      "step": 3243
+    },
+    {
+      "epoch": 0.5550496954151972,
+      "grad_norm": 0.7119733691215515,
+      "learning_rate": 9.013237338480452e-05,
+      "loss": 5.412,
+      "num_input_tokens_seen": 425459712,
+      "step": 3246
+    },
+    {
+      "epoch": 0.5555626803462649,
+      "grad_norm": 0.6932626962661743,
+      "learning_rate": 9.009075141380889e-05,
+      "loss": 5.3921,
+      "num_input_tokens_seen": 425852928,
+      "step": 3249
+    },
+    {
+      "epoch": 0.5560756652773324,
+      "grad_norm": 0.7145546078681946,
+      "learning_rate": 9.004918705108273e-05,
+      "loss": 5.4198,
+      "num_input_tokens_seen": 426246144,
+      "step": 3252
+    },
+    {
+      "epoch": 0.5565886502084001,
+      "grad_norm": 0.7427055239677429,
+      "learning_rate": 9.000768016385747e-05,
+      "loss": 5.4181,
+      "num_input_tokens_seen": 426639360,
+      "step": 3255
+    },
+    {
+      "epoch": 0.5571016351394678,
+      "grad_norm": 0.794049859046936,
+      "learning_rate": 8.996623061979255e-05,
+      "loss": 5.4207,
+      "num_input_tokens_seen": 427032576,
+      "step": 3258
+    },
+    {
+      "epoch": 0.5576146200705354,
+      "grad_norm": 0.7688232064247131,
+      "learning_rate": 8.992483828697364e-05,
+      "loss": 5.3995,
+      "num_input_tokens_seen": 427425792,
+      "step": 3261
+    },
+    {
+      "epoch": 0.5581276050016031,
+      "grad_norm": 0.78509521484375,
+      "learning_rate": 8.988350303391082e-05,
+      "loss": 5.3776,
+      "num_input_tokens_seen": 427819008,
+      "step": 3264
+    },
+    {
+      "epoch": 0.5586405899326707,
+      "grad_norm": 0.7266300320625305,
+      "learning_rate": 8.984222472953694e-05,
+      "loss": 5.3997,
+      "num_input_tokens_seen": 428212224,
+      "step": 3267
+    },
+    {
+      "epoch": 0.5591535748637384,
+      "grad_norm": 0.7247098684310913,
+      "learning_rate": 8.980100324320567e-05,
+      "loss": 5.3709,
+      "num_input_tokens_seen": 428605440,
+      "step": 3270
+    },
+    {
+      "epoch": 0.5596665597948061,
+      "grad_norm": 0.7840573191642761,
+      "learning_rate": 8.975983844469008e-05,
+      "loss": 5.3795,
+      "num_input_tokens_seen": 428998656,
+      "step": 3273
+    },
+    {
+      "epoch": 0.5601795447258737,
+      "grad_norm": 0.766008734703064,
+      "learning_rate": 8.97187302041806e-05,
+      "loss": 5.392,
+      "num_input_tokens_seen": 429391872,
+      "step": 3276
+    },
+    {
+      "epoch": 0.5606925296569413,
+      "grad_norm": 0.7803478837013245,
+      "learning_rate": 8.967767839228347e-05,
+      "loss": 5.3733,
+      "num_input_tokens_seen": 429785088,
+      "step": 3279
+    },
+    {
+      "epoch": 0.5612055145880089,
+      "grad_norm": 0.7566540837287903,
+      "learning_rate": 8.963668288001898e-05,
+      "loss": 5.4469,
+      "num_input_tokens_seen": 430178304,
+      "step": 3282
+    },
+    {
+      "epoch": 0.5617184995190766,
+      "grad_norm": 0.7852625250816345,
+      "learning_rate": 8.959574353881981e-05,
+      "loss": 5.4397,
+      "num_input_tokens_seen": 430571520,
+      "step": 3285
+    },
+    {
+      "epoch": 0.5622314844501443,
+      "grad_norm": 0.7693859934806824,
+      "learning_rate": 8.955486024052926e-05,
+      "loss": 5.4515,
+      "num_input_tokens_seen": 430964736,
+      "step": 3288
+    },
+    {
+      "epoch": 0.5627444693812119,
+      "grad_norm": 0.7919835448265076,
+      "learning_rate": 8.951403285739966e-05,
+      "loss": 5.3651,
+      "num_input_tokens_seen": 431357952,
+      "step": 3291
+    },
+    {
+      "epoch": 0.5632574543122796,
+      "grad_norm": 0.7930036187171936,
+      "learning_rate": 8.947326126209056e-05,
+      "loss": 5.3632,
+      "num_input_tokens_seen": 431751168,
+      "step": 3294
+    },
+    {
+      "epoch": 0.5637704392433472,
+      "grad_norm": 0.8255593776702881,
+      "learning_rate": 8.943254532766725e-05,
+      "loss": 5.4164,
+      "num_input_tokens_seen": 432144384,
+      "step": 3297
+    },
+    {
+      "epoch": 0.5642834241744149,
+      "grad_norm": 0.7580281496047974,
+      "learning_rate": 8.939188492759893e-05,
+      "loss": 5.4217,
+      "num_input_tokens_seen": 432537600,
+      "step": 3300
+    },
+    {
+      "epoch": 0.5647964091054826,
+      "grad_norm": 0.8095049858093262,
+      "learning_rate": 8.935127993575714e-05,
+      "loss": 5.4079,
+      "num_input_tokens_seen": 432930816,
+      "step": 3303
+    },
+    {
+      "epoch": 0.5653093940365502,
+      "grad_norm": 0.8694627285003662,
+      "learning_rate": 8.93107302264141e-05,
+      "loss": 5.4076,
+      "num_input_tokens_seen": 433324032,
+      "step": 3306
+    },
+    {
+      "epoch": 0.5658223789676178,
+      "grad_norm": 0.7595628499984741,
+      "learning_rate": 8.927023567424106e-05,
+      "loss": 5.3759,
+      "num_input_tokens_seen": 433717248,
+      "step": 3309
+    },
+    {
+      "epoch": 0.5663353638986854,
+      "grad_norm": 0.7479428648948669,
+      "learning_rate": 8.922979615430672e-05,
+      "loss": 5.4004,
+      "num_input_tokens_seen": 434110464,
+      "step": 3312
+    },
+    {
+      "epoch": 0.5668483488297531,
+      "grad_norm": 0.7877030372619629,
+      "learning_rate": 8.918941154207554e-05,
+      "loss": 5.3521,
+      "num_input_tokens_seen": 434503680,
+      "step": 3315
+    },
+    {
+      "epoch": 0.5673613337608208,
+      "grad_norm": 0.711147129535675,
+      "learning_rate": 8.914908171340622e-05,
+      "loss": 5.3964,
+      "num_input_tokens_seen": 434896896,
+      "step": 3318
+    },
+    {
+      "epoch": 0.5678743186918884,
+      "grad_norm": 0.8448489904403687,
+      "learning_rate": 8.910880654455001e-05,
+      "loss": 5.3609,
+      "num_input_tokens_seen": 435290112,
+      "step": 3321
+    },
+    {
+      "epoch": 0.5683873036229561,
+      "grad_norm": 1.0078827142715454,
+      "learning_rate": 8.906858591214913e-05,
+      "loss": 5.3788,
+      "num_input_tokens_seen": 435683328,
+      "step": 3324
+    },
+    {
+      "epoch": 0.5689002885540237,
+      "grad_norm": 0.9142970442771912,
+      "learning_rate": 8.902841969323526e-05,
+      "loss": 5.4028,
+      "num_input_tokens_seen": 436076544,
+      "step": 3327
+    },
+    {
+      "epoch": 0.5694132734850914,
+      "grad_norm": 0.7522501945495605,
+      "learning_rate": 8.898830776522789e-05,
+      "loss": 5.371,
+      "num_input_tokens_seen": 436469760,
+      "step": 3330
+    },
+    {
+      "epoch": 0.5699262584161591,
+      "grad_norm": 0.7678289413452148,
+      "learning_rate": 8.894825000593272e-05,
+      "loss": 5.4068,
+      "num_input_tokens_seen": 436862976,
+      "step": 3333
+    },
+    {
+      "epoch": 0.5704392433472266,
+      "grad_norm": 0.8633313179016113,
+      "learning_rate": 8.890824629354019e-05,
+      "loss": 5.4327,
+      "num_input_tokens_seen": 437256192,
+      "step": 3336
+    },
+    {
+      "epoch": 0.5709522282782943,
+      "grad_norm": 0.7590151429176331,
+      "learning_rate": 8.886829650662388e-05,
+      "loss": 5.428,
+      "num_input_tokens_seen": 437649408,
+      "step": 3339
+    },
+    {
+      "epoch": 0.5714652132093619,
+      "grad_norm": 0.847149133682251,
+      "learning_rate": 8.882840052413889e-05,
+      "loss": 5.3417,
+      "num_input_tokens_seen": 438042624,
+      "step": 3342
+    },
+    {
+      "epoch": 0.5719781981404296,
+      "grad_norm": 0.898617684841156,
+      "learning_rate": 8.878855822542044e-05,
+      "loss": 5.4506,
+      "num_input_tokens_seen": 438435840,
+      "step": 3345
+    },
+    {
+      "epoch": 0.5724911830714973,
+      "grad_norm": 0.763965368270874,
+      "learning_rate": 8.874876949018225e-05,
+      "loss": 5.3538,
+      "num_input_tokens_seen": 438829056,
+      "step": 3348
+    },
+    {
+      "epoch": 0.5730041680025649,
+      "grad_norm": 0.6895188093185425,
+      "learning_rate": 8.8709034198515e-05,
+      "loss": 5.3798,
+      "num_input_tokens_seen": 439222272,
+      "step": 3351
+    },
+    {
+      "epoch": 0.5735171529336326,
+      "grad_norm": 0.7596139907836914,
+      "learning_rate": 8.866935223088484e-05,
+      "loss": 5.4335,
+      "num_input_tokens_seen": 439615488,
+      "step": 3354
+    },
+    {
+      "epoch": 0.5740301378647003,
+      "grad_norm": 0.7017662525177002,
+      "learning_rate": 8.86297234681319e-05,
+      "loss": 5.3408,
+      "num_input_tokens_seen": 440008704,
+      "step": 3357
+    },
+    {
+      "epoch": 0.5745431227957679,
+      "grad_norm": 0.68537437915802,
+      "learning_rate": 8.859014779146879e-05,
+      "loss": 5.389,
+      "num_input_tokens_seen": 440401920,
+      "step": 3360
+    },
+    {
+      "epoch": 0.5750561077268356,
+      "grad_norm": 0.7110214233398438,
+      "learning_rate": 8.855062508247906e-05,
+      "loss": 5.388,
+      "num_input_tokens_seen": 440795136,
+      "step": 3363
+    },
+    {
+      "epoch": 0.5755690926579031,
+      "grad_norm": 0.7052029371261597,
+      "learning_rate": 8.851115522311569e-05,
+      "loss": 5.369,
+      "num_input_tokens_seen": 441188352,
+      "step": 3366
+    },
+    {
+      "epoch": 0.5760820775889708,
+      "grad_norm": 0.7604022026062012,
+      "learning_rate": 8.847173809569973e-05,
+      "loss": 5.4126,
+      "num_input_tokens_seen": 441581568,
+      "step": 3369
+    },
+    {
+      "epoch": 0.5765950625200384,
+      "grad_norm": 0.9355179071426392,
+      "learning_rate": 8.843237358291869e-05,
+      "loss": 5.4177,
+      "num_input_tokens_seen": 441974784,
+      "step": 3372
+    },
+    {
+      "epoch": 0.5771080474511061,
+      "grad_norm": 0.7173782587051392,
+      "learning_rate": 8.839306156782517e-05,
+      "loss": 5.3681,
+      "num_input_tokens_seen": 442368000,
+      "step": 3375
+    },
+    {
+      "epoch": 0.5776210323821738,
+      "grad_norm": 0.6853963136672974,
+      "learning_rate": 8.835380193383536e-05,
+      "loss": 5.4111,
+      "num_input_tokens_seen": 442761216,
+      "step": 3378
+    },
+    {
+      "epoch": 0.5781340173132414,
+      "grad_norm": 0.8973987102508545,
+      "learning_rate": 8.831459456472757e-05,
+      "loss": 5.3506,
+      "num_input_tokens_seen": 443154432,
+      "step": 3381
+    },
+    {
+      "epoch": 0.5786470022443091,
+      "grad_norm": 0.9155653119087219,
+      "learning_rate": 8.827543934464083e-05,
+      "loss": 5.4238,
+      "num_input_tokens_seen": 443547648,
+      "step": 3384
+    },
+    {
+      "epoch": 0.5791599871753768,
+      "grad_norm": 0.8291952013969421,
+      "learning_rate": 8.823633615807338e-05,
+      "loss": 5.3837,
+      "num_input_tokens_seen": 443940864,
+      "step": 3387
+    },
+    {
+      "epoch": 0.5796729721064444,
+      "grad_norm": 0.8799310922622681,
+      "learning_rate": 8.81972848898814e-05,
+      "loss": 5.4034,
+      "num_input_tokens_seen": 444334080,
+      "step": 3390
+    },
+    {
+      "epoch": 0.580185957037512,
+      "grad_norm": 0.8494542837142944,
+      "learning_rate": 8.815828542527734e-05,
+      "loss": 5.3643,
+      "num_input_tokens_seen": 444727296,
+      "step": 3393
+    },
+    {
+      "epoch": 0.5806989419685796,
+      "grad_norm": 0.8374956250190735,
+      "learning_rate": 8.811933764982872e-05,
+      "loss": 5.3538,
+      "num_input_tokens_seen": 445120512,
+      "step": 3396
+    },
+    {
+      "epoch": 0.5812119268996473,
+      "grad_norm": 0.7371034026145935,
+      "learning_rate": 8.80804414494566e-05,
+      "loss": 5.3759,
+      "num_input_tokens_seen": 445513728,
+      "step": 3399
+    },
+    {
+      "epoch": 0.581724911830715,
+      "grad_norm": 0.905910074710846,
+      "learning_rate": 8.804159671043426e-05,
+      "loss": 5.3869,
+      "num_input_tokens_seen": 445906944,
+      "step": 3402
+    },
+    {
+      "epoch": 0.5822378967617826,
+      "grad_norm": 0.7442747950553894,
+      "learning_rate": 8.80028033193857e-05,
+      "loss": 5.3816,
+      "num_input_tokens_seen": 446300160,
+      "step": 3405
+    },
+    {
+      "epoch": 0.5827508816928503,
+      "grad_norm": 0.7881158590316772,
+      "learning_rate": 8.796406116328433e-05,
+      "loss": 5.4244,
+      "num_input_tokens_seen": 446693376,
+      "step": 3408
+    },
+    {
+      "epoch": 0.5832638666239179,
+      "grad_norm": 0.7259749174118042,
+      "learning_rate": 8.792537012945155e-05,
+      "loss": 5.3949,
+      "num_input_tokens_seen": 447086592,
+      "step": 3411
+    },
+    {
+      "epoch": 0.5837768515549856,
+      "grad_norm": 0.7151450514793396,
+      "learning_rate": 8.788673010555546e-05,
+      "loss": 5.3901,
+      "num_input_tokens_seen": 447479808,
+      "step": 3414
+    },
+    {
+      "epoch": 0.5842898364860533,
+      "grad_norm": 0.7341894507408142,
+      "learning_rate": 8.784814097960928e-05,
+      "loss": 5.3559,
+      "num_input_tokens_seen": 447873024,
+      "step": 3417
+    },
+    {
+      "epoch": 0.5848028214171209,
+      "grad_norm": 0.805620014667511,
+      "learning_rate": 8.780960263997026e-05,
+      "loss": 5.3723,
+      "num_input_tokens_seen": 448266240,
+      "step": 3420
+    },
+    {
+      "epoch": 0.5853158063481885,
+      "grad_norm": 0.6728326082229614,
+      "learning_rate": 8.777111497533811e-05,
+      "loss": 5.4222,
+      "num_input_tokens_seen": 448659456,
+      "step": 3423
+    },
+    {
+      "epoch": 0.5858287912792561,
+      "grad_norm": 0.7800388336181641,
+      "learning_rate": 8.773267787475375e-05,
+      "loss": 5.4013,
+      "num_input_tokens_seen": 449052672,
+      "step": 3426
+    },
+    {
+      "epoch": 0.5863417762103238,
+      "grad_norm": 0.7759156823158264,
+      "learning_rate": 8.769429122759794e-05,
+      "loss": 5.3962,
+      "num_input_tokens_seen": 449445888,
+      "step": 3429
+    },
+    {
+      "epoch": 0.5868547611413915,
+      "grad_norm": 0.7210240364074707,
+      "learning_rate": 8.765595492358994e-05,
+      "loss": 5.4314,
+      "num_input_tokens_seen": 449839104,
+      "step": 3432
+    },
+    {
+      "epoch": 0.5873677460724591,
+      "grad_norm": 0.7143703699111938,
+      "learning_rate": 8.761766885278622e-05,
+      "loss": 5.4162,
+      "num_input_tokens_seen": 450232320,
+      "step": 3435
+    },
+    {
+      "epoch": 0.5878807310035268,
+      "grad_norm": 0.8158110976219177,
+      "learning_rate": 8.757943290557907e-05,
+      "loss": 5.4427,
+      "num_input_tokens_seen": 450625536,
+      "step": 3438
+    },
+    {
+      "epoch": 0.5883937159345944,
+      "grad_norm": 1.0660381317138672,
+      "learning_rate": 8.754124697269531e-05,
+      "loss": 5.3696,
+      "num_input_tokens_seen": 451018752,
+      "step": 3441
+    },
+    {
+      "epoch": 0.5889067008656621,
+      "grad_norm": 0.7566826939582825,
+      "learning_rate": 8.7503110945195e-05,
+      "loss": 5.3177,
+      "num_input_tokens_seen": 451411968,
+      "step": 3444
+    },
+    {
+      "epoch": 0.5894196857967298,
+      "grad_norm": 1.0346297025680542,
+      "learning_rate": 8.746502471447013e-05,
+      "loss": 5.3814,
+      "num_input_tokens_seen": 451805184,
+      "step": 3447
+    },
+    {
+      "epoch": 0.5899326707277974,
+      "grad_norm": 0.7817288637161255,
+      "learning_rate": 8.742698817224326e-05,
+      "loss": 5.3748,
+      "num_input_tokens_seen": 452198400,
+      "step": 3450
+    },
+    {
+      "epoch": 0.590445655658865,
+      "grad_norm": 0.6449154019355774,
+      "learning_rate": 8.738900121056633e-05,
+      "loss": 5.3848,
+      "num_input_tokens_seen": 452591616,
+      "step": 3453
+    },
+    {
+      "epoch": 0.5909586405899326,
+      "grad_norm": 0.789215624332428,
+      "learning_rate": 8.735106372181928e-05,
+      "loss": 5.3952,
+      "num_input_tokens_seen": 452984832,
+      "step": 3456
+    },
+    {
+      "epoch": 0.5914716255210003,
+      "grad_norm": 0.7104623317718506,
+      "learning_rate": 8.731317559870881e-05,
+      "loss": 5.3851,
+      "num_input_tokens_seen": 453378048,
+      "step": 3459
+    },
+    {
+      "epoch": 0.591984610452068,
+      "grad_norm": 0.6851987838745117,
+      "learning_rate": 8.727533673426715e-05,
+      "loss": 5.3495,
+      "num_input_tokens_seen": 453771264,
+      "step": 3462
+    },
+    {
+      "epoch": 0.5924975953831356,
+      "grad_norm": 0.661577582359314,
+      "learning_rate": 8.723754702185069e-05,
+      "loss": 5.4102,
+      "num_input_tokens_seen": 454164480,
+      "step": 3465
+    },
+    {
+      "epoch": 0.5930105803142033,
+      "grad_norm": 0.7876046895980835,
+      "learning_rate": 8.719980635513879e-05,
+      "loss": 5.3651,
+      "num_input_tokens_seen": 454557696,
+      "step": 3468
+    },
+    {
+      "epoch": 0.593523565245271,
+      "grad_norm": 0.6847128868103027,
+      "learning_rate": 8.716211462813248e-05,
+      "loss": 5.374,
+      "num_input_tokens_seen": 454950912,
+      "step": 3471
+    },
+    {
+      "epoch": 0.5940365501763386,
+      "grad_norm": 0.7161657214164734,
+      "learning_rate": 8.712447173515334e-05,
+      "loss": 5.3707,
+      "num_input_tokens_seen": 455344128,
+      "step": 3474
+    },
+    {
+      "epoch": 0.5945495351074063,
+      "grad_norm": 0.7502399682998657,
+      "learning_rate": 8.708687757084202e-05,
+      "loss": 5.3479,
+      "num_input_tokens_seen": 455737344,
+      "step": 3477
+    },
+    {
+      "epoch": 0.5950625200384738,
+      "grad_norm": 0.7003999948501587,
+      "learning_rate": 8.704933203015719e-05,
+      "loss": 5.3245,
+      "num_input_tokens_seen": 456130560,
+      "step": 3480
+    },
+    {
+      "epoch": 0.5955755049695415,
+      "grad_norm": 0.7405338287353516,
+      "learning_rate": 8.701183500837426e-05,
+      "loss": 5.3814,
+      "num_input_tokens_seen": 456523776,
+      "step": 3483
+    },
+    {
+      "epoch": 0.5960884899006091,
+      "grad_norm": 0.7183709144592285,
+      "learning_rate": 8.697438640108417e-05,
+      "loss": 5.3444,
+      "num_input_tokens_seen": 456916992,
+      "step": 3486
+    },
+    {
+      "epoch": 0.5966014748316768,
+      "grad_norm": 0.7054752707481384,
+      "learning_rate": 8.693698610419203e-05,
+      "loss": 5.4152,
+      "num_input_tokens_seen": 457310208,
+      "step": 3489
+    },
+    {
+      "epoch": 0.5971144597627445,
+      "grad_norm": 0.7215176820755005,
+      "learning_rate": 8.689963401391618e-05,
+      "loss": 5.3406,
+      "num_input_tokens_seen": 457703424,
+      "step": 3492
+    },
+    {
+      "epoch": 0.5976274446938121,
+      "grad_norm": 0.7162594795227051,
+      "learning_rate": 8.686233002678664e-05,
+      "loss": 5.4583,
+      "num_input_tokens_seen": 458096640,
+      "step": 3495
+    },
+    {
+      "epoch": 0.5981404296248798,
+      "grad_norm": 0.7248669862747192,
+      "learning_rate": 8.682507403964426e-05,
+      "loss": 5.339,
+      "num_input_tokens_seen": 458489856,
+      "step": 3498
+    },
+    {
+      "epoch": 0.5986534145559474,
+      "grad_norm": 0.7000369429588318,
+      "learning_rate": 8.67878659496392e-05,
+      "loss": 5.3227,
+      "num_input_tokens_seen": 458883072,
+      "step": 3501
+    },
+    {
+      "epoch": 0.5991663994870151,
+      "grad_norm": 0.7467644810676575,
+      "learning_rate": 8.675070565422998e-05,
+      "loss": 5.421,
+      "num_input_tokens_seen": 459276288,
+      "step": 3504
+    },
+    {
+      "epoch": 0.5996793844180828,
+      "grad_norm": 0.7262928485870361,
+      "learning_rate": 8.671359305118213e-05,
+      "loss": 5.3765,
+      "num_input_tokens_seen": 459669504,
+      "step": 3507
+    },
+    {
+      "epoch": 0.6001923693491503,
+      "grad_norm": 0.721593976020813,
+      "learning_rate": 8.667652803856712e-05,
+      "loss": 5.415,
+      "num_input_tokens_seen": 460062720,
+      "step": 3510
+    },
+    {
+      "epoch": 0.600705354280218,
+      "grad_norm": 0.712061882019043,
+      "learning_rate": 8.663951051476112e-05,
+      "loss": 5.4037,
+      "num_input_tokens_seen": 460455936,
+      "step": 3513
+    },
+    {
+      "epoch": 0.6012183392112856,
+      "grad_norm": 0.6668177247047424,
+      "learning_rate": 8.660254037844386e-05,
+      "loss": 5.3052,
+      "num_input_tokens_seen": 460849152,
+      "step": 3516
+    },
+    {
+      "epoch": 0.6017313241423533,
+      "grad_norm": 0.6952577233314514,
+      "learning_rate": 8.656561752859744e-05,
+      "loss": 5.3895,
+      "num_input_tokens_seen": 461242368,
+      "step": 3519
+    },
+    {
+      "epoch": 0.602244309073421,
+      "grad_norm": 0.8409635424613953,
+      "learning_rate": 8.652874186450518e-05,
+      "loss": 5.3989,
+      "num_input_tokens_seen": 461635584,
+      "step": 3522
+    },
+    {
+      "epoch": 0.6027572940044886,
+      "grad_norm": 0.7468051314353943,
+      "learning_rate": 8.64919132857505e-05,
+      "loss": 5.3822,
+      "num_input_tokens_seen": 462028800,
+      "step": 3525
+    },
+    {
+      "epoch": 0.6032702789355563,
+      "grad_norm": 0.6477757692337036,
+      "learning_rate": 8.645513169221575e-05,
+      "loss": 5.3758,
+      "num_input_tokens_seen": 462422016,
+      "step": 3528
+    },
+    {
+      "epoch": 0.603783263866624,
+      "grad_norm": 0.7509175539016724,
+      "learning_rate": 8.641839698408096e-05,
+      "loss": 5.3906,
+      "num_input_tokens_seen": 462815232,
+      "step": 3531
+    },
+    {
+      "epoch": 0.6042962487976916,
+      "grad_norm": 0.7417723536491394,
+      "learning_rate": 8.638170906182295e-05,
+      "loss": 5.4307,
+      "num_input_tokens_seen": 463208448,
+      "step": 3534
+    },
+    {
+      "epoch": 0.6048092337287592,
+      "grad_norm": 0.9790907502174377,
+      "learning_rate": 8.634506782621394e-05,
+      "loss": 5.387,
+      "num_input_tokens_seen": 463601664,
+      "step": 3537
+    },
+    {
+      "epoch": 0.6053222186598268,
+      "grad_norm": 0.7534716129302979,
+      "learning_rate": 8.630847317832056e-05,
+      "loss": 5.3362,
+      "num_input_tokens_seen": 463994880,
+      "step": 3540
+    },
+    {
+      "epoch": 0.6058352035908945,
+      "grad_norm": 0.8518982529640198,
+      "learning_rate": 8.627192501950274e-05,
+      "loss": 5.4182,
+      "num_input_tokens_seen": 464388096,
+      "step": 3543
+    },
+    {
+      "epoch": 0.6063481885219622,
+      "grad_norm": 0.9109683632850647,
+      "learning_rate": 8.623542325141249e-05,
+      "loss": 5.3571,
+      "num_input_tokens_seen": 464781312,
+      "step": 3546
+    },
+    {
+      "epoch": 0.6068611734530298,
+      "grad_norm": 0.7174829840660095,
+      "learning_rate": 8.619896777599289e-05,
+      "loss": 5.4502,
+      "num_input_tokens_seen": 465174528,
+      "step": 3549
+    },
+    {
+      "epoch": 0.6073741583840975,
+      "grad_norm": 0.796428918838501,
+      "learning_rate": 8.616255849547694e-05,
+      "loss": 5.3815,
+      "num_input_tokens_seen": 465567744,
+      "step": 3552
+    },
+    {
+      "epoch": 0.6078871433151651,
+      "grad_norm": 0.9209778308868408,
+      "learning_rate": 8.612619531238647e-05,
+      "loss": 5.4294,
+      "num_input_tokens_seen": 465960960,
+      "step": 3555
+    },
+    {
+      "epoch": 0.6084001282462328,
+      "grad_norm": 0.9266733527183533,
+      "learning_rate": 8.6089878129531e-05,
+      "loss": 5.3943,
+      "num_input_tokens_seen": 466354176,
+      "step": 3558
+    },
+    {
+      "epoch": 0.6089131131773005,
+      "grad_norm": 0.7748308181762695,
+      "learning_rate": 8.60536068500068e-05,
+      "loss": 5.3581,
+      "num_input_tokens_seen": 466747392,
+      "step": 3561
+    },
+    {
+      "epoch": 0.6094260981083681,
+      "grad_norm": 0.8532904386520386,
+      "learning_rate": 8.601738137719548e-05,
+      "loss": 5.3198,
+      "num_input_tokens_seen": 467140608,
+      "step": 3564
+    },
+    {
+      "epoch": 0.6099390830394357,
+      "grad_norm": 0.8617231845855713,
+      "learning_rate": 8.598120161476338e-05,
+      "loss": 5.4047,
+      "num_input_tokens_seen": 467533824,
+      "step": 3567
+    },
+    {
+      "epoch": 0.6104520679705033,
+      "grad_norm": 0.7476005554199219,
+      "learning_rate": 8.594506746665999e-05,
+      "loss": 5.3728,
+      "num_input_tokens_seen": 467927040,
+      "step": 3570
+    },
+    {
+      "epoch": 0.610965052901571,
+      "grad_norm": 0.7166175842285156,
+      "learning_rate": 8.590897883711732e-05,
+      "loss": 5.3925,
+      "num_input_tokens_seen": 468320256,
+      "step": 3573
+    },
+    {
+      "epoch": 0.6114780378326387,
+      "grad_norm": 0.6815547347068787,
+      "learning_rate": 8.587293563064851e-05,
+      "loss": 5.3407,
+      "num_input_tokens_seen": 468713472,
+      "step": 3576
+    },
+    {
+      "epoch": 0.6119910227637063,
+      "grad_norm": 0.7247835397720337,
+      "learning_rate": 8.583693775204695e-05,
+      "loss": 5.3833,
+      "num_input_tokens_seen": 469106688,
+      "step": 3579
+    },
+    {
+      "epoch": 0.612504007694774,
+      "grad_norm": 0.715282142162323,
+      "learning_rate": 8.580098510638516e-05,
+      "loss": 5.3863,
+      "num_input_tokens_seen": 469499904,
+      "step": 3582
+    },
+    {
+      "epoch": 0.6130169926258416,
+      "grad_norm": 0.8423024415969849,
+      "learning_rate": 8.576507759901377e-05,
+      "loss": 5.4177,
+      "num_input_tokens_seen": 469893120,
+      "step": 3585
+    },
+    {
+      "epoch": 0.6135299775569093,
+      "grad_norm": 0.7851782441139221,
+      "learning_rate": 8.572921513556039e-05,
+      "loss": 5.375,
+      "num_input_tokens_seen": 470286336,
+      "step": 3588
+    },
+    {
+      "epoch": 0.614042962487977,
+      "grad_norm": 0.9765253067016602,
+      "learning_rate": 8.569339762192868e-05,
+      "loss": 5.3584,
+      "num_input_tokens_seen": 470679552,
+      "step": 3591
+    },
+    {
+      "epoch": 0.6145559474190445,
+      "grad_norm": 0.799020528793335,
+      "learning_rate": 8.565762496429728e-05,
+      "loss": 5.3448,
+      "num_input_tokens_seen": 471072768,
+      "step": 3594
+    },
+    {
+      "epoch": 0.6150689323501122,
+      "grad_norm": 0.711087703704834,
+      "learning_rate": 8.562189706911872e-05,
+      "loss": 5.3743,
+      "num_input_tokens_seen": 471465984,
+      "step": 3597
+    },
+    {
+      "epoch": 0.6155819172811798,
+      "grad_norm": 0.8044856190681458,
+      "learning_rate": 8.558621384311844e-05,
+      "loss": 5.3983,
+      "num_input_tokens_seen": 471859200,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6155819172811798,
+      "eval_accuracy": 0.17727405959941378,
+      "eval_loss": 5.83395528793335,
+      "eval_runtime": 110.1105,
+      "eval_samples_per_second": 2.725,
+      "eval_steps_per_second": 1.362,
+      "num_input_tokens_seen": 471859200,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6160949022122475,
+      "grad_norm": 0.6745046973228455,
+      "learning_rate": 8.555057519329377e-05,
+      "loss": 5.3712,
+      "num_input_tokens_seen": 472252416,
+      "step": 3603
+    },
+    {
+      "epoch": 0.6166078871433152,
+      "grad_norm": 0.7151539921760559,
+      "learning_rate": 8.551498102691291e-05,
+      "loss": 5.3079,
+      "num_input_tokens_seen": 472645632,
+      "step": 3606
+    },
+    {
+      "epoch": 0.6171208720743828,
+      "grad_norm": 0.7192103266716003,
+      "learning_rate": 8.547943125151391e-05,
+      "loss": 5.3905,
+      "num_input_tokens_seen": 473038848,
+      "step": 3609
+    },
+    {
+      "epoch": 0.6176338570054505,
+      "grad_norm": 0.734131932258606,
+      "learning_rate": 8.544392577490364e-05,
+      "loss": 5.3244,
+      "num_input_tokens_seen": 473432064,
+      "step": 3612
+    },
+    {
+      "epoch": 0.6181468419365181,
+      "grad_norm": 0.6585795283317566,
+      "learning_rate": 8.54084645051568e-05,
+      "loss": 5.3767,
+      "num_input_tokens_seen": 473825280,
+      "step": 3615
+    },
+    {
+      "epoch": 0.6186598268675858,
+      "grad_norm": 0.7334539294242859,
+      "learning_rate": 8.537304735061498e-05,
+      "loss": 5.3683,
+      "num_input_tokens_seen": 474218496,
+      "step": 3618
+    },
+    {
+      "epoch": 0.6191728117986535,
+      "grad_norm": 0.7433605790138245,
+      "learning_rate": 8.533767421988556e-05,
+      "loss": 5.3546,
+      "num_input_tokens_seen": 474611712,
+      "step": 3621
+    },
+    {
+      "epoch": 0.619685796729721,
+      "grad_norm": 0.7147760987281799,
+      "learning_rate": 8.530234502184079e-05,
+      "loss": 5.3851,
+      "num_input_tokens_seen": 475004928,
+      "step": 3624
+    },
+    {
+      "epoch": 0.6201987816607887,
+      "grad_norm": 0.7629379034042358,
+      "learning_rate": 8.526705966561678e-05,
+      "loss": 5.3321,
+      "num_input_tokens_seen": 475398144,
+      "step": 3627
+    },
+    {
+      "epoch": 0.6207117665918563,
+      "grad_norm": 0.7201533317565918,
+      "learning_rate": 8.523181806061252e-05,
+      "loss": 5.3973,
+      "num_input_tokens_seen": 475791360,
+      "step": 3630
+    },
+    {
+      "epoch": 0.621224751522924,
+      "grad_norm": 0.7145413756370544,
+      "learning_rate": 8.519662011648894e-05,
+      "loss": 5.357,
+      "num_input_tokens_seen": 476184576,
+      "step": 3633
+    },
+    {
+      "epoch": 0.6217377364539917,
+      "grad_norm": 0.6908425092697144,
+      "learning_rate": 8.516146574316785e-05,
+      "loss": 5.3227,
+      "num_input_tokens_seen": 476577792,
+      "step": 3636
+    },
+    {
+      "epoch": 0.6222507213850593,
+      "grad_norm": 0.7059429883956909,
+      "learning_rate": 8.512635485083106e-05,
+      "loss": 5.361,
+      "num_input_tokens_seen": 476971008,
+      "step": 3639
+    },
+    {
+      "epoch": 0.622763706316127,
+      "grad_norm": 0.7348899841308594,
+      "learning_rate": 8.509128734991941e-05,
+      "loss": 5.3768,
+      "num_input_tokens_seen": 477364224,
+      "step": 3642
+    },
+    {
+      "epoch": 0.6232766912471946,
+      "grad_norm": 0.8156319260597229,
+      "learning_rate": 8.505626315113171e-05,
+      "loss": 5.3989,
+      "num_input_tokens_seen": 477757440,
+      "step": 3645
+    },
+    {
+      "epoch": 0.6237896761782623,
+      "grad_norm": 0.776240885257721,
+      "learning_rate": 8.50212821654239e-05,
+      "loss": 5.3562,
+      "num_input_tokens_seen": 478150656,
+      "step": 3648
+    },
+    {
+      "epoch": 0.6243026611093299,
+      "grad_norm": 0.7777855396270752,
+      "learning_rate": 8.498634430400809e-05,
+      "loss": 5.3648,
+      "num_input_tokens_seen": 478543872,
+      "step": 3651
+    },
+    {
+      "epoch": 0.6248156460403975,
+      "grad_norm": 0.8572577834129333,
+      "learning_rate": 8.495144947835149e-05,
+      "loss": 5.3517,
+      "num_input_tokens_seen": 478937088,
+      "step": 3654
+    },
+    {
+      "epoch": 0.6253286309714652,
+      "grad_norm": 0.9028589725494385,
+      "learning_rate": 8.491659760017563e-05,
+      "loss": 5.3633,
+      "num_input_tokens_seen": 479330304,
+      "step": 3657
+    },
+    {
+      "epoch": 0.6258416159025328,
+      "grad_norm": 0.8123112320899963,
+      "learning_rate": 8.488178858145536e-05,
+      "loss": 5.3626,
+      "num_input_tokens_seen": 479723520,
+      "step": 3660
+    },
+    {
+      "epoch": 0.6263546008336005,
+      "grad_norm": 0.6874297261238098,
+      "learning_rate": 8.484702233441784e-05,
+      "loss": 5.3445,
+      "num_input_tokens_seen": 480116736,
+      "step": 3663
+    },
+    {
+      "epoch": 0.6268675857646682,
+      "grad_norm": 0.7794182300567627,
+      "learning_rate": 8.481229877154171e-05,
+      "loss": 5.4051,
+      "num_input_tokens_seen": 480509952,
+      "step": 3666
+    },
+    {
+      "epoch": 0.6273805706957358,
+      "grad_norm": 0.9119608402252197,
+      "learning_rate": 8.477761780555616e-05,
+      "loss": 5.3604,
+      "num_input_tokens_seen": 480903168,
+      "step": 3669
+    },
+    {
+      "epoch": 0.6278935556268035,
+      "grad_norm": 0.8943549394607544,
+      "learning_rate": 8.474297934943995e-05,
+      "loss": 5.3822,
+      "num_input_tokens_seen": 481296384,
+      "step": 3672
+    },
+    {
+      "epoch": 0.6284065405578712,
+      "grad_norm": 0.7565066814422607,
+      "learning_rate": 8.470838331642053e-05,
+      "loss": 5.3687,
+      "num_input_tokens_seen": 481689600,
+      "step": 3675
+    },
+    {
+      "epoch": 0.6289195254889388,
+      "grad_norm": 0.8296188116073608,
+      "learning_rate": 8.46738296199731e-05,
+      "loss": 5.4102,
+      "num_input_tokens_seen": 482082816,
+      "step": 3678
+    },
+    {
+      "epoch": 0.6294325104200064,
+      "grad_norm": 0.7473737597465515,
+      "learning_rate": 8.463931817381974e-05,
+      "loss": 5.3368,
+      "num_input_tokens_seen": 482476032,
+      "step": 3681
+    },
+    {
+      "epoch": 0.629945495351074,
+      "grad_norm": 0.7469894289970398,
+      "learning_rate": 8.460484889192852e-05,
+      "loss": 5.347,
+      "num_input_tokens_seen": 482869248,
+      "step": 3684
+    },
+    {
+      "epoch": 0.6304584802821417,
+      "grad_norm": 0.7461103796958923,
+      "learning_rate": 8.457042168851248e-05,
+      "loss": 5.376,
+      "num_input_tokens_seen": 483262464,
+      "step": 3687
+    },
+    {
+      "epoch": 0.6309714652132093,
+      "grad_norm": 0.7393492460250854,
+      "learning_rate": 8.45360364780289e-05,
+      "loss": 5.3428,
+      "num_input_tokens_seen": 483655680,
+      "step": 3690
+    },
+    {
+      "epoch": 0.631484450144277,
+      "grad_norm": 0.7223976850509644,
+      "learning_rate": 8.450169317517828e-05,
+      "loss": 5.3517,
+      "num_input_tokens_seen": 484048896,
+      "step": 3693
+    },
+    {
+      "epoch": 0.6319974350753447,
+      "grad_norm": 0.7259080410003662,
+      "learning_rate": 8.446739169490354e-05,
+      "loss": 5.3331,
+      "num_input_tokens_seen": 484442112,
+      "step": 3696
+    },
+    {
+      "epoch": 0.6325104200064123,
+      "grad_norm": 0.7238535284996033,
+      "learning_rate": 8.443313195238902e-05,
+      "loss": 5.3805,
+      "num_input_tokens_seen": 484835328,
+      "step": 3699
+    },
+    {
+      "epoch": 0.63302340493748,
+      "grad_norm": 0.7401497960090637,
+      "learning_rate": 8.439891386305977e-05,
+      "loss": 5.399,
+      "num_input_tokens_seen": 485228544,
+      "step": 3702
+    },
+    {
+      "epoch": 0.6335363898685477,
+      "grad_norm": 0.8473367094993591,
+      "learning_rate": 8.436473734258046e-05,
+      "loss": 5.3433,
+      "num_input_tokens_seen": 485621760,
+      "step": 3705
+    },
+    {
+      "epoch": 0.6340493747996152,
+      "grad_norm": 0.8806385397911072,
+      "learning_rate": 8.433060230685473e-05,
+      "loss": 5.4077,
+      "num_input_tokens_seen": 486014976,
+      "step": 3708
+    },
+    {
+      "epoch": 0.6345623597306829,
+      "grad_norm": 0.6987698078155518,
+      "learning_rate": 8.429650867202415e-05,
+      "loss": 5.356,
+      "num_input_tokens_seen": 486408192,
+      "step": 3711
+    },
+    {
+      "epoch": 0.6350753446617505,
+      "grad_norm": 0.74212247133255,
+      "learning_rate": 8.426245635446741e-05,
+      "loss": 5.3557,
+      "num_input_tokens_seen": 486801408,
+      "step": 3714
+    },
+    {
+      "epoch": 0.6355883295928182,
+      "grad_norm": 0.7430636882781982,
+      "learning_rate": 8.422844527079955e-05,
+      "loss": 5.3656,
+      "num_input_tokens_seen": 487194624,
+      "step": 3717
+    },
+    {
+      "epoch": 0.6361013145238859,
+      "grad_norm": 0.7818143963813782,
+      "learning_rate": 8.419447533787093e-05,
+      "loss": 5.3528,
+      "num_input_tokens_seen": 487587840,
+      "step": 3720
+    },
+    {
+      "epoch": 0.6366142994549535,
+      "grad_norm": 0.7322751879692078,
+      "learning_rate": 8.416054647276643e-05,
+      "loss": 5.35,
+      "num_input_tokens_seen": 487981056,
+      "step": 3723
+    },
+    {
+      "epoch": 0.6371272843860212,
+      "grad_norm": 0.7790704369544983,
+      "learning_rate": 8.41266585928048e-05,
+      "loss": 5.3617,
+      "num_input_tokens_seen": 488374272,
+      "step": 3726
+    },
+    {
+      "epoch": 0.6376402693170888,
+      "grad_norm": 0.8650009632110596,
+      "learning_rate": 8.409281161553747e-05,
+      "loss": 5.3689,
+      "num_input_tokens_seen": 488767488,
+      "step": 3729
+    },
+    {
+      "epoch": 0.6381532542481565,
+      "grad_norm": 0.8796480298042297,
+      "learning_rate": 8.405900545874799e-05,
+      "loss": 5.362,
+      "num_input_tokens_seen": 489160704,
+      "step": 3732
+    },
+    {
+      "epoch": 0.6386662391792242,
+      "grad_norm": 0.7147157788276672,
+      "learning_rate": 8.402524004045107e-05,
+      "loss": 5.3659,
+      "num_input_tokens_seen": 489553920,
+      "step": 3735
+    },
+    {
+      "epoch": 0.6391792241102917,
+      "grad_norm": 0.7321900725364685,
+      "learning_rate": 8.399151527889171e-05,
+      "loss": 5.4014,
+      "num_input_tokens_seen": 489947136,
+      "step": 3738
+    },
+    {
+      "epoch": 0.6396922090413594,
+      "grad_norm": 0.7102051973342896,
+      "learning_rate": 8.39578310925445e-05,
+      "loss": 5.3454,
+      "num_input_tokens_seen": 490340352,
+      "step": 3741
+    },
+    {
+      "epoch": 0.640205193972427,
+      "grad_norm": 0.7498131990432739,
+      "learning_rate": 8.392418740011266e-05,
+      "loss": 5.3246,
+      "num_input_tokens_seen": 490733568,
+      "step": 3744
+    },
+    {
+      "epoch": 0.6407181789034947,
+      "grad_norm": 0.7187573313713074,
+      "learning_rate": 8.389058412052728e-05,
+      "loss": 5.2761,
+      "num_input_tokens_seen": 491126784,
+      "step": 3747
+    },
+    {
+      "epoch": 0.6412311638345624,
+      "grad_norm": 0.6994777917861938,
+      "learning_rate": 8.385702117294651e-05,
+      "loss": 5.329,
+      "num_input_tokens_seen": 491520000,
+      "step": 3750
+    },
+    {
+      "epoch": 0.64174414876563,
+      "grad_norm": 0.7428282499313354,
+      "learning_rate": 8.382349847675467e-05,
+      "loss": 5.3071,
+      "num_input_tokens_seen": 491913216,
+      "step": 3753
+    },
+    {
+      "epoch": 0.6422571336966977,
+      "grad_norm": 0.7503423094749451,
+      "learning_rate": 8.379001595156155e-05,
+      "loss": 5.3232,
+      "num_input_tokens_seen": 492306432,
+      "step": 3756
+    },
+    {
+      "epoch": 0.6427701186277653,
+      "grad_norm": 0.7488569617271423,
+      "learning_rate": 8.375657351720148e-05,
+      "loss": 5.3871,
+      "num_input_tokens_seen": 492699648,
+      "step": 3759
+    },
+    {
+      "epoch": 0.643283103558833,
+      "grad_norm": 0.8150780200958252,
+      "learning_rate": 8.372317109373264e-05,
+      "loss": 5.3916,
+      "num_input_tokens_seen": 493092864,
+      "step": 3762
+    },
+    {
+      "epoch": 0.6437960884899007,
+      "grad_norm": 0.8473458290100098,
+      "learning_rate": 8.368980860143615e-05,
+      "loss": 5.3534,
+      "num_input_tokens_seen": 493486080,
+      "step": 3765
+    },
+    {
+      "epoch": 0.6443090734209682,
+      "grad_norm": 0.6835038661956787,
+      "learning_rate": 8.365648596081538e-05,
+      "loss": 5.3142,
+      "num_input_tokens_seen": 493879296,
+      "step": 3768
+    },
+    {
+      "epoch": 0.6448220583520359,
+      "grad_norm": 0.7488033771514893,
+      "learning_rate": 8.362320309259501e-05,
+      "loss": 5.3631,
+      "num_input_tokens_seen": 494272512,
+      "step": 3771
+    },
+    {
+      "epoch": 0.6453350432831035,
+      "grad_norm": 0.8691450357437134,
+      "learning_rate": 8.35899599177204e-05,
+      "loss": 5.3643,
+      "num_input_tokens_seen": 494665728,
+      "step": 3774
+    },
+    {
+      "epoch": 0.6458480282141712,
+      "grad_norm": 0.7763018012046814,
+      "learning_rate": 8.355675635735668e-05,
+      "loss": 5.2909,
+      "num_input_tokens_seen": 495058944,
+      "step": 3777
+    },
+    {
+      "epoch": 0.6463610131452389,
+      "grad_norm": 0.8163045644760132,
+      "learning_rate": 8.352359233288804e-05,
+      "loss": 5.3112,
+      "num_input_tokens_seen": 495452160,
+      "step": 3780
+    },
+    {
+      "epoch": 0.6468739980763065,
+      "grad_norm": 0.7238712906837463,
+      "learning_rate": 8.349046776591689e-05,
+      "loss": 5.325,
+      "num_input_tokens_seen": 495845376,
+      "step": 3783
+    },
+    {
+      "epoch": 0.6473869830073742,
+      "grad_norm": 0.6693491339683533,
+      "learning_rate": 8.345738257826312e-05,
+      "loss": 5.3193,
+      "num_input_tokens_seen": 496238592,
+      "step": 3786
+    },
+    {
+      "epoch": 0.6478999679384418,
+      "grad_norm": 0.6386433243751526,
+      "learning_rate": 8.342433669196334e-05,
+      "loss": 5.3531,
+      "num_input_tokens_seen": 496631808,
+      "step": 3789
+    },
+    {
+      "epoch": 0.6484129528695095,
+      "grad_norm": 0.6837417483329773,
+      "learning_rate": 8.339133002927001e-05,
+      "loss": 5.309,
+      "num_input_tokens_seen": 497025024,
+      "step": 3792
+    },
+    {
+      "epoch": 0.6489259378005771,
+      "grad_norm": 0.7823799252510071,
+      "learning_rate": 8.335836251265084e-05,
+      "loss": 5.3361,
+      "num_input_tokens_seen": 497418240,
+      "step": 3795
+    },
+    {
+      "epoch": 0.6494389227316447,
+      "grad_norm": 0.7094940543174744,
+      "learning_rate": 8.332543406478784e-05,
+      "loss": 5.3467,
+      "num_input_tokens_seen": 497811456,
+      "step": 3798
+    },
+    {
+      "epoch": 0.6499519076627124,
+      "grad_norm": 0.6330589056015015,
+      "learning_rate": 8.329254460857673e-05,
+      "loss": 5.2885,
+      "num_input_tokens_seen": 498204672,
+      "step": 3801
+    },
+    {
+      "epoch": 0.65046489259378,
+      "grad_norm": 0.716102123260498,
+      "learning_rate": 8.325969406712602e-05,
+      "loss": 5.3826,
+      "num_input_tokens_seen": 498597888,
+      "step": 3804
+    },
+    {
+      "epoch": 0.6509778775248477,
+      "grad_norm": 0.7873062491416931,
+      "learning_rate": 8.322688236375638e-05,
+      "loss": 5.3422,
+      "num_input_tokens_seen": 498991104,
+      "step": 3807
+    },
+    {
+      "epoch": 0.6514908624559154,
+      "grad_norm": 0.8517410159111023,
+      "learning_rate": 8.319410942199984e-05,
+      "loss": 5.3181,
+      "num_input_tokens_seen": 499384320,
+      "step": 3810
+    },
+    {
+      "epoch": 0.652003847386983,
+      "grad_norm": 0.7410987615585327,
+      "learning_rate": 8.316137516559907e-05,
+      "loss": 5.3124,
+      "num_input_tokens_seen": 499777536,
+      "step": 3813
+    },
+    {
+      "epoch": 0.6525168323180507,
+      "grad_norm": 0.7573698163032532,
+      "learning_rate": 8.312867951850651e-05,
+      "loss": 5.3404,
+      "num_input_tokens_seen": 500170752,
+      "step": 3816
+    },
+    {
+      "epoch": 0.6530298172491183,
+      "grad_norm": 0.876664936542511,
+      "learning_rate": 8.309602240488386e-05,
+      "loss": 5.3598,
+      "num_input_tokens_seen": 500563968,
+      "step": 3819
+    },
+    {
+      "epoch": 0.653542802180186,
+      "grad_norm": 0.7487987875938416,
+      "learning_rate": 8.306340374910112e-05,
+      "loss": 5.3531,
+      "num_input_tokens_seen": 500957184,
+      "step": 3822
+    },
+    {
+      "epoch": 0.6540557871112536,
+      "grad_norm": 0.865337610244751,
+      "learning_rate": 8.303082347573595e-05,
+      "loss": 5.3075,
+      "num_input_tokens_seen": 501350400,
+      "step": 3825
+    },
+    {
+      "epoch": 0.6545687720423212,
+      "grad_norm": 0.7958502769470215,
+      "learning_rate": 8.299828150957296e-05,
+      "loss": 5.3461,
+      "num_input_tokens_seen": 501743616,
+      "step": 3828
+    },
+    {
+      "epoch": 0.6550817569733889,
+      "grad_norm": 0.7690322399139404,
+      "learning_rate": 8.29657777756029e-05,
+      "loss": 5.2989,
+      "num_input_tokens_seen": 502136832,
+      "step": 3831
+    },
+    {
+      "epoch": 0.6555947419044565,
+      "grad_norm": 0.7034088969230652,
+      "learning_rate": 8.29333121990221e-05,
+      "loss": 5.3167,
+      "num_input_tokens_seen": 502530048,
+      "step": 3834
+    },
+    {
+      "epoch": 0.6561077268355242,
+      "grad_norm": 0.7316693067550659,
+      "learning_rate": 8.29008847052315e-05,
+      "loss": 5.397,
+      "num_input_tokens_seen": 502923264,
+      "step": 3837
+    },
+    {
+      "epoch": 0.6566207117665919,
+      "grad_norm": 0.7567901611328125,
+      "learning_rate": 8.28684952198361e-05,
+      "loss": 5.31,
+      "num_input_tokens_seen": 503316480,
+      "step": 3840
+    },
+    {
+      "epoch": 0.6571336966976595,
+      "grad_norm": 0.7767483592033386,
+      "learning_rate": 8.283614366864425e-05,
+      "loss": 5.3663,
+      "num_input_tokens_seen": 503709696,
+      "step": 3843
+    },
+    {
+      "epoch": 0.6576466816287272,
+      "grad_norm": 0.7799834609031677,
+      "learning_rate": 8.280382997766685e-05,
+      "loss": 5.3231,
+      "num_input_tokens_seen": 504102912,
+      "step": 3846
+    },
+    {
+      "epoch": 0.6581596665597949,
+      "grad_norm": 0.810688316822052,
+      "learning_rate": 8.277155407311666e-05,
+      "loss": 5.3251,
+      "num_input_tokens_seen": 504496128,
+      "step": 3849
+    },
+    {
+      "epoch": 0.6586726514908624,
+      "grad_norm": 0.7437490820884705,
+      "learning_rate": 8.27393158814077e-05,
+      "loss": 5.3464,
+      "num_input_tokens_seen": 504889344,
+      "step": 3852
+    },
+    {
+      "epoch": 0.6591856364219301,
+      "grad_norm": 0.7459340691566467,
+      "learning_rate": 8.270711532915435e-05,
+      "loss": 5.3044,
+      "num_input_tokens_seen": 505282560,
+      "step": 3855
+    },
+    {
+      "epoch": 0.6596986213529977,
+      "grad_norm": 0.8228518962860107,
+      "learning_rate": 8.267495234317081e-05,
+      "loss": 5.3375,
+      "num_input_tokens_seen": 505675776,
+      "step": 3858
+    },
+    {
+      "epoch": 0.6602116062840654,
+      "grad_norm": 0.6991084218025208,
+      "learning_rate": 8.264282685047038e-05,
+      "loss": 5.3671,
+      "num_input_tokens_seen": 506068992,
+      "step": 3861
+    },
+    {
+      "epoch": 0.660724591215133,
+      "grad_norm": 0.7868938446044922,
+      "learning_rate": 8.261073877826466e-05,
+      "loss": 5.3483,
+      "num_input_tokens_seen": 506462208,
+      "step": 3864
+    },
+    {
+      "epoch": 0.6612375761462007,
+      "grad_norm": 0.7679697275161743,
+      "learning_rate": 8.2578688053963e-05,
+      "loss": 5.3693,
+      "num_input_tokens_seen": 506855424,
+      "step": 3867
+    },
+    {
+      "epoch": 0.6617505610772684,
+      "grad_norm": 0.7753176689147949,
+      "learning_rate": 8.254667460517166e-05,
+      "loss": 5.3721,
+      "num_input_tokens_seen": 507248640,
+      "step": 3870
+    },
+    {
+      "epoch": 0.662263546008336,
+      "grad_norm": 0.8868235945701599,
+      "learning_rate": 8.251469835969328e-05,
+      "loss": 5.3506,
+      "num_input_tokens_seen": 507641856,
+      "step": 3873
+    },
+    {
+      "epoch": 0.6627765309394037,
+      "grad_norm": 0.9391675591468811,
+      "learning_rate": 8.248275924552608e-05,
+      "loss": 5.2984,
+      "num_input_tokens_seen": 508035072,
+      "step": 3876
+    },
+    {
+      "epoch": 0.6632895158704714,
+      "grad_norm": 0.757840633392334,
+      "learning_rate": 8.245085719086321e-05,
+      "loss": 5.3594,
+      "num_input_tokens_seen": 508428288,
+      "step": 3879
+    },
+    {
+      "epoch": 0.6638025008015389,
+      "grad_norm": 0.7130749821662903,
+      "learning_rate": 8.24189921240921e-05,
+      "loss": 5.338,
+      "num_input_tokens_seen": 508821504,
+      "step": 3882
+    },
+    {
+      "epoch": 0.6643154857326066,
+      "grad_norm": 0.8119063973426819,
+      "learning_rate": 8.238716397379381e-05,
+      "loss": 5.3518,
+      "num_input_tokens_seen": 509214720,
+      "step": 3885
+    },
+    {
+      "epoch": 0.6648284706636742,
+      "grad_norm": 0.7790501117706299,
+      "learning_rate": 8.235537266874219e-05,
+      "loss": 5.3012,
+      "num_input_tokens_seen": 509607936,
+      "step": 3888
+    },
+    {
+      "epoch": 0.6653414555947419,
+      "grad_norm": 0.7022935152053833,
+      "learning_rate": 8.232361813790342e-05,
+      "loss": 5.2907,
+      "num_input_tokens_seen": 510001152,
+      "step": 3891
+    },
+    {
+      "epoch": 0.6658544405258096,
+      "grad_norm": 0.8035649657249451,
+      "learning_rate": 8.229190031043528e-05,
+      "loss": 5.2965,
+      "num_input_tokens_seen": 510394368,
+      "step": 3894
+    },
+    {
+      "epoch": 0.6663674254568772,
+      "grad_norm": 0.6912944316864014,
+      "learning_rate": 8.22602191156864e-05,
+      "loss": 5.3651,
+      "num_input_tokens_seen": 510787584,
+      "step": 3897
+    },
+    {
+      "epoch": 0.6668804103879449,
+      "grad_norm": 0.6894614100456238,
+      "learning_rate": 8.222857448319569e-05,
+      "loss": 5.2651,
+      "num_input_tokens_seen": 511180800,
+      "step": 3900
+    },
+    {
+      "epoch": 0.6673933953190125,
+      "grad_norm": 0.7291402220726013,
+      "learning_rate": 8.219696634269164e-05,
+      "loss": 5.3479,
+      "num_input_tokens_seen": 511574016,
+      "step": 3903
+    },
+    {
+      "epoch": 0.6679063802500802,
+      "grad_norm": 0.7843152284622192,
+      "learning_rate": 8.21653946240917e-05,
+      "loss": 5.2789,
+      "num_input_tokens_seen": 511967232,
+      "step": 3906
+    },
+    {
+      "epoch": 0.6684193651811478,
+      "grad_norm": 0.6679741144180298,
+      "learning_rate": 8.21338592575016e-05,
+      "loss": 5.2875,
+      "num_input_tokens_seen": 512360448,
+      "step": 3909
+    },
+    {
+      "epoch": 0.6689323501122154,
+      "grad_norm": 0.709000289440155,
+      "learning_rate": 8.210236017321469e-05,
+      "loss": 5.3695,
+      "num_input_tokens_seen": 512753664,
+      "step": 3912
+    },
+    {
+      "epoch": 0.6694453350432831,
+      "grad_norm": 0.701045036315918,
+      "learning_rate": 8.207089730171132e-05,
+      "loss": 5.3274,
+      "num_input_tokens_seen": 513146880,
+      "step": 3915
+    },
+    {
+      "epoch": 0.6699583199743507,
+      "grad_norm": 0.741085946559906,
+      "learning_rate": 8.203947057365817e-05,
+      "loss": 5.3338,
+      "num_input_tokens_seen": 513540096,
+      "step": 3918
+    },
+    {
+      "epoch": 0.6704713049054184,
+      "grad_norm": 0.7441378235816956,
+      "learning_rate": 8.200807991990765e-05,
+      "loss": 5.3587,
+      "num_input_tokens_seen": 513933312,
+      "step": 3921
+    },
+    {
+      "epoch": 0.6709842898364861,
+      "grad_norm": 0.6489686965942383,
+      "learning_rate": 8.197672527149723e-05,
+      "loss": 5.3287,
+      "num_input_tokens_seen": 514326528,
+      "step": 3924
+    },
+    {
+      "epoch": 0.6714972747675537,
+      "grad_norm": 0.6942331194877625,
+      "learning_rate": 8.194540655964876e-05,
+      "loss": 5.3292,
+      "num_input_tokens_seen": 514719744,
+      "step": 3927
+    },
+    {
+      "epoch": 0.6720102596986214,
+      "grad_norm": 0.8609412312507629,
+      "learning_rate": 8.191412371576794e-05,
+      "loss": 5.3108,
+      "num_input_tokens_seen": 515112960,
+      "step": 3930
+    },
+    {
+      "epoch": 0.672523244629689,
+      "grad_norm": 0.866399347782135,
+      "learning_rate": 8.188287667144362e-05,
+      "loss": 5.3481,
+      "num_input_tokens_seen": 515506176,
+      "step": 3933
+    },
+    {
+      "epoch": 0.6730362295607567,
+      "grad_norm": 0.6309357285499573,
+      "learning_rate": 8.185166535844714e-05,
+      "loss": 5.3815,
+      "num_input_tokens_seen": 515899392,
+      "step": 3936
+    },
+    {
+      "epoch": 0.6735492144918243,
+      "grad_norm": 0.8205288052558899,
+      "learning_rate": 8.182048970873184e-05,
+      "loss": 5.359,
+      "num_input_tokens_seen": 516292608,
+      "step": 3939
+    },
+    {
+      "epoch": 0.6740621994228919,
+      "grad_norm": 0.8117387294769287,
+      "learning_rate": 8.178934965443225e-05,
+      "loss": 5.2779,
+      "num_input_tokens_seen": 516685824,
+      "step": 3942
+    },
+    {
+      "epoch": 0.6745751843539596,
+      "grad_norm": 0.7551442980766296,
+      "learning_rate": 8.175824512786359e-05,
+      "loss": 5.363,
+      "num_input_tokens_seen": 517079040,
+      "step": 3945
+    },
+    {
+      "epoch": 0.6750881692850272,
+      "grad_norm": 0.7865480184555054,
+      "learning_rate": 8.172717606152118e-05,
+      "loss": 5.3067,
+      "num_input_tokens_seen": 517472256,
+      "step": 3948
+    },
+    {
+      "epoch": 0.6756011542160949,
+      "grad_norm": 0.7011180520057678,
+      "learning_rate": 8.16961423880797e-05,
+      "loss": 5.2977,
+      "num_input_tokens_seen": 517865472,
+      "step": 3951
+    },
+    {
+      "epoch": 0.6761141391471626,
+      "grad_norm": 0.7099843621253967,
+      "learning_rate": 8.166514404039269e-05,
+      "loss": 5.3637,
+      "num_input_tokens_seen": 518258688,
+      "step": 3954
+    },
+    {
+      "epoch": 0.6766271240782302,
+      "grad_norm": 0.760845422744751,
+      "learning_rate": 8.16341809514919e-05,
+      "loss": 5.307,
+      "num_input_tokens_seen": 518651904,
+      "step": 3957
+    },
+    {
+      "epoch": 0.6771401090092979,
+      "grad_norm": 0.8513478636741638,
+      "learning_rate": 8.160325305458667e-05,
+      "loss": 5.3293,
+      "num_input_tokens_seen": 519045120,
+      "step": 3960
+    },
+    {
+      "epoch": 0.6776530939403655,
+      "grad_norm": 0.804071307182312,
+      "learning_rate": 8.157236028306331e-05,
+      "loss": 5.3303,
+      "num_input_tokens_seen": 519438336,
+      "step": 3963
+    },
+    {
+      "epoch": 0.6781660788714331,
+      "grad_norm": 0.7225372791290283,
+      "learning_rate": 8.154150257048457e-05,
+      "loss": 5.3751,
+      "num_input_tokens_seen": 519831552,
+      "step": 3966
+    },
+    {
+      "epoch": 0.6786790638025008,
+      "grad_norm": 0.7206907272338867,
+      "learning_rate": 8.151067985058899e-05,
+      "loss": 5.3409,
+      "num_input_tokens_seen": 520224768,
+      "step": 3969
+    },
+    {
+      "epoch": 0.6791920487335684,
+      "grad_norm": 0.7497385740280151,
+      "learning_rate": 8.147989205729026e-05,
+      "loss": 5.3236,
+      "num_input_tokens_seen": 520617984,
+      "step": 3972
+    },
+    {
+      "epoch": 0.6797050336646361,
+      "grad_norm": 0.7918210029602051,
+      "learning_rate": 8.14491391246767e-05,
+      "loss": 5.3549,
+      "num_input_tokens_seen": 521011200,
+      "step": 3975
+    },
+    {
+      "epoch": 0.6802180185957037,
+      "grad_norm": 0.8181982636451721,
+      "learning_rate": 8.141842098701066e-05,
+      "loss": 5.3461,
+      "num_input_tokens_seen": 521404416,
+      "step": 3978
+    },
+    {
+      "epoch": 0.6807310035267714,
+      "grad_norm": 0.7581628561019897,
+      "learning_rate": 8.138773757872787e-05,
+      "loss": 5.3411,
+      "num_input_tokens_seen": 521797632,
+      "step": 3981
+    },
+    {
+      "epoch": 0.6812439884578391,
+      "grad_norm": 0.7180889844894409,
+      "learning_rate": 8.135708883443689e-05,
+      "loss": 5.3157,
+      "num_input_tokens_seen": 522190848,
+      "step": 3984
+    },
+    {
+      "epoch": 0.6817569733889067,
+      "grad_norm": 0.7033380270004272,
+      "learning_rate": 8.132647468891857e-05,
+      "loss": 5.3305,
+      "num_input_tokens_seen": 522584064,
+      "step": 3987
+    },
+    {
+      "epoch": 0.6822699583199744,
+      "grad_norm": 0.7060420513153076,
+      "learning_rate": 8.129589507712537e-05,
+      "loss": 5.3815,
+      "num_input_tokens_seen": 522977280,
+      "step": 3990
+    },
+    {
+      "epoch": 0.682782943251042,
+      "grad_norm": 0.7359711527824402,
+      "learning_rate": 8.126534993418085e-05,
+      "loss": 5.3349,
+      "num_input_tokens_seen": 523370496,
+      "step": 3993
+    },
+    {
+      "epoch": 0.6832959281821096,
+      "grad_norm": 0.8105011582374573,
+      "learning_rate": 8.123483919537908e-05,
+      "loss": 5.3192,
+      "num_input_tokens_seen": 523763712,
+      "step": 3996
+    },
+    {
+      "epoch": 0.6838089131131773,
+      "grad_norm": 0.7450350522994995,
+      "learning_rate": 8.120436279618406e-05,
+      "loss": 5.3175,
+      "num_input_tokens_seen": 524156928,
+      "step": 3999
+    },
+    {
+      "epoch": 0.6839799080901998,
+      "eval_accuracy": 0.18136948379742712,
+      "eval_loss": 5.791625022888184,
+      "eval_runtime": 111.6249,
+      "eval_samples_per_second": 2.688,
+      "eval_steps_per_second": 1.344,
+      "num_input_tokens_seen": 524288000,
+      "step": 4000
+    },
+    {
+      "epoch": 0.6843218980442449,
+      "grad_norm": 0.742009162902832,
+      "learning_rate": 8.117392067222913e-05,
+      "loss": 5.2929,
+      "num_input_tokens_seen": 524550144,
+      "step": 4002
+    },
+    {
+      "epoch": 0.6848348829753126,
+      "grad_norm": 0.8065789937973022,
+      "learning_rate": 8.114351275931643e-05,
+      "loss": 5.3041,
+      "num_input_tokens_seen": 524943360,
+      "step": 4005
+    },
+    {
+      "epoch": 0.6853478679063802,
+      "grad_norm": 0.8113951086997986,
+      "learning_rate": 8.111313899341628e-05,
+      "loss": 5.3378,
+      "num_input_tokens_seen": 525336576,
+      "step": 4008
+    },
+    {
+      "epoch": 0.6858608528374479,
+      "grad_norm": 0.7892742156982422,
+      "learning_rate": 8.10827993106667e-05,
+      "loss": 5.3148,
+      "num_input_tokens_seen": 525729792,
+      "step": 4011
+    },
+    {
+      "epoch": 0.6863738377685156,
+      "grad_norm": 0.8820670247077942,
+      "learning_rate": 8.105249364737273e-05,
+      "loss": 5.2681,
+      "num_input_tokens_seen": 526123008,
+      "step": 4014
+    },
+    {
+      "epoch": 0.6868868226995832,
+      "grad_norm": 0.7888779640197754,
+      "learning_rate": 8.102222194000602e-05,
+      "loss": 5.3129,
+      "num_input_tokens_seen": 526516224,
+      "step": 4017
+    },
+    {
+      "epoch": 0.6873998076306509,
+      "grad_norm": 0.8002054691314697,
+      "learning_rate": 8.099198412520408e-05,
+      "loss": 5.2667,
+      "num_input_tokens_seen": 526909440,
+      "step": 4020
+    },
+    {
+      "epoch": 0.6879127925617184,
+      "grad_norm": 0.8794166445732117,
+      "learning_rate": 8.096178013976995e-05,
+      "loss": 5.3393,
+      "num_input_tokens_seen": 527302656,
+      "step": 4023
+    },
+    {
+      "epoch": 0.6884257774927861,
+      "grad_norm": 0.8726845979690552,
+      "learning_rate": 8.093160992067137e-05,
+      "loss": 5.3492,
+      "num_input_tokens_seen": 527695872,
+      "step": 4026
+    },
+    {
+      "epoch": 0.6889387624238538,
+      "grad_norm": 0.7601503133773804,
+      "learning_rate": 8.09014734050405e-05,
+      "loss": 5.3517,
+      "num_input_tokens_seen": 528089088,
+      "step": 4029
+    },
+    {
+      "epoch": 0.6894517473549214,
+      "grad_norm": 0.8088439106941223,
+      "learning_rate": 8.087137053017323e-05,
+      "loss": 5.3387,
+      "num_input_tokens_seen": 528482304,
+      "step": 4032
+    },
+    {
+      "epoch": 0.6899647322859891,
+      "grad_norm": 0.7194026112556458,
+      "learning_rate": 8.084130123352858e-05,
+      "loss": 5.3721,
+      "num_input_tokens_seen": 528875520,
+      "step": 4035
+    },
+    {
+      "epoch": 0.6904777172170568,
+      "grad_norm": 0.7850322723388672,
+      "learning_rate": 8.081126545272833e-05,
+      "loss": 5.3402,
+      "num_input_tokens_seen": 529268736,
+      "step": 4038
+    },
+    {
+      "epoch": 0.6909907021481244,
+      "grad_norm": 0.6744662523269653,
+      "learning_rate": 8.078126312555625e-05,
+      "loss": 5.3444,
+      "num_input_tokens_seen": 529661952,
+      "step": 4041
+    },
+    {
+      "epoch": 0.6915036870791921,
+      "grad_norm": 0.7170355916023254,
+      "learning_rate": 8.075129418995781e-05,
+      "loss": 5.3821,
+      "num_input_tokens_seen": 530055168,
+      "step": 4044
+    },
+    {
+      "epoch": 0.6920166720102597,
+      "grad_norm": 0.7175304889678955,
+      "learning_rate": 8.072135858403943e-05,
+      "loss": 5.3562,
+      "num_input_tokens_seen": 530448384,
+      "step": 4047
+    },
+    {
+      "epoch": 0.6925296569413274,
+      "grad_norm": 0.7564287185668945,
+      "learning_rate": 8.069145624606803e-05,
+      "loss": 5.3044,
+      "num_input_tokens_seen": 530841600,
+      "step": 4050
+    },
+    {
+      "epoch": 0.693042641872395,
+      "grad_norm": 0.7804622650146484,
+      "learning_rate": 8.06615871144705e-05,
+      "loss": 5.3709,
+      "num_input_tokens_seen": 531234816,
+      "step": 4053
+    },
+    {
+      "epoch": 0.6935556268034626,
+      "grad_norm": 0.7738920450210571,
+      "learning_rate": 8.063175112783317e-05,
+      "loss": 5.3234,
+      "num_input_tokens_seen": 531628032,
+      "step": 4056
+    },
+    {
+      "epoch": 0.6940686117345303,
+      "grad_norm": 0.7369733452796936,
+      "learning_rate": 8.060194822490128e-05,
+      "loss": 5.2849,
+      "num_input_tokens_seen": 532021248,
+      "step": 4059
+    },
+    {
+      "epoch": 0.6945815966655979,
+      "grad_norm": 0.6854174733161926,
+      "learning_rate": 8.057217834457838e-05,
+      "loss": 5.3224,
+      "num_input_tokens_seen": 532414464,
+      "step": 4062
+    },
+    {
+      "epoch": 0.6950945815966656,
+      "grad_norm": 0.6956667304039001,
+      "learning_rate": 8.054244142592593e-05,
+      "loss": 5.3002,
+      "num_input_tokens_seen": 532807680,
+      "step": 4065
+    },
+    {
+      "epoch": 0.6956075665277333,
+      "grad_norm": 0.8726805448532104,
+      "learning_rate": 8.051273740816265e-05,
+      "loss": 5.3259,
+      "num_input_tokens_seen": 533200896,
+      "step": 4068
+    },
+    {
+      "epoch": 0.6961205514588009,
+      "grad_norm": 0.7644637227058411,
+      "learning_rate": 8.048306623066408e-05,
+      "loss": 5.3527,
+      "num_input_tokens_seen": 533594112,
+      "step": 4071
+    },
+    {
+      "epoch": 0.6966335363898686,
+      "grad_norm": 0.7367181181907654,
+      "learning_rate": 8.045342783296207e-05,
+      "loss": 5.2681,
+      "num_input_tokens_seen": 533987328,
+      "step": 4074
+    },
+    {
+      "epoch": 0.6971465213209362,
+      "grad_norm": 0.8064795732498169,
+      "learning_rate": 8.04238221547442e-05,
+      "loss": 5.3359,
+      "num_input_tokens_seen": 534380544,
+      "step": 4077
+    },
+    {
+      "epoch": 0.6976595062520039,
+      "grad_norm": 0.7639942169189453,
+      "learning_rate": 8.03942491358533e-05,
+      "loss": 5.3703,
+      "num_input_tokens_seen": 534773760,
+      "step": 4080
+    },
+    {
+      "epoch": 0.6981724911830715,
+      "grad_norm": 0.7479289770126343,
+      "learning_rate": 8.036470871628689e-05,
+      "loss": 5.3445,
+      "num_input_tokens_seen": 535166976,
+      "step": 4083
+    },
+    {
+      "epoch": 0.6986854761141391,
+      "grad_norm": 0.9488199949264526,
+      "learning_rate": 8.033520083619678e-05,
+      "loss": 5.3398,
+      "num_input_tokens_seen": 535560192,
+      "step": 4086
+    },
+    {
+      "epoch": 0.6991984610452068,
+      "grad_norm": 0.8831247687339783,
+      "learning_rate": 8.030572543588844e-05,
+      "loss": 5.3225,
+      "num_input_tokens_seen": 535953408,
+      "step": 4089
+    },
+    {
+      "epoch": 0.6997114459762744,
+      "grad_norm": 0.787559449672699,
+      "learning_rate": 8.027628245582056e-05,
+      "loss": 5.3118,
+      "num_input_tokens_seen": 536346624,
+      "step": 4092
+    },
+    {
+      "epoch": 0.7002244309073421,
+      "grad_norm": 0.8601611852645874,
+      "learning_rate": 8.024687183660457e-05,
+      "loss": 5.3217,
+      "num_input_tokens_seen": 536739840,
+      "step": 4095
+    },
+    {
+      "epoch": 0.7007374158384098,
+      "grad_norm": 0.762852668762207,
+      "learning_rate": 8.021749351900399e-05,
+      "loss": 5.3815,
+      "num_input_tokens_seen": 537133056,
+      "step": 4098
+    },
+    {
+      "epoch": 0.7012504007694774,
+      "grad_norm": 0.6953300833702087,
+      "learning_rate": 8.018814744393415e-05,
+      "loss": 5.3272,
+      "num_input_tokens_seen": 537526272,
+      "step": 4101
+    },
+    {
+      "epoch": 0.7017633857005451,
+      "grad_norm": 0.7371882796287537,
+      "learning_rate": 8.01588335524615e-05,
+      "loss": 5.2754,
+      "num_input_tokens_seen": 537919488,
+      "step": 4104
+    },
+    {
+      "epoch": 0.7022763706316127,
+      "grad_norm": 0.7776148319244385,
+      "learning_rate": 8.01295517858032e-05,
+      "loss": 5.3249,
+      "num_input_tokens_seen": 538312704,
+      "step": 4107
+    },
+    {
+      "epoch": 0.7027893555626803,
+      "grad_norm": 0.7305675745010376,
+      "learning_rate": 8.010030208532664e-05,
+      "loss": 5.3191,
+      "num_input_tokens_seen": 538705920,
+      "step": 4110
+    },
+    {
+      "epoch": 0.703302340493748,
+      "grad_norm": 0.7893403172492981,
+      "learning_rate": 8.007108439254888e-05,
+      "loss": 5.2771,
+      "num_input_tokens_seen": 539099136,
+      "step": 4113
+    },
+    {
+      "epoch": 0.7038153254248156,
+      "grad_norm": 0.9661571383476257,
+      "learning_rate": 8.004189864913625e-05,
+      "loss": 5.34,
+      "num_input_tokens_seen": 539492352,
+      "step": 4116
+    },
+    {
+      "epoch": 0.7043283103558833,
+      "grad_norm": 0.7898194789886475,
+      "learning_rate": 8.001274479690375e-05,
+      "loss": 5.3278,
+      "num_input_tokens_seen": 539885568,
+      "step": 4119
+    },
+    {
+      "epoch": 0.7048412952869509,
+      "grad_norm": 0.7659739851951599,
+      "learning_rate": 7.998362277781467e-05,
+      "loss": 5.3226,
+      "num_input_tokens_seen": 540278784,
+      "step": 4122
+    },
+    {
+      "epoch": 0.7053542802180186,
+      "grad_norm": 0.889785885810852,
+      "learning_rate": 7.995453253398004e-05,
+      "loss": 5.2994,
+      "num_input_tokens_seen": 540672000,
+      "step": 4125
+    },
+    {
+      "epoch": 0.7058672651490863,
+      "grad_norm": 0.7162066698074341,
+      "learning_rate": 7.992547400765813e-05,
+      "loss": 5.3294,
+      "num_input_tokens_seen": 541065216,
+      "step": 4128
+    },
+    {
+      "epoch": 0.7063802500801539,
+      "grad_norm": 0.6695894002914429,
+      "learning_rate": 7.989644714125407e-05,
+      "loss": 5.296,
+      "num_input_tokens_seen": 541458432,
+      "step": 4131
+    },
+    {
+      "epoch": 0.7068932350112216,
+      "grad_norm": 0.7473436594009399,
+      "learning_rate": 7.986745187731925e-05,
+      "loss": 5.3078,
+      "num_input_tokens_seen": 541851648,
+      "step": 4134
+    },
+    {
+      "epoch": 0.7074062199422892,
+      "grad_norm": 0.7301039099693298,
+      "learning_rate": 7.983848815855091e-05,
+      "loss": 5.3322,
+      "num_input_tokens_seen": 542244864,
+      "step": 4137
+    },
+    {
+      "epoch": 0.7079192048733568,
+      "grad_norm": 0.7744476795196533,
+      "learning_rate": 7.980955592779166e-05,
+      "loss": 5.3224,
+      "num_input_tokens_seen": 542638080,
+      "step": 4140
+    },
+    {
+      "epoch": 0.7084321898044245,
+      "grad_norm": 0.7293386459350586,
+      "learning_rate": 7.978065512802896e-05,
+      "loss": 5.3634,
+      "num_input_tokens_seen": 543031296,
+      "step": 4143
+    },
+    {
+      "epoch": 0.7089451747354921,
+      "grad_norm": 0.6727131009101868,
+      "learning_rate": 7.975178570239474e-05,
+      "loss": 5.3217,
+      "num_input_tokens_seen": 543424512,
+      "step": 4146
+    },
+    {
+      "epoch": 0.7094581596665598,
+      "grad_norm": 0.7421523928642273,
+      "learning_rate": 7.972294759416482e-05,
+      "loss": 5.3374,
+      "num_input_tokens_seen": 543817728,
+      "step": 4149
+    },
+    {
+      "epoch": 0.7099711445976274,
+      "grad_norm": 0.6859121918678284,
+      "learning_rate": 7.969414074675855e-05,
+      "loss": 5.3435,
+      "num_input_tokens_seen": 544210944,
+      "step": 4152
+    },
+    {
+      "epoch": 0.7104841295286951,
+      "grad_norm": 0.7437335848808289,
+      "learning_rate": 7.966536510373822e-05,
+      "loss": 5.3121,
+      "num_input_tokens_seen": 544604160,
+      "step": 4155
+    },
+    {
+      "epoch": 0.7109971144597628,
+      "grad_norm": 0.7755163311958313,
+      "learning_rate": 7.963662060880875e-05,
+      "loss": 5.3148,
+      "num_input_tokens_seen": 544997376,
+      "step": 4158
+    },
+    {
+      "epoch": 0.7115100993908304,
+      "grad_norm": 0.7485529780387878,
+      "learning_rate": 7.960790720581703e-05,
+      "loss": 5.2968,
+      "num_input_tokens_seen": 545390592,
+      "step": 4161
+    },
+    {
+      "epoch": 0.7120230843218981,
+      "grad_norm": 0.7412263751029968,
+      "learning_rate": 7.957922483875172e-05,
+      "loss": 5.3184,
+      "num_input_tokens_seen": 545783808,
+      "step": 4164
+    },
+    {
+      "epoch": 0.7125360692529656,
+      "grad_norm": 0.7376791834831238,
+      "learning_rate": 7.95505734517425e-05,
+      "loss": 5.3002,
+      "num_input_tokens_seen": 546177024,
+      "step": 4167
+    },
+    {
+      "epoch": 0.7130490541840333,
+      "grad_norm": 0.7660586833953857,
+      "learning_rate": 7.952195298905983e-05,
+      "loss": 5.3282,
+      "num_input_tokens_seen": 546570240,
+      "step": 4170
+    },
+    {
+      "epoch": 0.713562039115101,
+      "grad_norm": 0.729190468788147,
+      "learning_rate": 7.949336339511443e-05,
+      "loss": 5.3018,
+      "num_input_tokens_seen": 546963456,
+      "step": 4173
+    },
+    {
+      "epoch": 0.7140750240461686,
+      "grad_norm": 0.7029862403869629,
+      "learning_rate": 7.946480461445679e-05,
+      "loss": 5.2991,
+      "num_input_tokens_seen": 547356672,
+      "step": 4176
+    },
+    {
+      "epoch": 0.7145880089772363,
+      "grad_norm": 0.8115814924240112,
+      "learning_rate": 7.943627659177671e-05,
+      "loss": 5.2578,
+      "num_input_tokens_seen": 547749888,
+      "step": 4179
+    },
+    {
+      "epoch": 0.715100993908304,
+      "grad_norm": 0.9112886190414429,
+      "learning_rate": 7.940777927190298e-05,
+      "loss": 5.3422,
+      "num_input_tokens_seen": 548143104,
+      "step": 4182
+    },
+    {
+      "epoch": 0.7156139788393716,
+      "grad_norm": 0.7369971871376038,
+      "learning_rate": 7.937931259980275e-05,
+      "loss": 5.3049,
+      "num_input_tokens_seen": 548536320,
+      "step": 4185
+    },
+    {
+      "epoch": 0.7161269637704393,
+      "grad_norm": 0.7676149606704712,
+      "learning_rate": 7.935087652058122e-05,
+      "loss": 5.3626,
+      "num_input_tokens_seen": 548929536,
+      "step": 4188
+    },
+    {
+      "epoch": 0.7166399487015069,
+      "grad_norm": 0.6889289617538452,
+      "learning_rate": 7.932247097948111e-05,
+      "loss": 5.2493,
+      "num_input_tokens_seen": 549322752,
+      "step": 4191
+    },
+    {
+      "epoch": 0.7171529336325746,
+      "grad_norm": 0.7226115465164185,
+      "learning_rate": 7.929409592188228e-05,
+      "loss": 5.3026,
+      "num_input_tokens_seen": 549715968,
+      "step": 4194
+    },
+    {
+      "epoch": 0.7176659185636421,
+      "grad_norm": 0.7485541701316833,
+      "learning_rate": 7.926575129330127e-05,
+      "loss": 5.3454,
+      "num_input_tokens_seen": 550109184,
+      "step": 4197
+    },
+    {
+      "epoch": 0.7181789034947098,
+      "grad_norm": 0.7012051343917847,
+      "learning_rate": 7.923743703939083e-05,
+      "loss": 5.3409,
+      "num_input_tokens_seen": 550502400,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7186918884257775,
+      "grad_norm": 0.7870872616767883,
+      "learning_rate": 7.920915310593953e-05,
+      "loss": 5.2632,
+      "num_input_tokens_seen": 550895616,
+      "step": 4203
+    },
+    {
+      "epoch": 0.7192048733568451,
+      "grad_norm": 0.7597965598106384,
+      "learning_rate": 7.918089943887127e-05,
+      "loss": 5.3635,
+      "num_input_tokens_seen": 551288832,
+      "step": 4206
+    },
+    {
+      "epoch": 0.7197178582879128,
+      "grad_norm": 0.7153079509735107,
+      "learning_rate": 7.915267598424488e-05,
+      "loss": 5.2955,
+      "num_input_tokens_seen": 551682048,
+      "step": 4209
+    },
+    {
+      "epoch": 0.7202308432189805,
+      "grad_norm": 0.713191568851471,
+      "learning_rate": 7.91244826882537e-05,
+      "loss": 5.3174,
+      "num_input_tokens_seen": 552075264,
+      "step": 4212
+    },
+    {
+      "epoch": 0.7207438281500481,
+      "grad_norm": 0.774713397026062,
+      "learning_rate": 7.909631949722512e-05,
+      "loss": 5.3312,
+      "num_input_tokens_seen": 552468480,
+      "step": 4215
+    },
+    {
+      "epoch": 0.7212568130811158,
+      "grad_norm": 0.6564570665359497,
+      "learning_rate": 7.90681863576202e-05,
+      "loss": 5.2906,
+      "num_input_tokens_seen": 552861696,
+      "step": 4218
+    },
+    {
+      "epoch": 0.7217697980121834,
+      "grad_norm": 0.7904906868934631,
+      "learning_rate": 7.904008321603313e-05,
+      "loss": 5.282,
+      "num_input_tokens_seen": 553254912,
+      "step": 4221
+    },
+    {
+      "epoch": 0.722282782943251,
+      "grad_norm": 0.7598406672477722,
+      "learning_rate": 7.90120100191909e-05,
+      "loss": 5.3137,
+      "num_input_tokens_seen": 553648128,
+      "step": 4224
+    },
+    {
+      "epoch": 0.7227957678743187,
+      "grad_norm": 0.7061671018600464,
+      "learning_rate": 7.898396671395296e-05,
+      "loss": 5.3025,
+      "num_input_tokens_seen": 554041344,
+      "step": 4227
+    },
+    {
+      "epoch": 0.7233087528053863,
+      "grad_norm": 0.7577418684959412,
+      "learning_rate": 7.895595324731055e-05,
+      "loss": 5.2867,
+      "num_input_tokens_seen": 554434560,
+      "step": 4230
+    },
+    {
+      "epoch": 0.723821737736454,
+      "grad_norm": 0.8547803163528442,
+      "learning_rate": 7.892796956638649e-05,
+      "loss": 5.3218,
+      "num_input_tokens_seen": 554827776,
+      "step": 4233
+    },
+    {
+      "epoch": 0.7243347226675216,
+      "grad_norm": 0.6954768300056458,
+      "learning_rate": 7.890001561843465e-05,
+      "loss": 5.2734,
+      "num_input_tokens_seen": 555220992,
+      "step": 4236
+    },
+    {
+      "epoch": 0.7248477075985893,
+      "grad_norm": 0.6641873121261597,
+      "learning_rate": 7.88720913508397e-05,
+      "loss": 5.3519,
+      "num_input_tokens_seen": 555614208,
+      "step": 4239
+    },
+    {
+      "epoch": 0.725360692529657,
+      "grad_norm": 0.7015215754508972,
+      "learning_rate": 7.88441967111164e-05,
+      "loss": 5.3236,
+      "num_input_tokens_seen": 556007424,
+      "step": 4242
+    },
+    {
+      "epoch": 0.7258736774607246,
+      "grad_norm": 0.8150922656059265,
+      "learning_rate": 7.881633164690944e-05,
+      "loss": 5.3056,
+      "num_input_tokens_seen": 556400640,
+      "step": 4245
+    },
+    {
+      "epoch": 0.7263866623917923,
+      "grad_norm": 0.7670294642448425,
+      "learning_rate": 7.878849610599295e-05,
+      "loss": 5.341,
+      "num_input_tokens_seen": 556793856,
+      "step": 4248
+    },
+    {
+      "epoch": 0.7268996473228599,
+      "grad_norm": 0.6963903307914734,
+      "learning_rate": 7.876069003627009e-05,
+      "loss": 5.3405,
+      "num_input_tokens_seen": 557187072,
+      "step": 4251
+    },
+    {
+      "epoch": 0.7274126322539275,
+      "grad_norm": 0.7592700719833374,
+      "learning_rate": 7.873291338577257e-05,
+      "loss": 5.3088,
+      "num_input_tokens_seen": 557580288,
+      "step": 4254
+    },
+    {
+      "epoch": 0.7279256171849952,
+      "grad_norm": 0.7837212085723877,
+      "learning_rate": 7.870516610266037e-05,
+      "loss": 5.3128,
+      "num_input_tokens_seen": 557973504,
+      "step": 4257
+    },
+    {
+      "epoch": 0.7284386021160628,
+      "grad_norm": 0.6755237579345703,
+      "learning_rate": 7.86774481352212e-05,
+      "loss": 5.321,
+      "num_input_tokens_seen": 558366720,
+      "step": 4260
+    },
+    {
+      "epoch": 0.7289515870471305,
+      "grad_norm": 0.7284892201423645,
+      "learning_rate": 7.864975943187024e-05,
+      "loss": 5.2798,
+      "num_input_tokens_seen": 558759936,
+      "step": 4263
+    },
+    {
+      "epoch": 0.7294645719781981,
+      "grad_norm": 0.7344948053359985,
+      "learning_rate": 7.862209994114962e-05,
+      "loss": 5.2867,
+      "num_input_tokens_seen": 559153152,
+      "step": 4266
+    },
+    {
+      "epoch": 0.7299775569092658,
+      "grad_norm": 0.7037729024887085,
+      "learning_rate": 7.859446961172803e-05,
+      "loss": 5.2836,
+      "num_input_tokens_seen": 559546368,
+      "step": 4269
+    },
+    {
+      "epoch": 0.7304905418403335,
+      "grad_norm": 0.7983783483505249,
+      "learning_rate": 7.856686839240038e-05,
+      "loss": 5.3308,
+      "num_input_tokens_seen": 559939584,
+      "step": 4272
+    },
+    {
+      "epoch": 0.7310035267714011,
+      "grad_norm": 0.7463051080703735,
+      "learning_rate": 7.853929623208739e-05,
+      "loss": 5.3328,
+      "num_input_tokens_seen": 560332800,
+      "step": 4275
+    },
+    {
+      "epoch": 0.7315165117024688,
+      "grad_norm": 0.7885538339614868,
+      "learning_rate": 7.851175307983515e-05,
+      "loss": 5.3424,
+      "num_input_tokens_seen": 560726016,
+      "step": 4278
+    },
+    {
+      "epoch": 0.7320294966335363,
+      "grad_norm": 0.810090959072113,
+      "learning_rate": 7.84842388848147e-05,
+      "loss": 5.2868,
+      "num_input_tokens_seen": 561119232,
+      "step": 4281
+    },
+    {
+      "epoch": 0.732542481564604,
+      "grad_norm": 0.7771869897842407,
+      "learning_rate": 7.845675359632176e-05,
+      "loss": 5.2846,
+      "num_input_tokens_seen": 561512448,
+      "step": 4284
+    },
+    {
+      "epoch": 0.7330554664956717,
+      "grad_norm": 0.7376582026481628,
+      "learning_rate": 7.842929716377623e-05,
+      "loss": 5.2987,
+      "num_input_tokens_seen": 561905664,
+      "step": 4287
+    },
+    {
+      "epoch": 0.7335684514267393,
+      "grad_norm": 0.6871978640556335,
+      "learning_rate": 7.84018695367218e-05,
+      "loss": 5.236,
+      "num_input_tokens_seen": 562298880,
+      "step": 4290
+    },
+    {
+      "epoch": 0.734081436357807,
+      "grad_norm": 0.8098225593566895,
+      "learning_rate": 7.837447066482563e-05,
+      "loss": 5.3488,
+      "num_input_tokens_seen": 562692096,
+      "step": 4293
+    },
+    {
+      "epoch": 0.7345944212888746,
+      "grad_norm": 0.8568369150161743,
+      "learning_rate": 7.834710049787791e-05,
+      "loss": 5.3218,
+      "num_input_tokens_seen": 563085312,
+      "step": 4296
+    },
+    {
+      "epoch": 0.7351074062199423,
+      "grad_norm": 0.7187222242355347,
+      "learning_rate": 7.831975898579147e-05,
+      "loss": 5.3066,
+      "num_input_tokens_seen": 563478528,
+      "step": 4299
+    },
+    {
+      "epoch": 0.73562039115101,
+      "grad_norm": 0.7189285755157471,
+      "learning_rate": 7.829244607860141e-05,
+      "loss": 5.2294,
+      "num_input_tokens_seen": 563871744,
+      "step": 4302
+    },
+    {
+      "epoch": 0.7361333760820776,
+      "grad_norm": 1.026648759841919,
+      "learning_rate": 7.826516172646476e-05,
+      "loss": 5.2955,
+      "num_input_tokens_seen": 564264960,
+      "step": 4305
+    },
+    {
+      "epoch": 0.7366463610131453,
+      "grad_norm": 0.7149240374565125,
+      "learning_rate": 7.823790587966001e-05,
+      "loss": 5.3512,
+      "num_input_tokens_seen": 564658176,
+      "step": 4308
+    },
+    {
+      "epoch": 0.7371593459442128,
+      "grad_norm": 0.7869164943695068,
+      "learning_rate": 7.821067848858679e-05,
+      "loss": 5.2569,
+      "num_input_tokens_seen": 565051392,
+      "step": 4311
+    },
+    {
+      "epoch": 0.7376723308752805,
+      "grad_norm": 0.882475733757019,
+      "learning_rate": 7.818347950376548e-05,
+      "loss": 5.3148,
+      "num_input_tokens_seen": 565444608,
+      "step": 4314
+    },
+    {
+      "epoch": 0.7381853158063482,
+      "grad_norm": 0.818747878074646,
+      "learning_rate": 7.815630887583679e-05,
+      "loss": 5.3013,
+      "num_input_tokens_seen": 565837824,
+      "step": 4317
+    },
+    {
+      "epoch": 0.7386983007374158,
+      "grad_norm": 0.854594886302948,
+      "learning_rate": 7.812916655556147e-05,
+      "loss": 5.3028,
+      "num_input_tokens_seen": 566231040,
+      "step": 4320
+    },
+    {
+      "epoch": 0.7392112856684835,
+      "grad_norm": 1.0109381675720215,
+      "learning_rate": 7.810205249381987e-05,
+      "loss": 5.3257,
+      "num_input_tokens_seen": 566624256,
+      "step": 4323
+    },
+    {
+      "epoch": 0.7397242705995511,
+      "grad_norm": 0.8108871579170227,
+      "learning_rate": 7.80749666416116e-05,
+      "loss": 5.2564,
+      "num_input_tokens_seen": 567017472,
+      "step": 4326
+    },
+    {
+      "epoch": 0.7402372555306188,
+      "grad_norm": 0.9545855522155762,
+      "learning_rate": 7.80479089500551e-05,
+      "loss": 5.3024,
+      "num_input_tokens_seen": 567410688,
+      "step": 4329
+    },
+    {
+      "epoch": 0.7407502404616865,
+      "grad_norm": 0.7847074866294861,
+      "learning_rate": 7.802087937038731e-05,
+      "loss": 5.2754,
+      "num_input_tokens_seen": 567803904,
+      "step": 4332
+    },
+    {
+      "epoch": 0.7412632253927541,
+      "grad_norm": 0.7441365122795105,
+      "learning_rate": 7.799387785396339e-05,
+      "loss": 5.2589,
+      "num_input_tokens_seen": 568197120,
+      "step": 4335
+    },
+    {
+      "epoch": 0.7417762103238217,
+      "grad_norm": 0.7231647968292236,
+      "learning_rate": 7.796690435225613e-05,
+      "loss": 5.3153,
+      "num_input_tokens_seen": 568590336,
+      "step": 4338
+    },
+    {
+      "epoch": 0.7422891952548893,
+      "grad_norm": 0.7042517066001892,
+      "learning_rate": 7.793995881685584e-05,
+      "loss": 5.2829,
+      "num_input_tokens_seen": 568983552,
+      "step": 4341
+    },
+    {
+      "epoch": 0.742802180185957,
+      "grad_norm": 0.6561905741691589,
+      "learning_rate": 7.791304119946978e-05,
+      "loss": 5.2513,
+      "num_input_tokens_seen": 569376768,
+      "step": 4344
+    },
+    {
+      "epoch": 0.7433151651170247,
+      "grad_norm": 0.7863454818725586,
+      "learning_rate": 7.788615145192192e-05,
+      "loss": 5.2902,
+      "num_input_tokens_seen": 569769984,
+      "step": 4347
+    },
+    {
+      "epoch": 0.7438281500480923,
+      "grad_norm": 0.8196501135826111,
+      "learning_rate": 7.785928952615248e-05,
+      "loss": 5.2557,
+      "num_input_tokens_seen": 570163200,
+      "step": 4350
+    },
+    {
+      "epoch": 0.74434113497916,
+      "grad_norm": 0.7091982960700989,
+      "learning_rate": 7.783245537421777e-05,
+      "loss": 5.2603,
+      "num_input_tokens_seen": 570556416,
+      "step": 4353
+    },
+    {
+      "epoch": 0.7448541199102277,
+      "grad_norm": 0.6906124353408813,
+      "learning_rate": 7.780564894828949e-05,
+      "loss": 5.319,
+      "num_input_tokens_seen": 570949632,
+      "step": 4356
+    },
+    {
+      "epoch": 0.7453671048412953,
+      "grad_norm": 0.9479339718818665,
+      "learning_rate": 7.777887020065473e-05,
+      "loss": 5.3323,
+      "num_input_tokens_seen": 571342848,
+      "step": 4359
+    },
+    {
+      "epoch": 0.745880089772363,
+      "grad_norm": 0.6457544565200806,
+      "learning_rate": 7.775211908371534e-05,
+      "loss": 5.2699,
+      "num_input_tokens_seen": 571736064,
+      "step": 4362
+    },
+    {
+      "epoch": 0.7463930747034306,
+      "grad_norm": 0.8440648913383484,
+      "learning_rate": 7.772539554998778e-05,
+      "loss": 5.2753,
+      "num_input_tokens_seen": 572129280,
+      "step": 4365
+    },
+    {
+      "epoch": 0.7469060596344982,
+      "grad_norm": 0.8873343467712402,
+      "learning_rate": 7.76986995521026e-05,
+      "loss": 5.2944,
+      "num_input_tokens_seen": 572522496,
+      "step": 4368
+    },
+    {
+      "epoch": 0.7474190445655658,
+      "grad_norm": 0.7578151822090149,
+      "learning_rate": 7.767203104280422e-05,
+      "loss": 5.2523,
+      "num_input_tokens_seen": 572915712,
+      "step": 4371
+    },
+    {
+      "epoch": 0.7479320294966335,
+      "grad_norm": 0.7755122780799866,
+      "learning_rate": 7.764538997495046e-05,
+      "loss": 5.3015,
+      "num_input_tokens_seen": 573308928,
+      "step": 4374
+    },
+    {
+      "epoch": 0.7484450144277012,
+      "grad_norm": 0.8372567296028137,
+      "learning_rate": 7.761877630151229e-05,
+      "loss": 5.2548,
+      "num_input_tokens_seen": 573702144,
+      "step": 4377
+    },
+    {
+      "epoch": 0.7489579993587688,
+      "grad_norm": 0.8696802854537964,
+      "learning_rate": 7.759218997557344e-05,
+      "loss": 5.308,
+      "num_input_tokens_seen": 574095360,
+      "step": 4380
+    },
+    {
+      "epoch": 0.7494709842898365,
+      "grad_norm": 0.6701018810272217,
+      "learning_rate": 7.756563095033e-05,
+      "loss": 5.2979,
+      "num_input_tokens_seen": 574488576,
+      "step": 4383
+    },
+    {
+      "epoch": 0.7499839692209042,
+      "grad_norm": 0.7554642558097839,
+      "learning_rate": 7.75390991790902e-05,
+      "loss": 5.3501,
+      "num_input_tokens_seen": 574881792,
+      "step": 4386
+    },
+    {
+      "epoch": 0.7504969541519718,
+      "grad_norm": 0.7375338077545166,
+      "learning_rate": 7.751259461527394e-05,
+      "loss": 5.2445,
+      "num_input_tokens_seen": 575275008,
+      "step": 4389
+    },
+    {
+      "epoch": 0.7510099390830395,
+      "grad_norm": 0.6931892037391663,
+      "learning_rate": 7.748611721241256e-05,
+      "loss": 5.2891,
+      "num_input_tokens_seen": 575668224,
+      "step": 4392
+    },
+    {
+      "epoch": 0.7515229240141071,
+      "grad_norm": 0.7114129066467285,
+      "learning_rate": 7.745966692414832e-05,
+      "loss": 5.2936,
+      "num_input_tokens_seen": 576061440,
+      "step": 4395
+    },
+    {
+      "epoch": 0.7520359089451747,
+      "grad_norm": 0.7084842324256897,
+      "learning_rate": 7.743324370423433e-05,
+      "loss": 5.3014,
+      "num_input_tokens_seen": 576454656,
+      "step": 4398
+    },
+    {
+      "epoch": 0.7523778988992198,
+      "eval_accuracy": 0.18137436899527765,
+      "eval_loss": 5.756495952606201,
+      "eval_runtime": 110.1663,
+      "eval_samples_per_second": 2.723,
+      "eval_steps_per_second": 1.362,
+      "num_input_tokens_seen": 576716800,
+      "step": 4400
+    },
+    {
+      "epoch": 0.7525488938762424,
+      "grad_norm": 0.8616915941238403,
+      "learning_rate": 7.74068475065339e-05,
+      "loss": 5.2833,
+      "num_input_tokens_seen": 576847872,
+      "step": 4401
+    },
+    {
+      "epoch": 0.75306187880731,
+      "grad_norm": 0.7370516061782837,
+      "learning_rate": 7.738047828502048e-05,
+      "loss": 5.2773,
+      "num_input_tokens_seen": 577241088,
+      "step": 4404
+    },
+    {
+      "epoch": 0.7535748637383777,
+      "grad_norm": 0.8121903538703918,
+      "learning_rate": 7.735413599377714e-05,
+      "loss": 5.2661,
+      "num_input_tokens_seen": 577634304,
+      "step": 4407
+    },
+    {
+      "epoch": 0.7540878486694453,
+      "grad_norm": 0.775635302066803,
+      "learning_rate": 7.732782058699632e-05,
+      "loss": 5.2528,
+      "num_input_tokens_seen": 578027520,
+      "step": 4410
+    },
+    {
+      "epoch": 0.754600833600513,
+      "grad_norm": 0.6981225609779358,
+      "learning_rate": 7.730153201897945e-05,
+      "loss": 5.3143,
+      "num_input_tokens_seen": 578420736,
+      "step": 4413
+    },
+    {
+      "epoch": 0.7551138185315807,
+      "grad_norm": 0.6825100779533386,
+      "learning_rate": 7.727527024413663e-05,
+      "loss": 5.2626,
+      "num_input_tokens_seen": 578813952,
+      "step": 4416
+    },
+    {
+      "epoch": 0.7556268034626483,
+      "grad_norm": 0.7106081247329712,
+      "learning_rate": 7.724903521698631e-05,
+      "loss": 5.272,
+      "num_input_tokens_seen": 579207168,
+      "step": 4419
+    },
+    {
+      "epoch": 0.756139788393716,
+      "grad_norm": 0.7914432287216187,
+      "learning_rate": 7.722282689215501e-05,
+      "loss": 5.2469,
+      "num_input_tokens_seen": 579600384,
+      "step": 4422
+    },
+    {
+      "epoch": 0.7566527733247835,
+      "grad_norm": 0.8186551928520203,
+      "learning_rate": 7.719664522437684e-05,
+      "loss": 5.3293,
+      "num_input_tokens_seen": 579993600,
+      "step": 4425
+    },
+    {
+      "epoch": 0.7571657582558512,
+      "grad_norm": 0.7702829837799072,
+      "learning_rate": 7.717049016849333e-05,
+      "loss": 5.2875,
+      "num_input_tokens_seen": 580386816,
+      "step": 4428
+    },
+    {
+      "epoch": 0.7576787431869189,
+      "grad_norm": 0.7700650095939636,
+      "learning_rate": 7.714436167945303e-05,
+      "loss": 5.2823,
+      "num_input_tokens_seen": 580780032,
+      "step": 4431
+    },
+    {
+      "epoch": 0.7581917281179865,
+      "grad_norm": 0.8458641767501831,
+      "learning_rate": 7.71182597123112e-05,
+      "loss": 5.2691,
+      "num_input_tokens_seen": 581173248,
+      "step": 4434
+    },
+    {
+      "epoch": 0.7587047130490542,
+      "grad_norm": 0.6728209853172302,
+      "learning_rate": 7.709218422222942e-05,
+      "loss": 5.2768,
+      "num_input_tokens_seen": 581566464,
+      "step": 4437
+    },
+    {
+      "epoch": 0.7592176979801218,
+      "grad_norm": 0.7042077779769897,
+      "learning_rate": 7.706613516447538e-05,
+      "loss": 5.2504,
+      "num_input_tokens_seen": 581959680,
+      "step": 4440
+    },
+    {
+      "epoch": 0.7597306829111895,
+      "grad_norm": 0.7626017332077026,
+      "learning_rate": 7.704011249442249e-05,
+      "loss": 5.3261,
+      "num_input_tokens_seen": 582352896,
+      "step": 4443
+    },
+    {
+      "epoch": 0.7602436678422572,
+      "grad_norm": 0.7157188057899475,
+      "learning_rate": 7.70141161675496e-05,
+      "loss": 5.2466,
+      "num_input_tokens_seen": 582746112,
+      "step": 4446
+    },
+    {
+      "epoch": 0.7607566527733248,
+      "grad_norm": 0.6773563623428345,
+      "learning_rate": 7.69881461394406e-05,
+      "loss": 5.2757,
+      "num_input_tokens_seen": 583139328,
+      "step": 4449
+    },
+    {
+      "epoch": 0.7612696377043925,
+      "grad_norm": 0.7485852241516113,
+      "learning_rate": 7.696220236578416e-05,
+      "loss": 5.3204,
+      "num_input_tokens_seen": 583532544,
+      "step": 4452
+    },
+    {
+      "epoch": 0.76178262263546,
+      "grad_norm": 0.7189561128616333,
+      "learning_rate": 7.693628480237344e-05,
+      "loss": 5.2909,
+      "num_input_tokens_seen": 583925760,
+      "step": 4455
+    },
+    {
+      "epoch": 0.7622956075665277,
+      "grad_norm": 0.809196412563324,
+      "learning_rate": 7.691039340510571e-05,
+      "loss": 5.313,
+      "num_input_tokens_seen": 584318976,
+      "step": 4458
+    },
+    {
+      "epoch": 0.7628085924975954,
+      "grad_norm": 0.8321667909622192,
+      "learning_rate": 7.688452812998208e-05,
+      "loss": 5.3164,
+      "num_input_tokens_seen": 584712192,
+      "step": 4461
+    },
+    {
+      "epoch": 0.763321577428663,
+      "grad_norm": 0.6554286479949951,
+      "learning_rate": 7.685868893310715e-05,
+      "loss": 5.2475,
+      "num_input_tokens_seen": 585105408,
+      "step": 4464
+    },
+    {
+      "epoch": 0.7638345623597307,
+      "grad_norm": 0.7397018671035767,
+      "learning_rate": 7.683287577068874e-05,
+      "loss": 5.2725,
+      "num_input_tokens_seen": 585498624,
+      "step": 4467
+    },
+    {
+      "epoch": 0.7643475472907983,
+      "grad_norm": 0.6564092636108398,
+      "learning_rate": 7.680708859903753e-05,
+      "loss": 5.2621,
+      "num_input_tokens_seen": 585891840,
+      "step": 4470
+    },
+    {
+      "epoch": 0.764860532221866,
+      "grad_norm": 0.7277629971504211,
+      "learning_rate": 7.678132737456681e-05,
+      "loss": 5.2376,
+      "num_input_tokens_seen": 586285056,
+      "step": 4473
+    },
+    {
+      "epoch": 0.7653735171529337,
+      "grad_norm": 0.7863820195198059,
+      "learning_rate": 7.675559205379208e-05,
+      "loss": 5.2615,
+      "num_input_tokens_seen": 586678272,
+      "step": 4476
+    },
+    {
+      "epoch": 0.7658865020840013,
+      "grad_norm": 0.760823130607605,
+      "learning_rate": 7.672988259333085e-05,
+      "loss": 5.2611,
+      "num_input_tokens_seen": 587071488,
+      "step": 4479
+    },
+    {
+      "epoch": 0.7663994870150689,
+      "grad_norm": 0.8245643377304077,
+      "learning_rate": 7.670419894990224e-05,
+      "loss": 5.234,
+      "num_input_tokens_seen": 587464704,
+      "step": 4482
+    },
+    {
+      "epoch": 0.7669124719461365,
+      "grad_norm": 0.8459969162940979,
+      "learning_rate": 7.667854108032676e-05,
+      "loss": 5.3133,
+      "num_input_tokens_seen": 587857920,
+      "step": 4485
+    },
+    {
+      "epoch": 0.7674254568772042,
+      "grad_norm": 0.7487183809280396,
+      "learning_rate": 7.665290894152588e-05,
+      "loss": 5.2422,
+      "num_input_tokens_seen": 588251136,
+      "step": 4488
+    },
+    {
+      "epoch": 0.7679384418082719,
+      "grad_norm": 0.6825780868530273,
+      "learning_rate": 7.662730249052193e-05,
+      "loss": 5.2759,
+      "num_input_tokens_seen": 588644352,
+      "step": 4491
+    },
+    {
+      "epoch": 0.7684514267393395,
+      "grad_norm": 0.7450793385505676,
+      "learning_rate": 7.660172168443752e-05,
+      "loss": 5.3166,
+      "num_input_tokens_seen": 589037568,
+      "step": 4494
+    },
+    {
+      "epoch": 0.7689644116704072,
+      "grad_norm": 0.7206063270568848,
+      "learning_rate": 7.657616648049552e-05,
+      "loss": 5.2758,
+      "num_input_tokens_seen": 589430784,
+      "step": 4497
+    },
+    {
+      "epoch": 0.7694773966014749,
+      "grad_norm": 0.7094364166259766,
+      "learning_rate": 7.655063683601855e-05,
+      "loss": 5.2929,
+      "num_input_tokens_seen": 589824000,
+      "step": 4500
+    },
+    {
+      "epoch": 0.7699903815325425,
+      "grad_norm": 0.6987499594688416,
+      "learning_rate": 7.652513270842879e-05,
+      "loss": 5.3014,
+      "num_input_tokens_seen": 590217216,
+      "step": 4503
+    },
+    {
+      "epoch": 0.7705033664636102,
+      "grad_norm": 0.699375331401825,
+      "learning_rate": 7.649965405524765e-05,
+      "loss": 5.2702,
+      "num_input_tokens_seen": 590610432,
+      "step": 4506
+    },
+    {
+      "epoch": 0.7710163513946778,
+      "grad_norm": 0.8014332056045532,
+      "learning_rate": 7.647420083409549e-05,
+      "loss": 5.1938,
+      "num_input_tokens_seen": 591003648,
+      "step": 4509
+    },
+    {
+      "epoch": 0.7715293363257454,
+      "grad_norm": 0.7827511429786682,
+      "learning_rate": 7.64487730026913e-05,
+      "loss": 5.2683,
+      "num_input_tokens_seen": 591396864,
+      "step": 4512
+    },
+    {
+      "epoch": 0.772042321256813,
+      "grad_norm": 0.7832793593406677,
+      "learning_rate": 7.642337051885237e-05,
+      "loss": 5.2913,
+      "num_input_tokens_seen": 591790080,
+      "step": 4515
+    },
+    {
+      "epoch": 0.7725553061878807,
+      "grad_norm": 0.7209380269050598,
+      "learning_rate": 7.639799334049411e-05,
+      "loss": 5.3039,
+      "num_input_tokens_seen": 592183296,
+      "step": 4518
+    },
+    {
+      "epoch": 0.7730682911189484,
+      "grad_norm": 0.7766376733779907,
+      "learning_rate": 7.637264142562964e-05,
+      "loss": 5.34,
+      "num_input_tokens_seen": 592576512,
+      "step": 4521
+    },
+    {
+      "epoch": 0.773581276050016,
+      "grad_norm": 0.7014556527137756,
+      "learning_rate": 7.634731473236961e-05,
+      "loss": 5.2624,
+      "num_input_tokens_seen": 592969728,
+      "step": 4524
+    },
+    {
+      "epoch": 0.7740942609810837,
+      "grad_norm": 0.726774275302887,
+      "learning_rate": 7.632201321892173e-05,
+      "loss": 5.2637,
+      "num_input_tokens_seen": 593362944,
+      "step": 4527
+    },
+    {
+      "epoch": 0.7746072459121514,
+      "grad_norm": 0.7574884295463562,
+      "learning_rate": 7.62967368435907e-05,
+      "loss": 5.2565,
+      "num_input_tokens_seen": 593756160,
+      "step": 4530
+    },
+    {
+      "epoch": 0.775120230843219,
+      "grad_norm": 0.6125289797782898,
+      "learning_rate": 7.627148556477777e-05,
+      "loss": 5.2344,
+      "num_input_tokens_seen": 594149376,
+      "step": 4533
+    },
+    {
+      "epoch": 0.7756332157742867,
+      "grad_norm": 0.6760141253471375,
+      "learning_rate": 7.624625934098054e-05,
+      "loss": 5.2637,
+      "num_input_tokens_seen": 594542592,
+      "step": 4536
+    },
+    {
+      "epoch": 0.7761462007053542,
+      "grad_norm": 0.7754603624343872,
+      "learning_rate": 7.622105813079257e-05,
+      "loss": 5.3232,
+      "num_input_tokens_seen": 594935808,
+      "step": 4539
+    },
+    {
+      "epoch": 0.7766591856364219,
+      "grad_norm": 0.7657566070556641,
+      "learning_rate": 7.619588189290318e-05,
+      "loss": 5.284,
+      "num_input_tokens_seen": 595329024,
+      "step": 4542
+    },
+    {
+      "epoch": 0.7771721705674896,
+      "grad_norm": 0.682299017906189,
+      "learning_rate": 7.617073058609718e-05,
+      "loss": 5.295,
+      "num_input_tokens_seen": 595722240,
+      "step": 4545
+    },
+    {
+      "epoch": 0.7776851554985572,
+      "grad_norm": 0.7046672701835632,
+      "learning_rate": 7.614560416925451e-05,
+      "loss": 5.271,
+      "num_input_tokens_seen": 596115456,
+      "step": 4548
+    },
+    {
+      "epoch": 0.7781981404296249,
+      "grad_norm": 0.6913005709648132,
+      "learning_rate": 7.612050260135002e-05,
+      "loss": 5.2684,
+      "num_input_tokens_seen": 596508672,
+      "step": 4551
+    },
+    {
+      "epoch": 0.7787111253606925,
+      "grad_norm": 0.7652671933174133,
+      "learning_rate": 7.609542584145313e-05,
+      "loss": 5.2268,
+      "num_input_tokens_seen": 596901888,
+      "step": 4554
+    },
+    {
+      "epoch": 0.7792241102917602,
+      "grad_norm": 0.6569912433624268,
+      "learning_rate": 7.607037384872765e-05,
+      "loss": 5.3011,
+      "num_input_tokens_seen": 597295104,
+      "step": 4557
+    },
+    {
+      "epoch": 0.7797370952228279,
+      "grad_norm": 0.6658585667610168,
+      "learning_rate": 7.604534658243135e-05,
+      "loss": 5.296,
+      "num_input_tokens_seen": 597688320,
+      "step": 4560
+    },
+    {
+      "epoch": 0.7802500801538955,
+      "grad_norm": 0.8153283596038818,
+      "learning_rate": 7.602034400191585e-05,
+      "loss": 5.2633,
+      "num_input_tokens_seen": 598081536,
+      "step": 4563
+    },
+    {
+      "epoch": 0.7807630650849632,
+      "grad_norm": 0.7321149110794067,
+      "learning_rate": 7.599536606662622e-05,
+      "loss": 5.2841,
+      "num_input_tokens_seen": 598474752,
+      "step": 4566
+    },
+    {
+      "epoch": 0.7812760500160307,
+      "grad_norm": 0.9558836221694946,
+      "learning_rate": 7.597041273610076e-05,
+      "loss": 5.2623,
+      "num_input_tokens_seen": 598867968,
+      "step": 4569
+    },
+    {
+      "epoch": 0.7817890349470984,
+      "grad_norm": 0.7963069081306458,
+      "learning_rate": 7.594548396997066e-05,
+      "loss": 5.3027,
+      "num_input_tokens_seen": 599261184,
+      "step": 4572
+    },
+    {
+      "epoch": 0.782302019878166,
+      "grad_norm": 0.7501682043075562,
+      "learning_rate": 7.592057972795984e-05,
+      "loss": 5.2485,
+      "num_input_tokens_seen": 599654400,
+      "step": 4575
+    },
+    {
+      "epoch": 0.7828150048092337,
+      "grad_norm": 0.8756089806556702,
+      "learning_rate": 7.58956999698846e-05,
+      "loss": 5.2901,
+      "num_input_tokens_seen": 600047616,
+      "step": 4578
+    },
+    {
+      "epoch": 0.7833279897403014,
+      "grad_norm": 0.7717293500900269,
+      "learning_rate": 7.587084465565331e-05,
+      "loss": 5.3035,
+      "num_input_tokens_seen": 600440832,
+      "step": 4581
+    },
+    {
+      "epoch": 0.783840974671369,
+      "grad_norm": 0.874310314655304,
+      "learning_rate": 7.584601374526627e-05,
+      "loss": 5.2816,
+      "num_input_tokens_seen": 600834048,
+      "step": 4584
+    },
+    {
+      "epoch": 0.7843539596024367,
+      "grad_norm": 0.7195756435394287,
+      "learning_rate": 7.582120719881527e-05,
+      "loss": 5.2297,
+      "num_input_tokens_seen": 601227264,
+      "step": 4587
+    },
+    {
+      "epoch": 0.7848669445335044,
+      "grad_norm": 0.8340673446655273,
+      "learning_rate": 7.579642497648347e-05,
+      "loss": 5.263,
+      "num_input_tokens_seen": 601620480,
+      "step": 4590
+    },
+    {
+      "epoch": 0.785379929464572,
+      "grad_norm": 0.6328992247581482,
+      "learning_rate": 7.577166703854501e-05,
+      "loss": 5.3334,
+      "num_input_tokens_seen": 602013696,
+      "step": 4593
+    },
+    {
+      "epoch": 0.7858929143956396,
+      "grad_norm": 0.7836408615112305,
+      "learning_rate": 7.574693334536489e-05,
+      "loss": 5.2894,
+      "num_input_tokens_seen": 602406912,
+      "step": 4596
+    },
+    {
+      "epoch": 0.7864058993267072,
+      "grad_norm": 0.7437619566917419,
+      "learning_rate": 7.572222385739856e-05,
+      "loss": 5.2906,
+      "num_input_tokens_seen": 602800128,
+      "step": 4599
+    },
+    {
+      "epoch": 0.7869188842577749,
+      "grad_norm": 0.665663480758667,
+      "learning_rate": 7.569753853519169e-05,
+      "loss": 5.3065,
+      "num_input_tokens_seen": 603193344,
+      "step": 4602
+    },
+    {
+      "epoch": 0.7874318691888426,
+      "grad_norm": 0.7104794383049011,
+      "learning_rate": 7.567287733937997e-05,
+      "loss": 5.2908,
+      "num_input_tokens_seen": 603586560,
+      "step": 4605
+    },
+    {
+      "epoch": 0.7879448541199102,
+      "grad_norm": 0.666928231716156,
+      "learning_rate": 7.564824023068877e-05,
+      "loss": 5.3252,
+      "num_input_tokens_seen": 603979776,
+      "step": 4608
+    },
+    {
+      "epoch": 0.7884578390509779,
+      "grad_norm": 0.7155689597129822,
+      "learning_rate": 7.562362716993294e-05,
+      "loss": 5.2782,
+      "num_input_tokens_seen": 604372992,
+      "step": 4611
+    },
+    {
+      "epoch": 0.7889708239820455,
+      "grad_norm": 0.7343229055404663,
+      "learning_rate": 7.559903811801648e-05,
+      "loss": 5.2521,
+      "num_input_tokens_seen": 604766208,
+      "step": 4614
+    },
+    {
+      "epoch": 0.7894838089131132,
+      "grad_norm": 0.7456091046333313,
+      "learning_rate": 7.557447303593237e-05,
+      "loss": 5.311,
+      "num_input_tokens_seen": 605159424,
+      "step": 4617
+    },
+    {
+      "epoch": 0.7899967938441809,
+      "grad_norm": 0.7218461036682129,
+      "learning_rate": 7.55499318847622e-05,
+      "loss": 5.2997,
+      "num_input_tokens_seen": 605552640,
+      "step": 4620
+    },
+    {
+      "epoch": 0.7905097787752485,
+      "grad_norm": 0.783655047416687,
+      "learning_rate": 7.552541462567598e-05,
+      "loss": 5.2334,
+      "num_input_tokens_seen": 605945856,
+      "step": 4623
+    },
+    {
+      "epoch": 0.7910227637063161,
+      "grad_norm": 0.7241744995117188,
+      "learning_rate": 7.550092121993191e-05,
+      "loss": 5.2428,
+      "num_input_tokens_seen": 606339072,
+      "step": 4626
+    },
+    {
+      "epoch": 0.7915357486373837,
+      "grad_norm": 0.77818363904953,
+      "learning_rate": 7.547645162887604e-05,
+      "loss": 5.2869,
+      "num_input_tokens_seen": 606732288,
+      "step": 4629
+    },
+    {
+      "epoch": 0.7920487335684514,
+      "grad_norm": 0.8874224424362183,
+      "learning_rate": 7.545200581394207e-05,
+      "loss": 5.253,
+      "num_input_tokens_seen": 607125504,
+      "step": 4632
+    },
+    {
+      "epoch": 0.7925617184995191,
+      "grad_norm": 0.8084154725074768,
+      "learning_rate": 7.542758373665109e-05,
+      "loss": 5.283,
+      "num_input_tokens_seen": 607518720,
+      "step": 4635
+    },
+    {
+      "epoch": 0.7930747034305867,
+      "grad_norm": 0.6735661625862122,
+      "learning_rate": 7.540318535861131e-05,
+      "loss": 5.2641,
+      "num_input_tokens_seen": 607911936,
+      "step": 4638
+    },
+    {
+      "epoch": 0.7935876883616544,
+      "grad_norm": 0.7534482479095459,
+      "learning_rate": 7.537881064151782e-05,
+      "loss": 5.2805,
+      "num_input_tokens_seen": 608305152,
+      "step": 4641
+    },
+    {
+      "epoch": 0.794100673292722,
+      "grad_norm": 0.7664649486541748,
+      "learning_rate": 7.535445954715228e-05,
+      "loss": 5.2183,
+      "num_input_tokens_seen": 608698368,
+      "step": 4644
+    },
+    {
+      "epoch": 0.7946136582237897,
+      "grad_norm": 0.8066388964653015,
+      "learning_rate": 7.53301320373828e-05,
+      "loss": 5.3102,
+      "num_input_tokens_seen": 609091584,
+      "step": 4647
+    },
+    {
+      "epoch": 0.7951266431548574,
+      "grad_norm": 0.733974277973175,
+      "learning_rate": 7.530582807416357e-05,
+      "loss": 5.2926,
+      "num_input_tokens_seen": 609484800,
+      "step": 4650
+    },
+    {
+      "epoch": 0.7956396280859249,
+      "grad_norm": 0.7289937138557434,
+      "learning_rate": 7.528154761953464e-05,
+      "loss": 5.276,
+      "num_input_tokens_seen": 609878016,
+      "step": 4653
+    },
+    {
+      "epoch": 0.7961526130169926,
+      "grad_norm": 0.7927041053771973,
+      "learning_rate": 7.52572906356217e-05,
+      "loss": 5.2783,
+      "num_input_tokens_seen": 610271232,
+      "step": 4656
+    },
+    {
+      "epoch": 0.7966655979480602,
+      "grad_norm": 0.718377411365509,
+      "learning_rate": 7.523305708463577e-05,
+      "loss": 5.2949,
+      "num_input_tokens_seen": 610664448,
+      "step": 4659
+    },
+    {
+      "epoch": 0.7971785828791279,
+      "grad_norm": 0.7721161246299744,
+      "learning_rate": 7.520884692887304e-05,
+      "loss": 5.3164,
+      "num_input_tokens_seen": 611057664,
+      "step": 4662
+    },
+    {
+      "epoch": 0.7976915678101956,
+      "grad_norm": 0.6871947050094604,
+      "learning_rate": 7.518466013071455e-05,
+      "loss": 5.2669,
+      "num_input_tokens_seen": 611450880,
+      "step": 4665
+    },
+    {
+      "epoch": 0.7982045527412632,
+      "grad_norm": 0.6703811883926392,
+      "learning_rate": 7.516049665262601e-05,
+      "loss": 5.2861,
+      "num_input_tokens_seen": 611844096,
+      "step": 4668
+    },
+    {
+      "epoch": 0.7987175376723309,
+      "grad_norm": 0.6838527321815491,
+      "learning_rate": 7.51363564571575e-05,
+      "loss": 5.2608,
+      "num_input_tokens_seen": 612237312,
+      "step": 4671
+    },
+    {
+      "epoch": 0.7992305226033986,
+      "grad_norm": 0.650619626045227,
+      "learning_rate": 7.511223950694318e-05,
+      "loss": 5.2961,
+      "num_input_tokens_seen": 612630528,
+      "step": 4674
+    },
+    {
+      "epoch": 0.7997435075344662,
+      "grad_norm": 0.6837221384048462,
+      "learning_rate": 7.508814576470118e-05,
+      "loss": 5.2384,
+      "num_input_tokens_seen": 613023744,
+      "step": 4677
+    },
+    {
+      "epoch": 0.8002564924655339,
+      "grad_norm": 0.8880760669708252,
+      "learning_rate": 7.50640751932333e-05,
+      "loss": 5.2994,
+      "num_input_tokens_seen": 613416960,
+      "step": 4680
+    },
+    {
+      "epoch": 0.8007694773966014,
+      "grad_norm": 0.7496533989906311,
+      "learning_rate": 7.504002775542471e-05,
+      "loss": 5.2399,
+      "num_input_tokens_seen": 613810176,
+      "step": 4683
+    },
+    {
+      "epoch": 0.8012824623276691,
+      "grad_norm": 0.8291968703269958,
+      "learning_rate": 7.50160034142438e-05,
+      "loss": 5.2665,
+      "num_input_tokens_seen": 614203392,
+      "step": 4686
+    },
+    {
+      "epoch": 0.8017954472587367,
+      "grad_norm": 0.6744365692138672,
+      "learning_rate": 7.499200213274185e-05,
+      "loss": 5.2685,
+      "num_input_tokens_seen": 614596608,
+      "step": 4689
+    },
+    {
+      "epoch": 0.8023084321898044,
+      "grad_norm": 0.8543739914894104,
+      "learning_rate": 7.496802387405287e-05,
+      "loss": 5.2792,
+      "num_input_tokens_seen": 614989824,
+      "step": 4692
+    },
+    {
+      "epoch": 0.8028214171208721,
+      "grad_norm": 0.8261051177978516,
+      "learning_rate": 7.494406860139334e-05,
+      "loss": 5.2683,
+      "num_input_tokens_seen": 615383040,
+      "step": 4695
+    },
+    {
+      "epoch": 0.8033344020519397,
+      "grad_norm": 0.7388364672660828,
+      "learning_rate": 7.492013627806192e-05,
+      "loss": 5.2577,
+      "num_input_tokens_seen": 615776256,
+      "step": 4698
+    },
+    {
+      "epoch": 0.8038473869830074,
+      "grad_norm": 0.7822057008743286,
+      "learning_rate": 7.489622686743933e-05,
+      "loss": 5.2975,
+      "num_input_tokens_seen": 616169472,
+      "step": 4701
+    },
+    {
+      "epoch": 0.8043603719140751,
+      "grad_norm": 0.866584837436676,
+      "learning_rate": 7.487234033298796e-05,
+      "loss": 5.2458,
+      "num_input_tokens_seen": 616562688,
+      "step": 4704
+    },
+    {
+      "epoch": 0.8048733568451427,
+      "grad_norm": 0.6807045340538025,
+      "learning_rate": 7.484847663825176e-05,
+      "loss": 5.2579,
+      "num_input_tokens_seen": 616955904,
+      "step": 4707
+    },
+    {
+      "epoch": 0.8053863417762103,
+      "grad_norm": 0.7374781966209412,
+      "learning_rate": 7.4824635746856e-05,
+      "loss": 5.2762,
+      "num_input_tokens_seen": 617349120,
+      "step": 4710
+    },
+    {
+      "epoch": 0.8058993267072779,
+      "grad_norm": 0.829736590385437,
+      "learning_rate": 7.480081762250693e-05,
+      "loss": 5.3006,
+      "num_input_tokens_seen": 617742336,
+      "step": 4713
+    },
+    {
+      "epoch": 0.8064123116383456,
+      "grad_norm": 0.768171489238739,
+      "learning_rate": 7.477702222899166e-05,
+      "loss": 5.2574,
+      "num_input_tokens_seen": 618135552,
+      "step": 4716
+    },
+    {
+      "epoch": 0.8069252965694133,
+      "grad_norm": 0.7289711833000183,
+      "learning_rate": 7.47532495301779e-05,
+      "loss": 5.2361,
+      "num_input_tokens_seen": 618528768,
+      "step": 4719
+    },
+    {
+      "epoch": 0.8074382815004809,
+      "grad_norm": 0.9484478831291199,
+      "learning_rate": 7.472949949001368e-05,
+      "loss": 5.2584,
+      "num_input_tokens_seen": 618921984,
+      "step": 4722
+    },
+    {
+      "epoch": 0.8079512664315486,
+      "grad_norm": 0.7003783583641052,
+      "learning_rate": 7.470577207252715e-05,
+      "loss": 5.2355,
+      "num_input_tokens_seen": 619315200,
+      "step": 4725
+    },
+    {
+      "epoch": 0.8084642513626162,
+      "grad_norm": 0.7656697034835815,
+      "learning_rate": 7.468206724182646e-05,
+      "loss": 5.2752,
+      "num_input_tokens_seen": 619708416,
+      "step": 4728
+    },
+    {
+      "epoch": 0.8089772362936839,
+      "grad_norm": 0.7776997089385986,
+      "learning_rate": 7.465838496209931e-05,
+      "loss": 5.2699,
+      "num_input_tokens_seen": 620101632,
+      "step": 4731
+    },
+    {
+      "epoch": 0.8094902212247516,
+      "grad_norm": 0.7209721207618713,
+      "learning_rate": 7.463472519761289e-05,
+      "loss": 5.2341,
+      "num_input_tokens_seen": 620494848,
+      "step": 4734
+    },
+    {
+      "epoch": 0.8100032061558192,
+      "grad_norm": 0.7924665212631226,
+      "learning_rate": 7.461108791271363e-05,
+      "loss": 5.2278,
+      "num_input_tokens_seen": 620888064,
+      "step": 4737
+    },
+    {
+      "epoch": 0.8105161910868868,
+      "grad_norm": 0.673541247844696,
+      "learning_rate": 7.458747307182692e-05,
+      "loss": 5.3302,
+      "num_input_tokens_seen": 621281280,
+      "step": 4740
+    },
+    {
+      "epoch": 0.8110291760179544,
+      "grad_norm": 0.7629460096359253,
+      "learning_rate": 7.456388063945693e-05,
+      "loss": 5.2465,
+      "num_input_tokens_seen": 621674496,
+      "step": 4743
+    },
+    {
+      "epoch": 0.8115421609490221,
+      "grad_norm": 0.665367603302002,
+      "learning_rate": 7.454031058018637e-05,
+      "loss": 5.3017,
+      "num_input_tokens_seen": 622067712,
+      "step": 4746
+    },
+    {
+      "epoch": 0.8120551458800898,
+      "grad_norm": 0.7708544731140137,
+      "learning_rate": 7.451676285867628e-05,
+      "loss": 5.2512,
+      "num_input_tokens_seen": 622460928,
+      "step": 4749
+    },
+    {
+      "epoch": 0.8125681308111574,
+      "grad_norm": 0.8049509525299072,
+      "learning_rate": 7.449323743966578e-05,
+      "loss": 5.2656,
+      "num_input_tokens_seen": 622854144,
+      "step": 4752
+    },
+    {
+      "epoch": 0.8130811157422251,
+      "grad_norm": 0.6959990859031677,
+      "learning_rate": 7.446973428797188e-05,
+      "loss": 5.2437,
+      "num_input_tokens_seen": 623247360,
+      "step": 4755
+    },
+    {
+      "epoch": 0.8135941006732927,
+      "grad_norm": 0.7066569328308105,
+      "learning_rate": 7.444625336848923e-05,
+      "loss": 5.2506,
+      "num_input_tokens_seen": 623640576,
+      "step": 4758
+    },
+    {
+      "epoch": 0.8141070856043604,
+      "grad_norm": 0.6698566675186157,
+      "learning_rate": 7.442279464618996e-05,
+      "loss": 5.2852,
+      "num_input_tokens_seen": 624033792,
+      "step": 4761
+    },
+    {
+      "epoch": 0.8146200705354281,
+      "grad_norm": 0.7723349332809448,
+      "learning_rate": 7.439935808612331e-05,
+      "loss": 5.3053,
+      "num_input_tokens_seen": 624427008,
+      "step": 4764
+    },
+    {
+      "epoch": 0.8151330554664957,
+      "grad_norm": 0.7419276237487793,
+      "learning_rate": 7.437594365341564e-05,
+      "loss": 5.2353,
+      "num_input_tokens_seen": 624820224,
+      "step": 4767
+    },
+    {
+      "epoch": 0.8156460403975633,
+      "grad_norm": 0.8163347840309143,
+      "learning_rate": 7.435255131327003e-05,
+      "loss": 5.2718,
+      "num_input_tokens_seen": 625213440,
+      "step": 4770
+    },
+    {
+      "epoch": 0.8161590253286309,
+      "grad_norm": 0.7750483751296997,
+      "learning_rate": 7.432918103096608e-05,
+      "loss": 5.2919,
+      "num_input_tokens_seen": 625606656,
+      "step": 4773
+    },
+    {
+      "epoch": 0.8166720102596986,
+      "grad_norm": 0.7649890184402466,
+      "learning_rate": 7.430583277185981e-05,
+      "loss": 5.2961,
+      "num_input_tokens_seen": 625999872,
+      "step": 4776
+    },
+    {
+      "epoch": 0.8171849951907663,
+      "grad_norm": 0.7891272306442261,
+      "learning_rate": 7.428250650138333e-05,
+      "loss": 5.255,
+      "num_input_tokens_seen": 626393088,
+      "step": 4779
+    },
+    {
+      "epoch": 0.8176979801218339,
+      "grad_norm": 0.7607313990592957,
+      "learning_rate": 7.425920218504469e-05,
+      "loss": 5.232,
+      "num_input_tokens_seen": 626786304,
+      "step": 4782
+    },
+    {
+      "epoch": 0.8182109650529016,
+      "grad_norm": 0.8134208917617798,
+      "learning_rate": 7.423591978842759e-05,
+      "loss": 5.25,
+      "num_input_tokens_seen": 627179520,
+      "step": 4785
+    },
+    {
+      "epoch": 0.8187239499839692,
+      "grad_norm": 0.7779147624969482,
+      "learning_rate": 7.421265927719126e-05,
+      "loss": 5.2691,
+      "num_input_tokens_seen": 627572736,
+      "step": 4788
+    },
+    {
+      "epoch": 0.8192369349150369,
+      "grad_norm": 0.7561124563217163,
+      "learning_rate": 7.418942061707016e-05,
+      "loss": 5.247,
+      "num_input_tokens_seen": 627965952,
+      "step": 4791
+    },
+    {
+      "epoch": 0.8197499198461046,
+      "grad_norm": 0.7412567138671875,
+      "learning_rate": 7.416620377387388e-05,
+      "loss": 5.3103,
+      "num_input_tokens_seen": 628359168,
+      "step": 4794
+    },
+    {
+      "epoch": 0.8202629047771721,
+      "grad_norm": 0.720973551273346,
+      "learning_rate": 7.414300871348681e-05,
+      "loss": 5.318,
+      "num_input_tokens_seen": 628752384,
+      "step": 4797
+    },
+    {
+      "epoch": 0.8207758897082398,
+      "grad_norm": 0.7904423475265503,
+      "learning_rate": 7.411983540186796e-05,
+      "loss": 5.2749,
+      "num_input_tokens_seen": 629145600,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8207758897082398,
+      "eval_accuracy": 0.1849405634261521,
+      "eval_loss": 5.730287075042725,
+      "eval_runtime": 109.3991,
+      "eval_samples_per_second": 2.742,
+      "eval_steps_per_second": 1.371,
+      "num_input_tokens_seen": 629145600,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8212888746393074,
+      "grad_norm": 0.7457066774368286,
+      "learning_rate": 7.409668380505084e-05,
+      "loss": 5.2593,
+      "num_input_tokens_seen": 629538816,
+      "step": 4803
+    },
+    {
+      "epoch": 0.8218018595703751,
+      "grad_norm": 0.7565402984619141,
+      "learning_rate": 7.407355388914312e-05,
+      "loss": 5.2582,
+      "num_input_tokens_seen": 629932032,
+      "step": 4806
+    },
+    {
+      "epoch": 0.8223148445014428,
+      "grad_norm": 0.7606648206710815,
+      "learning_rate": 7.40504456203265e-05,
+      "loss": 5.2638,
+      "num_input_tokens_seen": 630325248,
+      "step": 4809
+    },
+    {
+      "epoch": 0.8228278294325104,
+      "grad_norm": 0.7904190421104431,
+      "learning_rate": 7.40273589648565e-05,
+      "loss": 5.2671,
+      "num_input_tokens_seen": 630718464,
+      "step": 4812
+    },
+    {
+      "epoch": 0.8233408143635781,
+      "grad_norm": 0.736111581325531,
+      "learning_rate": 7.400429388906221e-05,
+      "loss": 5.271,
+      "num_input_tokens_seen": 631111680,
+      "step": 4815
+    },
+    {
+      "epoch": 0.8238537992946457,
+      "grad_norm": 0.7933962345123291,
+      "learning_rate": 7.398125035934614e-05,
+      "loss": 5.2411,
+      "num_input_tokens_seen": 631504896,
+      "step": 4818
+    },
+    {
+      "epoch": 0.8243667842257134,
+      "grad_norm": 0.8558014631271362,
+      "learning_rate": 7.395822834218396e-05,
+      "loss": 5.2648,
+      "num_input_tokens_seen": 631898112,
+      "step": 4821
+    },
+    {
+      "epoch": 0.8248797691567811,
+      "grad_norm": 0.7140774130821228,
+      "learning_rate": 7.393522780412432e-05,
+      "loss": 5.2415,
+      "num_input_tokens_seen": 632291328,
+      "step": 4824
+    },
+    {
+      "epoch": 0.8253927540878486,
+      "grad_norm": 0.7220463156700134,
+      "learning_rate": 7.391224871178872e-05,
+      "loss": 5.2234,
+      "num_input_tokens_seen": 632684544,
+      "step": 4827
+    },
+    {
+      "epoch": 0.8259057390189163,
+      "grad_norm": 0.6848180890083313,
+      "learning_rate": 7.388929103187108e-05,
+      "loss": 5.2656,
+      "num_input_tokens_seen": 633077760,
+      "step": 4830
+    },
+    {
+      "epoch": 0.826418723949984,
+      "grad_norm": 0.7403995990753174,
+      "learning_rate": 7.386635473113787e-05,
+      "loss": 5.2528,
+      "num_input_tokens_seen": 633470976,
+      "step": 4833
+    },
+    {
+      "epoch": 0.8269317088810516,
+      "grad_norm": 0.7096079587936401,
+      "learning_rate": 7.384343977642759e-05,
+      "loss": 5.2495,
+      "num_input_tokens_seen": 633864192,
+      "step": 4836
+    },
+    {
+      "epoch": 0.8274446938121193,
+      "grad_norm": 0.7836086750030518,
+      "learning_rate": 7.382054613465076e-05,
+      "loss": 5.2646,
+      "num_input_tokens_seen": 634257408,
+      "step": 4839
+    },
+    {
+      "epoch": 0.8279576787431869,
+      "grad_norm": 0.6579269766807556,
+      "learning_rate": 7.379767377278969e-05,
+      "loss": 5.2655,
+      "num_input_tokens_seen": 634650624,
+      "step": 4842
+    },
+    {
+      "epoch": 0.8284706636742546,
+      "grad_norm": 0.8051040768623352,
+      "learning_rate": 7.377482265789823e-05,
+      "loss": 5.2754,
+      "num_input_tokens_seen": 635043840,
+      "step": 4845
+    },
+    {
+      "epoch": 0.8289836486053223,
+      "grad_norm": 0.7173849940299988,
+      "learning_rate": 7.375199275710157e-05,
+      "loss": 5.2735,
+      "num_input_tokens_seen": 635437056,
+      "step": 4848
+    },
+    {
+      "epoch": 0.8294966335363899,
+      "grad_norm": 0.7025325298309326,
+      "learning_rate": 7.372918403759613e-05,
+      "loss": 5.2521,
+      "num_input_tokens_seen": 635830272,
+      "step": 4851
+    },
+    {
+      "epoch": 0.8300096184674575,
+      "grad_norm": 0.789348840713501,
+      "learning_rate": 7.370639646664927e-05,
+      "loss": 5.2772,
+      "num_input_tokens_seen": 636223488,
+      "step": 4854
+    },
+    {
+      "epoch": 0.8305226033985251,
+      "grad_norm": 0.727810263633728,
+      "learning_rate": 7.368363001159908e-05,
+      "loss": 5.2853,
+      "num_input_tokens_seen": 636616704,
+      "step": 4857
+    },
+    {
+      "epoch": 0.8310355883295928,
+      "grad_norm": 0.7564170956611633,
+      "learning_rate": 7.366088463985431e-05,
+      "loss": 5.2352,
+      "num_input_tokens_seen": 637009920,
+      "step": 4860
+    },
+    {
+      "epoch": 0.8315485732606605,
+      "grad_norm": 0.7294690012931824,
+      "learning_rate": 7.363816031889405e-05,
+      "loss": 5.2667,
+      "num_input_tokens_seen": 637403136,
+      "step": 4863
+    },
+    {
+      "epoch": 0.8320615581917281,
+      "grad_norm": 0.688892126083374,
+      "learning_rate": 7.361545701626754e-05,
+      "loss": 5.2515,
+      "num_input_tokens_seen": 637796352,
+      "step": 4866
+    },
+    {
+      "epoch": 0.8325745431227958,
+      "grad_norm": 0.7049474716186523,
+      "learning_rate": 7.359277469959405e-05,
+      "loss": 5.297,
+      "num_input_tokens_seen": 638189568,
+      "step": 4869
+    },
+    {
+      "epoch": 0.8330875280538634,
+      "grad_norm": 0.6854651570320129,
+      "learning_rate": 7.35701133365627e-05,
+      "loss": 5.1935,
+      "num_input_tokens_seen": 638582784,
+      "step": 4872
+    },
+    {
+      "epoch": 0.8336005129849311,
+      "grad_norm": 0.8255504965782166,
+      "learning_rate": 7.354747289493207e-05,
+      "loss": 5.2819,
+      "num_input_tokens_seen": 638976000,
+      "step": 4875
+    },
+    {
+      "epoch": 0.8341134979159988,
+      "grad_norm": 0.8443409204483032,
+      "learning_rate": 7.35248533425303e-05,
+      "loss": 5.2579,
+      "num_input_tokens_seen": 639369216,
+      "step": 4878
+    },
+    {
+      "epoch": 0.8346264828470664,
+      "grad_norm": 0.759077787399292,
+      "learning_rate": 7.350225464725466e-05,
+      "loss": 5.21,
+      "num_input_tokens_seen": 639762432,
+      "step": 4881
+    },
+    {
+      "epoch": 0.835139467778134,
+      "grad_norm": 0.6921237111091614,
+      "learning_rate": 7.347967677707148e-05,
+      "loss": 5.2795,
+      "num_input_tokens_seen": 640155648,
+      "step": 4884
+    },
+    {
+      "epoch": 0.8356524527092016,
+      "grad_norm": 0.6738846302032471,
+      "learning_rate": 7.345711970001593e-05,
+      "loss": 5.262,
+      "num_input_tokens_seen": 640548864,
+      "step": 4887
+    },
+    {
+      "epoch": 0.8361654376402693,
+      "grad_norm": 0.6597248315811157,
+      "learning_rate": 7.343458338419179e-05,
+      "loss": 5.2218,
+      "num_input_tokens_seen": 640942080,
+      "step": 4890
+    },
+    {
+      "epoch": 0.836678422571337,
+      "grad_norm": 0.8394546508789062,
+      "learning_rate": 7.341206779777132e-05,
+      "loss": 5.2289,
+      "num_input_tokens_seen": 641335296,
+      "step": 4893
+    },
+    {
+      "epoch": 0.8371914075024046,
+      "grad_norm": 0.7097527980804443,
+      "learning_rate": 7.338957290899508e-05,
+      "loss": 5.2544,
+      "num_input_tokens_seen": 641728512,
+      "step": 4896
+    },
+    {
+      "epoch": 0.8377043924334723,
+      "grad_norm": 0.7356297373771667,
+      "learning_rate": 7.336709868617169e-05,
+      "loss": 5.2585,
+      "num_input_tokens_seen": 642121728,
+      "step": 4899
+    },
+    {
+      "epoch": 0.8382173773645399,
+      "grad_norm": 0.7718103528022766,
+      "learning_rate": 7.334464509767758e-05,
+      "loss": 5.264,
+      "num_input_tokens_seen": 642514944,
+      "step": 4902
+    },
+    {
+      "epoch": 0.8387303622956076,
+      "grad_norm": 0.8452854156494141,
+      "learning_rate": 7.332221211195707e-05,
+      "loss": 5.2449,
+      "num_input_tokens_seen": 642908160,
+      "step": 4905
+    },
+    {
+      "epoch": 0.8392433472266753,
+      "grad_norm": 0.7810956239700317,
+      "learning_rate": 7.329979969752183e-05,
+      "loss": 5.264,
+      "num_input_tokens_seen": 643301376,
+      "step": 4908
+    },
+    {
+      "epoch": 0.8397563321577428,
+      "grad_norm": 0.7456896305084229,
+      "learning_rate": 7.327740782295093e-05,
+      "loss": 5.2423,
+      "num_input_tokens_seen": 643694592,
+      "step": 4911
+    },
+    {
+      "epoch": 0.8402693170888105,
+      "grad_norm": 0.6871115565299988,
+      "learning_rate": 7.325503645689056e-05,
+      "loss": 5.274,
+      "num_input_tokens_seen": 644087808,
+      "step": 4914
+    },
+    {
+      "epoch": 0.8407823020198781,
+      "grad_norm": 0.7335032820701599,
+      "learning_rate": 7.323268556805394e-05,
+      "loss": 5.2725,
+      "num_input_tokens_seen": 644481024,
+      "step": 4917
+    },
+    {
+      "epoch": 0.8412952869509458,
+      "grad_norm": 0.8171728849411011,
+      "learning_rate": 7.321035512522102e-05,
+      "loss": 5.2408,
+      "num_input_tokens_seen": 644874240,
+      "step": 4920
+    },
+    {
+      "epoch": 0.8418082718820135,
+      "grad_norm": 0.7723347544670105,
+      "learning_rate": 7.318804509723834e-05,
+      "loss": 5.254,
+      "num_input_tokens_seen": 645267456,
+      "step": 4923
+    },
+    {
+      "epoch": 0.8423212568130811,
+      "grad_norm": 0.7238738536834717,
+      "learning_rate": 7.316575545301888e-05,
+      "loss": 5.2625,
+      "num_input_tokens_seen": 645660672,
+      "step": 4926
+    },
+    {
+      "epoch": 0.8428342417441488,
+      "grad_norm": 0.638489842414856,
+      "learning_rate": 7.314348616154184e-05,
+      "loss": 5.2686,
+      "num_input_tokens_seen": 646053888,
+      "step": 4929
+    },
+    {
+      "epoch": 0.8433472266752164,
+      "grad_norm": 0.6416002511978149,
+      "learning_rate": 7.31212371918525e-05,
+      "loss": 5.2102,
+      "num_input_tokens_seen": 646447104,
+      "step": 4932
+    },
+    {
+      "epoch": 0.8438602116062841,
+      "grad_norm": 0.7499914169311523,
+      "learning_rate": 7.309900851306195e-05,
+      "loss": 5.2976,
+      "num_input_tokens_seen": 646840320,
+      "step": 4935
+    },
+    {
+      "epoch": 0.8443731965373518,
+      "grad_norm": 0.7242657542228699,
+      "learning_rate": 7.307680009434705e-05,
+      "loss": 5.3085,
+      "num_input_tokens_seen": 647233536,
+      "step": 4938
+    },
+    {
+      "epoch": 0.8448861814684193,
+      "grad_norm": 0.6967840790748596,
+      "learning_rate": 7.30546119049501e-05,
+      "loss": 5.247,
+      "num_input_tokens_seen": 647626752,
+      "step": 4941
+    },
+    {
+      "epoch": 0.845399166399487,
+      "grad_norm": 0.7176790237426758,
+      "learning_rate": 7.303244391417879e-05,
+      "loss": 5.2728,
+      "num_input_tokens_seen": 648019968,
+      "step": 4944
+    },
+    {
+      "epoch": 0.8459121513305546,
+      "grad_norm": 0.6905176043510437,
+      "learning_rate": 7.30102960914059e-05,
+      "loss": 5.2653,
+      "num_input_tokens_seen": 648413184,
+      "step": 4947
+    },
+    {
+      "epoch": 0.8464251362616223,
+      "grad_norm": 0.731937050819397,
+      "learning_rate": 7.298816840606925e-05,
+      "loss": 5.2449,
+      "num_input_tokens_seen": 648806400,
+      "step": 4950
+    },
+    {
+      "epoch": 0.84693812119269,
+      "grad_norm": 0.733711302280426,
+      "learning_rate": 7.296606082767145e-05,
+      "loss": 5.2083,
+      "num_input_tokens_seen": 649199616,
+      "step": 4953
+    },
+    {
+      "epoch": 0.8474511061237576,
+      "grad_norm": 0.7619096040725708,
+      "learning_rate": 7.294397332577968e-05,
+      "loss": 5.2159,
+      "num_input_tokens_seen": 649592832,
+      "step": 4956
+    },
+    {
+      "epoch": 0.8479640910548253,
+      "grad_norm": 0.7431106567382812,
+      "learning_rate": 7.292190587002563e-05,
+      "loss": 5.2721,
+      "num_input_tokens_seen": 649986048,
+      "step": 4959
+    },
+    {
+      "epoch": 0.848477075985893,
+      "grad_norm": 0.7448694705963135,
+      "learning_rate": 7.28998584301052e-05,
+      "loss": 5.2766,
+      "num_input_tokens_seen": 650379264,
+      "step": 4962
+    },
+    {
+      "epoch": 0.8489900609169606,
+      "grad_norm": 0.6657842397689819,
+      "learning_rate": 7.287783097577849e-05,
+      "loss": 5.2348,
+      "num_input_tokens_seen": 650772480,
+      "step": 4965
+    },
+    {
+      "epoch": 0.8495030458480282,
+      "grad_norm": 0.7611784934997559,
+      "learning_rate": 7.28558234768694e-05,
+      "loss": 5.2712,
+      "num_input_tokens_seen": 651165696,
+      "step": 4968
+    },
+    {
+      "epoch": 0.8500160307790958,
+      "grad_norm": 0.678893506526947,
+      "learning_rate": 7.283383590326562e-05,
+      "loss": 5.233,
+      "num_input_tokens_seen": 651558912,
+      "step": 4971
+    },
+    {
+      "epoch": 0.8505290157101635,
+      "grad_norm": 0.7050936818122864,
+      "learning_rate": 7.281186822491848e-05,
+      "loss": 5.2726,
+      "num_input_tokens_seen": 651952128,
+      "step": 4974
+    },
+    {
+      "epoch": 0.8510420006412311,
+      "grad_norm": 0.7030792236328125,
+      "learning_rate": 7.278992041184265e-05,
+      "loss": 5.2673,
+      "num_input_tokens_seen": 652345344,
+      "step": 4977
+    },
+    {
+      "epoch": 0.8515549855722988,
+      "grad_norm": 0.7716869115829468,
+      "learning_rate": 7.276799243411601e-05,
+      "loss": 5.2385,
+      "num_input_tokens_seen": 652738560,
+      "step": 4980
+    },
+    {
+      "epoch": 0.8520679705033665,
+      "grad_norm": 0.6835726499557495,
+      "learning_rate": 7.274608426187958e-05,
+      "loss": 5.2496,
+      "num_input_tokens_seen": 653131776,
+      "step": 4983
+    },
+    {
+      "epoch": 0.8525809554344341,
+      "grad_norm": 0.8090899586677551,
+      "learning_rate": 7.272419586533719e-05,
+      "loss": 5.2421,
+      "num_input_tokens_seen": 653524992,
+      "step": 4986
+    },
+    {
+      "epoch": 0.8530939403655018,
+      "grad_norm": 0.7765442728996277,
+      "learning_rate": 7.270232721475544e-05,
+      "loss": 5.2459,
+      "num_input_tokens_seen": 653918208,
+      "step": 4989
+    },
+    {
+      "epoch": 0.8536069252965695,
+      "grad_norm": 0.7543562650680542,
+      "learning_rate": 7.268047828046345e-05,
+      "loss": 5.2362,
+      "num_input_tokens_seen": 654311424,
+      "step": 4992
+    },
+    {
+      "epoch": 0.8541199102276371,
+      "grad_norm": 0.7674638628959656,
+      "learning_rate": 7.265864903285278e-05,
+      "loss": 5.1859,
+      "num_input_tokens_seen": 654704640,
+      "step": 4995
+    },
+    {
+      "epoch": 0.8546328951587047,
+      "grad_norm": 0.7830629348754883,
+      "learning_rate": 7.263683944237711e-05,
+      "loss": 5.2391,
+      "num_input_tokens_seen": 655097856,
+      "step": 4998
+    },
+    {
+      "epoch": 0.8551458800897723,
+      "grad_norm": 0.8434771299362183,
+      "learning_rate": 7.261504947955222e-05,
+      "loss": 5.2177,
+      "num_input_tokens_seen": 655491072,
+      "step": 5001
+    },
+    {
+      "epoch": 0.85565886502084,
+      "grad_norm": 0.6819344162940979,
+      "learning_rate": 7.259327911495573e-05,
+      "loss": 5.245,
+      "num_input_tokens_seen": 655884288,
+      "step": 5004
+    },
+    {
+      "epoch": 0.8561718499519076,
+      "grad_norm": 0.6312018632888794,
+      "learning_rate": 7.257152831922706e-05,
+      "loss": 5.2205,
+      "num_input_tokens_seen": 656277504,
+      "step": 5007
+    },
+    {
+      "epoch": 0.8566848348829753,
+      "grad_norm": 0.7521694898605347,
+      "learning_rate": 7.254979706306706e-05,
+      "loss": 5.2303,
+      "num_input_tokens_seen": 656670720,
+      "step": 5010
+    },
+    {
+      "epoch": 0.857197819814043,
+      "grad_norm": 0.7708764672279358,
+      "learning_rate": 7.252808531723802e-05,
+      "loss": 5.2255,
+      "num_input_tokens_seen": 657063936,
+      "step": 5013
+    },
+    {
+      "epoch": 0.8577108047451106,
+      "grad_norm": 0.7379157543182373,
+      "learning_rate": 7.250639305256345e-05,
+      "loss": 5.2368,
+      "num_input_tokens_seen": 657457152,
+      "step": 5016
+    },
+    {
+      "epoch": 0.8582237896761783,
+      "grad_norm": 0.7467489242553711,
+      "learning_rate": 7.248472023992787e-05,
+      "loss": 5.2539,
+      "num_input_tokens_seen": 657850368,
+      "step": 5019
+    },
+    {
+      "epoch": 0.858736774607246,
+      "grad_norm": 0.7960140109062195,
+      "learning_rate": 7.24630668502767e-05,
+      "loss": 5.243,
+      "num_input_tokens_seen": 658243584,
+      "step": 5022
+    },
+    {
+      "epoch": 0.8592497595383135,
+      "grad_norm": 0.8107805252075195,
+      "learning_rate": 7.244143285461608e-05,
+      "loss": 5.2573,
+      "num_input_tokens_seen": 658636800,
+      "step": 5025
+    },
+    {
+      "epoch": 0.8597627444693812,
+      "grad_norm": 0.8108943104743958,
+      "learning_rate": 7.241981822401273e-05,
+      "loss": 5.1838,
+      "num_input_tokens_seen": 659030016,
+      "step": 5028
+    },
+    {
+      "epoch": 0.8602757294004488,
+      "grad_norm": 0.6969135403633118,
+      "learning_rate": 7.23982229295937e-05,
+      "loss": 5.2806,
+      "num_input_tokens_seen": 659423232,
+      "step": 5031
+    },
+    {
+      "epoch": 0.8607887143315165,
+      "grad_norm": 0.6890487670898438,
+      "learning_rate": 7.237664694254637e-05,
+      "loss": 5.2691,
+      "num_input_tokens_seen": 659816448,
+      "step": 5034
+    },
+    {
+      "epoch": 0.8613016992625842,
+      "grad_norm": 0.6614696979522705,
+      "learning_rate": 7.235509023411809e-05,
+      "loss": 5.2033,
+      "num_input_tokens_seen": 660209664,
+      "step": 5037
+    },
+    {
+      "epoch": 0.8618146841936518,
+      "grad_norm": 0.6726818680763245,
+      "learning_rate": 7.233355277561621e-05,
+      "loss": 5.2619,
+      "num_input_tokens_seen": 660602880,
+      "step": 5040
+    },
+    {
+      "epoch": 0.8623276691247195,
+      "grad_norm": 0.7320277094841003,
+      "learning_rate": 7.231203453840776e-05,
+      "loss": 5.2354,
+      "num_input_tokens_seen": 660996096,
+      "step": 5043
+    },
+    {
+      "epoch": 0.8628406540557871,
+      "grad_norm": 0.641864001750946,
+      "learning_rate": 7.22905354939194e-05,
+      "loss": 5.2346,
+      "num_input_tokens_seen": 661389312,
+      "step": 5046
+    },
+    {
+      "epoch": 0.8633536389868548,
+      "grad_norm": 0.7307341694831848,
+      "learning_rate": 7.22690556136372e-05,
+      "loss": 5.2156,
+      "num_input_tokens_seen": 661782528,
+      "step": 5049
+    },
+    {
+      "epoch": 0.8638666239179225,
+      "grad_norm": 0.7401044368743896,
+      "learning_rate": 7.22475948691065e-05,
+      "loss": 5.275,
+      "num_input_tokens_seen": 662175744,
+      "step": 5052
+    },
+    {
+      "epoch": 0.86437960884899,
+      "grad_norm": 0.7346693873405457,
+      "learning_rate": 7.22261532319318e-05,
+      "loss": 5.2385,
+      "num_input_tokens_seen": 662568960,
+      "step": 5055
+    },
+    {
+      "epoch": 0.8648925937800577,
+      "grad_norm": 0.7968463897705078,
+      "learning_rate": 7.220473067377648e-05,
+      "loss": 5.229,
+      "num_input_tokens_seen": 662962176,
+      "step": 5058
+    },
+    {
+      "epoch": 0.8654055787111253,
+      "grad_norm": 0.7128798961639404,
+      "learning_rate": 7.218332716636276e-05,
+      "loss": 5.2253,
+      "num_input_tokens_seen": 663355392,
+      "step": 5061
+    },
+    {
+      "epoch": 0.865918563642193,
+      "grad_norm": 0.6696746945381165,
+      "learning_rate": 7.216194268147151e-05,
+      "loss": 5.183,
+      "num_input_tokens_seen": 663748608,
+      "step": 5064
+    },
+    {
+      "epoch": 0.8664315485732607,
+      "grad_norm": 0.8338589668273926,
+      "learning_rate": 7.214057719094208e-05,
+      "loss": 5.1871,
+      "num_input_tokens_seen": 664141824,
+      "step": 5067
+    },
+    {
+      "epoch": 0.8669445335043283,
+      "grad_norm": 0.8238839507102966,
+      "learning_rate": 7.211923066667213e-05,
+      "loss": 5.2382,
+      "num_input_tokens_seen": 664535040,
+      "step": 5070
+    },
+    {
+      "epoch": 0.867457518435396,
+      "grad_norm": 0.883547306060791,
+      "learning_rate": 7.20979030806175e-05,
+      "loss": 5.2703,
+      "num_input_tokens_seen": 664928256,
+      "step": 5073
+    },
+    {
+      "epoch": 0.8679705033664636,
+      "grad_norm": 0.8404785394668579,
+      "learning_rate": 7.207659440479209e-05,
+      "loss": 5.2057,
+      "num_input_tokens_seen": 665321472,
+      "step": 5076
+    },
+    {
+      "epoch": 0.8684834882975313,
+      "grad_norm": 0.8399271368980408,
+      "learning_rate": 7.20553046112676e-05,
+      "loss": 5.2319,
+      "num_input_tokens_seen": 665714688,
+      "step": 5079
+    },
+    {
+      "epoch": 0.868996473228599,
+      "grad_norm": 0.8033043742179871,
+      "learning_rate": 7.203403367217348e-05,
+      "loss": 5.2562,
+      "num_input_tokens_seen": 666107904,
+      "step": 5082
+    },
+    {
+      "epoch": 0.8695094581596665,
+      "grad_norm": 0.8439496159553528,
+      "learning_rate": 7.201278155969676e-05,
+      "loss": 5.2529,
+      "num_input_tokens_seen": 666501120,
+      "step": 5085
+    },
+    {
+      "epoch": 0.8700224430907342,
+      "grad_norm": 0.7626810669898987,
+      "learning_rate": 7.19915482460818e-05,
+      "loss": 5.261,
+      "num_input_tokens_seen": 666894336,
+      "step": 5088
+    },
+    {
+      "epoch": 0.8705354280218018,
+      "grad_norm": 0.8755491375923157,
+      "learning_rate": 7.197033370363028e-05,
+      "loss": 5.2855,
+      "num_input_tokens_seen": 667287552,
+      "step": 5091
+    },
+    {
+      "epoch": 0.8710484129528695,
+      "grad_norm": 0.8308954238891602,
+      "learning_rate": 7.1949137904701e-05,
+      "loss": 5.234,
+      "num_input_tokens_seen": 667680768,
+      "step": 5094
+    },
+    {
+      "epoch": 0.8715613978839372,
+      "grad_norm": 0.748672604560852,
+      "learning_rate": 7.192796082170961e-05,
+      "loss": 5.2332,
+      "num_input_tokens_seen": 668073984,
+      "step": 5097
+    },
+    {
+      "epoch": 0.8720743828150048,
+      "grad_norm": 0.8005703687667847,
+      "learning_rate": 7.190680242712868e-05,
+      "loss": 5.2514,
+      "num_input_tokens_seen": 668467200,
+      "step": 5100
+    },
+    {
+      "epoch": 0.8725873677460725,
+      "grad_norm": 0.653659462928772,
+      "learning_rate": 7.18856626934873e-05,
+      "loss": 5.2233,
+      "num_input_tokens_seen": 668860416,
+      "step": 5103
+    },
+    {
+      "epoch": 0.8731003526771401,
+      "grad_norm": 0.7143151760101318,
+      "learning_rate": 7.186454159337121e-05,
+      "loss": 5.2236,
+      "num_input_tokens_seen": 669253632,
+      "step": 5106
+    },
+    {
+      "epoch": 0.8736133376082078,
+      "grad_norm": 0.7480143904685974,
+      "learning_rate": 7.184343909942239e-05,
+      "loss": 5.1812,
+      "num_input_tokens_seen": 669646848,
+      "step": 5109
+    },
+    {
+      "epoch": 0.8741263225392754,
+      "grad_norm": 0.7663584351539612,
+      "learning_rate": 7.182235518433903e-05,
+      "loss": 5.211,
+      "num_input_tokens_seen": 670040064,
+      "step": 5112
+    },
+    {
+      "epoch": 0.874639307470343,
+      "grad_norm": 0.7375966310501099,
+      "learning_rate": 7.180128982087541e-05,
+      "loss": 5.2147,
+      "num_input_tokens_seen": 670433280,
+      "step": 5115
+    },
+    {
+      "epoch": 0.8751522924014107,
+      "grad_norm": 0.7116428017616272,
+      "learning_rate": 7.178024298184173e-05,
+      "loss": 5.2005,
+      "num_input_tokens_seen": 670826496,
+      "step": 5118
+    },
+    {
+      "epoch": 0.8756652773324783,
+      "grad_norm": 0.7579666972160339,
+      "learning_rate": 7.175921464010388e-05,
+      "loss": 5.2272,
+      "num_input_tokens_seen": 671219712,
+      "step": 5121
+    },
+    {
+      "epoch": 0.876178262263546,
+      "grad_norm": 0.8425345420837402,
+      "learning_rate": 7.173820476858339e-05,
+      "loss": 5.2347,
+      "num_input_tokens_seen": 671612928,
+      "step": 5124
+    },
+    {
+      "epoch": 0.8766912471946137,
+      "grad_norm": 0.7112694382667542,
+      "learning_rate": 7.171721334025732e-05,
+      "loss": 5.2224,
+      "num_input_tokens_seen": 672006144,
+      "step": 5127
+    },
+    {
+      "epoch": 0.8772042321256813,
+      "grad_norm": 0.798812747001648,
+      "learning_rate": 7.169624032815794e-05,
+      "loss": 5.2049,
+      "num_input_tokens_seen": 672399360,
+      "step": 5130
+    },
+    {
+      "epoch": 0.877717217056749,
+      "grad_norm": 0.8146517872810364,
+      "learning_rate": 7.167528570537277e-05,
+      "loss": 5.2076,
+      "num_input_tokens_seen": 672792576,
+      "step": 5133
+    },
+    {
+      "epoch": 0.8782302019878166,
+      "grad_norm": 0.7291656732559204,
+      "learning_rate": 7.165434944504431e-05,
+      "loss": 5.1914,
+      "num_input_tokens_seen": 673185792,
+      "step": 5136
+    },
+    {
+      "epoch": 0.8787431869188843,
+      "grad_norm": 0.9471056461334229,
+      "learning_rate": 7.163343152036998e-05,
+      "loss": 5.267,
+      "num_input_tokens_seen": 673579008,
+      "step": 5139
+    },
+    {
+      "epoch": 0.8792561718499519,
+      "grad_norm": 0.6661033034324646,
+      "learning_rate": 7.161253190460194e-05,
+      "loss": 5.2058,
+      "num_input_tokens_seen": 673972224,
+      "step": 5142
+    },
+    {
+      "epoch": 0.8797691567810195,
+      "grad_norm": 0.7200859189033508,
+      "learning_rate": 7.159165057104689e-05,
+      "loss": 5.1633,
+      "num_input_tokens_seen": 674365440,
+      "step": 5145
+    },
+    {
+      "epoch": 0.8802821417120872,
+      "grad_norm": 0.8545052409172058,
+      "learning_rate": 7.157078749306606e-05,
+      "loss": 5.2405,
+      "num_input_tokens_seen": 674758656,
+      "step": 5148
+    },
+    {
+      "epoch": 0.8807951266431548,
+      "grad_norm": 0.785458505153656,
+      "learning_rate": 7.154994264407493e-05,
+      "loss": 5.2005,
+      "num_input_tokens_seen": 675151872,
+      "step": 5151
+    },
+    {
+      "epoch": 0.8813081115742225,
+      "grad_norm": 0.7209606170654297,
+      "learning_rate": 7.152911599754318e-05,
+      "loss": 5.2581,
+      "num_input_tokens_seen": 675545088,
+      "step": 5154
+    },
+    {
+      "epoch": 0.8818210965052902,
+      "grad_norm": 0.688242495059967,
+      "learning_rate": 7.15083075269945e-05,
+      "loss": 5.2225,
+      "num_input_tokens_seen": 675938304,
+      "step": 5157
+    },
+    {
+      "epoch": 0.8823340814363578,
+      "grad_norm": 0.7452808618545532,
+      "learning_rate": 7.148751720600645e-05,
+      "loss": 5.1834,
+      "num_input_tokens_seen": 676331520,
+      "step": 5160
+    },
+    {
+      "epoch": 0.8828470663674255,
+      "grad_norm": 0.7830954790115356,
+      "learning_rate": 7.146674500821039e-05,
+      "loss": 5.1773,
+      "num_input_tokens_seen": 676724736,
+      "step": 5163
+    },
+    {
+      "epoch": 0.8833600512984932,
+      "grad_norm": 0.7248668074607849,
+      "learning_rate": 7.144599090729122e-05,
+      "loss": 5.2314,
+      "num_input_tokens_seen": 677117952,
+      "step": 5166
+    },
+    {
+      "epoch": 0.8838730362295607,
+      "grad_norm": 0.8058164715766907,
+      "learning_rate": 7.142525487698731e-05,
+      "loss": 5.2789,
+      "num_input_tokens_seen": 677511168,
+      "step": 5169
+    },
+    {
+      "epoch": 0.8843860211606284,
+      "grad_norm": 0.70136958360672,
+      "learning_rate": 7.140453689109039e-05,
+      "loss": 5.272,
+      "num_input_tokens_seen": 677904384,
+      "step": 5172
+    },
+    {
+      "epoch": 0.884899006091696,
+      "grad_norm": 0.8600161671638489,
+      "learning_rate": 7.138383692344537e-05,
+      "loss": 5.2665,
+      "num_input_tokens_seen": 678297600,
+      "step": 5175
+    },
+    {
+      "epoch": 0.8854119910227637,
+      "grad_norm": 0.7736455202102661,
+      "learning_rate": 7.136315494795016e-05,
+      "loss": 5.2499,
+      "num_input_tokens_seen": 678690816,
+      "step": 5178
+    },
+    {
+      "epoch": 0.8859249759538314,
+      "grad_norm": 0.8731935024261475,
+      "learning_rate": 7.134249093855563e-05,
+      "loss": 5.2628,
+      "num_input_tokens_seen": 679084032,
+      "step": 5181
+    },
+    {
+      "epoch": 0.886437960884899,
+      "grad_norm": 0.7711248993873596,
+      "learning_rate": 7.132184486926537e-05,
+      "loss": 5.2459,
+      "num_input_tokens_seen": 679477248,
+      "step": 5184
+    },
+    {
+      "epoch": 0.8869509458159667,
+      "grad_norm": 0.7357232570648193,
+      "learning_rate": 7.130121671413564e-05,
+      "loss": 5.239,
+      "num_input_tokens_seen": 679870464,
+      "step": 5187
+    },
+    {
+      "epoch": 0.8874639307470343,
+      "grad_norm": 0.7501398324966431,
+      "learning_rate": 7.128060644727519e-05,
+      "loss": 5.2204,
+      "num_input_tokens_seen": 680263680,
+      "step": 5190
+    },
+    {
+      "epoch": 0.887976915678102,
+      "grad_norm": 0.7075851559638977,
+      "learning_rate": 7.12600140428451e-05,
+      "loss": 5.1888,
+      "num_input_tokens_seen": 680656896,
+      "step": 5193
+    },
+    {
+      "epoch": 0.8884899006091697,
+      "grad_norm": 0.7382627725601196,
+      "learning_rate": 7.123943947505872e-05,
+      "loss": 5.2237,
+      "num_input_tokens_seen": 681050112,
+      "step": 5196
+    },
+    {
+      "epoch": 0.8890028855402372,
+      "grad_norm": 0.6421706676483154,
+      "learning_rate": 7.121888271818144e-05,
+      "loss": 5.2264,
+      "num_input_tokens_seen": 681443328,
+      "step": 5199
+    },
+    {
+      "epoch": 0.8891738805172598,
+      "eval_accuracy": 0.18500407099820876,
+      "eval_loss": 5.699267387390137,
+      "eval_runtime": 109.3374,
+      "eval_samples_per_second": 2.744,
+      "eval_steps_per_second": 1.372,
+      "num_input_tokens_seen": 681574400,
+      "step": 5200
+    },
+    {
+      "epoch": 0.8895158704713049,
+      "grad_norm": 0.7272650599479675,
+      "learning_rate": 7.11983437465306e-05,
+      "loss": 5.298,
+      "num_input_tokens_seen": 681836544,
+      "step": 5202
+    },
+    {
+      "epoch": 0.8900288554023725,
+      "grad_norm": 0.6727803945541382,
+      "learning_rate": 7.117782253447543e-05,
+      "loss": 5.2554,
+      "num_input_tokens_seen": 682229760,
+      "step": 5205
+    },
+    {
+      "epoch": 0.8905418403334402,
+      "grad_norm": 0.713238000869751,
+      "learning_rate": 7.115731905643676e-05,
+      "loss": 5.2232,
+      "num_input_tokens_seen": 682622976,
+      "step": 5208
+    },
+    {
+      "epoch": 0.8910548252645079,
+      "grad_norm": 0.8077900409698486,
+      "learning_rate": 7.1136833286887e-05,
+      "loss": 5.188,
+      "num_input_tokens_seen": 683016192,
+      "step": 5211
+    },
+    {
+      "epoch": 0.8915678101955755,
+      "grad_norm": 0.694200873374939,
+      "learning_rate": 7.111636520034998e-05,
+      "loss": 5.2278,
+      "num_input_tokens_seen": 683409408,
+      "step": 5214
+    },
+    {
+      "epoch": 0.8920807951266432,
+      "grad_norm": 0.723655104637146,
+      "learning_rate": 7.109591477140081e-05,
+      "loss": 5.2641,
+      "num_input_tokens_seen": 683802624,
+      "step": 5217
+    },
+    {
+      "epoch": 0.8925937800577108,
+      "grad_norm": 0.7347647547721863,
+      "learning_rate": 7.107548197466574e-05,
+      "loss": 5.2124,
+      "num_input_tokens_seen": 684195840,
+      "step": 5220
+    },
+    {
+      "epoch": 0.8931067649887785,
+      "grad_norm": 0.7525767087936401,
+      "learning_rate": 7.105506678482202e-05,
+      "loss": 5.255,
+      "num_input_tokens_seen": 684589056,
+      "step": 5223
+    },
+    {
+      "epoch": 0.893619749919846,
+      "grad_norm": 0.7006353735923767,
+      "learning_rate": 7.103466917659785e-05,
+      "loss": 5.2275,
+      "num_input_tokens_seen": 684982272,
+      "step": 5226
+    },
+    {
+      "epoch": 0.8941327348509137,
+      "grad_norm": 0.7175182700157166,
+      "learning_rate": 7.101428912477212e-05,
+      "loss": 5.2545,
+      "num_input_tokens_seen": 685375488,
+      "step": 5229
+    },
+    {
+      "epoch": 0.8946457197819814,
+      "grad_norm": 0.692328691482544,
+      "learning_rate": 7.099392660417439e-05,
+      "loss": 5.1934,
+      "num_input_tokens_seen": 685768704,
+      "step": 5232
+    },
+    {
+      "epoch": 0.895158704713049,
+      "grad_norm": 0.6852241158485413,
+      "learning_rate": 7.097358158968464e-05,
+      "loss": 5.2326,
+      "num_input_tokens_seen": 686161920,
+      "step": 5235
+    },
+    {
+      "epoch": 0.8956716896441167,
+      "grad_norm": 0.7024674415588379,
+      "learning_rate": 7.095325405623328e-05,
+      "loss": 5.2226,
+      "num_input_tokens_seen": 686555136,
+      "step": 5238
+    },
+    {
+      "epoch": 0.8961846745751844,
+      "grad_norm": 0.6983912587165833,
+      "learning_rate": 7.093294397880095e-05,
+      "loss": 5.2614,
+      "num_input_tokens_seen": 686948352,
+      "step": 5241
+    },
+    {
+      "epoch": 0.896697659506252,
+      "grad_norm": 0.7533532381057739,
+      "learning_rate": 7.091265133241835e-05,
+      "loss": 5.2038,
+      "num_input_tokens_seen": 687341568,
+      "step": 5244
+    },
+    {
+      "epoch": 0.8972106444373197,
+      "grad_norm": 0.7239729166030884,
+      "learning_rate": 7.08923760921662e-05,
+      "loss": 5.2062,
+      "num_input_tokens_seen": 687734784,
+      "step": 5247
+    },
+    {
+      "epoch": 0.8977236293683873,
+      "grad_norm": 0.9106455445289612,
+      "learning_rate": 7.087211823317505e-05,
+      "loss": 5.1852,
+      "num_input_tokens_seen": 688128000,
+      "step": 5250
+    },
+    {
+      "epoch": 0.898236614299455,
+      "grad_norm": 0.7044593691825867,
+      "learning_rate": 7.085187773062514e-05,
+      "loss": 5.2111,
+      "num_input_tokens_seen": 688521216,
+      "step": 5253
+    },
+    {
+      "epoch": 0.8987495992305226,
+      "grad_norm": 0.7331400513648987,
+      "learning_rate": 7.083165455974633e-05,
+      "loss": 5.212,
+      "num_input_tokens_seen": 688914432,
+      "step": 5256
+    },
+    {
+      "epoch": 0.8992625841615902,
+      "grad_norm": 0.7778918743133545,
+      "learning_rate": 7.081144869581792e-05,
+      "loss": 5.1951,
+      "num_input_tokens_seen": 689307648,
+      "step": 5259
+    },
+    {
+      "epoch": 0.8997755690926579,
+      "grad_norm": 0.7159865498542786,
+      "learning_rate": 7.079126011416861e-05,
+      "loss": 5.1574,
+      "num_input_tokens_seen": 689700864,
+      "step": 5262
+    },
+    {
+      "epoch": 0.9002885540237255,
+      "grad_norm": 0.7375167012214661,
+      "learning_rate": 7.077108879017622e-05,
+      "loss": 5.2498,
+      "num_input_tokens_seen": 690094080,
+      "step": 5265
+    },
+    {
+      "epoch": 0.9008015389547932,
+      "grad_norm": 0.7126013040542603,
+      "learning_rate": 7.075093469926772e-05,
+      "loss": 5.2121,
+      "num_input_tokens_seen": 690487296,
+      "step": 5268
+    },
+    {
+      "epoch": 0.9013145238858609,
+      "grad_norm": 0.7177429795265198,
+      "learning_rate": 7.073079781691898e-05,
+      "loss": 5.2539,
+      "num_input_tokens_seen": 690880512,
+      "step": 5271
+    },
+    {
+      "epoch": 0.9018275088169285,
+      "grad_norm": 0.7073779106140137,
+      "learning_rate": 7.071067811865475e-05,
+      "loss": 5.2696,
+      "num_input_tokens_seen": 691273728,
+      "step": 5274
+    },
+    {
+      "epoch": 0.9023404937479962,
+      "grad_norm": 0.8069375157356262,
+      "learning_rate": 7.069057558004847e-05,
+      "loss": 5.1789,
+      "num_input_tokens_seen": 691666944,
+      "step": 5277
+    },
+    {
+      "epoch": 0.9028534786790638,
+      "grad_norm": 0.7410465478897095,
+      "learning_rate": 7.067049017672214e-05,
+      "loss": 5.2048,
+      "num_input_tokens_seen": 692060160,
+      "step": 5280
+    },
+    {
+      "epoch": 0.9033664636101314,
+      "grad_norm": 0.9009111523628235,
+      "learning_rate": 7.065042188434626e-05,
+      "loss": 5.2126,
+      "num_input_tokens_seen": 692453376,
+      "step": 5283
+    },
+    {
+      "epoch": 0.9038794485411991,
+      "grad_norm": 0.670901358127594,
+      "learning_rate": 7.063037067863967e-05,
+      "loss": 5.2405,
+      "num_input_tokens_seen": 692846592,
+      "step": 5286
+    },
+    {
+      "epoch": 0.9043924334722667,
+      "grad_norm": 0.666654646396637,
+      "learning_rate": 7.061033653536935e-05,
+      "loss": 5.2376,
+      "num_input_tokens_seen": 693239808,
+      "step": 5289
+    },
+    {
+      "epoch": 0.9049054184033344,
+      "grad_norm": 0.8325378894805908,
+      "learning_rate": 7.059031943035043e-05,
+      "loss": 5.175,
+      "num_input_tokens_seen": 693633024,
+      "step": 5292
+    },
+    {
+      "epoch": 0.905418403334402,
+      "grad_norm": 0.7429814338684082,
+      "learning_rate": 7.0570319339446e-05,
+      "loss": 5.2228,
+      "num_input_tokens_seen": 694026240,
+      "step": 5295
+    },
+    {
+      "epoch": 0.9059313882654697,
+      "grad_norm": 0.7891907095909119,
+      "learning_rate": 7.055033623856699e-05,
+      "loss": 5.2153,
+      "num_input_tokens_seen": 694419456,
+      "step": 5298
+    },
+    {
+      "epoch": 0.9064443731965374,
+      "grad_norm": 0.6809067726135254,
+      "learning_rate": 7.053037010367201e-05,
+      "loss": 5.1762,
+      "num_input_tokens_seen": 694812672,
+      "step": 5301
+    },
+    {
+      "epoch": 0.906957358127605,
+      "grad_norm": 0.721263587474823,
+      "learning_rate": 7.051042091076731e-05,
+      "loss": 5.2516,
+      "num_input_tokens_seen": 695205888,
+      "step": 5304
+    },
+    {
+      "epoch": 0.9074703430586727,
+      "grad_norm": 0.7249355912208557,
+      "learning_rate": 7.049048863590665e-05,
+      "loss": 5.211,
+      "num_input_tokens_seen": 695599104,
+      "step": 5307
+    },
+    {
+      "epoch": 0.9079833279897404,
+      "grad_norm": 0.7684010863304138,
+      "learning_rate": 7.047057325519109e-05,
+      "loss": 5.1956,
+      "num_input_tokens_seen": 695992320,
+      "step": 5310
+    },
+    {
+      "epoch": 0.9084963129208079,
+      "grad_norm": 0.8806822299957275,
+      "learning_rate": 7.045067474476893e-05,
+      "loss": 5.2286,
+      "num_input_tokens_seen": 696385536,
+      "step": 5313
+    },
+    {
+      "epoch": 0.9090092978518756,
+      "grad_norm": 0.8653072714805603,
+      "learning_rate": 7.043079308083562e-05,
+      "loss": 5.1777,
+      "num_input_tokens_seen": 696778752,
+      "step": 5316
+    },
+    {
+      "epoch": 0.9095222827829432,
+      "grad_norm": 0.8760643601417542,
+      "learning_rate": 7.041092823963362e-05,
+      "loss": 5.195,
+      "num_input_tokens_seen": 697171968,
+      "step": 5319
+    },
+    {
+      "epoch": 0.9100352677140109,
+      "grad_norm": 0.7858259081840515,
+      "learning_rate": 7.03910801974522e-05,
+      "loss": 5.2221,
+      "num_input_tokens_seen": 697565184,
+      "step": 5322
+    },
+    {
+      "epoch": 0.9105482526450785,
+      "grad_norm": 0.7364184856414795,
+      "learning_rate": 7.037124893062746e-05,
+      "loss": 5.1735,
+      "num_input_tokens_seen": 697958400,
+      "step": 5325
+    },
+    {
+      "epoch": 0.9110612375761462,
+      "grad_norm": 0.6950361132621765,
+      "learning_rate": 7.03514344155421e-05,
+      "loss": 5.2196,
+      "num_input_tokens_seen": 698351616,
+      "step": 5328
+    },
+    {
+      "epoch": 0.9115742225072139,
+      "grad_norm": 0.7385085821151733,
+      "learning_rate": 7.03316366286254e-05,
+      "loss": 5.2556,
+      "num_input_tokens_seen": 698744832,
+      "step": 5331
+    },
+    {
+      "epoch": 0.9120872074382815,
+      "grad_norm": 0.6558942198753357,
+      "learning_rate": 7.031185554635294e-05,
+      "loss": 5.2524,
+      "num_input_tokens_seen": 699138048,
+      "step": 5334
+    },
+    {
+      "epoch": 0.9126001923693492,
+      "grad_norm": 0.7035802602767944,
+      "learning_rate": 7.029209114524669e-05,
+      "loss": 5.2398,
+      "num_input_tokens_seen": 699531264,
+      "step": 5337
+    },
+    {
+      "epoch": 0.9131131773004167,
+      "grad_norm": 0.754648745059967,
+      "learning_rate": 7.027234340187475e-05,
+      "loss": 5.253,
+      "num_input_tokens_seen": 699924480,
+      "step": 5340
+    },
+    {
+      "epoch": 0.9136261622314844,
+      "grad_norm": 0.7020716667175293,
+      "learning_rate": 7.025261229285127e-05,
+      "loss": 5.2531,
+      "num_input_tokens_seen": 700317696,
+      "step": 5343
+    },
+    {
+      "epoch": 0.9141391471625521,
+      "grad_norm": 0.7005373239517212,
+      "learning_rate": 7.023289779483637e-05,
+      "loss": 5.1856,
+      "num_input_tokens_seen": 700710912,
+      "step": 5346
+    },
+    {
+      "epoch": 0.9146521320936197,
+      "grad_norm": 0.8192885518074036,
+      "learning_rate": 7.021319988453594e-05,
+      "loss": 5.2202,
+      "num_input_tokens_seen": 701104128,
+      "step": 5349
+    },
+    {
+      "epoch": 0.9151651170246874,
+      "grad_norm": 0.7134819626808167,
+      "learning_rate": 7.019351853870163e-05,
+      "loss": 5.1995,
+      "num_input_tokens_seen": 701497344,
+      "step": 5352
+    },
+    {
+      "epoch": 0.915678101955755,
+      "grad_norm": 0.7718667387962341,
+      "learning_rate": 7.017385373413064e-05,
+      "loss": 5.2546,
+      "num_input_tokens_seen": 701890560,
+      "step": 5355
+    },
+    {
+      "epoch": 0.9161910868868227,
+      "grad_norm": 0.7580474615097046,
+      "learning_rate": 7.015420544766564e-05,
+      "loss": 5.223,
+      "num_input_tokens_seen": 702283776,
+      "step": 5358
+    },
+    {
+      "epoch": 0.9167040718178904,
+      "grad_norm": 0.761403501033783,
+      "learning_rate": 7.013457365619473e-05,
+      "loss": 5.2063,
+      "num_input_tokens_seen": 702676992,
+      "step": 5361
+    },
+    {
+      "epoch": 0.917217056748958,
+      "grad_norm": 0.7182543873786926,
+      "learning_rate": 7.01149583366512e-05,
+      "loss": 5.2481,
+      "num_input_tokens_seen": 703070208,
+      "step": 5364
+    },
+    {
+      "epoch": 0.9177300416800257,
+      "grad_norm": 0.7789894938468933,
+      "learning_rate": 7.009535946601349e-05,
+      "loss": 5.2004,
+      "num_input_tokens_seen": 703463424,
+      "step": 5367
+    },
+    {
+      "epoch": 0.9182430266110932,
+      "grad_norm": 0.698883593082428,
+      "learning_rate": 7.007577702130504e-05,
+      "loss": 5.1961,
+      "num_input_tokens_seen": 703856640,
+      "step": 5370
+    },
+    {
+      "epoch": 0.9187560115421609,
+      "grad_norm": 0.7992156744003296,
+      "learning_rate": 7.005621097959424e-05,
+      "loss": 5.1863,
+      "num_input_tokens_seen": 704249856,
+      "step": 5373
+    },
+    {
+      "epoch": 0.9192689964732286,
+      "grad_norm": 0.7814815044403076,
+      "learning_rate": 7.003666131799421e-05,
+      "loss": 5.1962,
+      "num_input_tokens_seen": 704643072,
+      "step": 5376
+    },
+    {
+      "epoch": 0.9197819814042962,
+      "grad_norm": 0.7636701464653015,
+      "learning_rate": 7.001712801366284e-05,
+      "loss": 5.2015,
+      "num_input_tokens_seen": 705036288,
+      "step": 5379
+    },
+    {
+      "epoch": 0.9202949663353639,
+      "grad_norm": 0.7517854571342468,
+      "learning_rate": 6.999761104380251e-05,
+      "loss": 5.2346,
+      "num_input_tokens_seen": 705429504,
+      "step": 5382
+    },
+    {
+      "epoch": 0.9208079512664316,
+      "grad_norm": 0.7156343460083008,
+      "learning_rate": 6.99781103856601e-05,
+      "loss": 5.1884,
+      "num_input_tokens_seen": 705822720,
+      "step": 5385
+    },
+    {
+      "epoch": 0.9213209361974992,
+      "grad_norm": 0.7727795243263245,
+      "learning_rate": 6.995862601652685e-05,
+      "loss": 5.1847,
+      "num_input_tokens_seen": 706215936,
+      "step": 5388
+    },
+    {
+      "epoch": 0.9218339211285669,
+      "grad_norm": 0.790640115737915,
+      "learning_rate": 6.993915791373815e-05,
+      "loss": 5.2489,
+      "num_input_tokens_seen": 706609152,
+      "step": 5391
+    },
+    {
+      "epoch": 0.9223469060596345,
+      "grad_norm": 0.6869045495986938,
+      "learning_rate": 6.991970605467365e-05,
+      "loss": 5.2265,
+      "num_input_tokens_seen": 707002368,
+      "step": 5394
+    },
+    {
+      "epoch": 0.9228598909907022,
+      "grad_norm": 0.6860256791114807,
+      "learning_rate": 6.99002704167569e-05,
+      "loss": 5.1901,
+      "num_input_tokens_seen": 707395584,
+      "step": 5397
+    },
+    {
+      "epoch": 0.9233728759217698,
+      "grad_norm": 0.7133844494819641,
+      "learning_rate": 6.988085097745543e-05,
+      "loss": 5.2146,
+      "num_input_tokens_seen": 707788800,
+      "step": 5400
+    },
+    {
+      "epoch": 0.9238858608528374,
+      "grad_norm": 0.7109991908073425,
+      "learning_rate": 6.986144771428049e-05,
+      "loss": 5.244,
+      "num_input_tokens_seen": 708182016,
+      "step": 5403
+    },
+    {
+      "epoch": 0.9243988457839051,
+      "grad_norm": 0.6793102622032166,
+      "learning_rate": 6.984206060478708e-05,
+      "loss": 5.2256,
+      "num_input_tokens_seen": 708575232,
+      "step": 5406
+    },
+    {
+      "epoch": 0.9249118307149727,
+      "grad_norm": 0.6254820823669434,
+      "learning_rate": 6.982268962657377e-05,
+      "loss": 5.2082,
+      "num_input_tokens_seen": 708968448,
+      "step": 5409
+    },
+    {
+      "epoch": 0.9254248156460404,
+      "grad_norm": 0.6661543846130371,
+      "learning_rate": 6.980333475728256e-05,
+      "loss": 5.2922,
+      "num_input_tokens_seen": 709361664,
+      "step": 5412
+    },
+    {
+      "epoch": 0.9259378005771081,
+      "grad_norm": 0.674060583114624,
+      "learning_rate": 6.978399597459882e-05,
+      "loss": 5.2425,
+      "num_input_tokens_seen": 709754880,
+      "step": 5415
+    },
+    {
+      "epoch": 0.9264507855081757,
+      "grad_norm": 0.7253686189651489,
+      "learning_rate": 6.976467325625122e-05,
+      "loss": 5.1947,
+      "num_input_tokens_seen": 710148096,
+      "step": 5418
+    },
+    {
+      "epoch": 0.9269637704392434,
+      "grad_norm": 0.6542623043060303,
+      "learning_rate": 6.974536658001151e-05,
+      "loss": 5.1991,
+      "num_input_tokens_seen": 710541312,
+      "step": 5421
+    },
+    {
+      "epoch": 0.927476755370311,
+      "grad_norm": 0.7277594208717346,
+      "learning_rate": 6.972607592369453e-05,
+      "loss": 5.2157,
+      "num_input_tokens_seen": 710934528,
+      "step": 5424
+    },
+    {
+      "epoch": 0.9279897403013786,
+      "grad_norm": 0.6952804923057556,
+      "learning_rate": 6.970680126515798e-05,
+      "loss": 5.2329,
+      "num_input_tokens_seen": 711327744,
+      "step": 5427
+    },
+    {
+      "epoch": 0.9285027252324463,
+      "grad_norm": 0.7163040041923523,
+      "learning_rate": 6.968754258230246e-05,
+      "loss": 5.2398,
+      "num_input_tokens_seen": 711720960,
+      "step": 5430
+    },
+    {
+      "epoch": 0.9290157101635139,
+      "grad_norm": 0.6704942584037781,
+      "learning_rate": 6.966829985307124e-05,
+      "loss": 5.1918,
+      "num_input_tokens_seen": 712114176,
+      "step": 5433
+    },
+    {
+      "epoch": 0.9295286950945816,
+      "grad_norm": 0.6688148379325867,
+      "learning_rate": 6.964907305545022e-05,
+      "loss": 5.2048,
+      "num_input_tokens_seen": 712507392,
+      "step": 5436
+    },
+    {
+      "epoch": 0.9300416800256492,
+      "grad_norm": 0.7081178426742554,
+      "learning_rate": 6.962986216746778e-05,
+      "loss": 5.2602,
+      "num_input_tokens_seen": 712900608,
+      "step": 5439
+    },
+    {
+      "epoch": 0.9305546649567169,
+      "grad_norm": 0.7875306606292725,
+      "learning_rate": 6.961066716719472e-05,
+      "loss": 5.2051,
+      "num_input_tokens_seen": 713293824,
+      "step": 5442
+    },
+    {
+      "epoch": 0.9310676498877846,
+      "grad_norm": 0.7292640209197998,
+      "learning_rate": 6.959148803274413e-05,
+      "loss": 5.2177,
+      "num_input_tokens_seen": 713687040,
+      "step": 5445
+    },
+    {
+      "epoch": 0.9315806348188522,
+      "grad_norm": 0.7992739677429199,
+      "learning_rate": 6.957232474227127e-05,
+      "loss": 5.2218,
+      "num_input_tokens_seen": 714080256,
+      "step": 5448
+    },
+    {
+      "epoch": 0.9320936197499199,
+      "grad_norm": 0.6518861651420593,
+      "learning_rate": 6.955317727397353e-05,
+      "loss": 5.2443,
+      "num_input_tokens_seen": 714473472,
+      "step": 5451
+    },
+    {
+      "epoch": 0.9326066046809875,
+      "grad_norm": 0.6771551966667175,
+      "learning_rate": 6.953404560609022e-05,
+      "loss": 5.1987,
+      "num_input_tokens_seen": 714866688,
+      "step": 5454
+    },
+    {
+      "epoch": 0.9331195896120551,
+      "grad_norm": 0.7463414072990417,
+      "learning_rate": 6.951492971690257e-05,
+      "loss": 5.2047,
+      "num_input_tokens_seen": 715259904,
+      "step": 5457
+    },
+    {
+      "epoch": 0.9336325745431228,
+      "grad_norm": 0.7123643755912781,
+      "learning_rate": 6.949582958473356e-05,
+      "loss": 5.2367,
+      "num_input_tokens_seen": 715653120,
+      "step": 5460
+    },
+    {
+      "epoch": 0.9341455594741904,
+      "grad_norm": 0.8397427201271057,
+      "learning_rate": 6.947674518794787e-05,
+      "loss": 5.2235,
+      "num_input_tokens_seen": 716046336,
+      "step": 5463
+    },
+    {
+      "epoch": 0.9346585444052581,
+      "grad_norm": 0.731139600276947,
+      "learning_rate": 6.94576765049517e-05,
+      "loss": 5.2689,
+      "num_input_tokens_seen": 716439552,
+      "step": 5466
+    },
+    {
+      "epoch": 0.9351715293363257,
+      "grad_norm": 0.7536250352859497,
+      "learning_rate": 6.943862351419276e-05,
+      "loss": 5.1548,
+      "num_input_tokens_seen": 716832768,
+      "step": 5469
+    },
+    {
+      "epoch": 0.9356845142673934,
+      "grad_norm": 0.7753055095672607,
+      "learning_rate": 6.941958619416007e-05,
+      "loss": 5.2435,
+      "num_input_tokens_seen": 717225984,
+      "step": 5472
+    },
+    {
+      "epoch": 0.9361974991984611,
+      "grad_norm": 0.677101731300354,
+      "learning_rate": 6.940056452338398e-05,
+      "loss": 5.1863,
+      "num_input_tokens_seen": 717619200,
+      "step": 5475
+    },
+    {
+      "epoch": 0.9367104841295287,
+      "grad_norm": 0.730702817440033,
+      "learning_rate": 6.938155848043593e-05,
+      "loss": 5.2294,
+      "num_input_tokens_seen": 718012416,
+      "step": 5478
+    },
+    {
+      "epoch": 0.9372234690605964,
+      "grad_norm": 0.7470299601554871,
+      "learning_rate": 6.936256804392845e-05,
+      "loss": 5.1684,
+      "num_input_tokens_seen": 718405632,
+      "step": 5481
+    },
+    {
+      "epoch": 0.9377364539916639,
+      "grad_norm": 0.7415927052497864,
+      "learning_rate": 6.934359319251501e-05,
+      "loss": 5.213,
+      "num_input_tokens_seen": 718798848,
+      "step": 5484
+    },
+    {
+      "epoch": 0.9382494389227316,
+      "grad_norm": 0.8822851777076721,
+      "learning_rate": 6.932463390488997e-05,
+      "loss": 5.2153,
+      "num_input_tokens_seen": 719192064,
+      "step": 5487
+    },
+    {
+      "epoch": 0.9387624238537993,
+      "grad_norm": 0.8007544279098511,
+      "learning_rate": 6.93056901597884e-05,
+      "loss": 5.2219,
+      "num_input_tokens_seen": 719585280,
+      "step": 5490
+    },
+    {
+      "epoch": 0.9392754087848669,
+      "grad_norm": 0.7476817965507507,
+      "learning_rate": 6.928676193598603e-05,
+      "loss": 5.2602,
+      "num_input_tokens_seen": 719978496,
+      "step": 5493
+    },
+    {
+      "epoch": 0.9397883937159346,
+      "grad_norm": 0.8078888654708862,
+      "learning_rate": 6.926784921229917e-05,
+      "loss": 5.2227,
+      "num_input_tokens_seen": 720371712,
+      "step": 5496
+    },
+    {
+      "epoch": 0.9403013786470023,
+      "grad_norm": 0.75888991355896,
+      "learning_rate": 6.924895196758458e-05,
+      "loss": 5.2416,
+      "num_input_tokens_seen": 720764928,
+      "step": 5499
+    },
+    {
+      "epoch": 0.9408143635780699,
+      "grad_norm": 0.6974719762802124,
+      "learning_rate": 6.923007018073937e-05,
+      "loss": 5.191,
+      "num_input_tokens_seen": 721158144,
+      "step": 5502
+    },
+    {
+      "epoch": 0.9413273485091376,
+      "grad_norm": 0.7393808960914612,
+      "learning_rate": 6.921120383070087e-05,
+      "loss": 5.2472,
+      "num_input_tokens_seen": 721551360,
+      "step": 5505
+    },
+    {
+      "epoch": 0.9418403334402052,
+      "grad_norm": 0.7024008631706238,
+      "learning_rate": 6.919235289644663e-05,
+      "loss": 5.2467,
+      "num_input_tokens_seen": 721944576,
+      "step": 5508
+    },
+    {
+      "epoch": 0.9423533183712729,
+      "grad_norm": 0.7399491667747498,
+      "learning_rate": 6.91735173569942e-05,
+      "loss": 5.1734,
+      "num_input_tokens_seen": 722337792,
+      "step": 5511
+    },
+    {
+      "epoch": 0.9428663033023404,
+      "grad_norm": 0.6762517690658569,
+      "learning_rate": 6.915469719140114e-05,
+      "loss": 5.2006,
+      "num_input_tokens_seen": 722731008,
+      "step": 5514
+    },
+    {
+      "epoch": 0.9433792882334081,
+      "grad_norm": 0.7834249138832092,
+      "learning_rate": 6.913589237876484e-05,
+      "loss": 5.2128,
+      "num_input_tokens_seen": 723124224,
+      "step": 5517
+    },
+    {
+      "epoch": 0.9438922731644758,
+      "grad_norm": 0.7544867992401123,
+      "learning_rate": 6.91171028982225e-05,
+      "loss": 5.1778,
+      "num_input_tokens_seen": 723517440,
+      "step": 5520
+    },
+    {
+      "epoch": 0.9444052580955434,
+      "grad_norm": 0.7604652643203735,
+      "learning_rate": 6.909832872895093e-05,
+      "loss": 5.2395,
+      "num_input_tokens_seen": 723910656,
+      "step": 5523
+    },
+    {
+      "epoch": 0.9449182430266111,
+      "grad_norm": 0.7239798307418823,
+      "learning_rate": 6.907956985016653e-05,
+      "loss": 5.2005,
+      "num_input_tokens_seen": 724303872,
+      "step": 5526
+    },
+    {
+      "epoch": 0.9454312279576788,
+      "grad_norm": 0.6755896210670471,
+      "learning_rate": 6.906082624112522e-05,
+      "loss": 5.2482,
+      "num_input_tokens_seen": 724697088,
+      "step": 5529
+    },
+    {
+      "epoch": 0.9459442128887464,
+      "grad_norm": 0.6451256275177002,
+      "learning_rate": 6.904209788112224e-05,
+      "loss": 5.2247,
+      "num_input_tokens_seen": 725090304,
+      "step": 5532
+    },
+    {
+      "epoch": 0.9464571978198141,
+      "grad_norm": 0.6745946407318115,
+      "learning_rate": 6.902338474949212e-05,
+      "loss": 5.1867,
+      "num_input_tokens_seen": 725483520,
+      "step": 5535
+    },
+    {
+      "epoch": 0.9469701827508817,
+      "grad_norm": 0.7276203036308289,
+      "learning_rate": 6.900468682560861e-05,
+      "loss": 5.2158,
+      "num_input_tokens_seen": 725876736,
+      "step": 5538
+    },
+    {
+      "epoch": 0.9474831676819493,
+      "grad_norm": 0.7208330035209656,
+      "learning_rate": 6.898600408888455e-05,
+      "loss": 5.252,
+      "num_input_tokens_seen": 726269952,
+      "step": 5541
+    },
+    {
+      "epoch": 0.947996152613017,
+      "grad_norm": 0.7684881687164307,
+      "learning_rate": 6.896733651877174e-05,
+      "loss": 5.2424,
+      "num_input_tokens_seen": 726663168,
+      "step": 5544
+    },
+    {
+      "epoch": 0.9485091375440846,
+      "grad_norm": 0.6904166340827942,
+      "learning_rate": 6.894868409476089e-05,
+      "loss": 5.1711,
+      "num_input_tokens_seen": 727056384,
+      "step": 5547
+    },
+    {
+      "epoch": 0.9490221224751523,
+      "grad_norm": 0.6969854235649109,
+      "learning_rate": 6.893004679638155e-05,
+      "loss": 5.2098,
+      "num_input_tokens_seen": 727449600,
+      "step": 5550
+    },
+    {
+      "epoch": 0.9495351074062199,
+      "grad_norm": 0.6778176426887512,
+      "learning_rate": 6.891142460320194e-05,
+      "loss": 5.207,
+      "num_input_tokens_seen": 727842816,
+      "step": 5553
+    },
+    {
+      "epoch": 0.9500480923372876,
+      "grad_norm": 0.6988036632537842,
+      "learning_rate": 6.889281749482896e-05,
+      "loss": 5.1607,
+      "num_input_tokens_seen": 728236032,
+      "step": 5556
+    },
+    {
+      "epoch": 0.9505610772683553,
+      "grad_norm": 0.6899657845497131,
+      "learning_rate": 6.887422545090792e-05,
+      "loss": 5.2255,
+      "num_input_tokens_seen": 728629248,
+      "step": 5559
+    },
+    {
+      "epoch": 0.9510740621994229,
+      "grad_norm": 0.7000394463539124,
+      "learning_rate": 6.885564845112269e-05,
+      "loss": 5.234,
+      "num_input_tokens_seen": 729022464,
+      "step": 5562
+    },
+    {
+      "epoch": 0.9515870471304906,
+      "grad_norm": 0.7130152583122253,
+      "learning_rate": 6.88370864751954e-05,
+      "loss": 5.2547,
+      "num_input_tokens_seen": 729415680,
+      "step": 5565
+    },
+    {
+      "epoch": 0.9521000320615582,
+      "grad_norm": 0.7220883369445801,
+      "learning_rate": 6.881853950288646e-05,
+      "loss": 5.1583,
+      "num_input_tokens_seen": 729808896,
+      "step": 5568
+    },
+    {
+      "epoch": 0.9526130169926258,
+      "grad_norm": 0.700537919998169,
+      "learning_rate": 6.88000075139944e-05,
+      "loss": 5.2015,
+      "num_input_tokens_seen": 730202112,
+      "step": 5571
+    },
+    {
+      "epoch": 0.9531260019236935,
+      "grad_norm": 0.8122661113739014,
+      "learning_rate": 6.878149048835583e-05,
+      "loss": 5.1881,
+      "num_input_tokens_seen": 730595328,
+      "step": 5574
+    },
+    {
+      "epoch": 0.9536389868547611,
+      "grad_norm": 0.6667414307594299,
+      "learning_rate": 6.876298840584535e-05,
+      "loss": 5.1502,
+      "num_input_tokens_seen": 730988544,
+      "step": 5577
+    },
+    {
+      "epoch": 0.9541519717858288,
+      "grad_norm": 0.7198598980903625,
+      "learning_rate": 6.874450124637534e-05,
+      "loss": 5.2023,
+      "num_input_tokens_seen": 731381760,
+      "step": 5580
+    },
+    {
+      "epoch": 0.9546649567168964,
+      "grad_norm": 0.7227144837379456,
+      "learning_rate": 6.872602898989611e-05,
+      "loss": 5.1746,
+      "num_input_tokens_seen": 731774976,
+      "step": 5583
+    },
+    {
+      "epoch": 0.9551779416479641,
+      "grad_norm": 0.7212773561477661,
+      "learning_rate": 6.870757161639557e-05,
+      "loss": 5.2028,
+      "num_input_tokens_seen": 732168192,
+      "step": 5586
+    },
+    {
+      "epoch": 0.9556909265790318,
+      "grad_norm": 0.7933756113052368,
+      "learning_rate": 6.868912910589922e-05,
+      "loss": 5.1419,
+      "num_input_tokens_seen": 732561408,
+      "step": 5589
+    },
+    {
+      "epoch": 0.9562039115100994,
+      "grad_norm": 0.8172382712364197,
+      "learning_rate": 6.867070143847011e-05,
+      "loss": 5.1742,
+      "num_input_tokens_seen": 732954624,
+      "step": 5592
+    },
+    {
+      "epoch": 0.9567168964411671,
+      "grad_norm": 0.7590979337692261,
+      "learning_rate": 6.86522885942087e-05,
+      "loss": 5.2606,
+      "num_input_tokens_seen": 733347840,
+      "step": 5595
+    },
+    {
+      "epoch": 0.9572298813722346,
+      "grad_norm": 0.8111834526062012,
+      "learning_rate": 6.86338905532528e-05,
+      "loss": 5.2107,
+      "num_input_tokens_seen": 733741056,
+      "step": 5598
+    },
+    {
+      "epoch": 0.9575718713262797,
+      "eval_accuracy": 0.18844650708353688,
+      "eval_loss": 5.67447566986084,
+      "eval_runtime": 111.5849,
+      "eval_samples_per_second": 2.689,
+      "eval_steps_per_second": 1.344,
+      "num_input_tokens_seen": 734003200,
+      "step": 5600
+    },
+    {
+      "epoch": 0.9577428663033023,
+      "grad_norm": 0.7701963782310486,
+      "learning_rate": 6.861550729577741e-05,
+      "loss": 5.2339,
+      "num_input_tokens_seen": 734134272,
+      "step": 5601
+    },
+    {
+      "epoch": 0.95825585123437,
+      "grad_norm": 0.7521535754203796,
+      "learning_rate": 6.85971388019947e-05,
+      "loss": 5.1737,
+      "num_input_tokens_seen": 734527488,
+      "step": 5604
+    },
+    {
+      "epoch": 0.9587688361654376,
+      "grad_norm": 0.8248022794723511,
+      "learning_rate": 6.857878505215393e-05,
+      "loss": 5.202,
+      "num_input_tokens_seen": 734920704,
+      "step": 5607
+    },
+    {
+      "epoch": 0.9592818210965053,
+      "grad_norm": 0.6702877879142761,
+      "learning_rate": 6.856044602654132e-05,
+      "loss": 5.1872,
+      "num_input_tokens_seen": 735313920,
+      "step": 5610
+    },
+    {
+      "epoch": 0.9597948060275729,
+      "grad_norm": 0.6633716225624084,
+      "learning_rate": 6.854212170547997e-05,
+      "loss": 5.2188,
+      "num_input_tokens_seen": 735707136,
+      "step": 5613
+    },
+    {
+      "epoch": 0.9603077909586406,
+      "grad_norm": 0.7093427181243896,
+      "learning_rate": 6.852381206932974e-05,
+      "loss": 5.1756,
+      "num_input_tokens_seen": 736100352,
+      "step": 5616
+    },
+    {
+      "epoch": 0.9608207758897083,
+      "grad_norm": 0.7626616358757019,
+      "learning_rate": 6.850551709848722e-05,
+      "loss": 5.1181,
+      "num_input_tokens_seen": 736493568,
+      "step": 5619
+    },
+    {
+      "epoch": 0.9613337608207759,
+      "grad_norm": 0.7711624503135681,
+      "learning_rate": 6.848723677338564e-05,
+      "loss": 5.1677,
+      "num_input_tokens_seen": 736886784,
+      "step": 5622
+    },
+    {
+      "epoch": 0.9618467457518436,
+      "grad_norm": 0.7787635326385498,
+      "learning_rate": 6.846897107449475e-05,
+      "loss": 5.1462,
+      "num_input_tokens_seen": 737280000,
+      "step": 5625
+    },
+    {
+      "epoch": 0.9623597306829111,
+      "grad_norm": 0.7611491084098816,
+      "learning_rate": 6.845071998232071e-05,
+      "loss": 5.2339,
+      "num_input_tokens_seen": 737673216,
+      "step": 5628
+    },
+    {
+      "epoch": 0.9628727156139788,
+      "grad_norm": 0.7201474905014038,
+      "learning_rate": 6.843248347740607e-05,
+      "loss": 5.2319,
+      "num_input_tokens_seen": 738066432,
+      "step": 5631
+    },
+    {
+      "epoch": 0.9633857005450465,
+      "grad_norm": 0.6865774393081665,
+      "learning_rate": 6.841426154032964e-05,
+      "loss": 5.1631,
+      "num_input_tokens_seen": 738459648,
+      "step": 5634
+    },
+    {
+      "epoch": 0.9638986854761141,
+      "grad_norm": 0.7156822681427002,
+      "learning_rate": 6.839605415170637e-05,
+      "loss": 5.2378,
+      "num_input_tokens_seen": 738852864,
+      "step": 5637
+    },
+    {
+      "epoch": 0.9644116704071818,
+      "grad_norm": 0.7458356618881226,
+      "learning_rate": 6.837786129218738e-05,
+      "loss": 5.1746,
+      "num_input_tokens_seen": 739246080,
+      "step": 5640
+    },
+    {
+      "epoch": 0.9649246553382494,
+      "grad_norm": 0.7389182448387146,
+      "learning_rate": 6.835968294245973e-05,
+      "loss": 5.1859,
+      "num_input_tokens_seen": 739639296,
+      "step": 5643
+    },
+    {
+      "epoch": 0.9654376402693171,
+      "grad_norm": 0.7108219861984253,
+      "learning_rate": 6.834151908324644e-05,
+      "loss": 5.1834,
+      "num_input_tokens_seen": 740032512,
+      "step": 5646
+    },
+    {
+      "epoch": 0.9659506252003848,
+      "grad_norm": 0.8195409178733826,
+      "learning_rate": 6.832336969530635e-05,
+      "loss": 5.1927,
+      "num_input_tokens_seen": 740425728,
+      "step": 5649
+    },
+    {
+      "epoch": 0.9664636101314524,
+      "grad_norm": 0.7212623953819275,
+      "learning_rate": 6.830523475943408e-05,
+      "loss": 5.1814,
+      "num_input_tokens_seen": 740818944,
+      "step": 5652
+    },
+    {
+      "epoch": 0.96697659506252,
+      "grad_norm": 0.6641290187835693,
+      "learning_rate": 6.828711425645984e-05,
+      "loss": 5.16,
+      "num_input_tokens_seen": 741212160,
+      "step": 5655
+    },
+    {
+      "epoch": 0.9674895799935876,
+      "grad_norm": 0.7765944004058838,
+      "learning_rate": 6.826900816724949e-05,
+      "loss": 5.1787,
+      "num_input_tokens_seen": 741605376,
+      "step": 5658
+    },
+    {
+      "epoch": 0.9680025649246553,
+      "grad_norm": 0.6821857690811157,
+      "learning_rate": 6.825091647270437e-05,
+      "loss": 5.188,
+      "num_input_tokens_seen": 741998592,
+      "step": 5661
+    },
+    {
+      "epoch": 0.968515549855723,
+      "grad_norm": 0.6633355617523193,
+      "learning_rate": 6.823283915376123e-05,
+      "loss": 5.2485,
+      "num_input_tokens_seen": 742391808,
+      "step": 5664
+    },
+    {
+      "epoch": 0.9690285347867906,
+      "grad_norm": 0.6869776844978333,
+      "learning_rate": 6.821477619139209e-05,
+      "loss": 5.222,
+      "num_input_tokens_seen": 742785024,
+      "step": 5667
+    },
+    {
+      "epoch": 0.9695415197178583,
+      "grad_norm": 0.7537380456924438,
+      "learning_rate": 6.819672756660432e-05,
+      "loss": 5.2192,
+      "num_input_tokens_seen": 743178240,
+      "step": 5670
+    },
+    {
+      "epoch": 0.970054504648926,
+      "grad_norm": 0.775252640247345,
+      "learning_rate": 6.817869326044036e-05,
+      "loss": 5.15,
+      "num_input_tokens_seen": 743571456,
+      "step": 5673
+    },
+    {
+      "epoch": 0.9705674895799936,
+      "grad_norm": 0.7099266648292542,
+      "learning_rate": 6.816067325397775e-05,
+      "loss": 5.1486,
+      "num_input_tokens_seen": 743964672,
+      "step": 5676
+    },
+    {
+      "epoch": 0.9710804745110613,
+      "grad_norm": 0.7244137525558472,
+      "learning_rate": 6.814266752832903e-05,
+      "loss": 5.1545,
+      "num_input_tokens_seen": 744357888,
+      "step": 5679
+    },
+    {
+      "epoch": 0.9715934594421289,
+      "grad_norm": 0.6794865727424622,
+      "learning_rate": 6.812467606464162e-05,
+      "loss": 5.2089,
+      "num_input_tokens_seen": 744751104,
+      "step": 5682
+    },
+    {
+      "epoch": 0.9721064443731965,
+      "grad_norm": 0.7153213024139404,
+      "learning_rate": 6.81066988440978e-05,
+      "loss": 5.2345,
+      "num_input_tokens_seen": 745144320,
+      "step": 5685
+    },
+    {
+      "epoch": 0.9726194293042641,
+      "grad_norm": 0.7132147550582886,
+      "learning_rate": 6.808873584791457e-05,
+      "loss": 5.2006,
+      "num_input_tokens_seen": 745537536,
+      "step": 5688
+    },
+    {
+      "epoch": 0.9731324142353318,
+      "grad_norm": 0.6356132626533508,
+      "learning_rate": 6.807078705734362e-05,
+      "loss": 5.203,
+      "num_input_tokens_seen": 745930752,
+      "step": 5691
+    },
+    {
+      "epoch": 0.9736453991663995,
+      "grad_norm": 0.6981724500656128,
+      "learning_rate": 6.805285245367116e-05,
+      "loss": 5.2071,
+      "num_input_tokens_seen": 746323968,
+      "step": 5694
+    },
+    {
+      "epoch": 0.9741583840974671,
+      "grad_norm": 0.6996302604675293,
+      "learning_rate": 6.803493201821794e-05,
+      "loss": 5.2533,
+      "num_input_tokens_seen": 746717184,
+      "step": 5697
+    },
+    {
+      "epoch": 0.9746713690285348,
+      "grad_norm": 0.8056071996688843,
+      "learning_rate": 6.801702573233913e-05,
+      "loss": 5.1897,
+      "num_input_tokens_seen": 747110400,
+      "step": 5700
+    },
+    {
+      "epoch": 0.9751843539596025,
+      "grad_norm": 0.7028996348381042,
+      "learning_rate": 6.79991335774242e-05,
+      "loss": 5.1624,
+      "num_input_tokens_seen": 747503616,
+      "step": 5703
+    },
+    {
+      "epoch": 0.9756973388906701,
+      "grad_norm": 0.8844038248062134,
+      "learning_rate": 6.798125553489686e-05,
+      "loss": 5.1886,
+      "num_input_tokens_seen": 747896832,
+      "step": 5706
+    },
+    {
+      "epoch": 0.9762103238217378,
+      "grad_norm": 0.7125393152236938,
+      "learning_rate": 6.796339158621506e-05,
+      "loss": 5.1686,
+      "num_input_tokens_seen": 748290048,
+      "step": 5709
+    },
+    {
+      "epoch": 0.9767233087528054,
+      "grad_norm": 0.7706892490386963,
+      "learning_rate": 6.794554171287077e-05,
+      "loss": 5.1821,
+      "num_input_tokens_seen": 748683264,
+      "step": 5712
+    },
+    {
+      "epoch": 0.977236293683873,
+      "grad_norm": 0.7665553689002991,
+      "learning_rate": 6.792770589638998e-05,
+      "loss": 5.1875,
+      "num_input_tokens_seen": 749076480,
+      "step": 5715
+    },
+    {
+      "epoch": 0.9777492786149407,
+      "grad_norm": 0.822076141834259,
+      "learning_rate": 6.790988411833267e-05,
+      "loss": 5.1802,
+      "num_input_tokens_seen": 749469696,
+      "step": 5718
+    },
+    {
+      "epoch": 0.9782622635460083,
+      "grad_norm": 0.734258770942688,
+      "learning_rate": 6.789207636029258e-05,
+      "loss": 5.1485,
+      "num_input_tokens_seen": 749862912,
+      "step": 5721
+    },
+    {
+      "epoch": 0.978775248477076,
+      "grad_norm": 0.851309597492218,
+      "learning_rate": 6.787428260389725e-05,
+      "loss": 5.2038,
+      "num_input_tokens_seen": 750256128,
+      "step": 5724
+    },
+    {
+      "epoch": 0.9792882334081436,
+      "grad_norm": 0.8018383979797363,
+      "learning_rate": 6.785650283080797e-05,
+      "loss": 5.1956,
+      "num_input_tokens_seen": 750649344,
+      "step": 5727
+    },
+    {
+      "epoch": 0.9798012183392113,
+      "grad_norm": 0.8261561393737793,
+      "learning_rate": 6.78387370227195e-05,
+      "loss": 5.2167,
+      "num_input_tokens_seen": 751042560,
+      "step": 5730
+    },
+    {
+      "epoch": 0.980314203270279,
+      "grad_norm": 0.7677420377731323,
+      "learning_rate": 6.782098516136031e-05,
+      "loss": 5.1776,
+      "num_input_tokens_seen": 751435776,
+      "step": 5733
+    },
+    {
+      "epoch": 0.9808271882013466,
+      "grad_norm": 0.7804604172706604,
+      "learning_rate": 6.780324722849218e-05,
+      "loss": 5.2386,
+      "num_input_tokens_seen": 751828992,
+      "step": 5736
+    },
+    {
+      "epoch": 0.9813401731324143,
+      "grad_norm": 0.8051115870475769,
+      "learning_rate": 6.778552320591031e-05,
+      "loss": 5.1832,
+      "num_input_tokens_seen": 752222208,
+      "step": 5739
+    },
+    {
+      "epoch": 0.9818531580634818,
+      "grad_norm": 0.7745217680931091,
+      "learning_rate": 6.776781307544323e-05,
+      "loss": 5.1991,
+      "num_input_tokens_seen": 752615424,
+      "step": 5742
+    },
+    {
+      "epoch": 0.9823661429945495,
+      "grad_norm": 0.7418707609176636,
+      "learning_rate": 6.775011681895259e-05,
+      "loss": 5.1977,
+      "num_input_tokens_seen": 753008640,
+      "step": 5745
+    },
+    {
+      "epoch": 0.9828791279256172,
+      "grad_norm": 0.7361640930175781,
+      "learning_rate": 6.773243441833328e-05,
+      "loss": 5.1713,
+      "num_input_tokens_seen": 753401856,
+      "step": 5748
+    },
+    {
+      "epoch": 0.9833921128566848,
+      "grad_norm": 0.7707425355911255,
+      "learning_rate": 6.771476585551323e-05,
+      "loss": 5.1812,
+      "num_input_tokens_seen": 753795072,
+      "step": 5751
+    },
+    {
+      "epoch": 0.9839050977877525,
+      "grad_norm": 0.7603244781494141,
+      "learning_rate": 6.769711111245329e-05,
+      "loss": 5.2091,
+      "num_input_tokens_seen": 754188288,
+      "step": 5754
+    },
+    {
+      "epoch": 0.9844180827188201,
+      "grad_norm": 0.771886944770813,
+      "learning_rate": 6.767947017114727e-05,
+      "loss": 5.1886,
+      "num_input_tokens_seen": 754581504,
+      "step": 5757
+    },
+    {
+      "epoch": 0.9849310676498878,
+      "grad_norm": 0.8924115896224976,
+      "learning_rate": 6.766184301362177e-05,
+      "loss": 5.1916,
+      "num_input_tokens_seen": 754974720,
+      "step": 5760
+    },
+    {
+      "epoch": 0.9854440525809555,
+      "grad_norm": 0.7867364287376404,
+      "learning_rate": 6.764422962193624e-05,
+      "loss": 5.1989,
+      "num_input_tokens_seen": 755367936,
+      "step": 5763
+    },
+    {
+      "epoch": 0.9859570375120231,
+      "grad_norm": 0.809303343296051,
+      "learning_rate": 6.762662997818266e-05,
+      "loss": 5.2264,
+      "num_input_tokens_seen": 755761152,
+      "step": 5766
+    },
+    {
+      "epoch": 0.9864700224430908,
+      "grad_norm": 0.7048402428627014,
+      "learning_rate": 6.760904406448573e-05,
+      "loss": 5.2237,
+      "num_input_tokens_seen": 756154368,
+      "step": 5769
+    },
+    {
+      "epoch": 0.9869830073741583,
+      "grad_norm": 0.7238898277282715,
+      "learning_rate": 6.759147186300257e-05,
+      "loss": 5.2013,
+      "num_input_tokens_seen": 756547584,
+      "step": 5772
+    },
+    {
+      "epoch": 0.987495992305226,
+      "grad_norm": 0.7172737121582031,
+      "learning_rate": 6.757391335592282e-05,
+      "loss": 5.1839,
+      "num_input_tokens_seen": 756940800,
+      "step": 5775
+    },
+    {
+      "epoch": 0.9880089772362937,
+      "grad_norm": 0.7212975025177002,
+      "learning_rate": 6.755636852546848e-05,
+      "loss": 5.1696,
+      "num_input_tokens_seen": 757334016,
+      "step": 5778
+    },
+    {
+      "epoch": 0.9885219621673613,
+      "grad_norm": 0.754808247089386,
+      "learning_rate": 6.753883735389383e-05,
+      "loss": 5.2154,
+      "num_input_tokens_seen": 757727232,
+      "step": 5781
+    },
+    {
+      "epoch": 0.989034947098429,
+      "grad_norm": 0.782254159450531,
+      "learning_rate": 6.752131982348533e-05,
+      "loss": 5.1923,
+      "num_input_tokens_seen": 758120448,
+      "step": 5784
+    },
+    {
+      "epoch": 0.9895479320294966,
+      "grad_norm": 0.7205175757408142,
+      "learning_rate": 6.750381591656167e-05,
+      "loss": 5.2076,
+      "num_input_tokens_seen": 758513664,
+      "step": 5787
+    },
+    {
+      "epoch": 0.9900609169605643,
+      "grad_norm": 0.7384617328643799,
+      "learning_rate": 6.748632561547353e-05,
+      "loss": 5.1796,
+      "num_input_tokens_seen": 758906880,
+      "step": 5790
+    },
+    {
+      "epoch": 0.990573901891632,
+      "grad_norm": 0.7156171202659607,
+      "learning_rate": 6.746884890260363e-05,
+      "loss": 5.1877,
+      "num_input_tokens_seen": 759300096,
+      "step": 5793
+    },
+    {
+      "epoch": 0.9910868868226996,
+      "grad_norm": 0.8681517243385315,
+      "learning_rate": 6.745138576036662e-05,
+      "loss": 5.1948,
+      "num_input_tokens_seen": 759693312,
+      "step": 5796
+    },
+    {
+      "epoch": 0.9915998717537672,
+      "grad_norm": 0.7191133499145508,
+      "learning_rate": 6.743393617120892e-05,
+      "loss": 5.2031,
+      "num_input_tokens_seen": 760086528,
+      "step": 5799
+    },
+    {
+      "epoch": 0.9921128566848348,
+      "grad_norm": 0.8175661563873291,
+      "learning_rate": 6.741650011760882e-05,
+      "loss": 5.1437,
+      "num_input_tokens_seen": 760479744,
+      "step": 5802
+    },
+    {
+      "epoch": 0.9926258416159025,
+      "grad_norm": 0.7410142421722412,
+      "learning_rate": 6.739907758207622e-05,
+      "loss": 5.1831,
+      "num_input_tokens_seen": 760872960,
+      "step": 5805
+    },
+    {
+      "epoch": 0.9931388265469702,
+      "grad_norm": 0.8488388061523438,
+      "learning_rate": 6.73816685471527e-05,
+      "loss": 5.1424,
+      "num_input_tokens_seen": 761266176,
+      "step": 5808
+    },
+    {
+      "epoch": 0.9936518114780378,
+      "grad_norm": 0.7565668821334839,
+      "learning_rate": 6.736427299541137e-05,
+      "loss": 5.1853,
+      "num_input_tokens_seen": 761659392,
+      "step": 5811
+    },
+    {
+      "epoch": 0.9941647964091055,
+      "grad_norm": 0.8777074217796326,
+      "learning_rate": 6.734689090945682e-05,
+      "loss": 5.167,
+      "num_input_tokens_seen": 762052608,
+      "step": 5814
+    },
+    {
+      "epoch": 0.9946777813401732,
+      "grad_norm": 0.8720703125,
+      "learning_rate": 6.732952227192505e-05,
+      "loss": 5.1915,
+      "num_input_tokens_seen": 762445824,
+      "step": 5817
+    },
+    {
+      "epoch": 0.9951907662712408,
+      "grad_norm": 0.8000132441520691,
+      "learning_rate": 6.731216706548339e-05,
+      "loss": 5.1721,
+      "num_input_tokens_seen": 762839040,
+      "step": 5820
+    },
+    {
+      "epoch": 0.9957037512023085,
+      "grad_norm": 0.733505368232727,
+      "learning_rate": 6.729482527283039e-05,
+      "loss": 5.2092,
+      "num_input_tokens_seen": 763232256,
+      "step": 5823
+    },
+    {
+      "epoch": 0.9962167361333761,
+      "grad_norm": 0.7550384402275085,
+      "learning_rate": 6.727749687669586e-05,
+      "loss": 5.1846,
+      "num_input_tokens_seen": 763625472,
+      "step": 5826
+    },
+    {
+      "epoch": 0.9967297210644437,
+      "grad_norm": 0.8135012984275818,
+      "learning_rate": 6.726018185984064e-05,
+      "loss": 5.215,
+      "num_input_tokens_seen": 764018688,
+      "step": 5829
+    },
+    {
+      "epoch": 0.9972427059955113,
+      "grad_norm": 0.7134667634963989,
+      "learning_rate": 6.724288020505667e-05,
+      "loss": 5.1611,
+      "num_input_tokens_seen": 764411904,
+      "step": 5832
+    },
+    {
+      "epoch": 0.997755690926579,
+      "grad_norm": 0.7443891167640686,
+      "learning_rate": 6.722559189516687e-05,
+      "loss": 5.1741,
+      "num_input_tokens_seen": 764805120,
+      "step": 5835
+    },
+    {
+      "epoch": 0.9982686758576467,
+      "grad_norm": 0.6709545850753784,
+      "learning_rate": 6.720831691302501e-05,
+      "loss": 5.1677,
+      "num_input_tokens_seen": 765198336,
+      "step": 5838
+    },
+    {
+      "epoch": 0.9987816607887143,
+      "grad_norm": 0.7193747758865356,
+      "learning_rate": 6.71910552415157e-05,
+      "loss": 5.2325,
+      "num_input_tokens_seen": 765591552,
+      "step": 5841
+    },
+    {
+      "epoch": 0.999294645719782,
+      "grad_norm": 0.7146051526069641,
+      "learning_rate": 6.71738068635543e-05,
+      "loss": 5.1577,
+      "num_input_tokens_seen": 765984768,
+      "step": 5844
+    },
+    {
+      "epoch": 0.9998076306508497,
+      "grad_norm": 0.6998146772384644,
+      "learning_rate": 6.715657176208689e-05,
+      "loss": 5.2431,
+      "num_input_tokens_seen": 766377984,
+      "step": 5847
+    },
+    {
+      "epoch": 0.9999786256278722,
+      "num_input_tokens_seen": 766509056,
+      "step": 5848,
+      "total_flos": 4.708536848052388e+17,
+      "train_loss": 5.594264277028972,
+      "train_runtime": 134120.2101,
+      "train_samples_per_second": 2.791,
+      "train_steps_per_second": 0.044
+    }
+  ],
+  "logging_steps": 3,
+  "max_steps": 5848,
+  "num_input_tokens_seen": 766509056,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 4.708536848052388e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}