Upload 8 files

Browse files

Files changed (4) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +884 -4

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fe830f215593241d5a06be7b7382d26df2df95fa5877818c55602cc0aaaec7c
 size 18494040

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f64a3cafa47c9ba3e54437d1f9852c222a0087b81b8ce6e387c02057cb1bfd3
 size 18494040

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ffc9e9ba9737e7047e65caa20e5526ed8da4c213c4ce3f2cca848b1ac8ecdbd
 size 37035002

 version https://git-lfs.github.com/spec/v1
+oid sha256:be93c1be2bc3f33f7d84eeeeb4d8c4d995ed64199a72fdbe553b1f003bc30445
 size 37035002

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c4c29cdd3791b07f27eccf7f1e479362eae64a2df7b8ed21d32b1b0f2e78f0d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:60cbdd85cf6bcb7c6140c88eacbc709e5746be6620fc2427f93d0a9c73d83631
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0964851864300316,
   "eval_steps": 500,
-  "global_step": 99500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5311,11 +5311,891 @@
       "loss": 4.3878,
       "num_input_tokens_seen": 581214146,
       "step": 99450
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
-  "num_input_tokens_seen": 581503010,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -5330,7 +6210,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8978778636326400.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2783143881998358,
   "eval_steps": 500,
+  "global_step": 116000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 4.3878,
       "num_input_tokens_seen": 581214146,
       "step": 99450
+    },
+    {
+      "epoch": 1.0975871815922729,
+      "grad_norm": 1.9078856706619263,
+      "learning_rate": 0.00010148434400575989,
+      "loss": 4.3976,
+      "num_input_tokens_seen": 582094658,
+      "step": 99600
+    },
+    {
+      "epoch": 1.0992401743356346,
+      "grad_norm": 1.8750337362289429,
+      "learning_rate": 0.00010139618261163437,
+      "loss": 4.3999,
+      "num_input_tokens_seen": 582981922,
+      "step": 99750
+    },
+    {
+      "epoch": 1.1008931670789965,
+      "grad_norm": 1.9243488311767578,
+      "learning_rate": 0.00010130802121750887,
+      "loss": 4.3879,
+      "num_input_tokens_seen": 583869026,
+      "step": 99900
+    },
+    {
+      "epoch": 1.1025461598223583,
+      "grad_norm": 1.8446391820907593,
+      "learning_rate": 0.00010121985982338334,
+      "loss": 4.3894,
+      "num_input_tokens_seen": 584749826,
+      "step": 100050
+    },
+    {
+      "epoch": 1.1041991525657202,
+      "grad_norm": 1.726158857345581,
+      "learning_rate": 0.00010113169842925785,
+      "loss": 4.3985,
+      "num_input_tokens_seen": 585630274,
+      "step": 100200
+    },
+    {
+      "epoch": 1.1058521453090822,
+      "grad_norm": 1.8227604627609253,
+      "learning_rate": 0.00010104353703513232,
+      "loss": 4.3906,
+      "num_input_tokens_seen": 586484930,
+      "step": 100350
+    },
+    {
+      "epoch": 1.1075051380524439,
+      "grad_norm": 1.9156420230865479,
+      "learning_rate": 0.00010095537564100682,
+      "loss": 4.3893,
+      "num_input_tokens_seen": 587352738,
+      "step": 100500
+    },
+    {
+      "epoch": 1.1091581307958058,
+      "grad_norm": 1.8385225534439087,
+      "learning_rate": 0.0001008678019895088,
+      "loss": 4.3994,
+      "num_input_tokens_seen": 588239810,
+      "step": 100650
+    },
+    {
+      "epoch": 1.1108111235391678,
+      "grad_norm": 1.9076261520385742,
+      "learning_rate": 0.00010077964059538329,
+      "loss": 4.3922,
+      "num_input_tokens_seen": 589116514,
+      "step": 100800
+    },
+    {
+      "epoch": 1.1124641162825295,
+      "grad_norm": 1.8701651096343994,
+      "learning_rate": 0.00010069147920125778,
+      "loss": 4.4015,
+      "num_input_tokens_seen": 589983426,
+      "step": 100950
+    },
+    {
+      "epoch": 1.1141171090258915,
+      "grad_norm": 1.9545180797576904,
+      "learning_rate": 0.00010060331780713227,
+      "loss": 4.3978,
+      "num_input_tokens_seen": 590856994,
+      "step": 101100
+    },
+    {
+      "epoch": 1.1157701017692532,
+      "grad_norm": 1.9418137073516846,
+      "learning_rate": 0.00010051515641300676,
+      "loss": 4.3893,
+      "num_input_tokens_seen": 591735490,
+      "step": 101250
+    },
+    {
+      "epoch": 1.1174230945126151,
+      "grad_norm": 1.892683982849121,
+      "learning_rate": 0.00010042699501888123,
+      "loss": 4.3833,
+      "num_input_tokens_seen": 592622626,
+      "step": 101400
+    },
+    {
+      "epoch": 1.1190760872559768,
+      "grad_norm": 1.830404281616211,
+      "learning_rate": 0.00010033883362475573,
+      "loss": 4.3939,
+      "num_input_tokens_seen": 593500354,
+      "step": 101550
+    },
+    {
+      "epoch": 1.1207290799993388,
+      "grad_norm": 1.8536481857299805,
+      "learning_rate": 0.00010025067223063021,
+      "loss": 4.3826,
+      "num_input_tokens_seen": 594383234,
+      "step": 101700
+    },
+    {
+      "epoch": 1.1223820727427007,
+      "grad_norm": 1.84872567653656,
+      "learning_rate": 0.00010016251083650471,
+      "loss": 4.3847,
+      "num_input_tokens_seen": 595255266,
+      "step": 101850
+    },
+    {
+      "epoch": 1.1240350654860625,
+      "grad_norm": 1.8653180599212646,
+      "learning_rate": 0.00010007434944237918,
+      "loss": 4.392,
+      "num_input_tokens_seen": 596135586,
+      "step": 102000
+    },
+    {
+      "epoch": 1.1256880582294244,
+      "grad_norm": 1.8534561395645142,
+      "learning_rate": 9.998618804825369e-05,
+      "loss": 4.3862,
+      "num_input_tokens_seen": 597009218,
+      "step": 102150
+    },
+    {
+      "epoch": 1.1273410509727861,
+      "grad_norm": 1.8982864618301392,
+      "learning_rate": 9.989802665412816e-05,
+      "loss": 4.3969,
+      "num_input_tokens_seen": 597873026,
+      "step": 102300
+    },
+    {
+      "epoch": 1.128994043716148,
+      "grad_norm": 1.9212620258331299,
+      "learning_rate": 9.980986526000266e-05,
+      "loss": 4.3872,
+      "num_input_tokens_seen": 598748322,
+      "step": 102450
+    },
+    {
+      "epoch": 1.13064703645951,
+      "grad_norm": 1.8133482933044434,
+      "learning_rate": 9.972170386587714e-05,
+      "loss": 4.3801,
+      "num_input_tokens_seen": 599625410,
+      "step": 102600
+    },
+    {
+      "epoch": 1.1323000292028718,
+      "grad_norm": 1.8521312475204468,
+      "learning_rate": 9.963354247175164e-05,
+      "loss": 4.3867,
+      "num_input_tokens_seen": 600489762,
+      "step": 102750
+    },
+    {
+      "epoch": 1.1339530219462337,
+      "grad_norm": 2.050074577331543,
+      "learning_rate": 9.954538107762612e-05,
+      "loss": 4.3813,
+      "num_input_tokens_seen": 601357666,
+      "step": 102900
+    },
+    {
+      "epoch": 1.1356060146895954,
+      "grad_norm": 1.8785549402236938,
+      "learning_rate": 9.945721968350062e-05,
+      "loss": 4.3799,
+      "num_input_tokens_seen": 602239362,
+      "step": 103050
+    },
+    {
+      "epoch": 1.1372590074329574,
+      "grad_norm": 1.9237360954284668,
+      "learning_rate": 9.93690582893751e-05,
+      "loss": 4.3902,
+      "num_input_tokens_seen": 603119650,
+      "step": 103200
+    },
+    {
+      "epoch": 1.1389120001763193,
+      "grad_norm": 1.8664278984069824,
+      "learning_rate": 9.928089689524957e-05,
+      "loss": 4.3905,
+      "num_input_tokens_seen": 603985666,
+      "step": 103350
+    },
+    {
+      "epoch": 1.140564992919681,
+      "grad_norm": 1.812515139579773,
+      "learning_rate": 9.919273550112407e-05,
+      "loss": 4.3757,
+      "num_input_tokens_seen": 604874530,
+      "step": 103500
+    },
+    {
+      "epoch": 1.142217985663043,
+      "grad_norm": 1.9093918800354004,
+      "learning_rate": 9.910457410699855e-05,
+      "loss": 4.4058,
+      "num_input_tokens_seen": 605755394,
+      "step": 103650
+    },
+    {
+      "epoch": 1.1438709784064047,
+      "grad_norm": 1.9712496995925903,
+      "learning_rate": 9.901641271287305e-05,
+      "loss": 4.3848,
+      "num_input_tokens_seen": 606649794,
+      "step": 103800
+    },
+    {
+      "epoch": 1.1455239711497667,
+      "grad_norm": 1.9102181196212769,
+      "learning_rate": 9.892825131874752e-05,
+      "loss": 4.3926,
+      "num_input_tokens_seen": 607513858,
+      "step": 103950
+    },
+    {
+      "epoch": 1.1471769638931284,
+      "grad_norm": 1.7749512195587158,
+      "learning_rate": 9.884008992462201e-05,
+      "loss": 4.3906,
+      "num_input_tokens_seen": 608391202,
+      "step": 104100
+    },
+    {
+      "epoch": 1.1488299566364903,
+      "grad_norm": 1.8394023180007935,
+      "learning_rate": 9.87519285304965e-05,
+      "loss": 4.3814,
+      "num_input_tokens_seen": 609282018,
+      "step": 104250
+    },
+    {
+      "epoch": 1.1504829493798523,
+      "grad_norm": 1.9161593914031982,
+      "learning_rate": 9.866376713637099e-05,
+      "loss": 4.3947,
+      "num_input_tokens_seen": 610168514,
+      "step": 104400
+    },
+    {
+      "epoch": 1.152135942123214,
+      "grad_norm": 1.930790901184082,
+      "learning_rate": 9.857560574224548e-05,
+      "loss": 4.3928,
+      "num_input_tokens_seen": 611052354,
+      "step": 104550
+    },
+    {
+      "epoch": 1.153788934866576,
+      "grad_norm": 1.836146354675293,
+      "learning_rate": 9.848803209074748e-05,
+      "loss": 4.3977,
+      "num_input_tokens_seen": 611926498,
+      "step": 104700
+    },
+    {
+      "epoch": 1.155441927609938,
+      "grad_norm": 1.7802364826202393,
+      "learning_rate": 9.839987069662196e-05,
+      "loss": 4.3921,
+      "num_input_tokens_seen": 612818210,
+      "step": 104850
+    },
+    {
+      "epoch": 1.1570949203532996,
+      "grad_norm": 1.9587794542312622,
+      "learning_rate": 9.831170930249643e-05,
+      "loss": 4.3925,
+      "num_input_tokens_seen": 613694850,
+      "step": 105000
+    },
+    {
+      "epoch": 1.1587479130966616,
+      "grad_norm": 1.9676165580749512,
+      "learning_rate": 9.822354790837093e-05,
+      "loss": 4.3782,
+      "num_input_tokens_seen": 614583618,
+      "step": 105150
+    },
+    {
+      "epoch": 1.1604009058400233,
+      "grad_norm": 1.8942914009094238,
+      "learning_rate": 9.813538651424541e-05,
+      "loss": 4.3792,
+      "num_input_tokens_seen": 615478530,
+      "step": 105300
+    },
+    {
+      "epoch": 1.1620538985833853,
+      "grad_norm": 1.8436447381973267,
+      "learning_rate": 9.804722512011991e-05,
+      "loss": 4.3848,
+      "num_input_tokens_seen": 616374914,
+      "step": 105450
+    },
+    {
+      "epoch": 1.163706891326747,
+      "grad_norm": 1.9150909185409546,
+      "learning_rate": 9.795906372599439e-05,
+      "loss": 4.381,
+      "num_input_tokens_seen": 617260162,
+      "step": 105600
+    },
+    {
+      "epoch": 1.165359884070109,
+      "grad_norm": 2.0403525829315186,
+      "learning_rate": 9.787090233186889e-05,
+      "loss": 4.3835,
+      "num_input_tokens_seen": 618136386,
+      "step": 105750
+    },
+    {
+      "epoch": 1.1670128768134709,
+      "grad_norm": 1.8062185049057007,
+      "learning_rate": 9.778274093774336e-05,
+      "loss": 4.3821,
+      "num_input_tokens_seen": 619009282,
+      "step": 105900
+    },
+    {
+      "epoch": 1.1686658695568326,
+      "grad_norm": 1.9948753118515015,
+      "learning_rate": 9.769457954361787e-05,
+      "loss": 4.3911,
+      "num_input_tokens_seen": 619886722,
+      "step": 106050
+    },
+    {
+      "epoch": 1.1703188623001946,
+      "grad_norm": 1.8109992742538452,
+      "learning_rate": 9.760641814949234e-05,
+      "loss": 4.3791,
+      "num_input_tokens_seen": 620758178,
+      "step": 106200
+    },
+    {
+      "epoch": 1.1719718550435563,
+      "grad_norm": 1.9707014560699463,
+      "learning_rate": 9.751825675536684e-05,
+      "loss": 4.3809,
+      "num_input_tokens_seen": 621629506,
+      "step": 106350
+    },
+    {
+      "epoch": 1.1736248477869182,
+      "grad_norm": 1.9458143711090088,
+      "learning_rate": 9.743009536124132e-05,
+      "loss": 4.3952,
+      "num_input_tokens_seen": 622496418,
+      "step": 106500
+    },
+    {
+      "epoch": 1.17527784053028,
+      "grad_norm": 1.9349957704544067,
+      "learning_rate": 9.734310945237081e-05,
+      "loss": 4.379,
+      "num_input_tokens_seen": 623395010,
+      "step": 106650
+    },
+    {
+      "epoch": 1.176930833273642,
+      "grad_norm": 1.9133590459823608,
+      "learning_rate": 9.725494805824531e-05,
+      "loss": 4.3689,
+      "num_input_tokens_seen": 624262434,
+      "step": 106800
+    },
+    {
+      "epoch": 1.1785838260170038,
+      "grad_norm": 1.9451539516448975,
+      "learning_rate": 9.716678666411979e-05,
+      "loss": 4.3863,
+      "num_input_tokens_seen": 625153506,
+      "step": 106950
+    },
+    {
+      "epoch": 1.1802368187603656,
+      "grad_norm": 2.0072357654571533,
+      "learning_rate": 9.707862526999429e-05,
+      "loss": 4.378,
+      "num_input_tokens_seen": 626026690,
+      "step": 107100
+    },
+    {
+      "epoch": 1.1818898115037275,
+      "grad_norm": 1.7655397653579712,
+      "learning_rate": 9.699046387586877e-05,
+      "loss": 4.3801,
+      "num_input_tokens_seen": 626902594,
+      "step": 107250
+    },
+    {
+      "epoch": 1.1835428042470895,
+      "grad_norm": 1.9583156108856201,
+      "learning_rate": 9.690230248174325e-05,
+      "loss": 4.3902,
+      "num_input_tokens_seen": 627796194,
+      "step": 107400
+    },
+    {
+      "epoch": 1.1851957969904512,
+      "grad_norm": 1.7717612981796265,
+      "learning_rate": 9.681414108761774e-05,
+      "loss": 4.3812,
+      "num_input_tokens_seen": 628675970,
+      "step": 107550
+    },
+    {
+      "epoch": 1.1868487897338131,
+      "grad_norm": 1.9090009927749634,
+      "learning_rate": 9.672597969349223e-05,
+      "loss": 4.3889,
+      "num_input_tokens_seen": 629549794,
+      "step": 107700
+    },
+    {
+      "epoch": 1.1885017824771749,
+      "grad_norm": 1.8910843133926392,
+      "learning_rate": 9.663781829936672e-05,
+      "loss": 4.3913,
+      "num_input_tokens_seen": 630437378,
+      "step": 107850
+    },
+    {
+      "epoch": 1.1901547752205368,
+      "grad_norm": 1.840728521347046,
+      "learning_rate": 9.654965690524121e-05,
+      "loss": 4.3792,
+      "num_input_tokens_seen": 631313666,
+      "step": 108000
+    },
+    {
+      "epoch": 1.1918077679638985,
+      "grad_norm": 1.8772791624069214,
+      "learning_rate": 9.64614955111157e-05,
+      "loss": 4.3813,
+      "num_input_tokens_seen": 632194466,
+      "step": 108150
+    },
+    {
+      "epoch": 1.1934607607072605,
+      "grad_norm": 1.9666273593902588,
+      "learning_rate": 9.637333411699017e-05,
+      "loss": 4.3716,
+      "num_input_tokens_seen": 633058978,
+      "step": 108300
+    },
+    {
+      "epoch": 1.1951137534506224,
+      "grad_norm": 1.930409550666809,
+      "learning_rate": 9.628517272286466e-05,
+      "loss": 4.3934,
+      "num_input_tokens_seen": 633935458,
+      "step": 108450
+    },
+    {
+      "epoch": 1.1967667461939842,
+      "grad_norm": 1.8000093698501587,
+      "learning_rate": 9.619701132873915e-05,
+      "loss": 4.3794,
+      "num_input_tokens_seen": 634825634,
+      "step": 108600
+    },
+    {
+      "epoch": 1.198419738937346,
+      "grad_norm": 1.8369793891906738,
+      "learning_rate": 9.610884993461364e-05,
+      "loss": 4.386,
+      "num_input_tokens_seen": 635701666,
+      "step": 108750
+    },
+    {
+      "epoch": 1.2000727316807078,
+      "grad_norm": 1.9381849765777588,
+      "learning_rate": 9.602068854048813e-05,
+      "loss": 4.3824,
+      "num_input_tokens_seen": 636568994,
+      "step": 108900
+    },
+    {
+      "epoch": 1.2017257244240698,
+      "grad_norm": 1.8089631795883179,
+      "learning_rate": 9.593252714636261e-05,
+      "loss": 4.3733,
+      "num_input_tokens_seen": 637444034,
+      "step": 109050
+    },
+    {
+      "epoch": 1.2033787171674317,
+      "grad_norm": 1.7429847717285156,
+      "learning_rate": 9.584436575223709e-05,
+      "loss": 4.3766,
+      "num_input_tokens_seen": 638321634,
+      "step": 109200
+    },
+    {
+      "epoch": 1.2050317099107934,
+      "grad_norm": 1.9182720184326172,
+      "learning_rate": 9.575620435811159e-05,
+      "loss": 4.3724,
+      "num_input_tokens_seen": 639189538,
+      "step": 109350
+    },
+    {
+      "epoch": 1.2066847026541554,
+      "grad_norm": 1.9700244665145874,
+      "learning_rate": 9.566804296398607e-05,
+      "loss": 4.3859,
+      "num_input_tokens_seen": 640080354,
+      "step": 109500
+    },
+    {
+      "epoch": 1.2083376953975171,
+      "grad_norm": 1.86391019821167,
+      "learning_rate": 9.557988156986057e-05,
+      "loss": 4.3875,
+      "num_input_tokens_seen": 640977634,
+      "step": 109650
+    },
+    {
+      "epoch": 1.209990688140879,
+      "grad_norm": 1.9451704025268555,
+      "learning_rate": 9.549230791836256e-05,
+      "loss": 4.3928,
+      "num_input_tokens_seen": 641871874,
+      "step": 109800
+    },
+    {
+      "epoch": 1.211643680884241,
+      "grad_norm": 2.063884735107422,
+      "learning_rate": 9.540414652423704e-05,
+      "loss": 4.3704,
+      "num_input_tokens_seen": 642751170,
+      "step": 109950
+    },
+    {
+      "epoch": 1.2132966736276027,
+      "grad_norm": 1.8499351739883423,
+      "learning_rate": 9.531598513011154e-05,
+      "loss": 4.3886,
+      "num_input_tokens_seen": 643629698,
+      "step": 110100
+    },
+    {
+      "epoch": 1.2149496663709647,
+      "grad_norm": 1.9735474586486816,
+      "learning_rate": 9.522782373598601e-05,
+      "loss": 4.3854,
+      "num_input_tokens_seen": 644509698,
+      "step": 110250
+    },
+    {
+      "epoch": 1.2166026591143264,
+      "grad_norm": 1.9430962800979614,
+      "learning_rate": 9.513966234186051e-05,
+      "loss": 4.3905,
+      "num_input_tokens_seen": 645395394,
+      "step": 110400
+    },
+    {
+      "epoch": 1.2182556518576884,
+      "grad_norm": 1.9608047008514404,
+      "learning_rate": 9.505150094773499e-05,
+      "loss": 4.383,
+      "num_input_tokens_seen": 646254626,
+      "step": 110550
+    },
+    {
+      "epoch": 1.21990864460105,
+      "grad_norm": 1.9237737655639648,
+      "learning_rate": 9.4963927296237e-05,
+      "loss": 4.3886,
+      "num_input_tokens_seen": 647146658,
+      "step": 110700
+    },
+    {
+      "epoch": 1.221561637344412,
+      "grad_norm": 1.9678759574890137,
+      "learning_rate": 9.487576590211147e-05,
+      "loss": 4.3858,
+      "num_input_tokens_seen": 648004962,
+      "step": 110850
+    },
+    {
+      "epoch": 1.223214630087774,
+      "grad_norm": 1.8643629550933838,
+      "learning_rate": 9.478760450798597e-05,
+      "loss": 4.3718,
+      "num_input_tokens_seen": 648877602,
+      "step": 111000
+    },
+    {
+      "epoch": 1.2248676228311357,
+      "grad_norm": 1.8100017309188843,
+      "learning_rate": 9.469944311386045e-05,
+      "loss": 4.38,
+      "num_input_tokens_seen": 649743970,
+      "step": 111150
+    },
+    {
+      "epoch": 1.2265206155744977,
+      "grad_norm": 1.8271883726119995,
+      "learning_rate": 9.461128171973495e-05,
+      "loss": 4.3911,
+      "num_input_tokens_seen": 650620130,
+      "step": 111300
+    },
+    {
+      "epoch": 1.2281736083178596,
+      "grad_norm": 1.9749687910079956,
+      "learning_rate": 9.452312032560942e-05,
+      "loss": 4.3715,
+      "num_input_tokens_seen": 651492738,
+      "step": 111450
+    },
+    {
+      "epoch": 1.2298266010612213,
+      "grad_norm": 1.9666537046432495,
+      "learning_rate": 9.44349589314839e-05,
+      "loss": 4.3823,
+      "num_input_tokens_seen": 652359170,
+      "step": 111600
+    },
+    {
+      "epoch": 1.2314795938045833,
+      "grad_norm": 1.9260027408599854,
+      "learning_rate": 9.43467975373584e-05,
+      "loss": 4.3862,
+      "num_input_tokens_seen": 653229570,
+      "step": 111750
+    },
+    {
+      "epoch": 1.233132586547945,
+      "grad_norm": 1.8240337371826172,
+      "learning_rate": 9.425863614323288e-05,
+      "loss": 4.3771,
+      "num_input_tokens_seen": 654109090,
+      "step": 111900
+    },
+    {
+      "epoch": 1.234785579291307,
+      "grad_norm": 1.957507848739624,
+      "learning_rate": 9.417047474910738e-05,
+      "loss": 4.3817,
+      "num_input_tokens_seen": 654980482,
+      "step": 112050
+    },
+    {
+      "epoch": 1.2364385720346687,
+      "grad_norm": 1.8944330215454102,
+      "learning_rate": 9.408231335498185e-05,
+      "loss": 4.3812,
+      "num_input_tokens_seen": 655849634,
+      "step": 112200
+    },
+    {
+      "epoch": 1.2380915647780306,
+      "grad_norm": 1.8677889108657837,
+      "learning_rate": 9.399415196085636e-05,
+      "loss": 4.3803,
+      "num_input_tokens_seen": 656736738,
+      "step": 112350
+    },
+    {
+      "epoch": 1.2397445575213926,
+      "grad_norm": 1.8283082246780396,
+      "learning_rate": 9.390599056673083e-05,
+      "loss": 4.3933,
+      "num_input_tokens_seen": 657615938,
+      "step": 112500
+    },
+    {
+      "epoch": 1.2413975502647543,
+      "grad_norm": 1.9106853008270264,
+      "learning_rate": 9.381782917260533e-05,
+      "loss": 4.3847,
+      "num_input_tokens_seen": 658494850,
+      "step": 112650
+    },
+    {
+      "epoch": 1.2430505430081162,
+      "grad_norm": 1.8882030248641968,
+      "learning_rate": 9.372966777847981e-05,
+      "loss": 4.3862,
+      "num_input_tokens_seen": 659363618,
+      "step": 112800
+    },
+    {
+      "epoch": 1.244703535751478,
+      "grad_norm": 1.964934229850769,
+      "learning_rate": 9.36415063843543e-05,
+      "loss": 4.3805,
+      "num_input_tokens_seen": 660234946,
+      "step": 112950
+    },
+    {
+      "epoch": 1.24635652849484,
+      "grad_norm": 1.8856420516967773,
+      "learning_rate": 9.355334499022878e-05,
+      "loss": 4.3794,
+      "num_input_tokens_seen": 661115810,
+      "step": 113100
+    },
+    {
+      "epoch": 1.2480095212382019,
+      "grad_norm": 1.8618583679199219,
+      "learning_rate": 9.346518359610327e-05,
+      "loss": 4.3883,
+      "num_input_tokens_seen": 661994434,
+      "step": 113250
+    },
+    {
+      "epoch": 1.2496625139815636,
+      "grad_norm": 1.9158508777618408,
+      "learning_rate": 9.337702220197776e-05,
+      "loss": 4.3739,
+      "num_input_tokens_seen": 662868834,
+      "step": 113400
+    },
+    {
+      "epoch": 1.2513155067249255,
+      "grad_norm": 1.8499860763549805,
+      "learning_rate": 9.328886080785225e-05,
+      "loss": 4.379,
+      "num_input_tokens_seen": 663752002,
+      "step": 113550
+    },
+    {
+      "epoch": 1.2529684994682873,
+      "grad_norm": 1.8565645217895508,
+      "learning_rate": 9.320069941372673e-05,
+      "loss": 4.3854,
+      "num_input_tokens_seen": 664622402,
+      "step": 113700
+    },
+    {
+      "epoch": 1.2546214922116492,
+      "grad_norm": 2.060188055038452,
+      "learning_rate": 9.311253801960123e-05,
+      "loss": 4.3758,
+      "num_input_tokens_seen": 665495618,
+      "step": 113850
+    },
+    {
+      "epoch": 1.2562744849550112,
+      "grad_norm": 1.892635464668274,
+      "learning_rate": 9.30243766254757e-05,
+      "loss": 4.3884,
+      "num_input_tokens_seen": 666361922,
+      "step": 114000
+    },
+    {
+      "epoch": 1.2579274776983729,
+      "grad_norm": 1.9154144525527954,
+      "learning_rate": 9.29362152313502e-05,
+      "loss": 4.3752,
+      "num_input_tokens_seen": 667241410,
+      "step": 114150
+    },
+    {
+      "epoch": 1.2595804704417348,
+      "grad_norm": 1.9253753423690796,
+      "learning_rate": 9.284805383722468e-05,
+      "loss": 4.3875,
+      "num_input_tokens_seen": 668132226,
+      "step": 114300
+    },
+    {
+      "epoch": 1.2612334631850965,
+      "grad_norm": 1.9465709924697876,
+      "learning_rate": 9.275989244309918e-05,
+      "loss": 4.3742,
+      "num_input_tokens_seen": 669015202,
+      "step": 114450
+    },
+    {
+      "epoch": 1.2628864559284585,
+      "grad_norm": 1.9070016145706177,
+      "learning_rate": 9.267173104897366e-05,
+      "loss": 4.3737,
+      "num_input_tokens_seen": 669892578,
+      "step": 114600
+    },
+    {
+      "epoch": 1.2645394486718202,
+      "grad_norm": 1.9075013399124146,
+      "learning_rate": 9.258356965484816e-05,
+      "loss": 4.3789,
+      "num_input_tokens_seen": 670773314,
+      "step": 114750
+    },
+    {
+      "epoch": 1.2661924414151822,
+      "grad_norm": 1.8648816347122192,
+      "learning_rate": 9.249540826072263e-05,
+      "loss": 4.3583,
+      "num_input_tokens_seen": 671644514,
+      "step": 114900
+    },
+    {
+      "epoch": 1.2678454341585441,
+      "grad_norm": 1.9572055339813232,
+      "learning_rate": 9.240724686659714e-05,
+      "loss": 4.3871,
+      "num_input_tokens_seen": 672523202,
+      "step": 115050
+    },
+    {
+      "epoch": 1.2694984269019058,
+      "grad_norm": 1.9419187307357788,
+      "learning_rate": 9.231908547247161e-05,
+      "loss": 4.3802,
+      "num_input_tokens_seen": 673387298,
+      "step": 115200
+    },
+    {
+      "epoch": 1.2711514196452678,
+      "grad_norm": 1.9556363821029663,
+      "learning_rate": 9.223092407834611e-05,
+      "loss": 4.3922,
+      "num_input_tokens_seen": 674262786,
+      "step": 115350
+    },
+    {
+      "epoch": 1.2728044123886297,
+      "grad_norm": 1.8693435192108154,
+      "learning_rate": 9.214276268422059e-05,
+      "loss": 4.3719,
+      "num_input_tokens_seen": 675145058,
+      "step": 115500
+    },
+    {
+      "epoch": 1.2744574051319915,
+      "grad_norm": 1.9475206136703491,
+      "learning_rate": 9.205460129009508e-05,
+      "loss": 4.38,
+      "num_input_tokens_seen": 676008962,
+      "step": 115650
+    },
+    {
+      "epoch": 1.2761103978753534,
+      "grad_norm": 1.8718332052230835,
+      "learning_rate": 9.196643989596957e-05,
+      "loss": 4.3734,
+      "num_input_tokens_seen": 676887042,
+      "step": 115800
+    },
+    {
+      "epoch": 1.2777633906187151,
+      "grad_norm": 1.8318613767623901,
+      "learning_rate": 9.187827850184405e-05,
+      "loss": 4.3857,
+      "num_input_tokens_seen": 677766690,
+      "step": 115950
     }
   ],
   "logging_steps": 150,
   "max_steps": 272232,
+  "num_input_tokens_seen": 678060130,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.04696823656832e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null