Upload 11 files

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +555 -5

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18cec116365ef1b036f1549fe671ef38cd38cdd50e48ff000a37c0888048133b
 size 1110097420

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8e40555b51ab47cbd6a63d83168b6e5917f118d2889d40b4ce3e220871e6cd8
 size 1110097420

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fda91dd1702ad659189bcabcd800638aa8658f56db4cec71d731299787b65a0
 size 2220313146

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdecd5992ef078b4985837f59de1928d94cf5014b3d11b76d337d7dd9c1d313e
 size 2220313146

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68c0a7bb5c807ad5bc1c4dff28401d8ba88a8d5d80ef889d2be2ca17beb56b13
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b9b3283714e5042580832405e8bcbd71a95ba0aa2101a748c58943a7771454c
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16421db322c149675656b6ef816c336444bc6590a1774f47025ad6dacf9c462b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c01948096ca09d6133b37c1d4832dd98f343fc0f51ab59a285b9840e309e1d5c
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.28671061992645264,
-  "best_model_checkpoint": "./checkpoint-huawei-noah/checkpoint-20000",
-  "epoch": 0.8854258898530193,
   "eval_steps": 1000,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -447,6 +447,556 @@
       "eval_samples_per_second": 74.919,
       "eval_steps_per_second": 0.293,
       "step": 20000
     }
   ],
   "logging_steps": 1000,
@@ -454,7 +1004,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
-  "total_flos": 6651862755777888.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.260405570268631,
+  "best_model_checkpoint": "./checkpoint-huawei-noah/checkpoint-45000",
+  "epoch": 1.9922082521692934,
   "eval_steps": 1000,
+  "global_step": 45000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 74.919,
       "eval_steps_per_second": 0.293,
       "step": 20000
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 37.97357177734375,
+      "learning_rate": 1.7343722330440944e-05,
+      "loss": 0.2782,
+      "step": 21000
+    },
+    {
+      "epoch": 0.93,
+      "eval_LOC_f1": 0.8330484744899815,
+      "eval_ORG_f1": 0.7210407632263661,
+      "eval_PER_f1": 0.8489616418275103,
+      "eval_loss": 0.30233901739120483,
+      "eval_overall_accuracy": 0.906348548032643,
+      "eval_overall_f1": 0.8060817413887736,
+      "eval_overall_precision": 0.7987835211557213,
+      "eval_overall_recall": 0.8135145541872421,
+      "eval_runtime": 903.2924,
+      "eval_samples_per_second": 72.734,
+      "eval_steps_per_second": 0.285,
+      "step": 21000
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 3.23641037940979,
+      "learning_rate": 1.7217232917604798e-05,
+      "loss": 0.2913,
+      "step": 22000
+    },
+    {
+      "epoch": 0.97,
+      "eval_LOC_f1": 0.8284559448131656,
+      "eval_ORG_f1": 0.7247506440319704,
+      "eval_PER_f1": 0.8467821489168608,
+      "eval_loss": 0.2910088300704956,
+      "eval_overall_accuracy": 0.908466500939486,
+      "eval_overall_f1": 0.8031924311719724,
+      "eval_overall_precision": 0.7945208195637806,
+      "eval_overall_recall": 0.8120554200752534,
+      "eval_runtime": 930.8988,
+      "eval_samples_per_second": 70.577,
+      "eval_steps_per_second": 0.276,
+      "step": 22000
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 51.232643127441406,
+      "learning_rate": 1.709074350476865e-05,
+      "loss": 0.254,
+      "step": 23000
+    },
+    {
+      "epoch": 1.02,
+      "eval_LOC_f1": 0.8326820729529502,
+      "eval_ORG_f1": 0.7281753443144438,
+      "eval_PER_f1": 0.8538723624698639,
+      "eval_loss": 0.3031412661075592,
+      "eval_overall_accuracy": 0.9094907050317503,
+      "eval_overall_f1": 0.8106029688042823,
+      "eval_overall_precision": 0.8094644661502189,
+      "eval_overall_recall": 0.8117446785514041,
+      "eval_runtime": 982.2729,
+      "eval_samples_per_second": 66.886,
+      "eval_steps_per_second": 0.262,
+      "step": 23000
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 3.0182816982269287,
+      "learning_rate": 1.6964254091932504e-05,
+      "loss": 0.2412,
+      "step": 24000
+    },
+    {
+      "epoch": 1.06,
+      "eval_LOC_f1": 0.8337292382788848,
+      "eval_ORG_f1": 0.7265721539463927,
+      "eval_PER_f1": 0.8438998504510589,
+      "eval_loss": 0.2959749400615692,
+      "eval_overall_accuracy": 0.9087023207706061,
+      "eval_overall_f1": 0.8054477820887165,
+      "eval_overall_precision": 0.7949914132873621,
+      "eval_overall_recall": 0.8161828781420359,
+      "eval_runtime": 937.946,
+      "eval_samples_per_second": 70.047,
+      "eval_steps_per_second": 0.274,
+      "step": 24000
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 4.651257038116455,
+      "learning_rate": 1.683776467909636e-05,
+      "loss": 0.2248,
+      "step": 25000
+    },
+    {
+      "epoch": 1.11,
+      "eval_LOC_f1": 0.8204892221350009,
+      "eval_ORG_f1": 0.7164497497985908,
+      "eval_PER_f1": 0.8366153573083787,
+      "eval_loss": 0.2870059013366699,
+      "eval_overall_accuracy": 0.9095747909232758,
+      "eval_overall_f1": 0.7954083144399056,
+      "eval_overall_precision": 0.7841744564646571,
+      "eval_overall_recall": 0.806968716434849,
+      "eval_runtime": 880.5612,
+      "eval_samples_per_second": 74.612,
+      "eval_steps_per_second": 0.292,
+      "step": 25000
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 0.5376187562942505,
+      "learning_rate": 1.6711275266260215e-05,
+      "loss": 0.2367,
+      "step": 26000
+    },
+    {
+      "epoch": 1.15,
+      "eval_LOC_f1": 0.8274943290245922,
+      "eval_ORG_f1": 0.7181801646127961,
+      "eval_PER_f1": 0.8393770384236834,
+      "eval_loss": 0.3035840094089508,
+      "eval_overall_accuracy": 0.9099459068505344,
+      "eval_overall_f1": 0.7997951699758828,
+      "eval_overall_precision": 0.7826674511984585,
+      "eval_overall_recall": 0.8176892990076537,
+      "eval_runtime": 877.1859,
+      "eval_samples_per_second": 74.899,
+      "eval_steps_per_second": 0.293,
+      "step": 26000
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 29.850025177001953,
+      "learning_rate": 1.658478585342407e-05,
+      "loss": 0.2259,
+      "step": 27000
+    },
+    {
+      "epoch": 1.2,
+      "eval_LOC_f1": 0.8368737846096861,
+      "eval_ORG_f1": 0.730566338210411,
+      "eval_PER_f1": 0.8548625950405009,
+      "eval_loss": 0.2981078624725342,
+      "eval_overall_accuracy": 0.912430550111398,
+      "eval_overall_f1": 0.8107802613802052,
+      "eval_overall_precision": 0.8028279082088811,
+      "eval_overall_recall": 0.8188917335999406,
+      "eval_runtime": 900.9915,
+      "eval_samples_per_second": 72.92,
+      "eval_steps_per_second": 0.285,
+      "step": 27000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 6.522253036499023,
+      "learning_rate": 1.6458296440587925e-05,
+      "loss": 0.2353,
+      "step": 28000
+    },
+    {
+      "epoch": 1.24,
+      "eval_LOC_f1": 0.8361146769362431,
+      "eval_ORG_f1": 0.7397288818401768,
+      "eval_PER_f1": 0.851691836373991,
+      "eval_loss": 0.2890784442424774,
+      "eval_overall_accuracy": 0.9118988490980682,
+      "eval_overall_f1": 0.813503140265178,
+      "eval_overall_precision": 0.8080863288253761,
+      "eval_overall_recall": 0.8189930623577175,
+      "eval_runtime": 898.5924,
+      "eval_samples_per_second": 73.114,
+      "eval_steps_per_second": 0.286,
+      "step": 28000
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 18.48634910583496,
+      "learning_rate": 1.633180702775178e-05,
+      "loss": 0.231,
+      "step": 29000
+    },
+    {
+      "epoch": 1.28,
+      "eval_LOC_f1": 0.8399307496708805,
+      "eval_ORG_f1": 0.7353511607405231,
+      "eval_PER_f1": 0.8429051875514639,
+      "eval_loss": 0.29812344908714294,
+      "eval_overall_accuracy": 0.9100799384971765,
+      "eval_overall_f1": 0.8109618028412001,
+      "eval_overall_precision": 0.8090263071203351,
+      "eval_overall_recall": 0.8129065816405802,
+      "eval_runtime": 911.3101,
+      "eval_samples_per_second": 72.094,
+      "eval_steps_per_second": 0.282,
+      "step": 29000
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 6.476167678833008,
+      "learning_rate": 1.6205317614915632e-05,
+      "loss": 0.2298,
+      "step": 30000
+    },
+    {
+      "epoch": 1.33,
+      "eval_LOC_f1": 0.8437642148074813,
+      "eval_ORG_f1": 0.741920341727885,
+      "eval_PER_f1": 0.845791168353266,
+      "eval_loss": 0.2789755165576935,
+      "eval_overall_accuracy": 0.9128231616800994,
+      "eval_overall_f1": 0.8156984934617233,
+      "eval_overall_precision": 0.8007835888891781,
+      "eval_overall_recall": 0.8311795342930293,
+      "eval_runtime": 950.013,
+      "eval_samples_per_second": 69.157,
+      "eval_steps_per_second": 0.271,
+      "step": 30000
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 0.6922666430473328,
+      "learning_rate": 1.607882820207949e-05,
+      "loss": 0.2236,
+      "step": 31000
+    },
+    {
+      "epoch": 1.37,
+      "eval_LOC_f1": 0.8401312445122232,
+      "eval_ORG_f1": 0.7412946847115139,
+      "eval_PER_f1": 0.8599101069965396,
+      "eval_loss": 0.2861514985561371,
+      "eval_overall_accuracy": 0.9133093425115507,
+      "eval_overall_f1": 0.8168471254617229,
+      "eval_overall_precision": 0.8077931685921699,
+      "eval_overall_recall": 0.8261063411536617,
+      "eval_runtime": 964.6377,
+      "eval_samples_per_second": 68.108,
+      "eval_steps_per_second": 0.266,
+      "step": 31000
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 10.913984298706055,
+      "learning_rate": 1.5952338789243342e-05,
+      "loss": 0.2164,
+      "step": 32000
+    },
+    {
+      "epoch": 1.42,
+      "eval_LOC_f1": 0.8450018789928598,
+      "eval_ORG_f1": 0.7453389102160086,
+      "eval_PER_f1": 0.8475419561015748,
+      "eval_loss": 0.29202836751937866,
+      "eval_overall_accuracy": 0.9133548626934291,
+      "eval_overall_f1": 0.8167286457267982,
+      "eval_overall_precision": 0.8108745156006552,
+      "eval_overall_recall": 0.8226679186397627,
+      "eval_runtime": 934.7918,
+      "eval_samples_per_second": 70.283,
+      "eval_steps_per_second": 0.275,
+      "step": 32000
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 8.604541778564453,
+      "learning_rate": 1.5825849376407196e-05,
+      "loss": 0.2343,
+      "step": 33000
+    },
+    {
+      "epoch": 1.46,
+      "eval_LOC_f1": 0.8327052539148251,
+      "eval_ORG_f1": 0.7464142820374833,
+      "eval_PER_f1": 0.8571568569804591,
+      "eval_loss": 0.26980945467948914,
+      "eval_overall_accuracy": 0.915141529832157,
+      "eval_overall_f1": 0.8162628685387808,
+      "eval_overall_precision": 0.8141182004502234,
+      "eval_overall_recall": 0.818418866063648,
+      "eval_runtime": 878.6904,
+      "eval_samples_per_second": 74.77,
+      "eval_steps_per_second": 0.292,
+      "step": 33000
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 20.011140823364258,
+      "learning_rate": 1.569935996357105e-05,
+      "loss": 0.2305,
+      "step": 34000
+    },
+    {
+      "epoch": 1.51,
+      "eval_LOC_f1": 0.8434370154154885,
+      "eval_ORG_f1": 0.7450794786844748,
+      "eval_PER_f1": 0.8598302131901996,
+      "eval_loss": 0.2736206650733948,
+      "eval_overall_accuracy": 0.9164160949247526,
+      "eval_overall_f1": 0.820116525352046,
+      "eval_overall_precision": 0.8215285544822911,
+      "eval_overall_recall": 0.818709341835942,
+      "eval_runtime": 878.0774,
+      "eval_samples_per_second": 74.823,
+      "eval_steps_per_second": 0.293,
+      "step": 34000
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 0.8893330693244934,
+      "learning_rate": 1.5572870550734906e-05,
+      "loss": 0.218,
+      "step": 35000
+    },
+    {
+      "epoch": 1.55,
+      "eval_LOC_f1": 0.8372996858861737,
+      "eval_ORG_f1": 0.7351363688234623,
+      "eval_PER_f1": 0.8452893909397927,
+      "eval_loss": 0.277670681476593,
+      "eval_overall_accuracy": 0.9132897435443531,
+      "eval_overall_f1": 0.8105032765054125,
+      "eval_overall_precision": 0.7914432306117588,
+      "eval_overall_recall": 0.8305040092411827,
+      "eval_runtime": 878.1965,
+      "eval_samples_per_second": 74.812,
+      "eval_steps_per_second": 0.293,
+      "step": 35000
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 2.807310104370117,
+      "learning_rate": 1.544638113789876e-05,
+      "loss": 0.2209,
+      "step": 36000
+    },
+    {
+      "epoch": 1.59,
+      "eval_LOC_f1": 0.8436019819082686,
+      "eval_ORG_f1": 0.7541017701160051,
+      "eval_PER_f1": 0.8559255699664113,
+      "eval_loss": 0.2975883483886719,
+      "eval_overall_accuracy": 0.9155777649084917,
+      "eval_overall_f1": 0.8217433690792348,
+      "eval_overall_precision": 0.8178831213153369,
+      "eval_overall_recall": 0.8256402288678876,
+      "eval_runtime": 887.7886,
+      "eval_samples_per_second": 74.004,
+      "eval_steps_per_second": 0.289,
+      "step": 36000
+    },
+    {
+      "epoch": 1.64,
+      "grad_norm": 0.7378529906272888,
+      "learning_rate": 1.5319891725062616e-05,
+      "loss": 0.2068,
+      "step": 37000
+    },
+    {
+      "epoch": 1.64,
+      "eval_LOC_f1": 0.8404596277816221,
+      "eval_ORG_f1": 0.7519756060658962,
+      "eval_PER_f1": 0.8650594959056045,
+      "eval_loss": 0.2906901240348816,
+      "eval_overall_accuracy": 0.9159109473508519,
+      "eval_overall_f1": 0.8231073274551537,
+      "eval_overall_precision": 0.8232630746670091,
+      "eval_overall_recall": 0.8229516391615384,
+      "eval_runtime": 914.9939,
+      "eval_samples_per_second": 71.804,
+      "eval_steps_per_second": 0.281,
+      "step": 37000
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.775814056396484,
+      "learning_rate": 1.5193402312226468e-05,
+      "loss": 0.2222,
+      "step": 38000
+    },
+    {
+      "epoch": 1.68,
+      "eval_LOC_f1": 0.8486954241510423,
+      "eval_ORG_f1": 0.7403596163509645,
+      "eval_PER_f1": 0.8627163820626227,
+      "eval_loss": 0.2920599579811096,
+      "eval_overall_accuracy": 0.9144530370812459,
+      "eval_overall_f1": 0.8204945751023299,
+      "eval_overall_precision": 0.8079300635190885,
+      "eval_overall_recall": 0.8334560537177521,
+      "eval_runtime": 974.0136,
+      "eval_samples_per_second": 67.453,
+      "eval_steps_per_second": 0.264,
+      "step": 38000
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 2.2256317138671875,
+      "learning_rate": 1.5066912899390323e-05,
+      "loss": 0.2328,
+      "step": 39000
+    },
+    {
+      "epoch": 1.73,
+      "eval_LOC_f1": 0.849334397801749,
+      "eval_ORG_f1": 0.753236617390506,
+      "eval_PER_f1": 0.8693573280340553,
+      "eval_loss": 0.29489845037460327,
+      "eval_overall_accuracy": 0.917294255100157,
+      "eval_overall_f1": 0.8276056778793333,
+      "eval_overall_precision": 0.8335114765330592,
+      "eval_overall_recall": 0.8217829808218438,
+      "eval_runtime": 944.9062,
+      "eval_samples_per_second": 69.531,
+      "eval_steps_per_second": 0.272,
+      "step": 39000
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 16.9512996673584,
+      "learning_rate": 1.4940423486554176e-05,
+      "loss": 0.2229,
+      "step": 40000
+    },
+    {
+      "epoch": 1.77,
+      "eval_LOC_f1": 0.8445889009269291,
+      "eval_ORG_f1": 0.7452847675981278,
+      "eval_PER_f1": 0.8508496270046708,
+      "eval_loss": 0.27226653695106506,
+      "eval_overall_accuracy": 0.916396495957555,
+      "eval_overall_f1": 0.818113712374582,
+      "eval_overall_precision": 0.8101638106341121,
+      "eval_overall_recall": 0.8262211804124756,
+      "eval_runtime": 919.492,
+      "eval_samples_per_second": 71.452,
+      "eval_steps_per_second": 0.28,
+      "step": 40000
+    },
+    {
+      "epoch": 1.82,
+      "grad_norm": 0.6652330160140991,
+      "learning_rate": 1.481393407371803e-05,
+      "loss": 0.2219,
+      "step": 41000
+    },
+    {
+      "epoch": 1.82,
+      "eval_LOC_f1": 0.8483445744353834,
+      "eval_ORG_f1": 0.7490041659533185,
+      "eval_PER_f1": 0.865145374272123,
+      "eval_loss": 0.2795349359512329,
+      "eval_overall_accuracy": 0.9183601860258099,
+      "eval_overall_f1": 0.8247159453593771,
+      "eval_overall_precision": 0.8203393908609086,
+      "eval_overall_recall": 0.8291394486364527,
+      "eval_runtime": 878.0472,
+      "eval_samples_per_second": 74.825,
+      "eval_steps_per_second": 0.293,
+      "step": 41000
+    },
+    {
+      "epoch": 1.86,
+      "grad_norm": 8.537057876586914,
+      "learning_rate": 1.4687444660881885e-05,
+      "loss": 0.2265,
+      "step": 42000
+    },
+    {
+      "epoch": 1.86,
+      "eval_LOC_f1": 0.8431806420528559,
+      "eval_ORG_f1": 0.7481651106805237,
+      "eval_PER_f1": 0.8624314888139032,
+      "eval_loss": 0.2695271372795105,
+      "eval_overall_accuracy": 0.9176305986662586,
+      "eval_overall_f1": 0.8227747180347664,
+      "eval_overall_precision": 0.8127298369558054,
+      "eval_overall_recall": 0.8330710044381996,
+      "eval_runtime": 878.4759,
+      "eval_samples_per_second": 74.789,
+      "eval_steps_per_second": 0.293,
+      "step": 42000
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 2.5510284900665283,
+      "learning_rate": 1.456095524804574e-05,
+      "loss": 0.208,
+      "step": 43000
+    },
+    {
+      "epoch": 1.9,
+      "eval_LOC_f1": 0.8455445895423215,
+      "eval_ORG_f1": 0.7595170903640558,
+      "eval_PER_f1": 0.8683249226114047,
+      "eval_loss": 0.291418194770813,
+      "eval_overall_accuracy": 0.9158768072144431,
+      "eval_overall_f1": 0.828613510075651,
+      "eval_overall_precision": 0.8212624496539643,
+      "eval_overall_recall": 0.8360973566704721,
+      "eval_runtime": 879.88,
+      "eval_samples_per_second": 74.669,
+      "eval_steps_per_second": 0.292,
+      "step": 43000
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 40.04784393310547,
+      "learning_rate": 1.4434465835209595e-05,
+      "loss": 0.2201,
+      "step": 44000
+    },
+    {
+      "epoch": 1.95,
+      "eval_LOC_f1": 0.8562697361719467,
+      "eval_ORG_f1": 0.7598152424942263,
+      "eval_PER_f1": 0.8635555196248839,
+      "eval_loss": 0.26673147082328796,
+      "eval_overall_accuracy": 0.9210597857010994,
+      "eval_overall_f1": 0.8302701818813599,
+      "eval_overall_precision": 0.8374682152429387,
+      "eval_overall_recall": 0.8231948281802031,
+      "eval_runtime": 908.7842,
+      "eval_samples_per_second": 72.294,
+      "eval_steps_per_second": 0.283,
+      "step": 44000
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 4.13014030456543,
+      "learning_rate": 1.4307976422373449e-05,
+      "loss": 0.2065,
+      "step": 45000
+    },
+    {
+      "epoch": 1.99,
+      "eval_LOC_f1": 0.850374667633551,
+      "eval_ORG_f1": 0.7572422253856926,
+      "eval_PER_f1": 0.8662861965717501,
+      "eval_loss": 0.260405570268631,
+      "eval_overall_accuracy": 0.9184101317809266,
+      "eval_overall_f1": 0.8283524878105291,
+      "eval_overall_precision": 0.835684527492472,
+      "eval_overall_recall": 0.821147987273108,
+      "eval_runtime": 930.7338,
+      "eval_samples_per_second": 70.589,
+      "eval_steps_per_second": 0.276,
+      "step": 45000
     }
   ],
   "logging_steps": 1000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 7,
   "save_steps": 500,
+  "total_flos": 1.4980271080173432e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null