End of training

Browse files

Files changed (4) hide show

README.md +1 -1
all_results.json +6 -6
test_results.json +6 -6
trainer_state.json +1895 -323

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6799
 - Accuracy: 0.3314
 ## Model description

 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6795
 - Accuracy: 0.3314
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.11,
-    "eval_accuracy": 0.3414225941422594,
-    "eval_loss": 1.6634992361068726,
-    "eval_runtime": 294.1145,
-    "eval_samples_per_second": 4.063,
-    "eval_steps_per_second": 0.255
 }

 {
+    "epoch": 58.01,
+    "eval_accuracy": 0.3313807531380753,
+    "eval_loss": 1.679498314857483,
+    "eval_runtime": 279.1958,
+    "eval_samples_per_second": 4.28,
+    "eval_steps_per_second": 0.136
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 7.11,
-    "eval_accuracy": 0.3414225941422594,
-    "eval_loss": 1.6634992361068726,
-    "eval_runtime": 294.1145,
-    "eval_samples_per_second": 4.063,
-    "eval_steps_per_second": 0.255
 }

 {
+    "epoch": 58.01,
+    "eval_accuracy": 0.3313807531380753,
+    "eval_loss": 1.679498314857483,
+    "eval_runtime": 279.1958,
+    "eval_samples_per_second": 4.28,
+    "eval_steps_per_second": 0.136
 }

trainer_state.json CHANGED Viewed

@@ -1,519 +1,2091 @@
 {
-  "best_metric": 0.34782608695652173,
-  "best_model_checkpoint": "videomae-base-finetuned-elder/checkpoint-219",
-  "epoch": 7.112847222222222,
   "eval_steps": 500,
-  "global_step": 576,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
-      "grad_norm": 5.237472057342529,
-      "learning_rate": 8.620689655172414e-06,
-      "loss": 1.7724,
       "step": 10
     },
     {
-      "epoch": 0.03,
-      "grad_norm": 6.054948806762695,
-      "learning_rate": 1.7241379310344828e-05,
-      "loss": 1.7224,
       "step": 20
     },
     {
-      "epoch": 0.05,
-      "grad_norm": 4.134993076324463,
-      "learning_rate": 2.5862068965517244e-05,
-      "loss": 1.6904,
       "step": 30
     },
     {
-      "epoch": 0.07,
-      "grad_norm": 4.677920341491699,
-      "learning_rate": 3.4482758620689657e-05,
-      "loss": 1.756,
       "step": 40
     },
     {
-      "epoch": 0.09,
-      "grad_norm": 4.563185214996338,
-      "learning_rate": 4.3103448275862066e-05,
-      "loss": 1.6722,
       "step": 50
     },
     {
-      "epoch": 0.1,
-      "grad_norm": 5.584333419799805,
-      "learning_rate": 4.980694980694981e-05,
-      "loss": 1.7276,
       "step": 60
     },
     {
-      "epoch": 0.12,
-      "grad_norm": 4.3401899337768555,
-      "learning_rate": 4.884169884169885e-05,
-      "loss": 1.7389,
       "step": 70
     },
     {
-      "epoch": 0.13,
-      "eval_accuracy": 0.34221598877980364,
-      "eval_loss": 1.6415042877197266,
-      "eval_runtime": 290.9078,
-      "eval_samples_per_second": 4.902,
-      "eval_steps_per_second": 0.309,
-      "step": 73
     },
     {
-      "epoch": 1.01,
-      "grad_norm": 3.965003252029419,
-      "learning_rate": 4.787644787644788e-05,
-      "loss": 1.7246,
       "step": 80
     },
     {
-      "epoch": 1.03,
-      "grad_norm": 5.857859134674072,
-      "learning_rate": 4.6911196911196914e-05,
-      "loss": 1.7429,
       "step": 90
     },
     {
-      "epoch": 1.05,
-      "grad_norm": 3.8463449478149414,
-      "learning_rate": 4.594594594594595e-05,
-      "loss": 1.7281,
       "step": 100
     },
     {
-      "epoch": 1.06,
-      "grad_norm": 4.073330879211426,
-      "learning_rate": 4.498069498069498e-05,
-      "loss": 1.6925,
       "step": 110
     },
     {
-      "epoch": 1.08,
-      "grad_norm": 4.23333740234375,
-      "learning_rate": 4.401544401544402e-05,
-      "loss": 1.6861,
       "step": 120
     },
     {
-      "epoch": 1.1,
-      "grad_norm": 3.201246500015259,
-      "learning_rate": 4.305019305019305e-05,
-      "loss": 1.6294,
       "step": 130
     },
     {
-      "epoch": 1.12,
-      "grad_norm": 3.7988574504852295,
-      "learning_rate": 4.2084942084942086e-05,
-      "loss": 1.6564,
       "step": 140
     },
     {
-      "epoch": 1.13,
-      "eval_accuracy": 0.32538569424964936,
-      "eval_loss": 1.6350404024124146,
-      "eval_runtime": 315.829,
-      "eval_samples_per_second": 4.515,
-      "eval_steps_per_second": 0.285,
-      "step": 146
-    },
-    {
-      "epoch": 2.01,
-      "grad_norm": 4.17667818069458,
-      "learning_rate": 4.111969111969112e-05,
-      "loss": 1.681,
       "step": 150
     },
     {
-      "epoch": 2.02,
-      "grad_norm": 3.9209909439086914,
-      "learning_rate": 4.015444015444015e-05,
-      "loss": 1.7443,
       "step": 160
     },
     {
-      "epoch": 2.04,
-      "grad_norm": 2.9084713459014893,
-      "learning_rate": 3.918918918918919e-05,
-      "loss": 1.6921,
       "step": 170
     },
     {
-      "epoch": 2.06,
-      "grad_norm": 5.516010761260986,
-      "learning_rate": 3.822393822393823e-05,
-      "loss": 1.683,
       "step": 180
     },
     {
-      "epoch": 2.08,
-      "grad_norm": 2.67150616645813,
-      "learning_rate": 3.725868725868726e-05,
-      "loss": 1.6742,
       "step": 190
     },
     {
-      "epoch": 2.09,
-      "grad_norm": 4.397495746612549,
-      "learning_rate": 3.6293436293436295e-05,
-      "loss": 1.6729,
       "step": 200
     },
     {
-      "epoch": 2.11,
-      "grad_norm": 3.290335178375244,
-      "learning_rate": 3.532818532818533e-05,
-      "loss": 1.6835,
       "step": 210
     },
     {
-      "epoch": 2.13,
-      "eval_accuracy": 0.34782608695652173,
-      "eval_loss": 1.6297296285629272,
-      "eval_runtime": 349.3232,
-      "eval_samples_per_second": 4.082,
-      "eval_steps_per_second": 0.258,
-      "step": 219
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 4.048051834106445,
-      "learning_rate": 3.436293436293436e-05,
-      "loss": 1.6983,
-      "step": 220
     },
     {
-      "epoch": 3.02,
-      "grad_norm": 2.2507669925689697,
-      "learning_rate": 3.33976833976834e-05,
-      "loss": 1.6625,
       "step": 230
     },
     {
-      "epoch": 3.04,
-      "grad_norm": 3.7626376152038574,
-      "learning_rate": 3.2432432432432436e-05,
-      "loss": 1.6627,
       "step": 240
     },
     {
-      "epoch": 3.05,
-      "grad_norm": 5.144118309020996,
-      "learning_rate": 3.1467181467181466e-05,
-      "loss": 1.5669,
       "step": 250
     },
     {
-      "epoch": 3.07,
-      "grad_norm": 4.4853692054748535,
-      "learning_rate": 3.0501930501930504e-05,
-      "loss": 1.6128,
       "step": 260
     },
     {
-      "epoch": 3.09,
-      "grad_norm": 2.6562840938568115,
-      "learning_rate": 2.953667953667954e-05,
-      "loss": 1.7437,
       "step": 270
     },
     {
-      "epoch": 3.11,
-      "grad_norm": 5.279839992523193,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 1.6866,
       "step": 280
     },
     {
-      "epoch": 3.12,
-      "grad_norm": 4.48944091796875,
-      "learning_rate": 2.7606177606177608e-05,
-      "loss": 1.6586,
       "step": 290
     },
     {
-      "epoch": 3.13,
-      "eval_accuracy": 0.28892005610098176,
-      "eval_loss": 1.6578232049942017,
-      "eval_runtime": 322.0754,
-      "eval_samples_per_second": 4.428,
-      "eval_steps_per_second": 0.279,
-      "step": 292
-    },
-    {
-      "epoch": 4.01,
-      "grad_norm": 2.674558639526367,
-      "learning_rate": 2.6640926640926645e-05,
-      "loss": 1.6305,
       "step": 300
     },
     {
-      "epoch": 4.03,
-      "grad_norm": 3.7416186332702637,
-      "learning_rate": 2.5675675675675675e-05,
-      "loss": 1.6256,
       "step": 310
     },
     {
-      "epoch": 4.05,
-      "grad_norm": 3.584017038345337,
-      "learning_rate": 2.4710424710424712e-05,
-      "loss": 1.6289,
       "step": 320
     },
     {
-      "epoch": 4.07,
-      "grad_norm": 3.1863162517547607,
-      "learning_rate": 2.3745173745173746e-05,
-      "loss": 1.6078,
       "step": 330
     },
     {
-      "epoch": 4.08,
-      "grad_norm": 4.056468486785889,
-      "learning_rate": 2.277992277992278e-05,
-      "loss": 1.7026,
       "step": 340
     },
     {
-      "epoch": 4.1,
-      "grad_norm": 3.548006772994995,
-      "learning_rate": 2.1814671814671817e-05,
-      "loss": 1.6603,
       "step": 350
     },
     {
-      "epoch": 4.12,
-      "grad_norm": 6.205471515655518,
-      "learning_rate": 2.084942084942085e-05,
-      "loss": 1.5774,
       "step": 360
     },
     {
-      "epoch": 4.13,
-      "eval_accuracy": 0.32959326788218796,
-      "eval_loss": 1.6130512952804565,
-      "eval_runtime": 350.4881,
-      "eval_samples_per_second": 4.069,
-      "eval_steps_per_second": 0.257,
-      "step": 365
     },
     {
-      "epoch": 5.01,
-      "grad_norm": 5.552679538726807,
-      "learning_rate": 1.9884169884169884e-05,
-      "loss": 1.566,
       "step": 370
     },
     {
-      "epoch": 5.03,
-      "grad_norm": 4.196056365966797,
-      "learning_rate": 1.891891891891892e-05,
-      "loss": 1.644,
       "step": 380
     },
     {
-      "epoch": 5.04,
-      "grad_norm": 3.769803047180176,
-      "learning_rate": 1.7953667953667955e-05,
-      "loss": 1.6073,
       "step": 390
     },
     {
-      "epoch": 5.06,
-      "grad_norm": 4.715469837188721,
-      "learning_rate": 1.698841698841699e-05,
-      "loss": 1.648,
       "step": 400
     },
     {
-      "epoch": 5.08,
-      "grad_norm": 4.178481101989746,
-      "learning_rate": 1.6023166023166026e-05,
-      "loss": 1.6536,
       "step": 410
     },
     {
-      "epoch": 5.1,
-      "grad_norm": 3.690173625946045,
-      "learning_rate": 1.505791505791506e-05,
-      "loss": 1.5387,
       "step": 420
     },
     {
-      "epoch": 5.11,
-      "grad_norm": 4.677956581115723,
-      "learning_rate": 1.4092664092664093e-05,
-      "loss": 1.5861,
       "step": 430
     },
     {
-      "epoch": 5.13,
-      "eval_accuracy": 0.3429172510518934,
-      "eval_loss": 1.6085110902786255,
-      "eval_runtime": 327.2587,
-      "eval_samples_per_second": 4.357,
-      "eval_steps_per_second": 0.275,
-      "step": 438
     },
     {
-      "epoch": 6.0,
-      "grad_norm": 3.9732487201690674,
-      "learning_rate": 1.3127413127413127e-05,
-      "loss": 1.5394,
-      "step": 440
     },
     {
-      "epoch": 6.02,
-      "grad_norm": 4.788599967956543,
-      "learning_rate": 1.2162162162162164e-05,
-      "loss": 1.5403,
       "step": 450
     },
     {
-      "epoch": 6.04,
-      "grad_norm": 4.857376575469971,
-      "learning_rate": 1.1196911196911197e-05,
-      "loss": 1.4993,
       "step": 460
     },
     {
-      "epoch": 6.06,
-      "grad_norm": 4.482532501220703,
-      "learning_rate": 1.0231660231660233e-05,
-      "loss": 1.7165,
       "step": 470
     },
     {
-      "epoch": 6.07,
-      "grad_norm": 4.450554370880127,
-      "learning_rate": 9.266409266409266e-06,
-      "loss": 1.5992,
       "step": 480
     },
     {
-      "epoch": 6.09,
-      "grad_norm": 3.0036492347717285,
-      "learning_rate": 8.301158301158302e-06,
-      "loss": 1.5497,
       "step": 490
     },
     {
-      "epoch": 6.11,
-      "grad_norm": 4.3488240242004395,
-      "learning_rate": 7.335907335907337e-06,
-      "loss": 1.6037,
       "step": 500
     },
     {
-      "epoch": 6.12,
-      "grad_norm": 3.3629989624023438,
-      "learning_rate": 6.370656370656371e-06,
-      "loss": 1.6262,
       "step": 510
     },
     {
-      "epoch": 6.13,
-      "eval_accuracy": 0.3155680224403927,
-      "eval_loss": 1.624500036239624,
-      "eval_runtime": 326.5278,
-      "eval_samples_per_second": 4.367,
-      "eval_steps_per_second": 0.276,
-      "step": 511
     },
     {
-      "epoch": 7.02,
-      "grad_norm": 3.1343469619750977,
-      "learning_rate": 5.405405405405406e-06,
-      "loss": 1.5258,
       "step": 520
     },
     {
-      "epoch": 7.03,
-      "grad_norm": 4.27249002456665,
-      "learning_rate": 4.4401544401544405e-06,
-      "loss": 1.5383,
       "step": 530
     },
     {
-      "epoch": 7.05,
-      "grad_norm": 3.4036643505096436,
-      "learning_rate": 3.474903474903475e-06,
-      "loss": 1.4919,
       "step": 540
     },
     {
-      "epoch": 7.07,
-      "grad_norm": 4.460765361785889,
-      "learning_rate": 2.5096525096525096e-06,
-      "loss": 1.5844,
       "step": 550
     },
     {
-      "epoch": 7.09,
-      "grad_norm": 3.683540105819702,
-      "learning_rate": 1.5444015444015445e-06,
-      "loss": 1.5198,
       "step": 560
     },
     {
-      "epoch": 7.1,
-      "grad_norm": 4.533329963684082,
-      "learning_rate": 5.791505791505791e-07,
-      "loss": 1.5688,
       "step": 570
     },
     {
-      "epoch": 7.11,
       "eval_accuracy": 0.3141654978962132,
-      "eval_loss": 1.6346054077148438,
-      "eval_runtime": 366.9807,
-      "eval_samples_per_second": 3.886,
-      "eval_steps_per_second": 0.245,
-      "step": 576
-    },
-    {
-      "epoch": 7.11,
-      "step": 576,
-      "total_flos": 1.1388190514622824e+19,
-      "train_loss": 1.6425048808256786,
-      "train_runtime": 5181.3338,
-      "train_samples_per_second": 1.779,
-      "train_steps_per_second": 0.111
-    },
-    {
-      "epoch": 7.11,
-      "eval_accuracy": 0.3414225941422594,
-      "eval_loss": 1.663814902305603,
-      "eval_runtime": 287.8607,
-      "eval_samples_per_second": 4.151,
-      "eval_steps_per_second": 0.261,
-      "step": 576
-    },
-    {
-      "epoch": 7.11,
-      "eval_accuracy": 0.3414225941422594,
-      "eval_loss": 1.6634992361068726,
-      "eval_runtime": 294.1145,
-      "eval_samples_per_second": 4.063,
-      "eval_steps_per_second": 0.255,
-      "step": 576
     }
   ],
   "logging_steps": 10,
-  "max_steps": 576,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
-  "total_flos": 1.1388190514622824e+19,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3485273492286115,
+  "best_model_checkpoint": "videomae-base-finetuned-elder/checkpoint-259",
+  "epoch": 58.00648148148148,
   "eval_steps": 500,
+  "global_step": 2160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "grad_norm": 5.482585906982422,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 1.8348,
       "step": 10
     },
     {
+      "epoch": 0.01,
+      "grad_norm": 3.854177713394165,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 1.8009,
       "step": 20
     },
     {
+      "epoch": 0.01,
+      "grad_norm": 2.802464485168457,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 1.7518,
       "step": 30
     },
     {
+      "epoch": 0.02,
+      "eval_accuracy": 0.34011220196353437,
+      "eval_loss": 1.6497516632080078,
+      "eval_runtime": 288.7052,
+      "eval_samples_per_second": 4.939,
+      "eval_steps_per_second": 0.156,
+      "step": 37
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.4240188598632812,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 1.7321,
       "step": 40
     },
     {
+      "epoch": 1.01,
+      "grad_norm": 3.0115363597869873,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 1.712,
       "step": 50
     },
     {
+      "epoch": 1.01,
+      "grad_norm": 2.6394731998443604,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 1.6934,
       "step": 60
     },
     {
+      "epoch": 1.02,
+      "grad_norm": 3.2504265308380127,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 1.6435,
       "step": 70
     },
     {
+      "epoch": 1.02,
+      "eval_accuracy": 0.3436185133239832,
+      "eval_loss": 1.63015878200531,
+      "eval_runtime": 305.1135,
+      "eval_samples_per_second": 4.674,
+      "eval_steps_per_second": 0.147,
+      "step": 74
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 3.015937328338623,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.7107,
       "step": 80
     },
     {
+      "epoch": 2.01,
+      "grad_norm": 3.0576603412628174,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.6863,
       "step": 90
     },
     {
+      "epoch": 2.01,
+      "grad_norm": 2.1496477127075195,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 1.6815,
       "step": 100
     },
     {
+      "epoch": 2.02,
+      "grad_norm": 2.7620458602905273,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 1.6879,
       "step": 110
     },
     {
+      "epoch": 2.02,
+      "eval_accuracy": 0.34011220196353437,
+      "eval_loss": 1.6197831630706787,
+      "eval_runtime": 312.1037,
+      "eval_samples_per_second": 4.569,
+      "eval_steps_per_second": 0.144,
+      "step": 111
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.320647954940796,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 1.7174,
       "step": 120
     },
     {
+      "epoch": 3.01,
+      "grad_norm": 3.75618577003479,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 1.6653,
       "step": 130
     },
     {
+      "epoch": 3.01,
+      "grad_norm": 3.8325207233428955,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 1.7059,
       "step": 140
     },
     {
+      "epoch": 3.02,
+      "eval_accuracy": 0.197054698457223,
+      "eval_loss": 1.7028281688690186,
+      "eval_runtime": 315.8972,
+      "eval_samples_per_second": 4.514,
+      "eval_steps_per_second": 0.142,
+      "step": 148
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.027806758880615,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 1.7085,
       "step": 150
     },
     {
+      "epoch": 4.01,
+      "grad_norm": 2.945446252822876,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.6431,
       "step": 160
     },
     {
+      "epoch": 4.01,
+      "grad_norm": 2.925701856613159,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 1.696,
       "step": 170
     },
     {
+      "epoch": 4.01,
+      "grad_norm": 3.969252586364746,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.6555,
       "step": 180
     },
     {
+      "epoch": 4.02,
+      "eval_accuracy": 0.2903225806451613,
+      "eval_loss": 1.6066545248031616,
+      "eval_runtime": 318.4782,
+      "eval_samples_per_second": 4.478,
+      "eval_steps_per_second": 0.141,
+      "step": 185
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.911034345626831,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 1.6794,
       "step": 190
     },
     {
+      "epoch": 5.01,
+      "grad_norm": 2.8345723152160645,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 1.671,
       "step": 200
     },
     {
+      "epoch": 5.01,
+      "grad_norm": 2.6440374851226807,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 1.6703,
       "step": 210
     },
     {
+      "epoch": 5.02,
+      "grad_norm": 2.750511407852173,
+      "learning_rate": 4.9897119341563785e-05,
+      "loss": 1.616,
+      "step": 220
     },
     {
+      "epoch": 5.02,
+      "eval_accuracy": 0.31626928471248245,
+      "eval_loss": 1.6073260307312012,
+      "eval_runtime": 318.3032,
+      "eval_samples_per_second": 4.48,
+      "eval_steps_per_second": 0.141,
+      "step": 222
     },
     {
+      "epoch": 6.0,
+      "grad_norm": 4.725213527679443,
+      "learning_rate": 4.963991769547325e-05,
+      "loss": 1.5793,
       "step": 230
     },
     {
+      "epoch": 6.01,
+      "grad_norm": 3.6718668937683105,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 1.6732,
       "step": 240
     },
     {
+      "epoch": 6.01,
+      "grad_norm": 2.6274123191833496,
+      "learning_rate": 4.912551440329218e-05,
+      "loss": 1.6706,
       "step": 250
     },
     {
+      "epoch": 6.02,
+      "eval_accuracy": 0.3485273492286115,
+      "eval_loss": 1.5842552185058594,
+      "eval_runtime": 318.7867,
+      "eval_samples_per_second": 4.473,
+      "eval_steps_per_second": 0.141,
+      "step": 259
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 4.207123279571533,
+      "learning_rate": 4.886831275720165e-05,
+      "loss": 1.6857,
       "step": 260
     },
     {
+      "epoch": 7.01,
+      "grad_norm": 2.897780656814575,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 1.5988,
       "step": 270
     },
     {
+      "epoch": 7.01,
+      "grad_norm": 2.6492152214050293,
+      "learning_rate": 4.835390946502058e-05,
+      "loss": 1.5941,
       "step": 280
     },
     {
+      "epoch": 7.01,
+      "grad_norm": 3.756108283996582,
+      "learning_rate": 4.809670781893004e-05,
+      "loss": 1.6317,
       "step": 290
     },
     {
+      "epoch": 7.02,
+      "eval_accuracy": 0.317671809256662,
+      "eval_loss": 1.6478837728500366,
+      "eval_runtime": 321.4859,
+      "eval_samples_per_second": 4.436,
+      "eval_steps_per_second": 0.14,
+      "step": 296
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.5807301998138428,
+      "learning_rate": 4.783950617283951e-05,
+      "loss": 1.569,
       "step": 300
     },
     {
+      "epoch": 8.01,
+      "grad_norm": 3.0637378692626953,
+      "learning_rate": 4.758230452674897e-05,
+      "loss": 1.603,
       "step": 310
     },
     {
+      "epoch": 8.01,
+      "grad_norm": 2.659273386001587,
+      "learning_rate": 4.732510288065844e-05,
+      "loss": 1.658,
       "step": 320
     },
     {
+      "epoch": 8.02,
+      "grad_norm": 3.2369003295898438,
+      "learning_rate": 4.70679012345679e-05,
+      "loss": 1.5798,
       "step": 330
     },
     {
+      "epoch": 8.02,
+      "eval_accuracy": 0.19845722300140253,
+      "eval_loss": 1.7481985092163086,
+      "eval_runtime": 327.2626,
+      "eval_samples_per_second": 4.357,
+      "eval_steps_per_second": 0.138,
+      "step": 333
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 2.4828362464904785,
+      "learning_rate": 4.6810699588477366e-05,
+      "loss": 1.6029,
       "step": 340
     },
     {
+      "epoch": 9.01,
+      "grad_norm": 4.688723087310791,
+      "learning_rate": 4.6553497942386833e-05,
+      "loss": 1.5591,
       "step": 350
     },
     {
+      "epoch": 9.01,
+      "grad_norm": 3.989243268966675,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 1.5823,
       "step": 360
     },
     {
+      "epoch": 9.02,
+      "grad_norm": 7.375450134277344,
+      "learning_rate": 4.603909465020577e-05,
+      "loss": 1.5923,
+      "step": 370
     },
     {
+      "epoch": 9.02,
+      "eval_accuracy": 0.270687237026648,
+      "eval_loss": 1.652872085571289,
+      "eval_runtime": 320.903,
+      "eval_samples_per_second": 4.444,
+      "eval_steps_per_second": 0.14,
       "step": 370
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 2.5953173637390137,
+      "learning_rate": 4.578189300411523e-05,
+      "loss": 1.5677,
       "step": 380
     },
     {
+      "epoch": 10.01,
+      "grad_norm": 3.554826498031616,
+      "learning_rate": 4.5524691358024696e-05,
+      "loss": 1.5476,
       "step": 390
     },
     {
+      "epoch": 10.01,
+      "grad_norm": 3.9055745601654053,
+      "learning_rate": 4.5267489711934157e-05,
+      "loss": 1.6002,
       "step": 400
     },
     {
+      "epoch": 10.02,
+      "eval_accuracy": 0.3246844319775596,
+      "eval_loss": 1.6174861192703247,
+      "eval_runtime": 325.4885,
+      "eval_samples_per_second": 4.381,
+      "eval_steps_per_second": 0.138,
+      "step": 407
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 1.8588017225265503,
+      "learning_rate": 4.5010288065843624e-05,
+      "loss": 1.5817,
       "step": 410
     },
     {
+      "epoch": 11.01,
+      "grad_norm": 5.376626491546631,
+      "learning_rate": 4.4753086419753084e-05,
+      "loss": 1.5898,
       "step": 420
     },
     {
+      "epoch": 11.01,
+      "grad_norm": 3.582792043685913,
+      "learning_rate": 4.449588477366255e-05,
+      "loss": 1.5793,
       "step": 430
     },
     {
+      "epoch": 11.02,
+      "grad_norm": 4.624961853027344,
+      "learning_rate": 4.423868312757202e-05,
+      "loss": 1.4946,
+      "step": 440
     },
     {
+      "epoch": 11.02,
+      "eval_accuracy": 0.29453015427769985,
+      "eval_loss": 1.641377568244934,
+      "eval_runtime": 313.5978,
+      "eval_samples_per_second": 4.547,
+      "eval_steps_per_second": 0.143,
+      "step": 444
     },
     {
+      "epoch": 12.0,
+      "grad_norm": 3.0706281661987305,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 1.4587,
       "step": 450
     },
     {
+      "epoch": 12.01,
+      "grad_norm": 3.571446180343628,
+      "learning_rate": 4.372427983539095e-05,
+      "loss": 1.531,
       "step": 460
     },
     {
+      "epoch": 12.01,
+      "grad_norm": 5.381348133087158,
+      "learning_rate": 4.3467078189300414e-05,
+      "loss": 1.5326,
       "step": 470
     },
     {
+      "epoch": 12.02,
+      "grad_norm": 2.7086222171783447,
+      "learning_rate": 4.3209876543209875e-05,
+      "loss": 1.5688,
       "step": 480
     },
     {
+      "epoch": 12.02,
+      "eval_accuracy": 0.3338008415147265,
+      "eval_loss": 1.6061851978302002,
+      "eval_runtime": 318.985,
+      "eval_samples_per_second": 4.47,
+      "eval_steps_per_second": 0.141,
+      "step": 481
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 2.4169111251831055,
+      "learning_rate": 4.295267489711934e-05,
+      "loss": 1.4803,
       "step": 490
     },
     {
+      "epoch": 13.01,
+      "grad_norm": 2.4832234382629395,
+      "learning_rate": 4.269547325102881e-05,
+      "loss": 1.534,
       "step": 500
     },
     {
+      "epoch": 13.01,
+      "grad_norm": 2.9390156269073486,
+      "learning_rate": 4.243827160493827e-05,
+      "loss": 1.5322,
       "step": 510
     },
     {
+      "epoch": 13.02,
+      "eval_accuracy": 0.2805049088359046,
+      "eval_loss": 1.6427088975906372,
+      "eval_runtime": 325.4763,
+      "eval_samples_per_second": 4.381,
+      "eval_steps_per_second": 0.138,
+      "step": 518
     },
     {
+      "epoch": 14.0,
+      "grad_norm": 3.6847591400146484,
+      "learning_rate": 4.2181069958847744e-05,
+      "loss": 1.5182,
       "step": 520
     },
     {
+      "epoch": 14.01,
+      "grad_norm": 2.374372959136963,
+      "learning_rate": 4.1923868312757205e-05,
+      "loss": 1.4685,
       "step": 530
     },
     {
+      "epoch": 14.01,
+      "grad_norm": 5.837779521942139,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.6207,
       "step": 540
     },
     {
+      "epoch": 14.01,
+      "grad_norm": 3.177703380584717,
+      "learning_rate": 4.140946502057613e-05,
+      "loss": 1.5078,
       "step": 550
     },
     {
+      "epoch": 14.02,
+      "eval_accuracy": 0.3134642356241234,
+      "eval_loss": 1.7241849899291992,
+      "eval_runtime": 321.2611,
+      "eval_samples_per_second": 4.439,
+      "eval_steps_per_second": 0.14,
+      "step": 555
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 4.3974199295043945,
+      "learning_rate": 4.11522633744856e-05,
+      "loss": 1.4642,
       "step": 560
     },
     {
+      "epoch": 15.01,
+      "grad_norm": 2.068755626678467,
+      "learning_rate": 4.089506172839506e-05,
+      "loss": 1.4817,
       "step": 570
     },
     {
+      "epoch": 15.01,
+      "grad_norm": 3.324115514755249,
+      "learning_rate": 4.063786008230453e-05,
+      "loss": 1.5062,
+      "step": 580
+    },
+    {
+      "epoch": 15.02,
+      "grad_norm": 4.541093349456787,
+      "learning_rate": 4.038065843621399e-05,
+      "loss": 1.5014,
+      "step": 590
+    },
+    {
+      "epoch": 15.02,
+      "eval_accuracy": 0.32187938288920054,
+      "eval_loss": 1.6587475538253784,
+      "eval_runtime": 326.5203,
+      "eval_samples_per_second": 4.367,
+      "eval_steps_per_second": 0.138,
+      "step": 592
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 2.232940435409546,
+      "learning_rate": 4.012345679012346e-05,
+      "loss": 1.5007,
+      "step": 600
+    },
+    {
+      "epoch": 16.01,
+      "grad_norm": 3.5462706089019775,
+      "learning_rate": 3.986625514403292e-05,
+      "loss": 1.4395,
+      "step": 610
+    },
+    {
+      "epoch": 16.01,
+      "grad_norm": 3.092838764190674,
+      "learning_rate": 3.960905349794239e-05,
+      "loss": 1.4861,
+      "step": 620
+    },
+    {
+      "epoch": 16.02,
+      "eval_accuracy": 0.23492286115007013,
+      "eval_loss": 1.8075391054153442,
+      "eval_runtime": 310.363,
+      "eval_samples_per_second": 4.595,
+      "eval_steps_per_second": 0.145,
+      "step": 629
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 2.710343837738037,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 1.4438,
+      "step": 630
+    },
+    {
+      "epoch": 17.01,
+      "grad_norm": 3.683576822280884,
+      "learning_rate": 3.909465020576132e-05,
+      "loss": 1.4611,
+      "step": 640
+    },
+    {
+      "epoch": 17.01,
+      "grad_norm": 4.069783687591553,
+      "learning_rate": 3.8837448559670786e-05,
+      "loss": 1.4678,
+      "step": 650
+    },
+    {
+      "epoch": 17.01,
+      "grad_norm": 3.3984758853912354,
+      "learning_rate": 3.8580246913580246e-05,
+      "loss": 1.4983,
+      "step": 660
+    },
+    {
+      "epoch": 17.02,
+      "eval_accuracy": 0.3071528751753156,
+      "eval_loss": 1.6724629402160645,
+      "eval_runtime": 325.7044,
+      "eval_samples_per_second": 4.378,
+      "eval_steps_per_second": 0.138,
+      "step": 666
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 3.628767967224121,
+      "learning_rate": 3.8323045267489713e-05,
+      "loss": 1.4937,
+      "step": 670
+    },
+    {
+      "epoch": 18.01,
+      "grad_norm": 4.624797821044922,
+      "learning_rate": 3.806584362139918e-05,
+      "loss": 1.4637,
+      "step": 680
+    },
+    {
+      "epoch": 18.01,
+      "grad_norm": 4.030791759490967,
+      "learning_rate": 3.780864197530865e-05,
+      "loss": 1.4073,
+      "step": 690
+    },
+    {
+      "epoch": 18.02,
+      "grad_norm": 3.900832176208496,
+      "learning_rate": 3.755144032921811e-05,
+      "loss": 1.4716,
+      "step": 700
+    },
+    {
+      "epoch": 18.02,
+      "eval_accuracy": 0.2657784011220196,
+      "eval_loss": 1.7466487884521484,
+      "eval_runtime": 316.8763,
+      "eval_samples_per_second": 4.5,
+      "eval_steps_per_second": 0.142,
+      "step": 703
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 3.4346656799316406,
+      "learning_rate": 3.7294238683127576e-05,
+      "loss": 1.4094,
+      "step": 710
+    },
+    {
+      "epoch": 19.01,
+      "grad_norm": 2.6606976985931396,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.4,
+      "step": 720
+    },
+    {
+      "epoch": 19.01,
+      "grad_norm": 3.55667781829834,
+      "learning_rate": 3.6779835390946504e-05,
+      "loss": 1.4422,
+      "step": 730
+    },
+    {
+      "epoch": 19.02,
+      "grad_norm": 9.335260391235352,
+      "learning_rate": 3.6522633744855964e-05,
+      "loss": 1.5072,
+      "step": 740
+    },
+    {
+      "epoch": 19.02,
+      "eval_accuracy": 0.2482468443197756,
+      "eval_loss": 1.7423261404037476,
+      "eval_runtime": 323.8192,
+      "eval_samples_per_second": 4.404,
+      "eval_steps_per_second": 0.139,
+      "step": 740
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 4.2967681884765625,
+      "learning_rate": 3.626543209876543e-05,
+      "loss": 1.4085,
+      "step": 750
+    },
+    {
+      "epoch": 20.01,
+      "grad_norm": 3.630871295928955,
+      "learning_rate": 3.60082304526749e-05,
+      "loss": 1.3651,
+      "step": 760
+    },
+    {
+      "epoch": 20.01,
+      "grad_norm": 3.8776559829711914,
+      "learning_rate": 3.5751028806584366e-05,
+      "loss": 1.4874,
+      "step": 770
+    },
+    {
+      "epoch": 20.02,
+      "eval_accuracy": 0.2447405329593268,
+      "eval_loss": 1.7873163223266602,
+      "eval_runtime": 318.591,
+      "eval_samples_per_second": 4.476,
+      "eval_steps_per_second": 0.141,
+      "step": 777
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 3.94429087638855,
+      "learning_rate": 3.5493827160493834e-05,
+      "loss": 1.4371,
+      "step": 780
+    },
+    {
+      "epoch": 21.01,
+      "grad_norm": 3.531804084777832,
+      "learning_rate": 3.5236625514403294e-05,
+      "loss": 1.419,
+      "step": 790
+    },
+    {
+      "epoch": 21.01,
+      "grad_norm": 3.9950878620147705,
+      "learning_rate": 3.497942386831276e-05,
+      "loss": 1.4106,
+      "step": 800
+    },
+    {
+      "epoch": 21.02,
+      "grad_norm": 5.080261707305908,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 1.4236,
+      "step": 810
+    },
+    {
+      "epoch": 21.02,
+      "eval_accuracy": 0.2496493688639551,
+      "eval_loss": 1.828230857849121,
+      "eval_runtime": 324.6474,
+      "eval_samples_per_second": 4.392,
+      "eval_steps_per_second": 0.139,
+      "step": 814
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 3.356649160385132,
+      "learning_rate": 3.446502057613169e-05,
+      "loss": 1.3901,
+      "step": 820
+    },
+    {
+      "epoch": 22.01,
+      "grad_norm": 4.261005401611328,
+      "learning_rate": 3.420781893004115e-05,
+      "loss": 1.3512,
+      "step": 830
+    },
+    {
+      "epoch": 22.01,
+      "grad_norm": 4.515724182128906,
+      "learning_rate": 3.395061728395062e-05,
+      "loss": 1.4257,
+      "step": 840
+    },
+    {
+      "epoch": 22.02,
+      "grad_norm": 3.238006353378296,
+      "learning_rate": 3.3693415637860085e-05,
+      "loss": 1.4134,
+      "step": 850
+    },
+    {
+      "epoch": 22.02,
+      "eval_accuracy": 0.226507713884993,
+      "eval_loss": 1.840139389038086,
+      "eval_runtime": 337.3817,
+      "eval_samples_per_second": 4.227,
+      "eval_steps_per_second": 0.133,
+      "step": 851
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 4.510561943054199,
+      "learning_rate": 3.343621399176955e-05,
+      "loss": 1.3086,
+      "step": 860
+    },
+    {
+      "epoch": 23.01,
+      "grad_norm": 3.6139793395996094,
+      "learning_rate": 3.317901234567901e-05,
+      "loss": 1.3137,
+      "step": 870
+    },
+    {
+      "epoch": 23.01,
+      "grad_norm": 4.887772560119629,
+      "learning_rate": 3.292181069958848e-05,
+      "loss": 1.3889,
+      "step": 880
+    },
+    {
+      "epoch": 23.02,
+      "eval_accuracy": 0.2713884992987377,
+      "eval_loss": 1.769424557685852,
+      "eval_runtime": 322.9783,
+      "eval_samples_per_second": 4.415,
+      "eval_steps_per_second": 0.139,
+      "step": 888
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 5.044980049133301,
+      "learning_rate": 3.266460905349795e-05,
+      "loss": 1.5123,
+      "step": 890
+    },
+    {
+      "epoch": 24.01,
+      "grad_norm": 3.513139247894287,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 1.3466,
+      "step": 900
+    },
+    {
+      "epoch": 24.01,
+      "grad_norm": 4.22142219543457,
+      "learning_rate": 3.2150205761316875e-05,
+      "loss": 1.3941,
+      "step": 910
+    },
+    {
+      "epoch": 24.01,
+      "grad_norm": 4.938148021697998,
+      "learning_rate": 3.1893004115226336e-05,
+      "loss": 1.436,
+      "step": 920
+    },
+    {
+      "epoch": 24.02,
+      "eval_accuracy": 0.3022440392706872,
+      "eval_loss": 1.7301750183105469,
+      "eval_runtime": 333.7787,
+      "eval_samples_per_second": 4.272,
+      "eval_steps_per_second": 0.135,
+      "step": 925
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 4.633960247039795,
+      "learning_rate": 3.16358024691358e-05,
+      "loss": 1.3746,
+      "step": 930
+    },
+    {
+      "epoch": 25.01,
+      "grad_norm": 4.339792251586914,
+      "learning_rate": 3.137860082304527e-05,
+      "loss": 1.3586,
+      "step": 940
+    },
+    {
+      "epoch": 25.01,
+      "grad_norm": 4.505563735961914,
+      "learning_rate": 3.112139917695474e-05,
+      "loss": 1.3702,
+      "step": 950
+    },
+    {
+      "epoch": 25.02,
+      "grad_norm": 3.4057440757751465,
+      "learning_rate": 3.08641975308642e-05,
+      "loss": 1.3266,
+      "step": 960
+    },
+    {
+      "epoch": 25.02,
       "eval_accuracy": 0.3141654978962132,
+      "eval_loss": 1.7449009418487549,
+      "eval_runtime": 322.6179,
+      "eval_samples_per_second": 4.42,
+      "eval_steps_per_second": 0.139,
+      "step": 962
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 3.738858699798584,
+      "learning_rate": 3.0606995884773666e-05,
+      "loss": 1.3037,
+      "step": 970
+    },
+    {
+      "epoch": 26.01,
+      "grad_norm": 4.053394794464111,
+      "learning_rate": 3.0349794238683126e-05,
+      "loss": 1.2894,
+      "step": 980
+    },
+    {
+      "epoch": 26.01,
+      "grad_norm": 3.324256658554077,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 1.3165,
+      "step": 990
+    },
+    {
+      "epoch": 26.02,
+      "eval_accuracy": 0.2938288920056101,
+      "eval_loss": 1.7723056077957153,
+      "eval_runtime": 328.3049,
+      "eval_samples_per_second": 4.344,
+      "eval_steps_per_second": 0.137,
+      "step": 999
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 3.431753158569336,
+      "learning_rate": 2.9835390946502057e-05,
+      "loss": 1.3818,
+      "step": 1000
+    },
+    {
+      "epoch": 27.01,
+      "grad_norm": 4.195125579833984,
+      "learning_rate": 2.9578189300411525e-05,
+      "loss": 1.292,
+      "step": 1010
+    },
+    {
+      "epoch": 27.01,
+      "grad_norm": 4.109055995941162,
+      "learning_rate": 2.9320987654320992e-05,
+      "loss": 1.3738,
+      "step": 1020
+    },
+    {
+      "epoch": 27.01,
+      "grad_norm": 4.447628498077393,
+      "learning_rate": 2.9063786008230453e-05,
+      "loss": 1.3522,
+      "step": 1030
+    },
+    {
+      "epoch": 27.02,
+      "eval_accuracy": 0.31977559607293127,
+      "eval_loss": 1.7750145196914673,
+      "eval_runtime": 330.3668,
+      "eval_samples_per_second": 4.316,
+      "eval_steps_per_second": 0.136,
+      "step": 1036
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 4.414978981018066,
+      "learning_rate": 2.880658436213992e-05,
+      "loss": 1.2548,
+      "step": 1040
+    },
+    {
+      "epoch": 28.01,
+      "grad_norm": 4.450014114379883,
+      "learning_rate": 2.8549382716049384e-05,
+      "loss": 1.2919,
+      "step": 1050
+    },
+    {
+      "epoch": 28.01,
+      "grad_norm": 3.938246250152588,
+      "learning_rate": 2.829218106995885e-05,
+      "loss": 1.4023,
+      "step": 1060
+    },
+    {
+      "epoch": 28.02,
+      "grad_norm": 4.146456718444824,
+      "learning_rate": 2.8034979423868312e-05,
+      "loss": 1.2635,
+      "step": 1070
+    },
+    {
+      "epoch": 28.02,
+      "eval_accuracy": 0.3015427769985975,
+      "eval_loss": 1.8097264766693115,
+      "eval_runtime": 334.963,
+      "eval_samples_per_second": 4.257,
+      "eval_steps_per_second": 0.134,
+      "step": 1073
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 4.926144599914551,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 1.2375,
+      "step": 1080
+    },
+    {
+      "epoch": 29.01,
+      "grad_norm": 5.324474334716797,
+      "learning_rate": 2.7520576131687243e-05,
+      "loss": 1.2292,
+      "step": 1090
+    },
+    {
+      "epoch": 29.01,
+      "grad_norm": 5.955705642700195,
+      "learning_rate": 2.726337448559671e-05,
+      "loss": 1.3175,
+      "step": 1100
+    },
+    {
+      "epoch": 29.02,
+      "grad_norm": 15.393019676208496,
+      "learning_rate": 2.700617283950617e-05,
+      "loss": 1.5006,
+      "step": 1110
+    },
+    {
+      "epoch": 29.02,
+      "eval_accuracy": 0.2903225806451613,
+      "eval_loss": 1.764939785003662,
+      "eval_runtime": 334.1156,
+      "eval_samples_per_second": 4.268,
+      "eval_steps_per_second": 0.135,
+      "step": 1110
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 5.538832187652588,
+      "learning_rate": 2.6748971193415638e-05,
+      "loss": 1.2272,
+      "step": 1120
+    },
+    {
+      "epoch": 30.01,
+      "grad_norm": 4.8999834060668945,
+      "learning_rate": 2.6491769547325102e-05,
+      "loss": 1.3556,
+      "step": 1130
+    },
+    {
+      "epoch": 30.01,
+      "grad_norm": 4.719162464141846,
+      "learning_rate": 2.623456790123457e-05,
+      "loss": 1.2839,
+      "step": 1140
+    },
+    {
+      "epoch": 30.02,
+      "eval_accuracy": 0.2720897615708275,
+      "eval_loss": 1.7946317195892334,
+      "eval_runtime": 329.2552,
+      "eval_samples_per_second": 4.331,
+      "eval_steps_per_second": 0.137,
+      "step": 1147
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 4.000698566436768,
+      "learning_rate": 2.5977366255144037e-05,
+      "loss": 1.317,
+      "step": 1150
+    },
+    {
+      "epoch": 31.01,
+      "grad_norm": 4.718947887420654,
+      "learning_rate": 2.5720164609053497e-05,
+      "loss": 1.2813,
+      "step": 1160
+    },
+    {
+      "epoch": 31.01,
+      "grad_norm": 5.832375526428223,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 1.3293,
+      "step": 1170
+    },
+    {
+      "epoch": 31.02,
+      "grad_norm": 4.554795742034912,
+      "learning_rate": 2.520576131687243e-05,
+      "loss": 1.2542,
+      "step": 1180
+    },
+    {
+      "epoch": 31.02,
+      "eval_accuracy": 0.3064516129032258,
+      "eval_loss": 1.8281904458999634,
+      "eval_runtime": 338.8231,
+      "eval_samples_per_second": 4.209,
+      "eval_steps_per_second": 0.133,
+      "step": 1184
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 4.611420631408691,
+      "learning_rate": 2.4948559670781893e-05,
+      "loss": 1.2816,
+      "step": 1190
+    },
+    {
+      "epoch": 32.01,
+      "grad_norm": 4.797652721405029,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 1.2418,
+      "step": 1200
+    },
+    {
+      "epoch": 32.01,
+      "grad_norm": 4.842775821685791,
+      "learning_rate": 2.4434156378600824e-05,
+      "loss": 1.2993,
+      "step": 1210
+    },
+    {
+      "epoch": 32.02,
+      "grad_norm": 3.560959577560425,
+      "learning_rate": 2.417695473251029e-05,
+      "loss": 1.2637,
+      "step": 1220
+    },
+    {
+      "epoch": 32.02,
+      "eval_accuracy": 0.29453015427769985,
+      "eval_loss": 1.9262746572494507,
+      "eval_runtime": 329.2386,
+      "eval_samples_per_second": 4.331,
+      "eval_steps_per_second": 0.137,
+      "step": 1221
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 4.209071159362793,
+      "learning_rate": 2.3919753086419755e-05,
+      "loss": 1.283,
+      "step": 1230
+    },
+    {
+      "epoch": 33.01,
+      "grad_norm": 4.801421642303467,
+      "learning_rate": 2.366255144032922e-05,
+      "loss": 1.2626,
+      "step": 1240
+    },
+    {
+      "epoch": 33.01,
+      "grad_norm": 3.3417141437530518,
+      "learning_rate": 2.3405349794238683e-05,
+      "loss": 1.2725,
+      "step": 1250
+    },
+    {
+      "epoch": 33.02,
+      "eval_accuracy": 0.2812061711079944,
+      "eval_loss": 1.8877640962600708,
+      "eval_runtime": 315.8954,
+      "eval_samples_per_second": 4.514,
+      "eval_steps_per_second": 0.142,
+      "step": 1258
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 4.585484504699707,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 1.2775,
+      "step": 1260
+    },
+    {
+      "epoch": 34.01,
+      "grad_norm": 4.262657165527344,
+      "learning_rate": 2.2890946502057614e-05,
+      "loss": 1.178,
+      "step": 1270
+    },
+    {
+      "epoch": 34.01,
+      "grad_norm": 4.219261169433594,
+      "learning_rate": 2.2633744855967078e-05,
+      "loss": 1.1956,
+      "step": 1280
+    },
+    {
+      "epoch": 34.01,
+      "grad_norm": 5.266630172729492,
+      "learning_rate": 2.2376543209876542e-05,
+      "loss": 1.3261,
+      "step": 1290
+    },
+    {
+      "epoch": 34.02,
+      "eval_accuracy": 0.32398316970546986,
+      "eval_loss": 1.8429114818572998,
+      "eval_runtime": 315.1637,
+      "eval_samples_per_second": 4.525,
+      "eval_steps_per_second": 0.143,
+      "step": 1295
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 4.098344326019287,
+      "learning_rate": 2.211934156378601e-05,
+      "loss": 1.2926,
+      "step": 1300
+    },
+    {
+      "epoch": 35.01,
+      "grad_norm": 5.764149188995361,
+      "learning_rate": 2.1862139917695473e-05,
+      "loss": 1.2233,
+      "step": 1310
+    },
+    {
+      "epoch": 35.01,
+      "grad_norm": 5.489772319793701,
+      "learning_rate": 2.1604938271604937e-05,
+      "loss": 1.2497,
+      "step": 1320
+    },
+    {
+      "epoch": 35.02,
+      "grad_norm": 4.76821756362915,
+      "learning_rate": 2.1347736625514405e-05,
+      "loss": 1.2834,
+      "step": 1330
+    },
+    {
+      "epoch": 35.02,
+      "eval_accuracy": 0.2903225806451613,
+      "eval_loss": 1.9099663496017456,
+      "eval_runtime": 329.1538,
+      "eval_samples_per_second": 4.332,
+      "eval_steps_per_second": 0.137,
+      "step": 1332
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 3.996829032897949,
+      "learning_rate": 2.1090534979423872e-05,
+      "loss": 1.1749,
+      "step": 1340
+    },
+    {
+      "epoch": 36.01,
+      "grad_norm": 4.916750431060791,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.2347,
+      "step": 1350
+    },
+    {
+      "epoch": 36.01,
+      "grad_norm": 6.722217559814453,
+      "learning_rate": 2.05761316872428e-05,
+      "loss": 1.2953,
+      "step": 1360
+    },
+    {
+      "epoch": 36.02,
+      "eval_accuracy": 0.3078541374474053,
+      "eval_loss": 1.9537488222122192,
+      "eval_runtime": 321.6832,
+      "eval_samples_per_second": 4.433,
+      "eval_steps_per_second": 0.14,
+      "step": 1369
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 5.202242374420166,
+      "learning_rate": 2.0318930041152264e-05,
+      "loss": 1.2877,
+      "step": 1370
+    },
+    {
+      "epoch": 37.01,
+      "grad_norm": 4.0624589920043945,
+      "learning_rate": 2.006172839506173e-05,
+      "loss": 1.1455,
+      "step": 1380
+    },
+    {
+      "epoch": 37.01,
+      "grad_norm": 4.560797691345215,
+      "learning_rate": 1.9804526748971195e-05,
+      "loss": 1.3001,
+      "step": 1390
+    },
+    {
+      "epoch": 37.01,
+      "grad_norm": 4.483878135681152,
+      "learning_rate": 1.954732510288066e-05,
+      "loss": 1.2118,
+      "step": 1400
+    },
+    {
+      "epoch": 37.02,
+      "eval_accuracy": 0.26367461430575034,
+      "eval_loss": 1.989565134048462,
+      "eval_runtime": 319.6592,
+      "eval_samples_per_second": 4.461,
+      "eval_steps_per_second": 0.141,
+      "step": 1406
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 4.500958442687988,
+      "learning_rate": 1.9290123456790123e-05,
+      "loss": 1.1902,
+      "step": 1410
+    },
+    {
+      "epoch": 38.01,
+      "grad_norm": 4.762270927429199,
+      "learning_rate": 1.903292181069959e-05,
+      "loss": 1.2485,
+      "step": 1420
+    },
+    {
+      "epoch": 38.01,
+      "grad_norm": 4.195743560791016,
+      "learning_rate": 1.8775720164609054e-05,
+      "loss": 1.1943,
+      "step": 1430
+    },
+    {
+      "epoch": 38.02,
+      "grad_norm": 5.3452582359313965,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.1953,
+      "step": 1440
+    },
+    {
+      "epoch": 38.02,
+      "eval_accuracy": 0.25455820476858343,
+      "eval_loss": 2.028036117553711,
+      "eval_runtime": 320.9292,
+      "eval_samples_per_second": 4.443,
+      "eval_steps_per_second": 0.14,
+      "step": 1443
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 4.503300189971924,
+      "learning_rate": 1.8261316872427982e-05,
+      "loss": 1.197,
+      "step": 1450
+    },
+    {
+      "epoch": 39.01,
+      "grad_norm": 4.667981147766113,
+      "learning_rate": 1.800411522633745e-05,
+      "loss": 1.1577,
+      "step": 1460
+    },
+    {
+      "epoch": 39.01,
+      "grad_norm": 5.093000888824463,
+      "learning_rate": 1.7746913580246917e-05,
+      "loss": 1.258,
+      "step": 1470
+    },
+    {
+      "epoch": 39.02,
+      "grad_norm": 11.824995994567871,
+      "learning_rate": 1.748971193415638e-05,
+      "loss": 1.1522,
+      "step": 1480
+    },
+    {
+      "epoch": 39.02,
+      "eval_accuracy": 0.28892005610098176,
+      "eval_loss": 2.011441469192505,
+      "eval_runtime": 335.1859,
+      "eval_samples_per_second": 4.254,
+      "eval_steps_per_second": 0.134,
+      "step": 1480
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 4.728548526763916,
+      "learning_rate": 1.7232510288065845e-05,
+      "loss": 1.1526,
+      "step": 1490
+    },
+    {
+      "epoch": 40.01,
+      "grad_norm": 4.5145087242126465,
+      "learning_rate": 1.697530864197531e-05,
+      "loss": 1.1564,
+      "step": 1500
+    },
+    {
+      "epoch": 40.01,
+      "grad_norm": 5.764113426208496,
+      "learning_rate": 1.6718106995884776e-05,
+      "loss": 1.2288,
+      "step": 1510
+    },
+    {
+      "epoch": 40.02,
+      "eval_accuracy": 0.30504908835904626,
+      "eval_loss": 2.0061888694763184,
+      "eval_runtime": 326.9579,
+      "eval_samples_per_second": 4.361,
+      "eval_steps_per_second": 0.138,
+      "step": 1517
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 5.014638423919678,
+      "learning_rate": 1.646090534979424e-05,
+      "loss": 1.0934,
+      "step": 1520
+    },
+    {
+      "epoch": 41.01,
+      "grad_norm": 5.846142768859863,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 1.1862,
+      "step": 1530
+    },
+    {
+      "epoch": 41.01,
+      "grad_norm": 4.802533149719238,
+      "learning_rate": 1.5946502057613168e-05,
+      "loss": 1.1589,
+      "step": 1540
+    },
+    {
+      "epoch": 41.02,
+      "grad_norm": 5.541863918304443,
+      "learning_rate": 1.5689300411522635e-05,
+      "loss": 1.2318,
+      "step": 1550
+    },
+    {
+      "epoch": 41.02,
+      "eval_accuracy": 0.24894810659186536,
+      "eval_loss": 2.063317060470581,
+      "eval_runtime": 329.5785,
+      "eval_samples_per_second": 4.327,
+      "eval_steps_per_second": 0.137,
+      "step": 1554
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 5.3696136474609375,
+      "learning_rate": 1.54320987654321e-05,
+      "loss": 1.1666,
+      "step": 1560
+    },
+    {
+      "epoch": 42.01,
+      "grad_norm": 4.8603291511535645,
+      "learning_rate": 1.5174897119341563e-05,
+      "loss": 1.1357,
+      "step": 1570
+    },
+    {
+      "epoch": 42.01,
+      "grad_norm": 4.631726264953613,
+      "learning_rate": 1.4917695473251029e-05,
+      "loss": 1.2216,
+      "step": 1580
+    },
+    {
+      "epoch": 42.02,
+      "grad_norm": 4.8486328125,
+      "learning_rate": 1.4660493827160496e-05,
+      "loss": 1.1571,
+      "step": 1590
+    },
+    {
+      "epoch": 42.02,
+      "eval_accuracy": 0.2826086956521739,
+      "eval_loss": 2.047227382659912,
+      "eval_runtime": 342.7107,
+      "eval_samples_per_second": 4.161,
+      "eval_steps_per_second": 0.131,
+      "step": 1591
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 6.484289169311523,
+      "learning_rate": 1.440329218106996e-05,
+      "loss": 1.2965,
+      "step": 1600
+    },
+    {
+      "epoch": 43.01,
+      "grad_norm": 4.621644496917725,
+      "learning_rate": 1.4146090534979426e-05,
+      "loss": 1.1669,
+      "step": 1610
+    },
+    {
+      "epoch": 43.01,
+      "grad_norm": 5.708728313446045,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 1.155,
+      "step": 1620
+    },
+    {
+      "epoch": 43.02,
+      "eval_accuracy": 0.2755960729312763,
+      "eval_loss": 2.0339248180389404,
+      "eval_runtime": 311.8249,
+      "eval_samples_per_second": 4.573,
+      "eval_steps_per_second": 0.144,
+      "step": 1628
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 5.512135028839111,
+      "learning_rate": 1.3631687242798355e-05,
+      "loss": 1.1624,
+      "step": 1630
+    },
+    {
+      "epoch": 44.01,
+      "grad_norm": 4.800120830535889,
+      "learning_rate": 1.3374485596707819e-05,
+      "loss": 1.1393,
+      "step": 1640
+    },
+    {
+      "epoch": 44.01,
+      "grad_norm": 5.686243534088135,
+      "learning_rate": 1.3117283950617285e-05,
+      "loss": 1.1579,
+      "step": 1650
+    },
+    {
+      "epoch": 44.01,
+      "grad_norm": 6.732748985290527,
+      "learning_rate": 1.2860082304526749e-05,
+      "loss": 1.1448,
+      "step": 1660
+    },
+    {
+      "epoch": 44.02,
+      "eval_accuracy": 0.28190743338008417,
+      "eval_loss": 2.0284523963928223,
+      "eval_runtime": 306.358,
+      "eval_samples_per_second": 4.655,
+      "eval_steps_per_second": 0.147,
+      "step": 1665
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 3.9400506019592285,
+      "learning_rate": 1.2602880658436214e-05,
+      "loss": 1.1748,
+      "step": 1670
+    },
+    {
+      "epoch": 45.01,
+      "grad_norm": 5.26138973236084,
+      "learning_rate": 1.2345679012345678e-05,
+      "loss": 1.1204,
+      "step": 1680
+    },
+    {
+      "epoch": 45.01,
+      "grad_norm": 5.398032188415527,
+      "learning_rate": 1.2088477366255146e-05,
+      "loss": 1.1114,
+      "step": 1690
+    },
+    {
+      "epoch": 45.02,
+      "grad_norm": 5.264804840087891,
+      "learning_rate": 1.183127572016461e-05,
+      "loss": 1.2088,
+      "step": 1700
+    },
+    {
+      "epoch": 45.02,
+      "eval_accuracy": 0.2917251051893408,
+      "eval_loss": 2.0568900108337402,
+      "eval_runtime": 323.5679,
+      "eval_samples_per_second": 4.407,
+      "eval_steps_per_second": 0.139,
+      "step": 1702
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 4.0183210372924805,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 1.139,
+      "step": 1710
+    },
+    {
+      "epoch": 46.01,
+      "grad_norm": 5.541755676269531,
+      "learning_rate": 1.1316872427983539e-05,
+      "loss": 1.113,
+      "step": 1720
+    },
+    {
+      "epoch": 46.01,
+      "grad_norm": 4.693772315979004,
+      "learning_rate": 1.1059670781893005e-05,
+      "loss": 1.1469,
+      "step": 1730
+    },
+    {
+      "epoch": 46.02,
+      "eval_accuracy": 0.28892005610098176,
+      "eval_loss": 2.1201205253601074,
+      "eval_runtime": 315.1636,
+      "eval_samples_per_second": 4.525,
+      "eval_steps_per_second": 0.143,
+      "step": 1739
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 4.991947174072266,
+      "learning_rate": 1.0802469135802469e-05,
+      "loss": 1.1472,
+      "step": 1740
+    },
+    {
+      "epoch": 47.01,
+      "grad_norm": 5.496129035949707,
+      "learning_rate": 1.0545267489711936e-05,
+      "loss": 1.1196,
+      "step": 1750
+    },
+    {
+      "epoch": 47.01,
+      "grad_norm": 3.884612798690796,
+      "learning_rate": 1.02880658436214e-05,
+      "loss": 1.1656,
+      "step": 1760
+    },
+    {
+      "epoch": 47.01,
+      "grad_norm": 5.605456352233887,
+      "learning_rate": 1.0030864197530866e-05,
+      "loss": 1.1332,
+      "step": 1770
+    },
+    {
+      "epoch": 47.02,
+      "eval_accuracy": 0.2980364656381487,
+      "eval_loss": 2.0940372943878174,
+      "eval_runtime": 315.9032,
+      "eval_samples_per_second": 4.514,
+      "eval_steps_per_second": 0.142,
+      "step": 1776
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 6.020764350891113,
+      "learning_rate": 9.77366255144033e-06,
+      "loss": 1.1526,
+      "step": 1780
+    },
+    {
+      "epoch": 48.01,
+      "grad_norm": 5.015161991119385,
+      "learning_rate": 9.516460905349795e-06,
+      "loss": 1.0704,
+      "step": 1790
+    },
+    {
+      "epoch": 48.01,
+      "grad_norm": 6.186102390289307,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 1.1129,
+      "step": 1800
+    },
+    {
+      "epoch": 48.02,
+      "grad_norm": 5.92779016494751,
+      "learning_rate": 9.002057613168725e-06,
+      "loss": 1.1608,
+      "step": 1810
+    },
+    {
+      "epoch": 48.02,
+      "eval_accuracy": 0.27419354838709675,
+      "eval_loss": 2.1327767372131348,
+      "eval_runtime": 314.1204,
+      "eval_samples_per_second": 4.54,
+      "eval_steps_per_second": 0.143,
+      "step": 1813
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 4.245399475097656,
+      "learning_rate": 8.74485596707819e-06,
+      "loss": 1.0758,
+      "step": 1820
+    },
+    {
+      "epoch": 49.01,
+      "grad_norm": 4.762213230133057,
+      "learning_rate": 8.487654320987654e-06,
+      "loss": 1.1185,
+      "step": 1830
+    },
+    {
+      "epoch": 49.01,
+      "grad_norm": 5.845604419708252,
+      "learning_rate": 8.23045267489712e-06,
+      "loss": 1.1212,
+      "step": 1840
+    },
+    {
+      "epoch": 49.02,
+      "grad_norm": 9.226399421691895,
+      "learning_rate": 7.973251028806584e-06,
+      "loss": 1.0913,
+      "step": 1850
+    },
+    {
+      "epoch": 49.02,
+      "eval_accuracy": 0.28190743338008417,
+      "eval_loss": 2.1332595348358154,
+      "eval_runtime": 339.9555,
+      "eval_samples_per_second": 4.195,
+      "eval_steps_per_second": 0.132,
+      "step": 1850
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 5.531272888183594,
+      "learning_rate": 7.71604938271605e-06,
+      "loss": 1.0946,
+      "step": 1860
+    },
+    {
+      "epoch": 50.01,
+      "grad_norm": 4.868674278259277,
+      "learning_rate": 7.458847736625514e-06,
+      "loss": 1.0852,
+      "step": 1870
+    },
+    {
+      "epoch": 50.01,
+      "grad_norm": 6.927389621734619,
+      "learning_rate": 7.20164609053498e-06,
+      "loss": 1.1204,
+      "step": 1880
+    },
+    {
+      "epoch": 50.02,
+      "eval_accuracy": 0.28751753155680226,
+      "eval_loss": 2.201735258102417,
+      "eval_runtime": 323.7365,
+      "eval_samples_per_second": 4.405,
+      "eval_steps_per_second": 0.139,
+      "step": 1887
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 4.928629398345947,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 1.0441,
+      "step": 1890
+    },
+    {
+      "epoch": 51.01,
+      "grad_norm": 6.279874801635742,
+      "learning_rate": 6.6872427983539096e-06,
+      "loss": 1.128,
+      "step": 1900
+    },
+    {
+      "epoch": 51.01,
+      "grad_norm": 6.877956390380859,
+      "learning_rate": 6.430041152263374e-06,
+      "loss": 1.0809,
+      "step": 1910
+    },
+    {
+      "epoch": 51.02,
+      "grad_norm": 5.27929162979126,
+      "learning_rate": 6.172839506172839e-06,
+      "loss": 1.1052,
+      "step": 1920
+    },
+    {
+      "epoch": 51.02,
+      "eval_accuracy": 0.29102384291725103,
+      "eval_loss": 2.198258876800537,
+      "eval_runtime": 316.9611,
+      "eval_samples_per_second": 4.499,
+      "eval_steps_per_second": 0.142,
+      "step": 1924
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 6.32177734375,
+      "learning_rate": 5.915637860082305e-06,
+      "loss": 1.1071,
+      "step": 1930
+    },
+    {
+      "epoch": 52.01,
+      "grad_norm": 6.743009090423584,
+      "learning_rate": 5.6584362139917696e-06,
+      "loss": 1.0288,
+      "step": 1940
+    },
+    {
+      "epoch": 52.01,
+      "grad_norm": 5.617419719696045,
+      "learning_rate": 5.401234567901234e-06,
+      "loss": 1.0651,
+      "step": 1950
+    },
+    {
+      "epoch": 52.02,
+      "grad_norm": 5.337407112121582,
+      "learning_rate": 5.1440329218107e-06,
+      "loss": 1.0817,
+      "step": 1960
+    },
+    {
+      "epoch": 52.02,
+      "eval_accuracy": 0.2966339410939691,
+      "eval_loss": 2.1909656524658203,
+      "eval_runtime": 312.5047,
+      "eval_samples_per_second": 4.563,
+      "eval_steps_per_second": 0.144,
+      "step": 1961
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 5.591818809509277,
+      "learning_rate": 4.886831275720165e-06,
+      "loss": 1.1214,
+      "step": 1970
+    },
+    {
+      "epoch": 53.01,
+      "grad_norm": 4.366575241088867,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 1.0782,
+      "step": 1980
+    },
+    {
+      "epoch": 53.01,
+      "grad_norm": 5.795986175537109,
+      "learning_rate": 4.372427983539095e-06,
+      "loss": 1.0696,
+      "step": 1990
+    },
+    {
+      "epoch": 53.02,
+      "eval_accuracy": 0.2805049088359046,
+      "eval_loss": 2.199398994445801,
+      "eval_runtime": 321.7456,
+      "eval_samples_per_second": 4.432,
+      "eval_steps_per_second": 0.14,
+      "step": 1998
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 4.923856258392334,
+      "learning_rate": 4.11522633744856e-06,
+      "loss": 1.1027,
+      "step": 2000
+    },
+    {
+      "epoch": 54.01,
+      "grad_norm": 4.788481712341309,
+      "learning_rate": 3.858024691358025e-06,
+      "loss": 1.115,
+      "step": 2010
+    },
+    {
+      "epoch": 54.01,
+      "grad_norm": 4.911264419555664,
+      "learning_rate": 3.60082304526749e-06,
+      "loss": 1.0481,
+      "step": 2020
+    },
+    {
+      "epoch": 54.01,
+      "grad_norm": 6.288609981536865,
+      "learning_rate": 3.3436213991769548e-06,
+      "loss": 1.0465,
+      "step": 2030
+    },
+    {
+      "epoch": 54.02,
+      "eval_accuracy": 0.28541374474053294,
+      "eval_loss": 2.2044293880462646,
+      "eval_runtime": 314.8977,
+      "eval_samples_per_second": 4.528,
+      "eval_steps_per_second": 0.143,
+      "step": 2035
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 6.370595455169678,
+      "learning_rate": 3.0864197530864196e-06,
+      "loss": 1.0229,
+      "step": 2040
+    },
+    {
+      "epoch": 55.01,
+      "grad_norm": 5.17075252532959,
+      "learning_rate": 2.8292181069958848e-06,
+      "loss": 1.077,
+      "step": 2050
+    },
+    {
+      "epoch": 55.01,
+      "grad_norm": 6.249576568603516,
+      "learning_rate": 2.57201646090535e-06,
+      "loss": 1.0598,
+      "step": 2060
+    },
+    {
+      "epoch": 55.02,
+      "grad_norm": 6.3195390701293945,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 1.0786,
+      "step": 2070
+    },
+    {
+      "epoch": 55.02,
+      "eval_accuracy": 0.2903225806451613,
+      "eval_loss": 2.182746648788452,
+      "eval_runtime": 320.0132,
+      "eval_samples_per_second": 4.456,
+      "eval_steps_per_second": 0.141,
+      "step": 2072
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 4.941202640533447,
+      "learning_rate": 2.05761316872428e-06,
+      "loss": 1.0504,
+      "step": 2080
+    },
+    {
+      "epoch": 56.01,
+      "grad_norm": 6.709362030029297,
+      "learning_rate": 1.800411522633745e-06,
+      "loss": 1.0698,
+      "step": 2090
+    },
+    {
+      "epoch": 56.01,
+      "grad_norm": 4.710355758666992,
+      "learning_rate": 1.5432098765432098e-06,
+      "loss": 1.0293,
+      "step": 2100
+    },
+    {
+      "epoch": 56.02,
+      "eval_accuracy": 0.29312762973352036,
+      "eval_loss": 2.1847376823425293,
+      "eval_runtime": 311.2651,
+      "eval_samples_per_second": 4.581,
+      "eval_steps_per_second": 0.145,
+      "step": 2109
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 5.022037506103516,
+      "learning_rate": 1.286008230452675e-06,
+      "loss": 1.0951,
+      "step": 2110
+    },
+    {
+      "epoch": 57.01,
+      "grad_norm": 4.987078666687012,
+      "learning_rate": 1.02880658436214e-06,
+      "loss": 1.0677,
+      "step": 2120
+    },
+    {
+      "epoch": 57.01,
+      "grad_norm": 6.031286716461182,
+      "learning_rate": 7.716049382716049e-07,
+      "loss": 1.0438,
+      "step": 2130
+    },
+    {
+      "epoch": 57.01,
+      "grad_norm": 6.382678031921387,
+      "learning_rate": 5.1440329218107e-07,
+      "loss": 1.107,
+      "step": 2140
+    },
+    {
+      "epoch": 57.02,
+      "eval_accuracy": 0.28751753155680226,
+      "eval_loss": 2.1876089572906494,
+      "eval_runtime": 327.4894,
+      "eval_samples_per_second": 4.354,
+      "eval_steps_per_second": 0.137,
+      "step": 2146
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 5.037903308868408,
+      "learning_rate": 2.57201646090535e-07,
+      "loss": 1.0106,
+      "step": 2150
+    },
+    {
+      "epoch": 58.01,
+      "grad_norm": 5.149020671844482,
+      "learning_rate": 0.0,
+      "loss": 1.0571,
+      "step": 2160
+    },
+    {
+      "epoch": 58.01,
+      "eval_accuracy": 0.288218793828892,
+      "eval_loss": 2.188915967941284,
+      "eval_runtime": 325.0665,
+      "eval_samples_per_second": 4.387,
+      "eval_steps_per_second": 0.138,
+      "step": 2160
+    },
+    {
+      "epoch": 58.01,
+      "step": 2160,
+      "total_flos": 8.417965007384071e+19,
+      "train_loss": 1.3411160809022409,
+      "train_runtime": 36316.6045,
+      "train_samples_per_second": 1.903,
+      "train_steps_per_second": 0.059
+    },
+    {
+      "epoch": 58.01,
+      "eval_accuracy": 0.3313807531380753,
+      "eval_loss": 1.6799192428588867,
+      "eval_runtime": 271.2848,
+      "eval_samples_per_second": 4.405,
+      "eval_steps_per_second": 0.14,
+      "step": 2160
+    },
+    {
+      "epoch": 58.01,
+      "eval_accuracy": 0.3313807531380753,
+      "eval_loss": 1.679498314857483,
+      "eval_runtime": 279.1958,
+      "eval_samples_per_second": 4.28,
+      "eval_steps_per_second": 0.136,
+      "step": 2160
     }
   ],
   "logging_steps": 10,
+  "max_steps": 2160,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
+  "total_flos": 8.417965007384071e+19,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }