🍻 cheers

Browse files

Files changed (6) hide show

README.md +7 -6
all_results.json +12 -12
eval_results.json +8 -8
runs/Mar18_16-51-36_9c311a5b3773/events.out.tfevents.1710782176.9c311a5b3773.175663.1 +3 -0
train_results.json +4 -4
trainer_state.json +689 -689

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-lr-cosine-restarts
-This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6284
-- Accuracy: 0.8336
-- Precision: 0.8511
-- Recall: 0.8336
-- F1: 0.8386
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # vit-lr-cosine-restarts
+This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the skin-cancer dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4524
+- Accuracy: 0.8350
+- Precision: 0.8390
+- Recall: 0.8350
+- F1: 0.8329
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 5.61,
-    "eval_accuracy": 0.8401525658807212,
-    "eval_f1": 0.8300860373682543,
-    "eval_loss": 0.5152533650398254,
-    "eval_precision": 0.8326625217058278,
-    "eval_recall": 0.8401525658807212,
-    "eval_runtime": 41.5803,
-    "eval_samples_per_second": 69.36,
-    "eval_steps_per_second": 8.682,
     "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.2732895821850333,
-    "train_runtime": 1429.5622,
-    "train_samples_per_second": 358.711,
-    "train_steps_per_second": 22.454
 }

 {
     "epoch": 5.61,
+    "eval_accuracy": 0.8349514563106796,
+    "eval_f1": 0.8328726444655051,
+    "eval_loss": 0.4524156153202057,
+    "eval_precision": 0.8389745564359966,
+    "eval_recall": 0.8349514563106796,
+    "eval_runtime": 39.837,
+    "eval_samples_per_second": 72.395,
+    "eval_steps_per_second": 9.062,
     "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.41900131742159524,
+    "train_runtime": 1406.907,
+    "train_samples_per_second": 364.487,
+    "train_steps_per_second": 22.816
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 5.61,
-    "eval_accuracy": 0.8401525658807212,
-    "eval_f1": 0.8300860373682543,
-    "eval_loss": 0.5152533650398254,
-    "eval_precision": 0.8326625217058278,
-    "eval_recall": 0.8401525658807212,
-    "eval_runtime": 41.5803,
-    "eval_samples_per_second": 69.36,
-    "eval_steps_per_second": 8.682
 }

 {
     "epoch": 5.61,
+    "eval_accuracy": 0.8349514563106796,
+    "eval_f1": 0.8328726444655051,
+    "eval_loss": 0.4524156153202057,
+    "eval_precision": 0.8389745564359966,
+    "eval_recall": 0.8349514563106796,
+    "eval_runtime": 39.837,
+    "eval_samples_per_second": 72.395,
+    "eval_steps_per_second": 9.062
 }

runs/Mar18_16-51-36_9c311a5b3773/events.out.tfevents.1710782176.9c311a5b3773.175663.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66d09d788e82d55b20264ac8a08ecdd1851ceda7a1664f8f656af2001e814704
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.61,
     "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.2732895821850333,
-    "train_runtime": 1429.5622,
-    "train_samples_per_second": 358.711,
-    "train_steps_per_second": 22.454
 }

 {
     "epoch": 5.61,
     "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.41900131742159524,
+    "train_runtime": 1406.907,
+    "train_samples_per_second": 364.487,
+    "train_steps_per_second": 22.816
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.5152533650398254,
   "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
   "epoch": 5.607476635514018,
   "eval_steps": 100,
@@ -10,1488 +10,1488 @@
   "log_history": [
     {
       "epoch": 0.03,
-      "grad_norm": 5.076780319213867,
-      "learning_rate": 9.999998060388815e-05,
-      "loss": 1.3486,
       "step": 10
     },
     {
       "epoch": 0.06,
-      "grad_norm": 4.030631065368652,
-      "learning_rate": 9.999991355561956e-05,
-      "loss": 0.7525,
       "step": 20
     },
     {
       "epoch": 0.09,
-      "grad_norm": 4.877225875854492,
-      "learning_rate": 9.999979861580028e-05,
-      "loss": 0.833,
       "step": 30
     },
     {
       "epoch": 0.12,
-      "grad_norm": 7.290777683258057,
-      "learning_rate": 9.99996357845404e-05,
-      "loss": 0.9935,
       "step": 40
     },
     {
       "epoch": 0.16,
-      "grad_norm": 5.126965522766113,
-      "learning_rate": 9.999942506199588e-05,
-      "loss": 0.7271,
       "step": 50
     },
     {
       "epoch": 0.19,
-      "grad_norm": 6.139286518096924,
-      "learning_rate": 9.999916644836857e-05,
-      "loss": 0.8015,
       "step": 60
     },
     {
       "epoch": 0.22,
-      "grad_norm": 4.372274398803711,
-      "learning_rate": 9.999885994390619e-05,
-      "loss": 0.8235,
       "step": 70
     },
     {
       "epoch": 0.25,
-      "grad_norm": 4.294188976287842,
-      "learning_rate": 9.999850554890226e-05,
-      "loss": 0.6745,
       "step": 80
     },
     {
       "epoch": 0.28,
-      "grad_norm": 5.877817153930664,
-      "learning_rate": 9.999810326369631e-05,
-      "loss": 0.6976,
       "step": 90
     },
     {
       "epoch": 0.31,
-      "grad_norm": 4.55079984664917,
-      "learning_rate": 9.999765308867361e-05,
-      "loss": 0.5734,
       "step": 100
     },
     {
       "epoch": 0.31,
-      "eval_accuracy": 0.7884882108183079,
-      "eval_f1": 0.7654615392142581,
-      "eval_loss": 0.6007876992225647,
-      "eval_precision": 0.763065724803555,
-      "eval_recall": 0.7884882108183079,
-      "eval_runtime": 39.2669,
-      "eval_samples_per_second": 73.446,
-      "eval_steps_per_second": 9.193,
       "step": 100
     },
     {
       "epoch": 0.34,
-      "grad_norm": 3.842815399169922,
-      "learning_rate": 9.999715502426537e-05,
-      "loss": 0.6458,
       "step": 110
     },
     {
       "epoch": 0.37,
-      "grad_norm": 8.019635200500488,
-      "learning_rate": 9.999660907094863e-05,
-      "loss": 0.6384,
       "step": 120
     },
     {
       "epoch": 0.4,
-      "grad_norm": 7.878860950469971,
-      "learning_rate": 9.999601522924635e-05,
-      "loss": 0.7051,
       "step": 130
     },
     {
       "epoch": 0.44,
-      "grad_norm": 2.1701011657714844,
-      "learning_rate": 9.999537349972733e-05,
-      "loss": 0.5199,
       "step": 140
     },
     {
       "epoch": 0.47,
-      "grad_norm": 4.154609680175781,
-      "learning_rate": 9.999468388300622e-05,
-      "loss": 0.5967,
       "step": 150
     },
     {
       "epoch": 0.5,
-      "grad_norm": 5.633548259735107,
-      "learning_rate": 9.999394637974358e-05,
-      "loss": 0.5481,
       "step": 160
     },
     {
       "epoch": 0.53,
-      "grad_norm": 3.171057939529419,
-      "learning_rate": 9.99931609906458e-05,
-      "loss": 0.6302,
       "step": 170
     },
     {
       "epoch": 0.56,
-      "grad_norm": 5.892911911010742,
-      "learning_rate": 9.999232771646514e-05,
-      "loss": 0.655,
       "step": 180
     },
     {
       "epoch": 0.59,
-      "grad_norm": 3.430375576019287,
-      "learning_rate": 9.999144655799976e-05,
-      "loss": 0.5747,
       "step": 190
     },
     {
       "epoch": 0.62,
-      "grad_norm": 5.8416056632995605,
-      "learning_rate": 9.999051751609367e-05,
-      "loss": 0.5602,
       "step": 200
     },
     {
       "epoch": 0.62,
-      "eval_accuracy": 0.7541608876560333,
-      "eval_f1": 0.7003949849463896,
-      "eval_loss": 0.784325361251831,
-      "eval_precision": 0.742547935218919,
-      "eval_recall": 0.7541608876560333,
-      "eval_runtime": 38.9694,
-      "eval_samples_per_second": 74.007,
-      "eval_steps_per_second": 9.264,
       "step": 200
     },
     {
       "epoch": 0.65,
-      "grad_norm": 5.451653480529785,
-      "learning_rate": 9.998954059163672e-05,
-      "loss": 0.6803,
       "step": 210
     },
     {
       "epoch": 0.69,
-      "grad_norm": 6.584908485412598,
-      "learning_rate": 9.998851578556461e-05,
-      "loss": 0.7019,
       "step": 220
     },
     {
       "epoch": 0.72,
-      "grad_norm": 2.3256571292877197,
-      "learning_rate": 9.998744309885899e-05,
-      "loss": 0.4028,
       "step": 230
     },
     {
       "epoch": 0.75,
-      "grad_norm": 3.929255962371826,
-      "learning_rate": 9.998632253254729e-05,
-      "loss": 0.5235,
       "step": 240
     },
     {
       "epoch": 0.78,
-      "grad_norm": 4.65420389175415,
-      "learning_rate": 9.998515408770281e-05,
-      "loss": 0.6575,
       "step": 250
     },
     {
       "epoch": 0.81,
-      "grad_norm": 5.167401313781738,
-      "learning_rate": 9.998393776544475e-05,
-      "loss": 0.5393,
       "step": 260
     },
     {
       "epoch": 0.84,
-      "grad_norm": 3.1561028957366943,
-      "learning_rate": 9.998267356693811e-05,
-      "loss": 0.4725,
       "step": 270
     },
     {
       "epoch": 0.87,
-      "grad_norm": 4.633551597595215,
-      "learning_rate": 9.998136149339382e-05,
-      "loss": 0.4838,
       "step": 280
     },
     {
       "epoch": 0.9,
-      "grad_norm": 6.649106979370117,
-      "learning_rate": 9.99800015460686e-05,
-      "loss": 0.6252,
       "step": 290
     },
     {
       "epoch": 0.93,
-      "grad_norm": 6.892623424530029,
-      "learning_rate": 9.997859372626506e-05,
-      "loss": 0.7117,
       "step": 300
     },
     {
       "epoch": 0.93,
-      "eval_accuracy": 0.7659500693481276,
-      "eval_f1": 0.7754174880710092,
-      "eval_loss": 0.6221866011619568,
-      "eval_precision": 0.8158439426784209,
-      "eval_recall": 0.7659500693481276,
-      "eval_runtime": 38.9156,
-      "eval_samples_per_second": 74.109,
-      "eval_steps_per_second": 9.276,
       "step": 300
     },
     {
       "epoch": 0.97,
-      "grad_norm": 5.1511149406433105,
-      "learning_rate": 9.997713803533167e-05,
-      "loss": 0.5396,
       "step": 310
     },
     {
       "epoch": 1.0,
-      "grad_norm": 5.100913047790527,
-      "learning_rate": 9.997563447466271e-05,
-      "loss": 0.4868,
       "step": 320
     },
     {
       "epoch": 1.03,
-      "grad_norm": 5.780107498168945,
-      "learning_rate": 9.997408304569836e-05,
-      "loss": 0.4748,
       "step": 330
     },
     {
       "epoch": 1.06,
-      "grad_norm": 5.687930107116699,
-      "learning_rate": 9.997248374992462e-05,
-      "loss": 0.3881,
       "step": 340
     },
     {
       "epoch": 1.09,
-      "grad_norm": 3.1763672828674316,
-      "learning_rate": 9.997083658887336e-05,
-      "loss": 0.4268,
       "step": 350
     },
     {
       "epoch": 1.12,
-      "grad_norm": 2.4463164806365967,
-      "learning_rate": 9.996914156412227e-05,
-      "loss": 0.2806,
       "step": 360
     },
     {
       "epoch": 1.15,
-      "grad_norm": 3.662301778793335,
-      "learning_rate": 9.99673986772949e-05,
-      "loss": 0.4249,
       "step": 370
     },
     {
       "epoch": 1.18,
-      "grad_norm": 7.021162986755371,
-      "learning_rate": 9.996560793006067e-05,
-      "loss": 0.4093,
       "step": 380
     },
     {
       "epoch": 1.21,
-      "grad_norm": 4.5534539222717285,
-      "learning_rate": 9.996376932413478e-05,
-      "loss": 0.4531,
       "step": 390
     },
     {
       "epoch": 1.25,
-      "grad_norm": 2.38512921333313,
-      "learning_rate": 9.996188286127832e-05,
-      "loss": 0.4445,
       "step": 400
     },
     {
       "epoch": 1.25,
-      "eval_accuracy": 0.7923023578363384,
-      "eval_f1": 0.7998929576261109,
-      "eval_loss": 0.5481300950050354,
-      "eval_precision": 0.8180996676834356,
-      "eval_recall": 0.7923023578363384,
-      "eval_runtime": 39.7555,
-      "eval_samples_per_second": 72.543,
-      "eval_steps_per_second": 9.081,
       "step": 400
     },
     {
       "epoch": 1.28,
-      "grad_norm": 4.16684103012085,
-      "learning_rate": 9.995994854329822e-05,
-      "loss": 0.3825,
       "step": 410
     },
     {
       "epoch": 1.31,
-      "grad_norm": 4.1305155754089355,
-      "learning_rate": 9.995796637204721e-05,
-      "loss": 0.4733,
       "step": 420
     },
     {
       "epoch": 1.34,
-      "grad_norm": 5.665832042694092,
-      "learning_rate": 9.99559363494239e-05,
-      "loss": 0.5294,
       "step": 430
     },
     {
       "epoch": 1.37,
-      "grad_norm": 4.365192413330078,
-      "learning_rate": 9.995385847737268e-05,
-      "loss": 0.4245,
       "step": 440
     },
     {
       "epoch": 1.4,
-      "grad_norm": 4.794129371643066,
-      "learning_rate": 9.995173275788385e-05,
-      "loss": 0.3817,
       "step": 450
     },
     {
       "epoch": 1.43,
-      "grad_norm": 5.548172950744629,
-      "learning_rate": 9.994955919299347e-05,
-      "loss": 0.4014,
       "step": 460
     },
     {
       "epoch": 1.46,
-      "grad_norm": 3.7581427097320557,
-      "learning_rate": 9.994733778478344e-05,
-      "loss": 0.3768,
       "step": 470
     },
     {
       "epoch": 1.5,
-      "grad_norm": 6.855079174041748,
-      "learning_rate": 9.994506853538152e-05,
-      "loss": 0.4268,
       "step": 480
     },
     {
       "epoch": 1.53,
-      "grad_norm": 4.8678483963012695,
-      "learning_rate": 9.994275144696124e-05,
-      "loss": 0.4195,
       "step": 490
     },
     {
       "epoch": 1.56,
-      "grad_norm": 2.5210819244384766,
-      "learning_rate": 9.994038652174203e-05,
-      "loss": 0.3471,
       "step": 500
     },
     {
       "epoch": 1.56,
-      "eval_accuracy": 0.8217753120665742,
-      "eval_f1": 0.8047594572379952,
-      "eval_loss": 0.5284826159477234,
-      "eval_precision": 0.8158080424554234,
-      "eval_recall": 0.8217753120665742,
-      "eval_runtime": 39.5975,
-      "eval_samples_per_second": 72.833,
-      "eval_steps_per_second": 9.117,
       "step": 500
     },
     {
       "epoch": 1.59,
-      "grad_norm": 3.7428205013275146,
-      "learning_rate": 9.993797376198904e-05,
-      "loss": 0.4145,
       "step": 510
     },
     {
       "epoch": 1.62,
-      "grad_norm": 4.127384185791016,
-      "learning_rate": 9.993551317001332e-05,
-      "loss": 0.3791,
       "step": 520
     },
     {
       "epoch": 1.65,
-      "grad_norm": 5.904128074645996,
-      "learning_rate": 9.993300474817171e-05,
-      "loss": 0.4183,
       "step": 530
     },
     {
       "epoch": 1.68,
-      "grad_norm": 3.835289478302002,
-      "learning_rate": 9.993044849886683e-05,
-      "loss": 0.3489,
       "step": 540
     },
     {
       "epoch": 1.71,
-      "grad_norm": 4.441788673400879,
-      "learning_rate": 9.992784442454718e-05,
-      "loss": 0.52,
       "step": 550
     },
     {
       "epoch": 1.74,
-      "grad_norm": 4.608953475952148,
-      "learning_rate": 9.9925192527707e-05,
-      "loss": 0.4983,
       "step": 560
     },
     {
       "epoch": 1.78,
-      "grad_norm": 3.4798424243927,
-      "learning_rate": 9.992249281088636e-05,
-      "loss": 0.3766,
       "step": 570
     },
     {
       "epoch": 1.81,
-      "grad_norm": 3.5282986164093018,
-      "learning_rate": 9.991974527667115e-05,
-      "loss": 0.2979,
       "step": 580
     },
     {
       "epoch": 1.84,
-      "grad_norm": 6.50264310836792,
-      "learning_rate": 9.991694992769305e-05,
-      "loss": 0.4602,
       "step": 590
     },
     {
       "epoch": 1.87,
-      "grad_norm": 1.7083078622817993,
-      "learning_rate": 9.991410676662952e-05,
-      "loss": 0.3144,
       "step": 600
     },
     {
       "epoch": 1.87,
-      "eval_accuracy": 0.7961165048543689,
-      "eval_f1": 0.8022817302667706,
-      "eval_loss": 0.5565336346626282,
-      "eval_precision": 0.8311598226972493,
-      "eval_recall": 0.7961165048543689,
-      "eval_runtime": 38.759,
-      "eval_samples_per_second": 74.408,
-      "eval_steps_per_second": 9.314,
       "step": 600
     },
     {
       "epoch": 1.9,
-      "grad_norm": 5.729618549346924,
-      "learning_rate": 9.991121579620385e-05,
-      "loss": 0.4488,
       "step": 610
     },
     {
       "epoch": 1.93,
-      "grad_norm": 3.340083599090576,
-      "learning_rate": 9.99082770191851e-05,
-      "loss": 0.3636,
       "step": 620
     },
     {
       "epoch": 1.96,
-      "grad_norm": 2.685565710067749,
-      "learning_rate": 9.990529043838812e-05,
-      "loss": 0.2454,
       "step": 630
     },
     {
       "epoch": 1.99,
-      "grad_norm": 4.4097676277160645,
-      "learning_rate": 9.990225605667357e-05,
-      "loss": 0.413,
       "step": 640
     },
     {
       "epoch": 2.02,
-      "grad_norm": 3.5152175426483154,
-      "learning_rate": 9.989917387694786e-05,
-      "loss": 0.2442,
       "step": 650
     },
     {
       "epoch": 2.06,
-      "grad_norm": 3.326936960220337,
-      "learning_rate": 9.989604390216322e-05,
-      "loss": 0.206,
       "step": 660
     },
     {
       "epoch": 2.09,
-      "grad_norm": 5.301408767700195,
-      "learning_rate": 9.989286613531763e-05,
-      "loss": 0.305,
       "step": 670
     },
     {
       "epoch": 2.12,
-      "grad_norm": 4.104938507080078,
-      "learning_rate": 9.988964057945486e-05,
-      "loss": 0.2568,
       "step": 680
     },
     {
       "epoch": 2.15,
-      "grad_norm": 3.0700721740722656,
-      "learning_rate": 9.988636723766446e-05,
-      "loss": 0.2259,
       "step": 690
     },
     {
       "epoch": 2.18,
-      "grad_norm": 2.798845052719116,
-      "learning_rate": 9.988304611308174e-05,
-      "loss": 0.1702,
       "step": 700
     },
     {
       "epoch": 2.18,
-      "eval_accuracy": 0.8255894590846047,
-      "eval_f1": 0.8239856028376362,
-      "eval_loss": 0.5403878688812256,
-      "eval_precision": 0.8319658160543976,
-      "eval_recall": 0.8255894590846047,
-      "eval_runtime": 39.5591,
-      "eval_samples_per_second": 72.903,
-      "eval_steps_per_second": 9.126,
       "step": 700
     },
     {
       "epoch": 2.21,
-      "grad_norm": 0.7119998931884766,
-      "learning_rate": 9.987967720888777e-05,
-      "loss": 0.1882,
       "step": 710
     },
     {
       "epoch": 2.24,
-      "grad_norm": 4.365331649780273,
-      "learning_rate": 9.987626052830943e-05,
-      "loss": 0.3553,
       "step": 720
     },
     {
       "epoch": 2.27,
-      "grad_norm": 5.9306511878967285,
-      "learning_rate": 9.98727960746193e-05,
-      "loss": 0.3306,
       "step": 730
     },
     {
       "epoch": 2.31,
-      "grad_norm": 1.0953195095062256,
-      "learning_rate": 9.986928385113575e-05,
-      "loss": 0.1931,
       "step": 740
     },
     {
       "epoch": 2.34,
-      "grad_norm": 6.899849891662598,
-      "learning_rate": 9.986572386122291e-05,
-      "loss": 0.1806,
       "step": 750
     },
     {
       "epoch": 2.37,
-      "grad_norm": 1.6626615524291992,
-      "learning_rate": 9.986211610829065e-05,
-      "loss": 0.1701,
       "step": 760
     },
     {
       "epoch": 2.4,
-      "grad_norm": 4.0154709815979,
-      "learning_rate": 9.98584605957946e-05,
-      "loss": 0.2327,
       "step": 770
     },
     {
       "epoch": 2.43,
-      "grad_norm": 2.971966028213501,
-      "learning_rate": 9.98547573272361e-05,
-      "loss": 0.3,
       "step": 780
     },
     {
       "epoch": 2.46,
-      "grad_norm": 3.9327046871185303,
-      "learning_rate": 9.985100630616231e-05,
-      "loss": 0.3169,
       "step": 790
     },
     {
       "epoch": 2.49,
-      "grad_norm": 2.108839750289917,
-      "learning_rate": 9.984720753616604e-05,
-      "loss": 0.2557,
       "step": 800
     },
     {
       "epoch": 2.49,
-      "eval_accuracy": 0.8401525658807212,
-      "eval_f1": 0.8300860373682543,
-      "eval_loss": 0.5152533650398254,
-      "eval_precision": 0.8326625217058278,
-      "eval_recall": 0.8401525658807212,
-      "eval_runtime": 39.7502,
-      "eval_samples_per_second": 72.553,
-      "eval_steps_per_second": 9.082,
       "step": 800
     },
     {
       "epoch": 2.52,
-      "grad_norm": 2.910875082015991,
-      "learning_rate": 9.98433610208859e-05,
-      "loss": 0.4144,
       "step": 810
     },
     {
       "epoch": 2.55,
-      "grad_norm": 3.922912359237671,
-      "learning_rate": 9.98394667640062e-05,
-      "loss": 0.2054,
       "step": 820
     },
     {
       "epoch": 2.59,
-      "grad_norm": 4.223613739013672,
-      "learning_rate": 9.983552476925697e-05,
-      "loss": 0.2299,
       "step": 830
     },
     {
       "epoch": 2.62,
-      "grad_norm": 4.242312908172607,
-      "learning_rate": 9.983153504041402e-05,
-      "loss": 0.176,
       "step": 840
     },
     {
       "epoch": 2.65,
-      "grad_norm": 2.051708936691284,
-      "learning_rate": 9.98274975812988e-05,
-      "loss": 0.1621,
       "step": 850
     },
     {
       "epoch": 2.68,
-      "grad_norm": 4.030768871307373,
-      "learning_rate": 9.982341239577855e-05,
-      "loss": 0.2601,
       "step": 860
     },
     {
       "epoch": 2.71,
-      "grad_norm": 3.5723698139190674,
-      "learning_rate": 9.98192794877662e-05,
-      "loss": 0.2528,
       "step": 870
     },
     {
       "epoch": 2.74,
-      "grad_norm": 8.439871788024902,
-      "learning_rate": 9.981509886122034e-05,
-      "loss": 0.2787,
       "step": 880
     },
     {
       "epoch": 2.77,
-      "grad_norm": 1.1091142892837524,
-      "learning_rate": 9.981087052014534e-05,
-      "loss": 0.2204,
       "step": 890
     },
     {
       "epoch": 2.8,
-      "grad_norm": 6.232639312744141,
-      "learning_rate": 9.980659446859127e-05,
-      "loss": 0.1579,
       "step": 900
     },
     {
       "epoch": 2.8,
-      "eval_accuracy": 0.8217753120665742,
-      "eval_f1": 0.8250088481014233,
-      "eval_loss": 0.5866798162460327,
-      "eval_precision": 0.841958803508682,
-      "eval_recall": 0.8217753120665742,
-      "eval_runtime": 39.5043,
-      "eval_samples_per_second": 73.005,
-      "eval_steps_per_second": 9.138,
       "step": 900
     },
     {
       "epoch": 2.83,
-      "grad_norm": 7.044712543487549,
-      "learning_rate": 9.980227071065382e-05,
-      "loss": 0.3333,
       "step": 910
     },
     {
       "epoch": 2.87,
-      "grad_norm": 5.107402324676514,
-      "learning_rate": 9.979789925047447e-05,
-      "loss": 0.2788,
       "step": 920
     },
     {
       "epoch": 2.9,
-      "grad_norm": 3.1622753143310547,
-      "learning_rate": 9.979348009224032e-05,
-      "loss": 0.3464,
       "step": 930
     },
     {
       "epoch": 2.93,
-      "grad_norm": 6.17850399017334,
-      "learning_rate": 9.97890132401842e-05,
-      "loss": 0.3268,
       "step": 940
     },
     {
       "epoch": 2.96,
-      "grad_norm": 0.5498158931732178,
-      "learning_rate": 9.978449869858458e-05,
-      "loss": 0.2121,
       "step": 950
     },
     {
       "epoch": 2.99,
-      "grad_norm": 5.8213300704956055,
-      "learning_rate": 9.977993647176566e-05,
-      "loss": 0.1871,
       "step": 960
     },
     {
       "epoch": 3.02,
-      "grad_norm": 0.513097882270813,
-      "learning_rate": 9.97753265640973e-05,
-      "loss": 0.1037,
       "step": 970
     },
     {
       "epoch": 3.05,
-      "grad_norm": 5.008875846862793,
-      "learning_rate": 9.977066897999499e-05,
-      "loss": 0.1076,
       "step": 980
     },
     {
       "epoch": 3.08,
-      "grad_norm": 2.2303969860076904,
-      "learning_rate": 9.976596372391993e-05,
-      "loss": 0.0691,
       "step": 990
     },
     {
       "epoch": 3.12,
-      "grad_norm": 2.022919178009033,
-      "learning_rate": 9.976121080037899e-05,
-      "loss": 0.0815,
       "step": 1000
     },
     {
       "epoch": 3.12,
-      "eval_accuracy": 0.8401525658807212,
-      "eval_f1": 0.8350952876276385,
-      "eval_loss": 0.621809184551239,
-      "eval_precision": 0.8475972155785173,
-      "eval_recall": 0.8401525658807212,
-      "eval_runtime": 41.1855,
-      "eval_samples_per_second": 70.025,
-      "eval_steps_per_second": 8.765,
       "step": 1000
     },
     {
       "epoch": 3.15,
-      "grad_norm": 3.9770946502685547,
-      "learning_rate": 9.975641021392464e-05,
-      "loss": 0.0985,
       "step": 1010
     },
     {
       "epoch": 3.18,
-      "grad_norm": 1.0038492679595947,
-      "learning_rate": 9.975156196915505e-05,
-      "loss": 0.1406,
       "step": 1020
     },
     {
       "epoch": 3.21,
-      "grad_norm": 2.54162335395813,
-      "learning_rate": 9.974666607071404e-05,
-      "loss": 0.1524,
       "step": 1030
     },
     {
       "epoch": 3.24,
-      "grad_norm": 3.7266845703125,
-      "learning_rate": 9.974172252329104e-05,
-      "loss": 0.0771,
       "step": 1040
     },
     {
       "epoch": 3.27,
-      "grad_norm": 8.810432434082031,
-      "learning_rate": 9.973673133162115e-05,
-      "loss": 0.1663,
       "step": 1050
     },
     {
       "epoch": 3.3,
-      "grad_norm": 0.4533999562263489,
-      "learning_rate": 9.973169250048511e-05,
-      "loss": 0.0733,
       "step": 1060
     },
     {
       "epoch": 3.33,
-      "grad_norm": 0.25851675868034363,
-      "learning_rate": 9.972660603470927e-05,
-      "loss": 0.1261,
       "step": 1070
     },
     {
       "epoch": 3.36,
-      "grad_norm": 4.003190994262695,
-      "learning_rate": 9.97214719391656e-05,
-      "loss": 0.1786,
       "step": 1080
     },
     {
       "epoch": 3.4,
-      "grad_norm": 3.595621109008789,
-      "learning_rate": 9.971629021877172e-05,
-      "loss": 0.0972,
       "step": 1090
     },
     {
       "epoch": 3.43,
-      "grad_norm": 2.7062487602233887,
-      "learning_rate": 9.971106087849084e-05,
-      "loss": 0.1075,
       "step": 1100
     },
     {
       "epoch": 3.43,
-      "eval_accuracy": 0.8429264909847434,
-      "eval_f1": 0.8341860243029758,
-      "eval_loss": 0.6122580170631409,
-      "eval_precision": 0.8456371193220292,
-      "eval_recall": 0.8429264909847434,
-      "eval_runtime": 39.1852,
-      "eval_samples_per_second": 73.599,
-      "eval_steps_per_second": 9.213,
       "step": 1100
     },
     {
       "epoch": 3.46,
-      "grad_norm": 4.331242561340332,
-      "learning_rate": 9.97057839233318e-05,
-      "loss": 0.0529,
       "step": 1110
     },
     {
       "epoch": 3.49,
-      "grad_norm": 4.688290119171143,
-      "learning_rate": 9.970045935834904e-05,
-      "loss": 0.1567,
       "step": 1120
     },
     {
       "epoch": 3.52,
-      "grad_norm": 6.66792106628418,
-      "learning_rate": 9.96950871886426e-05,
-      "loss": 0.053,
       "step": 1130
     },
     {
       "epoch": 3.55,
-      "grad_norm": 13.5020170211792,
-      "learning_rate": 9.968966741935813e-05,
-      "loss": 0.1816,
       "step": 1140
     },
     {
       "epoch": 3.58,
-      "grad_norm": 2.9301021099090576,
-      "learning_rate": 9.968420005568684e-05,
-      "loss": 0.1387,
       "step": 1150
     },
     {
       "epoch": 3.61,
-      "grad_norm": 0.7428218126296997,
-      "learning_rate": 9.967868510286557e-05,
-      "loss": 0.2021,
       "step": 1160
     },
     {
       "epoch": 3.64,
-      "grad_norm": 5.887143611907959,
-      "learning_rate": 9.967312256617671e-05,
-      "loss": 0.1325,
       "step": 1170
     },
     {
       "epoch": 3.68,
-      "grad_norm": 0.15455959737300873,
-      "learning_rate": 9.966751245094823e-05,
-      "loss": 0.0623,
       "step": 1180
     },
     {
       "epoch": 3.71,
-      "grad_norm": 11.433218002319336,
-      "learning_rate": 9.966185476255371e-05,
-      "loss": 0.099,
       "step": 1190
     },
     {
       "epoch": 3.74,
-      "grad_norm": 1.5371123552322388,
-      "learning_rate": 9.965614950641225e-05,
-      "loss": 0.161,
       "step": 1200
     },
     {
       "epoch": 3.74,
-      "eval_accuracy": 0.8509015256588072,
-      "eval_f1": 0.8419411480198592,
-      "eval_loss": 0.6438868045806885,
-      "eval_precision": 0.8478228582682292,
-      "eval_recall": 0.8509015256588072,
-      "eval_runtime": 39.7116,
-      "eval_samples_per_second": 72.624,
-      "eval_steps_per_second": 9.091,
       "step": 1200
     },
     {
       "epoch": 3.77,
-      "grad_norm": 5.211598873138428,
-      "learning_rate": 9.965039668798855e-05,
-      "loss": 0.1748,
       "step": 1210
     },
     {
       "epoch": 3.8,
-      "grad_norm": 6.897021770477295,
-      "learning_rate": 9.96445963127928e-05,
-      "loss": 0.2178,
       "step": 1220
     },
     {
       "epoch": 3.83,
-      "grad_norm": 2.0479114055633545,
-      "learning_rate": 9.963874838638084e-05,
-      "loss": 0.0631,
       "step": 1230
     },
     {
       "epoch": 3.86,
-      "grad_norm": 0.7689093351364136,
-      "learning_rate": 9.963285291435398e-05,
-      "loss": 0.1147,
       "step": 1240
     },
     {
       "epoch": 3.89,
-      "grad_norm": 0.16739872097969055,
-      "learning_rate": 9.96269099023591e-05,
-      "loss": 0.1705,
       "step": 1250
     },
     {
       "epoch": 3.93,
-      "grad_norm": 0.712565004825592,
-      "learning_rate": 9.962091935608861e-05,
-      "loss": 0.0937,
       "step": 1260
     },
     {
       "epoch": 3.96,
-      "grad_norm": 9.288028717041016,
-      "learning_rate": 9.961488128128047e-05,
-      "loss": 0.1466,
       "step": 1270
     },
     {
       "epoch": 3.99,
-      "grad_norm": 1.646752119064331,
-      "learning_rate": 9.960879568371813e-05,
-      "loss": 0.0806,
       "step": 1280
     },
     {
       "epoch": 4.02,
-      "grad_norm": 0.14091795682907104,
-      "learning_rate": 9.960266256923055e-05,
-      "loss": 0.0882,
       "step": 1290
     },
     {
       "epoch": 4.05,
-      "grad_norm": 0.6831271052360535,
-      "learning_rate": 9.959648194369227e-05,
-      "loss": 0.0446,
       "step": 1300
     },
     {
       "epoch": 4.05,
-      "eval_accuracy": 0.8561026352288488,
-      "eval_f1": 0.8516177334392149,
-      "eval_loss": 0.6347180008888245,
-      "eval_precision": 0.8514533351685835,
-      "eval_recall": 0.8561026352288488,
-      "eval_runtime": 39.1555,
-      "eval_samples_per_second": 73.655,
-      "eval_steps_per_second": 9.22,
       "step": 1300
     },
     {
       "epoch": 4.08,
-      "grad_norm": 0.6896274089813232,
-      "learning_rate": 9.959025381302325e-05,
-      "loss": 0.0551,
       "step": 1310
     },
     {
       "epoch": 4.11,
-      "grad_norm": 1.7469240427017212,
-      "learning_rate": 9.958397818318904e-05,
-      "loss": 0.0172,
       "step": 1320
     },
     {
       "epoch": 4.14,
-      "grad_norm": 1.5375361442565918,
-      "learning_rate": 9.957765506020062e-05,
-      "loss": 0.1115,
       "step": 1330
     },
     {
       "epoch": 4.17,
-      "grad_norm": 0.022675570100545883,
-      "learning_rate": 9.95712844501145e-05,
-      "loss": 0.0172,
       "step": 1340
     },
     {
       "epoch": 4.21,
-      "grad_norm": 0.012827737256884575,
-      "learning_rate": 9.956486635903263e-05,
-      "loss": 0.0473,
       "step": 1350
     },
     {
       "epoch": 4.24,
-      "grad_norm": 9.727991104125977,
-      "learning_rate": 9.955840079310251e-05,
-      "loss": 0.0425,
       "step": 1360
     },
     {
       "epoch": 4.27,
-      "grad_norm": 0.1388218253850937,
-      "learning_rate": 9.955188775851703e-05,
-      "loss": 0.0799,
       "step": 1370
     },
     {
       "epoch": 4.3,
-      "grad_norm": 6.434169769287109,
-      "learning_rate": 9.95453272615146e-05,
-      "loss": 0.1215,
       "step": 1380
     },
     {
       "epoch": 4.33,
-      "grad_norm": 0.04131891950964928,
-      "learning_rate": 9.953871930837908e-05,
-      "loss": 0.2098,
       "step": 1390
     },
     {
       "epoch": 4.36,
-      "grad_norm": 5.073083400726318,
-      "learning_rate": 9.953206390543979e-05,
-      "loss": 0.1209,
       "step": 1400
     },
     {
       "epoch": 4.36,
-      "eval_accuracy": 0.8453536754507628,
-      "eval_f1": 0.8453570551603792,
-      "eval_loss": 0.6838424801826477,
-      "eval_precision": 0.8481646167581471,
-      "eval_recall": 0.8453536754507628,
-      "eval_runtime": 40.1161,
-      "eval_samples_per_second": 71.891,
-      "eval_steps_per_second": 8.999,
       "step": 1400
     },
     {
       "epoch": 4.39,
-      "grad_norm": 0.1268097162246704,
-      "learning_rate": 9.952536105907148e-05,
-      "loss": 0.0401,
       "step": 1410
     },
     {
       "epoch": 4.42,
-      "grad_norm": 0.3008650839328766,
-      "learning_rate": 9.951861077569438e-05,
-      "loss": 0.0539,
       "step": 1420
     },
     {
       "epoch": 4.45,
-      "grad_norm": 1.8736006021499634,
-      "learning_rate": 9.951181306177408e-05,
-      "loss": 0.0375,
       "step": 1430
     },
     {
       "epoch": 4.49,
-      "grad_norm": 0.02439166232943535,
-      "learning_rate": 9.950496792382172e-05,
-      "loss": 0.0783,
       "step": 1440
     },
     {
       "epoch": 4.52,
-      "grad_norm": 2.347705841064453,
-      "learning_rate": 9.949807536839375e-05,
-      "loss": 0.0744,
       "step": 1450
     },
     {
       "epoch": 4.55,
-      "grad_norm": 0.04086657613515854,
-      "learning_rate": 9.94911354020921e-05,
-      "loss": 0.0466,
       "step": 1460
     },
     {
       "epoch": 4.58,
-      "grad_norm": 1.9723145961761475,
-      "learning_rate": 9.94841480315641e-05,
-      "loss": 0.0459,
       "step": 1470
     },
     {
       "epoch": 4.61,
-      "grad_norm": 0.05683187022805214,
-      "learning_rate": 9.947711326350247e-05,
-      "loss": 0.1431,
       "step": 1480
     },
     {
       "epoch": 4.64,
-      "grad_norm": 3.9203383922576904,
-      "learning_rate": 9.947003110464533e-05,
-      "loss": 0.0488,
       "step": 1490
     },
     {
       "epoch": 4.67,
-      "grad_norm": 1.1523628234863281,
-      "learning_rate": 9.946290156177625e-05,
-      "loss": 0.006,
       "step": 1500
     },
     {
       "epoch": 4.67,
-      "eval_accuracy": 0.8394590846047156,
-      "eval_f1": 0.8362644621553696,
-      "eval_loss": 0.7756162285804749,
-      "eval_precision": 0.8375320979339962,
-      "eval_recall": 0.8394590846047156,
-      "eval_runtime": 40.2425,
-      "eval_samples_per_second": 71.666,
-      "eval_steps_per_second": 8.971,
       "step": 1500
     },
     {
       "epoch": 4.7,
-      "grad_norm": 10.209505081176758,
-      "learning_rate": 9.945572464172408e-05,
-      "loss": 0.0775,
       "step": 1510
     },
     {
       "epoch": 4.74,
-      "grad_norm": 1.9617162942886353,
-      "learning_rate": 9.944850035136317e-05,
-      "loss": 0.0089,
       "step": 1520
     },
     {
       "epoch": 4.77,
-      "grad_norm": 4.741919994354248,
-      "learning_rate": 9.944122869761312e-05,
-      "loss": 0.0835,
       "step": 1530
     },
     {
       "epoch": 4.8,
-      "grad_norm": 8.549369812011719,
-      "learning_rate": 9.943390968743899e-05,
-      "loss": 0.0569,
       "step": 1540
     },
     {
       "epoch": 4.83,
-      "grad_norm": 0.6695631146430969,
-      "learning_rate": 9.942654332785117e-05,
-      "loss": 0.1164,
       "step": 1550
     },
     {
       "epoch": 4.86,
-      "grad_norm": 4.1318278312683105,
-      "learning_rate": 9.94191296259054e-05,
-      "loss": 0.042,
       "step": 1560
     },
     {
       "epoch": 4.89,
-      "grad_norm": 6.556665897369385,
-      "learning_rate": 9.941166858870275e-05,
-      "loss": 0.045,
       "step": 1570
     },
     {
       "epoch": 4.92,
-      "grad_norm": 13.292597770690918,
-      "learning_rate": 9.940416022338966e-05,
-      "loss": 0.0682,
       "step": 1580
     },
     {
       "epoch": 4.95,
-      "grad_norm": 7.545276165008545,
-      "learning_rate": 9.939660453715789e-05,
-      "loss": 0.1476,
       "step": 1590
     },
     {
       "epoch": 4.98,
-      "grad_norm": 4.052639961242676,
-      "learning_rate": 9.93890015372445e-05,
-      "loss": 0.0219,
       "step": 1600
     },
     {
       "epoch": 4.98,
-      "eval_accuracy": 0.8280166435506241,
-      "eval_f1": 0.8270572625886861,
-      "eval_loss": 0.8814780116081238,
-      "eval_precision": 0.8368468785461194,
-      "eval_recall": 0.8280166435506241,
-      "eval_runtime": 39.3962,
-      "eval_samples_per_second": 73.205,
-      "eval_steps_per_second": 9.163,
       "step": 1600
     },
     {
       "epoch": 5.02,
-      "grad_norm": 0.7045537829399109,
-      "learning_rate": 9.93813512309319e-05,
-      "loss": 0.102,
       "step": 1610
     },
     {
       "epoch": 5.05,
-      "grad_norm": 0.47862136363983154,
-      "learning_rate": 9.937365362554782e-05,
-      "loss": 0.0198,
       "step": 1620
     },
     {
       "epoch": 5.08,
-      "grad_norm": 0.06051962450146675,
-      "learning_rate": 9.936590872846529e-05,
-      "loss": 0.029,
       "step": 1630
     },
     {
       "epoch": 5.11,
-      "grad_norm": 8.44522762298584,
-      "learning_rate": 9.935811654710257e-05,
-      "loss": 0.0077,
       "step": 1640
     },
     {
       "epoch": 5.14,
-      "grad_norm": 0.15062321722507477,
-      "learning_rate": 9.935027708892333e-05,
-      "loss": 0.011,
       "step": 1650
     },
     {
       "epoch": 5.17,
-      "grad_norm": 0.006027880124747753,
-      "learning_rate": 9.93423903614364e-05,
-      "loss": 0.0524,
       "step": 1660
     },
     {
       "epoch": 5.2,
-      "grad_norm": 0.09458424896001816,
-      "learning_rate": 9.933445637219598e-05,
-      "loss": 0.074,
       "step": 1670
     },
     {
       "epoch": 5.23,
-      "grad_norm": 4.973755836486816,
-      "learning_rate": 9.932647512880151e-05,
-      "loss": 0.1273,
       "step": 1680
     },
     {
       "epoch": 5.26,
-      "grad_norm": 5.976691246032715,
-      "learning_rate": 9.931844663889766e-05,
-      "loss": 0.007,
       "step": 1690
     },
     {
       "epoch": 5.3,
-      "grad_norm": 14.914401054382324,
-      "learning_rate": 9.931037091017441e-05,
-      "loss": 0.0616,
       "step": 1700
     },
     {
       "epoch": 5.3,
-      "eval_accuracy": 0.8155339805825242,
-      "eval_f1": 0.7863981529949345,
-      "eval_loss": 1.0824644565582275,
-      "eval_precision": 0.8128168319440793,
-      "eval_recall": 0.8155339805825242,
-      "eval_runtime": 38.9135,
-      "eval_samples_per_second": 74.113,
-      "eval_steps_per_second": 9.277,
       "step": 1700
     },
     {
       "epoch": 5.33,
-      "grad_norm": 0.02390890195965767,
-      "learning_rate": 9.930224795036694e-05,
-      "loss": 0.009,
       "step": 1710
     },
     {
       "epoch": 5.36,
-      "grad_norm": 6.92083740234375,
-      "learning_rate": 9.929407776725565e-05,
-      "loss": 0.118,
       "step": 1720
     },
     {
       "epoch": 5.39,
-      "grad_norm": 0.024119729176163673,
-      "learning_rate": 9.928586036866628e-05,
-      "loss": 0.0051,
       "step": 1730
     },
     {
       "epoch": 5.42,
-      "grad_norm": 8.526777267456055,
-      "learning_rate": 9.927759576246969e-05,
-      "loss": 0.1098,
       "step": 1740
     },
     {
       "epoch": 5.45,
-      "grad_norm": 2.77993106842041,
-      "learning_rate": 9.926928395658198e-05,
-      "loss": 0.1047,
       "step": 1750
     },
     {
       "epoch": 5.48,
-      "grad_norm": 0.030404316261410713,
-      "learning_rate": 9.926092495896446e-05,
-      "loss": 0.0495,
       "step": 1760
     },
     {
       "epoch": 5.51,
-      "grad_norm": 0.07882791757583618,
-      "learning_rate": 9.925251877762369e-05,
-      "loss": 0.0609,
       "step": 1770
     },
     {
       "epoch": 5.55,
-      "grad_norm": 1.615186095237732,
-      "learning_rate": 9.924406542061135e-05,
-      "loss": 0.0399,
       "step": 1780
     },
     {
       "epoch": 5.58,
-      "grad_norm": 5.359433650970459,
-      "learning_rate": 9.923556489602436e-05,
-      "loss": 0.032,
       "step": 1790
     },
     {
       "epoch": 5.61,
-      "grad_norm": 1.139506459236145,
-      "learning_rate": 9.922701721200479e-05,
-      "loss": 0.0305,
       "step": 1800
     },
     {
       "epoch": 5.61,
-      "eval_accuracy": 0.840499306518724,
-      "eval_f1": 0.8366786621950907,
-      "eval_loss": 0.8289232850074768,
-      "eval_precision": 0.8427815878781533,
-      "eval_recall": 0.840499306518724,
-      "eval_runtime": 40.1613,
-      "eval_samples_per_second": 71.81,
-      "eval_steps_per_second": 8.989,
       "step": 1800
     },
     {
       "epoch": 5.61,
       "step": 1800,
       "total_flos": 2.2287694956200755e+18,
-      "train_loss": 0.2732895821850333,
-      "train_runtime": 1429.5622,
-      "train_samples_per_second": 358.711,
-      "train_steps_per_second": 22.454
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.4524156153202057,
   "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
   "epoch": 5.607476635514018,
   "eval_steps": 100,
   "log_history": [
     {
       "epoch": 0.03,
+      "grad_norm": Infinity,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 2.4884,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "grad_norm": 19.190855026245117,
+      "learning_rate": 1.125e-06,
+      "loss": 2.411,
       "step": 20
     },
     {
       "epoch": 0.09,
+      "grad_norm": 16.122661590576172,
+      "learning_rate": 1.7500000000000002e-06,
+      "loss": 2.2596,
       "step": 30
     },
     {
       "epoch": 0.12,
+      "grad_norm": 11.49656867980957,
+      "learning_rate": 2.375e-06,
+      "loss": 2.1154,
       "step": 40
     },
     {
       "epoch": 0.16,
+      "grad_norm": 14.204788208007812,
+      "learning_rate": 3e-06,
+      "loss": 1.7711,
       "step": 50
     },
     {
       "epoch": 0.19,
+      "grad_norm": 8.722100257873535,
+      "learning_rate": 3.625e-06,
+      "loss": 1.4865,
       "step": 60
     },
     {
       "epoch": 0.22,
+      "grad_norm": 7.642684459686279,
+      "learning_rate": 4.250000000000001e-06,
+      "loss": 1.282,
       "step": 70
     },
     {
       "epoch": 0.25,
+      "grad_norm": 5.861067295074463,
+      "learning_rate": 4.875000000000001e-06,
+      "loss": 1.06,
       "step": 80
     },
     {
       "epoch": 0.28,
+      "grad_norm": 5.785488128662109,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.9867,
       "step": 90
     },
     {
       "epoch": 0.31,
+      "grad_norm": 5.735620021820068,
+      "learning_rate": 6.125e-06,
+      "loss": 0.9572,
       "step": 100
     },
     {
       "epoch": 0.31,
+      "eval_accuracy": 0.6785714285714286,
+      "eval_f1": 0.576811217156952,
+      "eval_loss": 0.9378232359886169,
+      "eval_precision": 0.534687120046434,
+      "eval_recall": 0.6785714285714286,
+      "eval_runtime": 38.8342,
+      "eval_samples_per_second": 74.265,
+      "eval_steps_per_second": 9.296,
       "step": 100
     },
     {
       "epoch": 0.34,
+      "grad_norm": 5.473198890686035,
+      "learning_rate": 6.750000000000001e-06,
+      "loss": 0.8799,
       "step": 110
     },
     {
       "epoch": 0.37,
+      "grad_norm": 5.595673084259033,
+      "learning_rate": 7.375e-06,
+      "loss": 0.8161,
       "step": 120
     },
     {
       "epoch": 0.4,
+      "grad_norm": 7.84308385848999,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.9048,
       "step": 130
     },
     {
       "epoch": 0.44,
+      "grad_norm": 3.7328169345855713,
+      "learning_rate": 8.625e-06,
+      "loss": 0.7422,
       "step": 140
     },
     {
       "epoch": 0.47,
+      "grad_norm": 5.750851631164551,
+      "learning_rate": 9.25e-06,
+      "loss": 0.8141,
       "step": 150
     },
     {
       "epoch": 0.5,
+      "grad_norm": 5.3880295753479,
+      "learning_rate": 9.875000000000001e-06,
+      "loss": 0.7135,
       "step": 160
     },
     {
       "epoch": 0.53,
+      "grad_norm": 5.539682388305664,
+      "learning_rate": 1.05e-05,
+      "loss": 0.8333,
       "step": 170
     },
     {
       "epoch": 0.56,
+      "grad_norm": 6.282279968261719,
+      "learning_rate": 1.1125000000000001e-05,
+      "loss": 0.7989,
       "step": 180
     },
     {
       "epoch": 0.59,
+      "grad_norm": 7.1601362228393555,
+      "learning_rate": 1.175e-05,
+      "loss": 0.9196,
       "step": 190
     },
     {
       "epoch": 0.62,
+      "grad_norm": 6.748279571533203,
+      "learning_rate": 1.2375000000000001e-05,
+      "loss": 0.7576,
       "step": 200
     },
     {
       "epoch": 0.62,
+      "eval_accuracy": 0.7170596393897365,
+      "eval_f1": 0.6481913495629226,
+      "eval_loss": 0.7868019342422485,
+      "eval_precision": 0.6468741335888096,
+      "eval_recall": 0.7170596393897365,
+      "eval_runtime": 38.5481,
+      "eval_samples_per_second": 74.816,
+      "eval_steps_per_second": 9.365,
       "step": 200
     },
     {
       "epoch": 0.65,
+      "grad_norm": 5.007500171661377,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.7059,
       "step": 210
     },
     {
       "epoch": 0.69,
+      "grad_norm": 7.129433631896973,
+      "learning_rate": 1.3625e-05,
+      "loss": 0.7989,
       "step": 220
     },
     {
       "epoch": 0.72,
+      "grad_norm": 12.505253791809082,
+      "learning_rate": 1.4249999999999999e-05,
+      "loss": 0.5823,
       "step": 230
     },
     {
       "epoch": 0.75,
+      "grad_norm": 4.6094865798950195,
+      "learning_rate": 1.4875e-05,
+      "loss": 0.6079,
       "step": 240
     },
     {
       "epoch": 0.78,
+      "grad_norm": 8.153918266296387,
+      "learning_rate": 1.55e-05,
+      "loss": 0.7762,
       "step": 250
     },
     {
       "epoch": 0.81,
+      "grad_norm": 6.411535263061523,
+      "learning_rate": 1.6125000000000002e-05,
+      "loss": 0.5625,
       "step": 260
     },
     {
       "epoch": 0.84,
+      "grad_norm": 5.9518818855285645,
+      "learning_rate": 1.675e-05,
+      "loss": 0.6057,
       "step": 270
     },
     {
       "epoch": 0.87,
+      "grad_norm": 5.535661697387695,
+      "learning_rate": 1.7375e-05,
+      "loss": 0.6431,
       "step": 280
     },
     {
       "epoch": 0.9,
+      "grad_norm": 7.387240886688232,
+      "learning_rate": 1.8e-05,
+      "loss": 0.6604,
       "step": 290
     },
     {
       "epoch": 0.93,
+      "grad_norm": 5.090869903564453,
+      "learning_rate": 1.8625000000000002e-05,
+      "loss": 0.793,
       "step": 300
     },
     {
       "epoch": 0.93,
+      "eval_accuracy": 0.7812066574202496,
+      "eval_f1": 0.7641221117942969,
+      "eval_loss": 0.6202540993690491,
+      "eval_precision": 0.7717978736248653,
+      "eval_recall": 0.7812066574202496,
+      "eval_runtime": 40.568,
+      "eval_samples_per_second": 71.091,
+      "eval_steps_per_second": 8.899,
       "step": 300
     },
     {
       "epoch": 0.97,
+      "grad_norm": 4.731078147888184,
+      "learning_rate": 1.925e-05,
+      "loss": 0.6278,
       "step": 310
     },
     {
       "epoch": 1.0,
+      "grad_norm": 7.773807048797607,
+      "learning_rate": 1.9875000000000002e-05,
+      "loss": 0.6535,
       "step": 320
     },
     {
       "epoch": 1.03,
+      "grad_norm": 5.556732654571533,
+      "learning_rate": 2.05e-05,
+      "loss": 0.5634,
       "step": 330
     },
     {
       "epoch": 1.06,
+      "grad_norm": 5.828562259674072,
+      "learning_rate": 2.1125000000000002e-05,
+      "loss": 0.4674,
       "step": 340
     },
     {
       "epoch": 1.09,
+      "grad_norm": 4.718760967254639,
+      "learning_rate": 2.175e-05,
+      "loss": 0.4694,
       "step": 350
     },
     {
       "epoch": 1.12,
+      "grad_norm": 3.8434319496154785,
+      "learning_rate": 2.2375000000000002e-05,
+      "loss": 0.503,
       "step": 360
     },
     {
       "epoch": 1.15,
+      "grad_norm": 4.510343074798584,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.4857,
       "step": 370
     },
     {
       "epoch": 1.18,
+      "grad_norm": 8.198539733886719,
+      "learning_rate": 2.3624999999999998e-05,
+      "loss": 0.4871,
       "step": 380
     },
     {
       "epoch": 1.21,
+      "grad_norm": 7.015860080718994,
+      "learning_rate": 2.425e-05,
+      "loss": 0.5578,
       "step": 390
     },
     {
       "epoch": 1.25,
+      "grad_norm": 6.530871391296387,
+      "learning_rate": 2.4875e-05,
+      "loss": 0.4895,
       "step": 400
     },
     {
       "epoch": 1.25,
+      "eval_accuracy": 0.7981969486823856,
+      "eval_f1": 0.7908168076777717,
+      "eval_loss": 0.544183611869812,
+      "eval_precision": 0.7914661144847153,
+      "eval_recall": 0.7981969486823856,
+      "eval_runtime": 38.6563,
+      "eval_samples_per_second": 74.606,
+      "eval_steps_per_second": 9.339,
       "step": 400
     },
     {
       "epoch": 1.28,
+      "grad_norm": 6.384176254272461,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.489,
       "step": 410
     },
     {
       "epoch": 1.31,
+      "grad_norm": 4.7396650314331055,
+      "learning_rate": 2.6124999999999998e-05,
+      "loss": 0.4549,
       "step": 420
     },
     {
       "epoch": 1.34,
+      "grad_norm": 5.204756259918213,
+      "learning_rate": 2.6750000000000003e-05,
+      "loss": 0.6083,
       "step": 430
     },
     {
       "epoch": 1.37,
+      "grad_norm": 6.31406831741333,
+      "learning_rate": 2.7375e-05,
+      "loss": 0.5462,
       "step": 440
     },
     {
       "epoch": 1.4,
+      "grad_norm": 4.303152561187744,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.5187,
       "step": 450
     },
     {
       "epoch": 1.43,
+      "grad_norm": 8.125056266784668,
+      "learning_rate": 2.8625e-05,
+      "loss": 0.4627,
       "step": 460
     },
     {
       "epoch": 1.46,
+      "grad_norm": 4.409249782562256,
+      "learning_rate": 2.925e-05,
+      "loss": 0.3547,
       "step": 470
     },
     {
       "epoch": 1.5,
+      "grad_norm": 11.175352096557617,
+      "learning_rate": 2.9875000000000004e-05,
+      "loss": 0.4459,
       "step": 480
     },
     {
       "epoch": 1.53,
+      "grad_norm": 7.291630744934082,
+      "learning_rate": 3.05e-05,
+      "loss": 0.5164,
       "step": 490
     },
     {
       "epoch": 1.56,
+      "grad_norm": 3.5186641216278076,
+      "learning_rate": 3.1125000000000004e-05,
+      "loss": 0.416,
       "step": 500
     },
     {
       "epoch": 1.56,
+      "eval_accuracy": 0.8110263522884882,
+      "eval_f1": 0.795727098474235,
+      "eval_loss": 0.5408079624176025,
+      "eval_precision": 0.8222736826602907,
+      "eval_recall": 0.8110263522884882,
+      "eval_runtime": 38.9648,
+      "eval_samples_per_second": 74.016,
+      "eval_steps_per_second": 9.265,
       "step": 500
     },
     {
       "epoch": 1.59,
+      "grad_norm": 4.688148498535156,
+      "learning_rate": 3.175e-05,
+      "loss": 0.5085,
       "step": 510
     },
     {
       "epoch": 1.62,
+      "grad_norm": 4.2772216796875,
+      "learning_rate": 3.2375e-05,
+      "loss": 0.4654,
       "step": 520
     },
     {
       "epoch": 1.65,
+      "grad_norm": 8.14700698852539,
+      "learning_rate": 3.3e-05,
+      "loss": 0.464,
       "step": 530
     },
     {
       "epoch": 1.68,
+      "grad_norm": 4.734298229217529,
+      "learning_rate": 3.3625000000000004e-05,
+      "loss": 0.3713,
       "step": 540
     },
     {
       "epoch": 1.71,
+      "grad_norm": 5.7068915367126465,
+      "learning_rate": 3.4250000000000006e-05,
+      "loss": 0.4957,
       "step": 550
     },
     {
       "epoch": 1.74,
+      "grad_norm": 4.455660820007324,
+      "learning_rate": 3.4875e-05,
+      "loss": 0.4147,
       "step": 560
     },
     {
       "epoch": 1.78,
+      "grad_norm": 5.888510227203369,
+      "learning_rate": 3.55e-05,
+      "loss": 0.4616,
       "step": 570
     },
     {
       "epoch": 1.81,
+      "grad_norm": 4.628395080566406,
+      "learning_rate": 3.6125000000000004e-05,
+      "loss": 0.3903,
       "step": 580
     },
     {
       "epoch": 1.84,
+      "grad_norm": 6.706481456756592,
+      "learning_rate": 3.675e-05,
+      "loss": 0.4902,
       "step": 590
     },
     {
       "epoch": 1.87,
+      "grad_norm": 4.396645545959473,
+      "learning_rate": 3.737500000000001e-05,
+      "loss": 0.4463,
       "step": 600
     },
     {
       "epoch": 1.87,
+      "eval_accuracy": 0.7656033287101248,
+      "eval_f1": 0.7762896609298523,
+      "eval_loss": 0.6204918026924133,
+      "eval_precision": 0.8403991265428096,
+      "eval_recall": 0.7656033287101248,
+      "eval_runtime": 38.6646,
+      "eval_samples_per_second": 74.59,
+      "eval_steps_per_second": 9.337,
       "step": 600
     },
     {
       "epoch": 1.9,
+      "grad_norm": 6.707110404968262,
+      "learning_rate": 3.8e-05,
+      "loss": 0.5598,
       "step": 610
     },
     {
       "epoch": 1.93,
+      "grad_norm": 4.102792263031006,
+      "learning_rate": 3.8625e-05,
+      "loss": 0.3939,
       "step": 620
     },
     {
       "epoch": 1.96,
+      "grad_norm": 5.277581691741943,
+      "learning_rate": 3.9250000000000005e-05,
+      "loss": 0.3826,
       "step": 630
     },
     {
       "epoch": 1.99,
+      "grad_norm": 4.773111343383789,
+      "learning_rate": 3.9875e-05,
+      "loss": 0.4986,
       "step": 640
     },
     {
       "epoch": 2.02,
+      "grad_norm": 5.68511438369751,
+      "learning_rate": 4.05e-05,
+      "loss": 0.2855,
       "step": 650
     },
     {
       "epoch": 2.06,
+      "grad_norm": 5.505866527557373,
+      "learning_rate": 4.1125000000000004e-05,
+      "loss": 0.3395,
       "step": 660
     },
     {
       "epoch": 2.09,
+      "grad_norm": 4.09190559387207,
+      "learning_rate": 4.175e-05,
+      "loss": 0.2798,
       "step": 670
     },
     {
       "epoch": 2.12,
+      "grad_norm": 5.384827613830566,
+      "learning_rate": 4.237500000000001e-05,
+      "loss": 0.286,
       "step": 680
     },
     {
       "epoch": 2.15,
+      "grad_norm": 4.030750751495361,
+      "learning_rate": 4.3e-05,
+      "loss": 0.2659,
       "step": 690
     },
     {
       "epoch": 2.18,
+      "grad_norm": 6.827621936798096,
+      "learning_rate": 4.3625e-05,
+      "loss": 0.206,
       "step": 700
     },
     {
       "epoch": 2.18,
+      "eval_accuracy": 0.8304438280166435,
+      "eval_f1": 0.8244335746464728,
+      "eval_loss": 0.4993675947189331,
+      "eval_precision": 0.8347840150379366,
+      "eval_recall": 0.8304438280166435,
+      "eval_runtime": 38.7905,
+      "eval_samples_per_second": 74.348,
+      "eval_steps_per_second": 9.306,
       "step": 700
     },
     {
       "epoch": 2.21,
+      "grad_norm": 2.023770809173584,
+      "learning_rate": 4.4250000000000005e-05,
+      "loss": 0.258,
       "step": 710
     },
     {
       "epoch": 2.24,
+      "grad_norm": 9.621185302734375,
+      "learning_rate": 4.4875e-05,
+      "loss": 0.4616,
       "step": 720
     },
     {
       "epoch": 2.27,
+      "grad_norm": 6.095046520233154,
+      "learning_rate": 4.55e-05,
+      "loss": 0.3927,
       "step": 730
     },
     {
       "epoch": 2.31,
+      "grad_norm": 5.082390308380127,
+      "learning_rate": 4.6125e-05,
+      "loss": 0.2643,
       "step": 740
     },
     {
       "epoch": 2.34,
+      "grad_norm": 5.96766996383667,
+      "learning_rate": 4.6750000000000005e-05,
+      "loss": 0.2964,
       "step": 750
     },
     {
       "epoch": 2.37,
+      "grad_norm": 4.461874485015869,
+      "learning_rate": 4.7375e-05,
+      "loss": 0.2321,
       "step": 760
     },
     {
       "epoch": 2.4,
+      "grad_norm": 7.7858171463012695,
+      "learning_rate": 4.8e-05,
+      "loss": 0.3646,
       "step": 770
     },
     {
       "epoch": 2.43,
+      "grad_norm": 7.20878267288208,
+      "learning_rate": 4.8625e-05,
+      "loss": 0.4159,
       "step": 780
     },
     {
       "epoch": 2.46,
+      "grad_norm": 8.424154281616211,
+      "learning_rate": 4.9250000000000004e-05,
+      "loss": 0.3511,
       "step": 790
     },
     {
       "epoch": 2.49,
+      "grad_norm": 3.951247215270996,
+      "learning_rate": 4.9875000000000006e-05,
+      "loss": 0.4006,
       "step": 800
     },
     {
       "epoch": 2.49,
+      "eval_accuracy": 0.8349514563106796,
+      "eval_f1": 0.8328726444655051,
+      "eval_loss": 0.4524156153202057,
+      "eval_precision": 0.8389745564359966,
+      "eval_recall": 0.8349514563106796,
+      "eval_runtime": 39.502,
+      "eval_samples_per_second": 73.009,
+      "eval_steps_per_second": 9.139,
       "step": 800
     },
     {
       "epoch": 2.52,
+      "grad_norm": 5.085056304931641,
+      "learning_rate": 5.05e-05,
+      "loss": 0.3792,
       "step": 810
     },
     {
       "epoch": 2.55,
+      "grad_norm": 5.90117073059082,
+      "learning_rate": 5.1125e-05,
+      "loss": 0.2828,
       "step": 820
     },
     {
       "epoch": 2.59,
+      "grad_norm": 6.909815311431885,
+      "learning_rate": 5.175e-05,
+      "loss": 0.3099,
       "step": 830
     },
     {
       "epoch": 2.62,
+      "grad_norm": 10.736394882202148,
+      "learning_rate": 5.2375000000000006e-05,
+      "loss": 0.2778,
       "step": 840
     },
     {
       "epoch": 2.65,
+      "grad_norm": 2.348313570022583,
+      "learning_rate": 5.300000000000001e-05,
+      "loss": 0.2706,
       "step": 850
     },
     {
       "epoch": 2.68,
+      "grad_norm": 3.5794482231140137,
+      "learning_rate": 5.3625e-05,
+      "loss": 0.2288,
       "step": 860
     },
     {
       "epoch": 2.71,
+      "grad_norm": 6.5003461837768555,
+      "learning_rate": 5.4250000000000004e-05,
+      "loss": 0.3601,
       "step": 870
     },
     {
       "epoch": 2.74,
+      "grad_norm": 6.113778114318848,
+      "learning_rate": 5.4875e-05,
+      "loss": 0.3756,
       "step": 880
     },
     {
       "epoch": 2.77,
+      "grad_norm": 2.0605404376983643,
+      "learning_rate": 5.550000000000001e-05,
+      "loss": 0.2754,
       "step": 890
     },
     {
       "epoch": 2.8,
+      "grad_norm": 11.390885353088379,
+      "learning_rate": 5.6125e-05,
+      "loss": 0.3208,
       "step": 900
     },
     {
       "epoch": 2.8,
+      "eval_accuracy": 0.8290568654646324,
+      "eval_f1": 0.8356873412541177,
+      "eval_loss": 0.5083692073822021,
+      "eval_precision": 0.8510969316144597,
+      "eval_recall": 0.8290568654646324,
+      "eval_runtime": 39.6529,
+      "eval_samples_per_second": 72.731,
+      "eval_steps_per_second": 9.104,
       "step": 900
     },
     {
       "epoch": 2.83,
+      "grad_norm": 6.347045421600342,
+      "learning_rate": 5.6750000000000004e-05,
+      "loss": 0.4116,
       "step": 910
     },
     {
       "epoch": 2.87,
+      "grad_norm": 11.242640495300293,
+      "learning_rate": 5.7375e-05,
+      "loss": 0.4315,
       "step": 920
     },
     {
       "epoch": 2.9,
+      "grad_norm": 1.8943805694580078,
+      "learning_rate": 5.8e-05,
+      "loss": 0.4917,
       "step": 930
     },
     {
       "epoch": 2.93,
+      "grad_norm": 8.402441024780273,
+      "learning_rate": 5.862500000000001e-05,
+      "loss": 0.3745,
       "step": 940
     },
     {
       "epoch": 2.96,
+      "grad_norm": 7.3500590324401855,
+      "learning_rate": 5.9250000000000004e-05,
+      "loss": 0.2392,
       "step": 950
     },
     {
       "epoch": 2.99,
+      "grad_norm": 4.970364093780518,
+      "learning_rate": 5.9875000000000005e-05,
+      "loss": 0.3614,
       "step": 960
     },
     {
       "epoch": 3.02,
+      "grad_norm": 3.213763475418091,
+      "learning_rate": 6.05e-05,
+      "loss": 0.2037,
       "step": 970
     },
     {
       "epoch": 3.05,
+      "grad_norm": 5.403902053833008,
+      "learning_rate": 6.1125e-05,
+      "loss": 0.21,
       "step": 980
     },
     {
       "epoch": 3.08,
+      "grad_norm": 3.3675849437713623,
+      "learning_rate": 6.175000000000001e-05,
+      "loss": 0.2107,
       "step": 990
     },
     {
       "epoch": 3.12,
+      "grad_norm": 5.057342529296875,
+      "learning_rate": 6.237500000000001e-05,
+      "loss": 0.1916,
       "step": 1000
     },
     {
       "epoch": 3.12,
+      "eval_accuracy": 0.8200416088765603,
+      "eval_f1": 0.825491122448177,
+      "eval_loss": 0.5119706988334656,
+      "eval_precision": 0.8464650898509153,
+      "eval_recall": 0.8200416088765603,
+      "eval_runtime": 39.2368,
+      "eval_samples_per_second": 73.503,
+      "eval_steps_per_second": 9.201,
       "step": 1000
     },
     {
       "epoch": 3.15,
+      "grad_norm": 4.15879487991333,
+      "learning_rate": 6.3e-05,
+      "loss": 0.1482,
       "step": 1010
     },
     {
       "epoch": 3.18,
+      "grad_norm": 4.375223159790039,
+      "learning_rate": 6.3625e-05,
+      "loss": 0.215,
       "step": 1020
     },
     {
       "epoch": 3.21,
+      "grad_norm": 5.720744609832764,
+      "learning_rate": 6.425e-05,
+      "loss": 0.1132,
       "step": 1030
     },
     {
       "epoch": 3.24,
+      "grad_norm": 2.6465506553649902,
+      "learning_rate": 6.4875e-05,
+      "loss": 0.0885,
       "step": 1040
     },
     {
       "epoch": 3.27,
+      "grad_norm": 5.789972305297852,
+      "learning_rate": 6.55e-05,
+      "loss": 0.206,
       "step": 1050
     },
     {
       "epoch": 3.3,
+      "grad_norm": 1.6569145917892456,
+      "learning_rate": 6.612500000000001e-05,
+      "loss": 0.0962,
       "step": 1060
     },
     {
       "epoch": 3.33,
+      "grad_norm": 1.817624568939209,
+      "learning_rate": 6.675e-05,
+      "loss": 0.1607,
       "step": 1070
     },
     {
       "epoch": 3.36,
+      "grad_norm": 5.404047012329102,
+      "learning_rate": 6.7375e-05,
+      "loss": 0.2756,
       "step": 1080
     },
     {
       "epoch": 3.4,
+      "grad_norm": 7.324627876281738,
+      "learning_rate": 6.800000000000001e-05,
+      "loss": 0.2549,
       "step": 1090
     },
     {
       "epoch": 3.43,
+      "grad_norm": 4.070283889770508,
+      "learning_rate": 6.8625e-05,
+      "loss": 0.2015,
       "step": 1100
     },
     {
       "epoch": 3.43,
+      "eval_accuracy": 0.8183079056865464,
+      "eval_f1": 0.7983379954735971,
+      "eval_loss": 0.6911566257476807,
+      "eval_precision": 0.8453091952985208,
+      "eval_recall": 0.8183079056865464,
+      "eval_runtime": 38.7985,
+      "eval_samples_per_second": 74.333,
+      "eval_steps_per_second": 9.304,
       "step": 1100
     },
     {
       "epoch": 3.46,
+      "grad_norm": 2.4123291969299316,
+      "learning_rate": 6.925e-05,
+      "loss": 0.2511,
       "step": 1110
     },
     {
       "epoch": 3.49,
+      "grad_norm": 6.693827152252197,
+      "learning_rate": 6.9875e-05,
+      "loss": 0.2531,
       "step": 1120
     },
     {
       "epoch": 3.52,
+      "grad_norm": 15.4666109085083,
+      "learning_rate": 7.05e-05,
+      "loss": 0.2476,
       "step": 1130
     },
     {
       "epoch": 3.55,
+      "grad_norm": 8.200079917907715,
+      "learning_rate": 7.112500000000001e-05,
+      "loss": 0.2294,
       "step": 1140
     },
     {
       "epoch": 3.58,
+      "grad_norm": 7.075741291046143,
+      "learning_rate": 7.175000000000001e-05,
+      "loss": 0.2854,
       "step": 1150
     },
     {
       "epoch": 3.61,
+      "grad_norm": 3.2751991748809814,
+      "learning_rate": 7.2375e-05,
+      "loss": 0.2435,
       "step": 1160
     },
     {
       "epoch": 3.64,
+      "grad_norm": 3.889462947845459,
+      "learning_rate": 7.3e-05,
+      "loss": 0.1425,
       "step": 1170
     },
     {
       "epoch": 3.68,
+      "grad_norm": 1.6340276002883911,
+      "learning_rate": 7.3625e-05,
+      "loss": 0.1798,
       "step": 1180
     },
     {
       "epoch": 3.71,
+      "grad_norm": 10.412519454956055,
+      "learning_rate": 7.425e-05,
+      "loss": 0.1961,
       "step": 1190
     },
     {
       "epoch": 3.74,
+      "grad_norm": 2.985041618347168,
+      "learning_rate": 7.4875e-05,
+      "loss": 0.2384,
       "step": 1200
     },
     {
       "epoch": 3.74,
+      "eval_accuracy": 0.8131067961165048,
+      "eval_f1": 0.8045747086705156,
+      "eval_loss": 0.7051995992660522,
+      "eval_precision": 0.8164608366585469,
+      "eval_recall": 0.8131067961165048,
+      "eval_runtime": 38.8306,
+      "eval_samples_per_second": 74.271,
+      "eval_steps_per_second": 9.297,
       "step": 1200
     },
     {
       "epoch": 3.77,
+      "grad_norm": 5.682165145874023,
+      "learning_rate": 7.55e-05,
+      "loss": 0.2674,
       "step": 1210
     },
     {
       "epoch": 3.8,
+      "grad_norm": 8.544529914855957,
+      "learning_rate": 7.612500000000001e-05,
+      "loss": 0.3004,
       "step": 1220
     },
     {
       "epoch": 3.83,
+      "grad_norm": 9.870763778686523,
+      "learning_rate": 7.675e-05,
+      "loss": 0.2638,
       "step": 1230
     },
     {
       "epoch": 3.86,
+      "grad_norm": 3.0678322315216064,
+      "learning_rate": 7.737500000000001e-05,
+      "loss": 0.2658,
       "step": 1240
     },
     {
       "epoch": 3.89,
+      "grad_norm": 5.901866912841797,
+      "learning_rate": 7.800000000000001e-05,
+      "loss": 0.3354,
       "step": 1250
     },
     {
       "epoch": 3.93,
+      "grad_norm": 4.357693195343018,
+      "learning_rate": 7.8625e-05,
+      "loss": 0.2983,
       "step": 1260
     },
     {
       "epoch": 3.96,
+      "grad_norm": 9.29904842376709,
+      "learning_rate": 7.925e-05,
+      "loss": 0.3396,
       "step": 1270
     },
     {
       "epoch": 3.99,
+      "grad_norm": 9.512259483337402,
+      "learning_rate": 7.9875e-05,
+      "loss": 0.2826,
       "step": 1280
     },
     {
       "epoch": 4.02,
+      "grad_norm": 6.716480731964111,
+      "learning_rate": 8.05e-05,
+      "loss": 0.1743,
       "step": 1290
     },
     {
       "epoch": 4.05,
+      "grad_norm": 0.9523041248321533,
+      "learning_rate": 8.112500000000001e-05,
+      "loss": 0.1694,
       "step": 1300
     },
     {
       "epoch": 4.05,
+      "eval_accuracy": 0.8307905686546463,
+      "eval_f1": 0.8345388679849918,
+      "eval_loss": 0.49232053756713867,
+      "eval_precision": 0.8424641126230031,
+      "eval_recall": 0.8307905686546463,
+      "eval_runtime": 39.5635,
+      "eval_samples_per_second": 72.895,
+      "eval_steps_per_second": 9.125,
       "step": 1300
     },
     {
       "epoch": 4.08,
+      "grad_norm": 0.645494818687439,
+      "learning_rate": 8.175000000000001e-05,
+      "loss": 0.0897,
       "step": 1310
     },
     {
       "epoch": 4.11,
+      "grad_norm": 2.347318172454834,
+      "learning_rate": 8.2375e-05,
+      "loss": 0.1952,
       "step": 1320
     },
     {
       "epoch": 4.14,
+      "grad_norm": 9.760616302490234,
+      "learning_rate": 8.3e-05,
+      "loss": 0.1367,
       "step": 1330
     },
     {
       "epoch": 4.17,
+      "grad_norm": 4.394073963165283,
+      "learning_rate": 8.362500000000001e-05,
+      "loss": 0.0696,
       "step": 1340
     },
     {
       "epoch": 4.21,
+      "grad_norm": 0.1434166580438614,
+      "learning_rate": 8.425e-05,
+      "loss": 0.3269,
       "step": 1350
     },
     {
       "epoch": 4.24,
+      "grad_norm": 2.8811986446380615,
+      "learning_rate": 8.4875e-05,
+      "loss": 0.075,
       "step": 1360
     },
     {
       "epoch": 4.27,
+      "grad_norm": 4.467238426208496,
+      "learning_rate": 8.55e-05,
+      "loss": 0.2605,
       "step": 1370
     },
     {
       "epoch": 4.3,
+      "grad_norm": 6.685047149658203,
+      "learning_rate": 8.6125e-05,
+      "loss": 0.227,
       "step": 1380
     },
     {
       "epoch": 4.33,
+      "grad_norm": 6.381806373596191,
+      "learning_rate": 8.675000000000001e-05,
+      "loss": 0.1426,
       "step": 1390
     },
     {
       "epoch": 4.36,
+      "grad_norm": 6.624675273895264,
+      "learning_rate": 8.737500000000001e-05,
+      "loss": 0.2445,
       "step": 1400
     },
     {
       "epoch": 4.36,
+      "eval_accuracy": 0.8307905686546463,
+      "eval_f1": 0.8343676685959436,
+      "eval_loss": 0.5868554711341858,
+      "eval_precision": 0.847191138756196,
+      "eval_recall": 0.8307905686546463,
+      "eval_runtime": 38.9105,
+      "eval_samples_per_second": 74.119,
+      "eval_steps_per_second": 9.278,
       "step": 1400
     },
     {
       "epoch": 4.39,
+      "grad_norm": 0.38240641355514526,
+      "learning_rate": 8.800000000000001e-05,
+      "loss": 0.1002,
       "step": 1410
     },
     {
       "epoch": 4.42,
+      "grad_norm": 2.0704329013824463,
+      "learning_rate": 8.8625e-05,
+      "loss": 0.1727,
       "step": 1420
     },
     {
       "epoch": 4.45,
+      "grad_norm": 11.727005004882812,
+      "learning_rate": 8.925e-05,
+      "loss": 0.1992,
       "step": 1430
     },
     {
       "epoch": 4.49,
+      "grad_norm": 2.252082347869873,
+      "learning_rate": 8.9875e-05,
+      "loss": 0.1169,
       "step": 1440
     },
     {
       "epoch": 4.52,
+      "grad_norm": 11.580313682556152,
+      "learning_rate": 9.05e-05,
+      "loss": 0.4091,
       "step": 1450
     },
     {
       "epoch": 4.55,
+      "grad_norm": 1.8475000858306885,
+      "learning_rate": 9.1125e-05,
+      "loss": 0.1869,
       "step": 1460
     },
     {
       "epoch": 4.58,
+      "grad_norm": 4.9334797859191895,
+      "learning_rate": 9.175000000000001e-05,
+      "loss": 0.1896,
       "step": 1470
     },
     {
       "epoch": 4.61,
+      "grad_norm": 11.026119232177734,
+      "learning_rate": 9.2375e-05,
+      "loss": 0.2189,
       "step": 1480
     },
     {
       "epoch": 4.64,
+      "grad_norm": 5.846218109130859,
+      "learning_rate": 9.300000000000001e-05,
+      "loss": 0.279,
       "step": 1490
     },
     {
       "epoch": 4.67,
+      "grad_norm": 5.4308295249938965,
+      "learning_rate": 9.362500000000001e-05,
+      "loss": 0.1757,
       "step": 1500
     },
     {
       "epoch": 4.67,
+      "eval_accuracy": 0.8259361997226075,
+      "eval_f1": 0.8235909038686198,
+      "eval_loss": 0.669946014881134,
+      "eval_precision": 0.8379744032947182,
+      "eval_recall": 0.8259361997226075,
+      "eval_runtime": 39.5798,
+      "eval_samples_per_second": 72.865,
+      "eval_steps_per_second": 9.121,
       "step": 1500
     },
     {
       "epoch": 4.7,
+      "grad_norm": 4.273800373077393,
+      "learning_rate": 9.425e-05,
+      "loss": 0.2125,
       "step": 1510
     },
     {
       "epoch": 4.74,
+      "grad_norm": 6.921429634094238,
+      "learning_rate": 9.4875e-05,
+      "loss": 0.2207,
       "step": 1520
     },
     {
       "epoch": 4.77,
+      "grad_norm": 5.302011966705322,
+      "learning_rate": 9.55e-05,
+      "loss": 0.1411,
       "step": 1530
     },
     {
       "epoch": 4.8,
+      "grad_norm": 6.112096786499023,
+      "learning_rate": 9.6125e-05,
+      "loss": 0.2486,
       "step": 1540
     },
     {
       "epoch": 4.83,
+      "grad_norm": 4.856971263885498,
+      "learning_rate": 9.675000000000001e-05,
+      "loss": 0.1348,
       "step": 1550
     },
     {
       "epoch": 4.86,
+      "grad_norm": 5.860950469970703,
+      "learning_rate": 9.737500000000001e-05,
+      "loss": 0.1904,
       "step": 1560
     },
     {
       "epoch": 4.89,
+      "grad_norm": 20.086708068847656,
+      "learning_rate": 9.8e-05,
+      "loss": 0.4989,
       "step": 1570
     },
     {
       "epoch": 4.92,
+      "grad_norm": 8.487300872802734,
+      "learning_rate": 9.8625e-05,
+      "loss": 0.3612,
       "step": 1580
     },
     {
       "epoch": 4.95,
+      "grad_norm": 7.535490036010742,
+      "learning_rate": 9.925000000000001e-05,
+      "loss": 0.213,
       "step": 1590
     },
     {
       "epoch": 4.98,
+      "grad_norm": 0.8333636522293091,
+      "learning_rate": 9.9875e-05,
+      "loss": 0.2443,
       "step": 1600
     },
     {
       "epoch": 4.98,
+      "eval_accuracy": 0.8030513176144244,
+      "eval_f1": 0.7857260281816361,
+      "eval_loss": 0.7500908970832825,
+      "eval_precision": 0.8171747232724846,
+      "eval_recall": 0.8030513176144244,
+      "eval_runtime": 39.1476,
+      "eval_samples_per_second": 73.67,
+      "eval_steps_per_second": 9.222,
       "step": 1600
     },
     {
       "epoch": 5.02,
+      "grad_norm": 2.681772470474243,
+      "learning_rate": 9.999957561556831e-05,
+      "loss": 0.3144,
       "step": 1610
     },
     {
       "epoch": 5.05,
+      "grad_norm": 9.32345962524414,
+      "learning_rate": 9.999785156616144e-05,
+      "loss": 0.2125,
       "step": 1620
     },
     {
       "epoch": 5.08,
+      "grad_norm": 5.002188205718994,
+      "learning_rate": 9.999480137344589e-05,
+      "loss": 0.0641,
       "step": 1630
     },
     {
       "epoch": 5.11,
+      "grad_norm": 0.3894753158092499,
+      "learning_rate": 9.999042511832502e-05,
+      "loss": 0.0477,
       "step": 1640
     },
     {
       "epoch": 5.14,
+      "grad_norm": 8.571377754211426,
+      "learning_rate": 9.998472291687463e-05,
+      "loss": 0.1252,
       "step": 1650
     },
     {
       "epoch": 5.17,
+      "grad_norm": 0.09371213614940643,
+      "learning_rate": 9.997769492033998e-05,
+      "loss": 0.1112,
       "step": 1660
     },
     {
       "epoch": 5.2,
+      "grad_norm": 0.7354293465614319,
+      "learning_rate": 9.996934131513163e-05,
+      "loss": 0.0693,
       "step": 1670
     },
     {
       "epoch": 5.23,
+      "grad_norm": 0.20948350429534912,
+      "learning_rate": 9.99596623228207e-05,
+      "loss": 0.0876,
       "step": 1680
     },
     {
       "epoch": 5.26,
+      "grad_norm": 13.952701568603516,
+      "learning_rate": 9.994865820013281e-05,
+      "loss": 0.0678,
       "step": 1690
     },
     {
       "epoch": 5.3,
+      "grad_norm": 8.131987571716309,
+      "learning_rate": 9.993632923894143e-05,
+      "loss": 0.1498,
       "step": 1700
     },
     {
       "epoch": 5.3,
+      "eval_accuracy": 0.7971567267683772,
+      "eval_f1": 0.8015651844028568,
+      "eval_loss": 0.8649423122406006,
+      "eval_precision": 0.8395248583520678,
+      "eval_recall": 0.7971567267683772,
+      "eval_runtime": 39.0539,
+      "eval_samples_per_second": 73.847,
+      "eval_steps_per_second": 9.244,
       "step": 1700
     },
     {
       "epoch": 5.33,
+      "grad_norm": 0.155848890542984,
+      "learning_rate": 9.992267576625994e-05,
+      "loss": 0.14,
       "step": 1710
     },
     {
       "epoch": 5.36,
+      "grad_norm": 9.884765625,
+      "learning_rate": 9.990769814423313e-05,
+      "loss": 0.3033,
       "step": 1720
     },
     {
       "epoch": 5.39,
+      "grad_norm": 1.2280668020248413,
+      "learning_rate": 9.989139677012757e-05,
+      "loss": 0.2559,
       "step": 1730
     },
     {
       "epoch": 5.42,
+      "grad_norm": 7.7530741691589355,
+      "learning_rate": 9.9873772076321e-05,
+      "loss": 0.1839,
       "step": 1740
     },
     {
       "epoch": 5.45,
+      "grad_norm": 3.283310651779175,
+      "learning_rate": 9.985482453029087e-05,
+      "loss": 0.1326,
       "step": 1750
     },
     {
       "epoch": 5.48,
+      "grad_norm": 6.871270656585693,
+      "learning_rate": 9.983455463460203e-05,
+      "loss": 0.1726,
       "step": 1760
     },
     {
       "epoch": 5.51,
+      "grad_norm": 4.748425483703613,
+      "learning_rate": 9.98129629268933e-05,
+      "loss": 0.0782,
       "step": 1770
     },
     {
       "epoch": 5.55,
+      "grad_norm": 6.772828578948975,
+      "learning_rate": 9.979004997986327e-05,
+      "loss": 0.1466,
       "step": 1780
     },
     {
       "epoch": 5.58,
+      "grad_norm": 0.8694224953651428,
+      "learning_rate": 9.976581640125509e-05,
+      "loss": 0.1442,
       "step": 1790
     },
     {
       "epoch": 5.61,
+      "grad_norm": 3.4737765789031982,
+      "learning_rate": 9.974026283384031e-05,
+      "loss": 0.1072,
       "step": 1800
     },
     {
       "epoch": 5.61,
+      "eval_accuracy": 0.8335644937586685,
+      "eval_f1": 0.8386159061812507,
+      "eval_loss": 0.6284000873565674,
+      "eval_precision": 0.851118280726807,
+      "eval_recall": 0.8335644937586685,
+      "eval_runtime": 39.291,
+      "eval_samples_per_second": 73.401,
+      "eval_steps_per_second": 9.188,
       "step": 1800
     },
     {
       "epoch": 5.61,
       "step": 1800,
       "total_flos": 2.2287694956200755e+18,
+      "train_loss": 0.41900131742159524,
+      "train_runtime": 1406.907,
+      "train_samples_per_second": 364.487,
+      "train_steps_per_second": 22.816
     }
   ],
   "logging_steps": 10,