🍻 cheers

Browse files

Files changed (7) hide show

README.md +7 -6
all_results.json +12 -12
eval_results.json +8 -8
runs/Mar19_04-smaller_warmup/events.out.tfevents.1710821117.6492c5bf3fae.6515.2 +3 -0
runs/Mar19_04-smaller_warmup/events.out.tfevents.1710822491.6492c5bf3fae.6515.3 +3 -0
train_results.json +4 -4
trainer_state.json +689 -689

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-lr-cosine-restarts
-This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7405
-- Accuracy: 0.8533
-- Precision: 0.8523
-- Recall: 0.8533
-- F1: 0.8511
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # vit-lr-cosine-restarts
+This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the skin-cancer dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4453
+- Accuracy: 0.8464
+- Precision: 0.8464
+- Recall: 0.8464
+- F1: 0.8438
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 5.61,
-    "eval_accuracy": 0.8349514563106796,
-    "eval_f1": 0.8328726444655051,
-    "eval_loss": 0.4524156153202057,
-    "eval_precision": 0.8389745564359966,
-    "eval_recall": 0.8349514563106796,
-    "eval_runtime": 39.837,
-    "eval_samples_per_second": 72.395,
-    "eval_steps_per_second": 9.062,
     "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.41900131742159524,
-    "train_runtime": 1406.907,
-    "train_samples_per_second": 364.487,
-    "train_steps_per_second": 22.816
 }

 {
     "epoch": 5.61,
+    "eval_accuracy": 0.8463938973647711,
+    "eval_f1": 0.8437993661883203,
+    "eval_loss": 0.4453237056732178,
+    "eval_precision": 0.8463641738950213,
+    "eval_recall": 0.8463938973647711,
+    "eval_runtime": 38.0107,
+    "eval_samples_per_second": 75.873,
+    "eval_steps_per_second": 9.497,
     "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.2811500767639114,
+    "train_runtime": 1301.746,
+    "train_samples_per_second": 393.932,
+    "train_steps_per_second": 24.659
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 5.61,
-    "eval_accuracy": 0.8349514563106796,
-    "eval_f1": 0.8328726444655051,
-    "eval_loss": 0.4524156153202057,
-    "eval_precision": 0.8389745564359966,
-    "eval_recall": 0.8349514563106796,
-    "eval_runtime": 39.837,
-    "eval_samples_per_second": 72.395,
-    "eval_steps_per_second": 9.062
 }

 {
     "epoch": 5.61,
+    "eval_accuracy": 0.8463938973647711,
+    "eval_f1": 0.8437993661883203,
+    "eval_loss": 0.4453237056732178,
+    "eval_precision": 0.8463641738950213,
+    "eval_recall": 0.8463938973647711,
+    "eval_runtime": 38.0107,
+    "eval_samples_per_second": 75.873,
+    "eval_steps_per_second": 9.497
 }

runs/Mar19_04-smaller_warmup/events.out.tfevents.1710821117.6492c5bf3fae.6515.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e9fd08d9e079be94e02274b35278b6d5a9bc04ec08c5f79c7f0ddc5729b786d
+size 51502

runs/Mar19_04-smaller_warmup/events.out.tfevents.1710822491.6492c5bf3fae.6515.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a0d8b2b7cfec210dbce4ba7c7bc1462a88ec2420f966f908f4a3ad08815e9df
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.61,
     "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.41900131742159524,
-    "train_runtime": 1406.907,
-    "train_samples_per_second": 364.487,
-    "train_steps_per_second": 22.816
 }

 {
     "epoch": 5.61,
     "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.2811500767639114,
+    "train_runtime": 1301.746,
+    "train_samples_per_second": 393.932,
+    "train_steps_per_second": 24.659
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.4524156153202057,
   "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
   "epoch": 5.607476635514018,
   "eval_steps": 100,
@@ -10,1488 +10,1488 @@
   "log_history": [
     {
       "epoch": 0.03,
-      "grad_norm": Infinity,
-      "learning_rate": 5.000000000000001e-07,
-      "loss": 2.4884,
       "step": 10
     },
     {
       "epoch": 0.06,
-      "grad_norm": 19.190855026245117,
-      "learning_rate": 1.125e-06,
-      "loss": 2.411,
       "step": 20
     },
     {
       "epoch": 0.09,
-      "grad_norm": 16.122661590576172,
-      "learning_rate": 1.7500000000000002e-06,
-      "loss": 2.2596,
       "step": 30
     },
     {
       "epoch": 0.12,
-      "grad_norm": 11.49656867980957,
-      "learning_rate": 2.375e-06,
-      "loss": 2.1154,
       "step": 40
     },
     {
       "epoch": 0.16,
-      "grad_norm": 14.204788208007812,
-      "learning_rate": 3e-06,
-      "loss": 1.7711,
       "step": 50
     },
     {
       "epoch": 0.19,
-      "grad_norm": 8.722100257873535,
-      "learning_rate": 3.625e-06,
-      "loss": 1.4865,
       "step": 60
     },
     {
       "epoch": 0.22,
-      "grad_norm": 7.642684459686279,
-      "learning_rate": 4.250000000000001e-06,
-      "loss": 1.282,
       "step": 70
     },
     {
       "epoch": 0.25,
-      "grad_norm": 5.861067295074463,
-      "learning_rate": 4.875000000000001e-06,
-      "loss": 1.06,
       "step": 80
     },
     {
       "epoch": 0.28,
-      "grad_norm": 5.785488128662109,
-      "learning_rate": 5.500000000000001e-06,
-      "loss": 0.9867,
       "step": 90
     },
     {
       "epoch": 0.31,
-      "grad_norm": 5.735620021820068,
-      "learning_rate": 6.125e-06,
-      "loss": 0.9572,
       "step": 100
     },
     {
       "epoch": 0.31,
-      "eval_accuracy": 0.6785714285714286,
-      "eval_f1": 0.576811217156952,
-      "eval_loss": 0.9378232359886169,
-      "eval_precision": 0.534687120046434,
-      "eval_recall": 0.6785714285714286,
-      "eval_runtime": 38.8342,
-      "eval_samples_per_second": 74.265,
-      "eval_steps_per_second": 9.296,
       "step": 100
     },
     {
       "epoch": 0.34,
-      "grad_norm": 5.473198890686035,
-      "learning_rate": 6.750000000000001e-06,
-      "loss": 0.8799,
       "step": 110
     },
     {
       "epoch": 0.37,
-      "grad_norm": 5.595673084259033,
-      "learning_rate": 7.375e-06,
-      "loss": 0.8161,
       "step": 120
     },
     {
       "epoch": 0.4,
-      "grad_norm": 7.84308385848999,
-      "learning_rate": 8.000000000000001e-06,
-      "loss": 0.9048,
       "step": 130
     },
     {
       "epoch": 0.44,
-      "grad_norm": 3.7328169345855713,
-      "learning_rate": 8.625e-06,
-      "loss": 0.7422,
       "step": 140
     },
     {
       "epoch": 0.47,
-      "grad_norm": 5.750851631164551,
-      "learning_rate": 9.25e-06,
-      "loss": 0.8141,
       "step": 150
     },
     {
       "epoch": 0.5,
-      "grad_norm": 5.3880295753479,
-      "learning_rate": 9.875000000000001e-06,
-      "loss": 0.7135,
       "step": 160
     },
     {
       "epoch": 0.53,
-      "grad_norm": 5.539682388305664,
-      "learning_rate": 1.05e-05,
-      "loss": 0.8333,
       "step": 170
     },
     {
       "epoch": 0.56,
-      "grad_norm": 6.282279968261719,
-      "learning_rate": 1.1125000000000001e-05,
-      "loss": 0.7989,
       "step": 180
     },
     {
       "epoch": 0.59,
-      "grad_norm": 7.1601362228393555,
-      "learning_rate": 1.175e-05,
-      "loss": 0.9196,
       "step": 190
     },
     {
       "epoch": 0.62,
-      "grad_norm": 6.748279571533203,
-      "learning_rate": 1.2375000000000001e-05,
-      "loss": 0.7576,
       "step": 200
     },
     {
       "epoch": 0.62,
-      "eval_accuracy": 0.7170596393897365,
-      "eval_f1": 0.6481913495629226,
-      "eval_loss": 0.7868019342422485,
-      "eval_precision": 0.6468741335888096,
-      "eval_recall": 0.7170596393897365,
-      "eval_runtime": 38.5481,
-      "eval_samples_per_second": 74.816,
-      "eval_steps_per_second": 9.365,
       "step": 200
     },
     {
       "epoch": 0.65,
-      "grad_norm": 5.007500171661377,
-      "learning_rate": 1.3000000000000001e-05,
-      "loss": 0.7059,
       "step": 210
     },
     {
       "epoch": 0.69,
-      "grad_norm": 7.129433631896973,
-      "learning_rate": 1.3625e-05,
-      "loss": 0.7989,
       "step": 220
     },
     {
       "epoch": 0.72,
-      "grad_norm": 12.505253791809082,
-      "learning_rate": 1.4249999999999999e-05,
-      "loss": 0.5823,
       "step": 230
     },
     {
       "epoch": 0.75,
-      "grad_norm": 4.6094865798950195,
-      "learning_rate": 1.4875e-05,
-      "loss": 0.6079,
       "step": 240
     },
     {
       "epoch": 0.78,
-      "grad_norm": 8.153918266296387,
-      "learning_rate": 1.55e-05,
-      "loss": 0.7762,
       "step": 250
     },
     {
       "epoch": 0.81,
-      "grad_norm": 6.411535263061523,
-      "learning_rate": 1.6125000000000002e-05,
-      "loss": 0.5625,
       "step": 260
     },
     {
       "epoch": 0.84,
-      "grad_norm": 5.9518818855285645,
-      "learning_rate": 1.675e-05,
-      "loss": 0.6057,
       "step": 270
     },
     {
       "epoch": 0.87,
-      "grad_norm": 5.535661697387695,
-      "learning_rate": 1.7375e-05,
-      "loss": 0.6431,
       "step": 280
     },
     {
       "epoch": 0.9,
-      "grad_norm": 7.387240886688232,
-      "learning_rate": 1.8e-05,
-      "loss": 0.6604,
       "step": 290
     },
     {
       "epoch": 0.93,
-      "grad_norm": 5.090869903564453,
-      "learning_rate": 1.8625000000000002e-05,
-      "loss": 0.793,
       "step": 300
     },
     {
       "epoch": 0.93,
-      "eval_accuracy": 0.7812066574202496,
-      "eval_f1": 0.7641221117942969,
-      "eval_loss": 0.6202540993690491,
-      "eval_precision": 0.7717978736248653,
-      "eval_recall": 0.7812066574202496,
-      "eval_runtime": 40.568,
-      "eval_samples_per_second": 71.091,
-      "eval_steps_per_second": 8.899,
       "step": 300
     },
     {
       "epoch": 0.97,
-      "grad_norm": 4.731078147888184,
-      "learning_rate": 1.925e-05,
-      "loss": 0.6278,
       "step": 310
     },
     {
       "epoch": 1.0,
-      "grad_norm": 7.773807048797607,
-      "learning_rate": 1.9875000000000002e-05,
-      "loss": 0.6535,
       "step": 320
     },
     {
       "epoch": 1.03,
-      "grad_norm": 5.556732654571533,
-      "learning_rate": 2.05e-05,
-      "loss": 0.5634,
       "step": 330
     },
     {
       "epoch": 1.06,
-      "grad_norm": 5.828562259674072,
-      "learning_rate": 2.1125000000000002e-05,
-      "loss": 0.4674,
       "step": 340
     },
     {
       "epoch": 1.09,
-      "grad_norm": 4.718760967254639,
-      "learning_rate": 2.175e-05,
-      "loss": 0.4694,
       "step": 350
     },
     {
       "epoch": 1.12,
-      "grad_norm": 3.8434319496154785,
-      "learning_rate": 2.2375000000000002e-05,
-      "loss": 0.503,
       "step": 360
     },
     {
       "epoch": 1.15,
-      "grad_norm": 4.510343074798584,
-      "learning_rate": 2.3000000000000003e-05,
-      "loss": 0.4857,
       "step": 370
     },
     {
       "epoch": 1.18,
-      "grad_norm": 8.198539733886719,
-      "learning_rate": 2.3624999999999998e-05,
-      "loss": 0.4871,
       "step": 380
     },
     {
       "epoch": 1.21,
-      "grad_norm": 7.015860080718994,
-      "learning_rate": 2.425e-05,
-      "loss": 0.5578,
       "step": 390
     },
     {
       "epoch": 1.25,
-      "grad_norm": 6.530871391296387,
-      "learning_rate": 2.4875e-05,
-      "loss": 0.4895,
       "step": 400
     },
     {
       "epoch": 1.25,
-      "eval_accuracy": 0.7981969486823856,
-      "eval_f1": 0.7908168076777717,
-      "eval_loss": 0.544183611869812,
-      "eval_precision": 0.7914661144847153,
-      "eval_recall": 0.7981969486823856,
-      "eval_runtime": 38.6563,
-      "eval_samples_per_second": 74.606,
-      "eval_steps_per_second": 9.339,
       "step": 400
     },
     {
       "epoch": 1.28,
-      "grad_norm": 6.384176254272461,
-      "learning_rate": 2.5500000000000003e-05,
-      "loss": 0.489,
       "step": 410
     },
     {
       "epoch": 1.31,
-      "grad_norm": 4.7396650314331055,
-      "learning_rate": 2.6124999999999998e-05,
-      "loss": 0.4549,
       "step": 420
     },
     {
       "epoch": 1.34,
-      "grad_norm": 5.204756259918213,
-      "learning_rate": 2.6750000000000003e-05,
-      "loss": 0.6083,
       "step": 430
     },
     {
       "epoch": 1.37,
-      "grad_norm": 6.31406831741333,
-      "learning_rate": 2.7375e-05,
-      "loss": 0.5462,
       "step": 440
     },
     {
       "epoch": 1.4,
-      "grad_norm": 4.303152561187744,
-      "learning_rate": 2.8000000000000003e-05,
-      "loss": 0.5187,
       "step": 450
     },
     {
       "epoch": 1.43,
-      "grad_norm": 8.125056266784668,
-      "learning_rate": 2.8625e-05,
-      "loss": 0.4627,
       "step": 460
     },
     {
       "epoch": 1.46,
-      "grad_norm": 4.409249782562256,
-      "learning_rate": 2.925e-05,
-      "loss": 0.3547,
       "step": 470
     },
     {
       "epoch": 1.5,
-      "grad_norm": 11.175352096557617,
-      "learning_rate": 2.9875000000000004e-05,
-      "loss": 0.4459,
       "step": 480
     },
     {
       "epoch": 1.53,
-      "grad_norm": 7.291630744934082,
-      "learning_rate": 3.05e-05,
-      "loss": 0.5164,
       "step": 490
     },
     {
       "epoch": 1.56,
-      "grad_norm": 3.5186641216278076,
-      "learning_rate": 3.1125000000000004e-05,
-      "loss": 0.416,
       "step": 500
     },
     {
       "epoch": 1.56,
-      "eval_accuracy": 0.8110263522884882,
-      "eval_f1": 0.795727098474235,
-      "eval_loss": 0.5408079624176025,
-      "eval_precision": 0.8222736826602907,
-      "eval_recall": 0.8110263522884882,
-      "eval_runtime": 38.9648,
-      "eval_samples_per_second": 74.016,
-      "eval_steps_per_second": 9.265,
       "step": 500
     },
     {
       "epoch": 1.59,
-      "grad_norm": 4.688148498535156,
-      "learning_rate": 3.175e-05,
-      "loss": 0.5085,
       "step": 510
     },
     {
       "epoch": 1.62,
-      "grad_norm": 4.2772216796875,
-      "learning_rate": 3.2375e-05,
-      "loss": 0.4654,
       "step": 520
     },
     {
       "epoch": 1.65,
-      "grad_norm": 8.14700698852539,
-      "learning_rate": 3.3e-05,
-      "loss": 0.464,
       "step": 530
     },
     {
       "epoch": 1.68,
-      "grad_norm": 4.734298229217529,
-      "learning_rate": 3.3625000000000004e-05,
-      "loss": 0.3713,
       "step": 540
     },
     {
       "epoch": 1.71,
-      "grad_norm": 5.7068915367126465,
-      "learning_rate": 3.4250000000000006e-05,
-      "loss": 0.4957,
       "step": 550
     },
     {
       "epoch": 1.74,
-      "grad_norm": 4.455660820007324,
-      "learning_rate": 3.4875e-05,
-      "loss": 0.4147,
       "step": 560
     },
     {
       "epoch": 1.78,
-      "grad_norm": 5.888510227203369,
-      "learning_rate": 3.55e-05,
-      "loss": 0.4616,
       "step": 570
     },
     {
       "epoch": 1.81,
-      "grad_norm": 4.628395080566406,
-      "learning_rate": 3.6125000000000004e-05,
-      "loss": 0.3903,
       "step": 580
     },
     {
       "epoch": 1.84,
-      "grad_norm": 6.706481456756592,
-      "learning_rate": 3.675e-05,
-      "loss": 0.4902,
       "step": 590
     },
     {
       "epoch": 1.87,
-      "grad_norm": 4.396645545959473,
-      "learning_rate": 3.737500000000001e-05,
-      "loss": 0.4463,
       "step": 600
     },
     {
       "epoch": 1.87,
-      "eval_accuracy": 0.7656033287101248,
-      "eval_f1": 0.7762896609298523,
-      "eval_loss": 0.6204918026924133,
-      "eval_precision": 0.8403991265428096,
-      "eval_recall": 0.7656033287101248,
-      "eval_runtime": 38.6646,
-      "eval_samples_per_second": 74.59,
-      "eval_steps_per_second": 9.337,
       "step": 600
     },
     {
       "epoch": 1.9,
-      "grad_norm": 6.707110404968262,
-      "learning_rate": 3.8e-05,
-      "loss": 0.5598,
       "step": 610
     },
     {
       "epoch": 1.93,
-      "grad_norm": 4.102792263031006,
-      "learning_rate": 3.8625e-05,
-      "loss": 0.3939,
       "step": 620
     },
     {
       "epoch": 1.96,
-      "grad_norm": 5.277581691741943,
-      "learning_rate": 3.9250000000000005e-05,
-      "loss": 0.3826,
       "step": 630
     },
     {
       "epoch": 1.99,
-      "grad_norm": 4.773111343383789,
-      "learning_rate": 3.9875e-05,
-      "loss": 0.4986,
       "step": 640
     },
     {
       "epoch": 2.02,
-      "grad_norm": 5.68511438369751,
-      "learning_rate": 4.05e-05,
-      "loss": 0.2855,
       "step": 650
     },
     {
       "epoch": 2.06,
-      "grad_norm": 5.505866527557373,
-      "learning_rate": 4.1125000000000004e-05,
-      "loss": 0.3395,
       "step": 660
     },
     {
       "epoch": 2.09,
-      "grad_norm": 4.09190559387207,
-      "learning_rate": 4.175e-05,
-      "loss": 0.2798,
       "step": 670
     },
     {
       "epoch": 2.12,
-      "grad_norm": 5.384827613830566,
-      "learning_rate": 4.237500000000001e-05,
-      "loss": 0.286,
       "step": 680
     },
     {
       "epoch": 2.15,
-      "grad_norm": 4.030750751495361,
-      "learning_rate": 4.3e-05,
-      "loss": 0.2659,
       "step": 690
     },
     {
       "epoch": 2.18,
-      "grad_norm": 6.827621936798096,
-      "learning_rate": 4.3625e-05,
-      "loss": 0.206,
       "step": 700
     },
     {
       "epoch": 2.18,
-      "eval_accuracy": 0.8304438280166435,
-      "eval_f1": 0.8244335746464728,
-      "eval_loss": 0.4993675947189331,
-      "eval_precision": 0.8347840150379366,
-      "eval_recall": 0.8304438280166435,
-      "eval_runtime": 38.7905,
-      "eval_samples_per_second": 74.348,
-      "eval_steps_per_second": 9.306,
       "step": 700
     },
     {
       "epoch": 2.21,
-      "grad_norm": 2.023770809173584,
-      "learning_rate": 4.4250000000000005e-05,
-      "loss": 0.258,
       "step": 710
     },
     {
       "epoch": 2.24,
-      "grad_norm": 9.621185302734375,
-      "learning_rate": 4.4875e-05,
-      "loss": 0.4616,
       "step": 720
     },
     {
       "epoch": 2.27,
-      "grad_norm": 6.095046520233154,
-      "learning_rate": 4.55e-05,
-      "loss": 0.3927,
       "step": 730
     },
     {
       "epoch": 2.31,
-      "grad_norm": 5.082390308380127,
-      "learning_rate": 4.6125e-05,
-      "loss": 0.2643,
       "step": 740
     },
     {
       "epoch": 2.34,
-      "grad_norm": 5.96766996383667,
-      "learning_rate": 4.6750000000000005e-05,
-      "loss": 0.2964,
       "step": 750
     },
     {
       "epoch": 2.37,
-      "grad_norm": 4.461874485015869,
-      "learning_rate": 4.7375e-05,
-      "loss": 0.2321,
       "step": 760
     },
     {
       "epoch": 2.4,
-      "grad_norm": 7.7858171463012695,
-      "learning_rate": 4.8e-05,
-      "loss": 0.3646,
       "step": 770
     },
     {
       "epoch": 2.43,
-      "grad_norm": 7.20878267288208,
-      "learning_rate": 4.8625e-05,
-      "loss": 0.4159,
       "step": 780
     },
     {
       "epoch": 2.46,
-      "grad_norm": 8.424154281616211,
-      "learning_rate": 4.9250000000000004e-05,
-      "loss": 0.3511,
       "step": 790
     },
     {
       "epoch": 2.49,
-      "grad_norm": 3.951247215270996,
-      "learning_rate": 4.9875000000000006e-05,
-      "loss": 0.4006,
       "step": 800
     },
     {
       "epoch": 2.49,
-      "eval_accuracy": 0.8349514563106796,
-      "eval_f1": 0.8328726444655051,
-      "eval_loss": 0.4524156153202057,
-      "eval_precision": 0.8389745564359966,
-      "eval_recall": 0.8349514563106796,
-      "eval_runtime": 39.502,
-      "eval_samples_per_second": 73.009,
-      "eval_steps_per_second": 9.139,
       "step": 800
     },
     {
       "epoch": 2.52,
-      "grad_norm": 5.085056304931641,
-      "learning_rate": 5.05e-05,
-      "loss": 0.3792,
       "step": 810
     },
     {
       "epoch": 2.55,
-      "grad_norm": 5.90117073059082,
-      "learning_rate": 5.1125e-05,
-      "loss": 0.2828,
       "step": 820
     },
     {
       "epoch": 2.59,
-      "grad_norm": 6.909815311431885,
-      "learning_rate": 5.175e-05,
-      "loss": 0.3099,
       "step": 830
     },
     {
       "epoch": 2.62,
-      "grad_norm": 10.736394882202148,
-      "learning_rate": 5.2375000000000006e-05,
-      "loss": 0.2778,
       "step": 840
     },
     {
       "epoch": 2.65,
-      "grad_norm": 2.348313570022583,
-      "learning_rate": 5.300000000000001e-05,
-      "loss": 0.2706,
       "step": 850
     },
     {
       "epoch": 2.68,
-      "grad_norm": 3.5794482231140137,
-      "learning_rate": 5.3625e-05,
-      "loss": 0.2288,
       "step": 860
     },
     {
       "epoch": 2.71,
-      "grad_norm": 6.5003461837768555,
-      "learning_rate": 5.4250000000000004e-05,
-      "loss": 0.3601,
       "step": 870
     },
     {
       "epoch": 2.74,
-      "grad_norm": 6.113778114318848,
-      "learning_rate": 5.4875e-05,
-      "loss": 0.3756,
       "step": 880
     },
     {
       "epoch": 2.77,
-      "grad_norm": 2.0605404376983643,
-      "learning_rate": 5.550000000000001e-05,
-      "loss": 0.2754,
       "step": 890
     },
     {
       "epoch": 2.8,
-      "grad_norm": 11.390885353088379,
-      "learning_rate": 5.6125e-05,
-      "loss": 0.3208,
       "step": 900
     },
     {
       "epoch": 2.8,
-      "eval_accuracy": 0.8290568654646324,
-      "eval_f1": 0.8356873412541177,
-      "eval_loss": 0.5083692073822021,
-      "eval_precision": 0.8510969316144597,
-      "eval_recall": 0.8290568654646324,
-      "eval_runtime": 39.6529,
-      "eval_samples_per_second": 72.731,
-      "eval_steps_per_second": 9.104,
       "step": 900
     },
     {
       "epoch": 2.83,
-      "grad_norm": 6.347045421600342,
-      "learning_rate": 5.6750000000000004e-05,
-      "loss": 0.4116,
       "step": 910
     },
     {
       "epoch": 2.87,
-      "grad_norm": 11.242640495300293,
-      "learning_rate": 5.7375e-05,
-      "loss": 0.4315,
       "step": 920
     },
     {
       "epoch": 2.9,
-      "grad_norm": 1.8943805694580078,
-      "learning_rate": 5.8e-05,
-      "loss": 0.4917,
       "step": 930
     },
     {
       "epoch": 2.93,
-      "grad_norm": 8.402441024780273,
-      "learning_rate": 5.862500000000001e-05,
-      "loss": 0.3745,
       "step": 940
     },
     {
       "epoch": 2.96,
-      "grad_norm": 7.3500590324401855,
-      "learning_rate": 5.9250000000000004e-05,
-      "loss": 0.2392,
       "step": 950
     },
     {
       "epoch": 2.99,
-      "grad_norm": 4.970364093780518,
-      "learning_rate": 5.9875000000000005e-05,
-      "loss": 0.3614,
       "step": 960
     },
     {
       "epoch": 3.02,
-      "grad_norm": 3.213763475418091,
-      "learning_rate": 6.05e-05,
-      "loss": 0.2037,
       "step": 970
     },
     {
       "epoch": 3.05,
-      "grad_norm": 5.403902053833008,
-      "learning_rate": 6.1125e-05,
-      "loss": 0.21,
       "step": 980
     },
     {
       "epoch": 3.08,
-      "grad_norm": 3.3675849437713623,
-      "learning_rate": 6.175000000000001e-05,
-      "loss": 0.2107,
       "step": 990
     },
     {
       "epoch": 3.12,
-      "grad_norm": 5.057342529296875,
-      "learning_rate": 6.237500000000001e-05,
-      "loss": 0.1916,
       "step": 1000
     },
     {
       "epoch": 3.12,
-      "eval_accuracy": 0.8200416088765603,
-      "eval_f1": 0.825491122448177,
-      "eval_loss": 0.5119706988334656,
-      "eval_precision": 0.8464650898509153,
-      "eval_recall": 0.8200416088765603,
-      "eval_runtime": 39.2368,
-      "eval_samples_per_second": 73.503,
-      "eval_steps_per_second": 9.201,
       "step": 1000
     },
     {
       "epoch": 3.15,
-      "grad_norm": 4.15879487991333,
-      "learning_rate": 6.3e-05,
-      "loss": 0.1482,
       "step": 1010
     },
     {
       "epoch": 3.18,
-      "grad_norm": 4.375223159790039,
-      "learning_rate": 6.3625e-05,
-      "loss": 0.215,
       "step": 1020
     },
     {
       "epoch": 3.21,
-      "grad_norm": 5.720744609832764,
-      "learning_rate": 6.425e-05,
-      "loss": 0.1132,
       "step": 1030
     },
     {
       "epoch": 3.24,
-      "grad_norm": 2.6465506553649902,
-      "learning_rate": 6.4875e-05,
-      "loss": 0.0885,
       "step": 1040
     },
     {
       "epoch": 3.27,
-      "grad_norm": 5.789972305297852,
-      "learning_rate": 6.55e-05,
-      "loss": 0.206,
       "step": 1050
     },
     {
       "epoch": 3.3,
-      "grad_norm": 1.6569145917892456,
-      "learning_rate": 6.612500000000001e-05,
-      "loss": 0.0962,
       "step": 1060
     },
     {
       "epoch": 3.33,
-      "grad_norm": 1.817624568939209,
-      "learning_rate": 6.675e-05,
-      "loss": 0.1607,
       "step": 1070
     },
     {
       "epoch": 3.36,
-      "grad_norm": 5.404047012329102,
-      "learning_rate": 6.7375e-05,
-      "loss": 0.2756,
       "step": 1080
     },
     {
       "epoch": 3.4,
-      "grad_norm": 7.324627876281738,
-      "learning_rate": 6.800000000000001e-05,
-      "loss": 0.2549,
       "step": 1090
     },
     {
       "epoch": 3.43,
-      "grad_norm": 4.070283889770508,
-      "learning_rate": 6.8625e-05,
-      "loss": 0.2015,
       "step": 1100
     },
     {
       "epoch": 3.43,
-      "eval_accuracy": 0.8183079056865464,
-      "eval_f1": 0.7983379954735971,
-      "eval_loss": 0.6911566257476807,
-      "eval_precision": 0.8453091952985208,
-      "eval_recall": 0.8183079056865464,
-      "eval_runtime": 38.7985,
-      "eval_samples_per_second": 74.333,
-      "eval_steps_per_second": 9.304,
       "step": 1100
     },
     {
       "epoch": 3.46,
-      "grad_norm": 2.4123291969299316,
-      "learning_rate": 6.925e-05,
-      "loss": 0.2511,
       "step": 1110
     },
     {
       "epoch": 3.49,
-      "grad_norm": 6.693827152252197,
-      "learning_rate": 6.9875e-05,
-      "loss": 0.2531,
       "step": 1120
     },
     {
       "epoch": 3.52,
-      "grad_norm": 15.4666109085083,
-      "learning_rate": 7.05e-05,
-      "loss": 0.2476,
       "step": 1130
     },
     {
       "epoch": 3.55,
-      "grad_norm": 8.200079917907715,
-      "learning_rate": 7.112500000000001e-05,
-      "loss": 0.2294,
       "step": 1140
     },
     {
       "epoch": 3.58,
-      "grad_norm": 7.075741291046143,
-      "learning_rate": 7.175000000000001e-05,
-      "loss": 0.2854,
       "step": 1150
     },
     {
       "epoch": 3.61,
-      "grad_norm": 3.2751991748809814,
-      "learning_rate": 7.2375e-05,
-      "loss": 0.2435,
       "step": 1160
     },
     {
       "epoch": 3.64,
-      "grad_norm": 3.889462947845459,
-      "learning_rate": 7.3e-05,
-      "loss": 0.1425,
       "step": 1170
     },
     {
       "epoch": 3.68,
-      "grad_norm": 1.6340276002883911,
-      "learning_rate": 7.3625e-05,
-      "loss": 0.1798,
       "step": 1180
     },
     {
       "epoch": 3.71,
-      "grad_norm": 10.412519454956055,
-      "learning_rate": 7.425e-05,
-      "loss": 0.1961,
       "step": 1190
     },
     {
       "epoch": 3.74,
-      "grad_norm": 2.985041618347168,
-      "learning_rate": 7.4875e-05,
-      "loss": 0.2384,
       "step": 1200
     },
     {
       "epoch": 3.74,
-      "eval_accuracy": 0.8131067961165048,
-      "eval_f1": 0.8045747086705156,
-      "eval_loss": 0.7051995992660522,
-      "eval_precision": 0.8164608366585469,
-      "eval_recall": 0.8131067961165048,
-      "eval_runtime": 38.8306,
-      "eval_samples_per_second": 74.271,
-      "eval_steps_per_second": 9.297,
       "step": 1200
     },
     {
       "epoch": 3.77,
-      "grad_norm": 5.682165145874023,
-      "learning_rate": 7.55e-05,
-      "loss": 0.2674,
       "step": 1210
     },
     {
       "epoch": 3.8,
-      "grad_norm": 8.544529914855957,
-      "learning_rate": 7.612500000000001e-05,
-      "loss": 0.3004,
       "step": 1220
     },
     {
       "epoch": 3.83,
-      "grad_norm": 9.870763778686523,
-      "learning_rate": 7.675e-05,
-      "loss": 0.2638,
       "step": 1230
     },
     {
       "epoch": 3.86,
-      "grad_norm": 3.0678322315216064,
-      "learning_rate": 7.737500000000001e-05,
-      "loss": 0.2658,
       "step": 1240
     },
     {
       "epoch": 3.89,
-      "grad_norm": 5.901866912841797,
-      "learning_rate": 7.800000000000001e-05,
-      "loss": 0.3354,
       "step": 1250
     },
     {
       "epoch": 3.93,
-      "grad_norm": 4.357693195343018,
-      "learning_rate": 7.8625e-05,
-      "loss": 0.2983,
       "step": 1260
     },
     {
       "epoch": 3.96,
-      "grad_norm": 9.29904842376709,
-      "learning_rate": 7.925e-05,
-      "loss": 0.3396,
       "step": 1270
     },
     {
       "epoch": 3.99,
-      "grad_norm": 9.512259483337402,
-      "learning_rate": 7.9875e-05,
-      "loss": 0.2826,
       "step": 1280
     },
     {
       "epoch": 4.02,
-      "grad_norm": 6.716480731964111,
-      "learning_rate": 8.05e-05,
-      "loss": 0.1743,
       "step": 1290
     },
     {
       "epoch": 4.05,
-      "grad_norm": 0.9523041248321533,
-      "learning_rate": 8.112500000000001e-05,
-      "loss": 0.1694,
       "step": 1300
     },
     {
       "epoch": 4.05,
-      "eval_accuracy": 0.8307905686546463,
-      "eval_f1": 0.8345388679849918,
-      "eval_loss": 0.49232053756713867,
-      "eval_precision": 0.8424641126230031,
-      "eval_recall": 0.8307905686546463,
-      "eval_runtime": 39.5635,
-      "eval_samples_per_second": 72.895,
-      "eval_steps_per_second": 9.125,
       "step": 1300
     },
     {
       "epoch": 4.08,
-      "grad_norm": 0.645494818687439,
-      "learning_rate": 8.175000000000001e-05,
-      "loss": 0.0897,
       "step": 1310
     },
     {
       "epoch": 4.11,
-      "grad_norm": 2.347318172454834,
-      "learning_rate": 8.2375e-05,
-      "loss": 0.1952,
       "step": 1320
     },
     {
       "epoch": 4.14,
-      "grad_norm": 9.760616302490234,
-      "learning_rate": 8.3e-05,
-      "loss": 0.1367,
       "step": 1330
     },
     {
       "epoch": 4.17,
-      "grad_norm": 4.394073963165283,
-      "learning_rate": 8.362500000000001e-05,
-      "loss": 0.0696,
       "step": 1340
     },
     {
       "epoch": 4.21,
-      "grad_norm": 0.1434166580438614,
-      "learning_rate": 8.425e-05,
-      "loss": 0.3269,
       "step": 1350
     },
     {
       "epoch": 4.24,
-      "grad_norm": 2.8811986446380615,
-      "learning_rate": 8.4875e-05,
-      "loss": 0.075,
       "step": 1360
     },
     {
       "epoch": 4.27,
-      "grad_norm": 4.467238426208496,
-      "learning_rate": 8.55e-05,
-      "loss": 0.2605,
       "step": 1370
     },
     {
       "epoch": 4.3,
-      "grad_norm": 6.685047149658203,
-      "learning_rate": 8.6125e-05,
-      "loss": 0.227,
       "step": 1380
     },
     {
       "epoch": 4.33,
-      "grad_norm": 6.381806373596191,
-      "learning_rate": 8.675000000000001e-05,
-      "loss": 0.1426,
       "step": 1390
     },
     {
       "epoch": 4.36,
-      "grad_norm": 6.624675273895264,
-      "learning_rate": 8.737500000000001e-05,
-      "loss": 0.2445,
       "step": 1400
     },
     {
       "epoch": 4.36,
-      "eval_accuracy": 0.8307905686546463,
-      "eval_f1": 0.8343676685959436,
-      "eval_loss": 0.5868554711341858,
-      "eval_precision": 0.847191138756196,
-      "eval_recall": 0.8307905686546463,
-      "eval_runtime": 38.9105,
-      "eval_samples_per_second": 74.119,
-      "eval_steps_per_second": 9.278,
       "step": 1400
     },
     {
       "epoch": 4.39,
-      "grad_norm": 0.38240641355514526,
-      "learning_rate": 8.800000000000001e-05,
-      "loss": 0.1002,
       "step": 1410
     },
     {
       "epoch": 4.42,
-      "grad_norm": 2.0704329013824463,
-      "learning_rate": 8.8625e-05,
-      "loss": 0.1727,
       "step": 1420
     },
     {
       "epoch": 4.45,
-      "grad_norm": 11.727005004882812,
-      "learning_rate": 8.925e-05,
-      "loss": 0.1992,
       "step": 1430
     },
     {
       "epoch": 4.49,
-      "grad_norm": 2.252082347869873,
-      "learning_rate": 8.9875e-05,
-      "loss": 0.1169,
       "step": 1440
     },
     {
       "epoch": 4.52,
-      "grad_norm": 11.580313682556152,
-      "learning_rate": 9.05e-05,
-      "loss": 0.4091,
       "step": 1450
     },
     {
       "epoch": 4.55,
-      "grad_norm": 1.8475000858306885,
-      "learning_rate": 9.1125e-05,
-      "loss": 0.1869,
       "step": 1460
     },
     {
       "epoch": 4.58,
-      "grad_norm": 4.9334797859191895,
-      "learning_rate": 9.175000000000001e-05,
-      "loss": 0.1896,
       "step": 1470
     },
     {
       "epoch": 4.61,
-      "grad_norm": 11.026119232177734,
-      "learning_rate": 9.2375e-05,
-      "loss": 0.2189,
       "step": 1480
     },
     {
       "epoch": 4.64,
-      "grad_norm": 5.846218109130859,
-      "learning_rate": 9.300000000000001e-05,
-      "loss": 0.279,
       "step": 1490
     },
     {
       "epoch": 4.67,
-      "grad_norm": 5.4308295249938965,
-      "learning_rate": 9.362500000000001e-05,
-      "loss": 0.1757,
       "step": 1500
     },
     {
       "epoch": 4.67,
-      "eval_accuracy": 0.8259361997226075,
-      "eval_f1": 0.8235909038686198,
-      "eval_loss": 0.669946014881134,
-      "eval_precision": 0.8379744032947182,
-      "eval_recall": 0.8259361997226075,
-      "eval_runtime": 39.5798,
-      "eval_samples_per_second": 72.865,
-      "eval_steps_per_second": 9.121,
       "step": 1500
     },
     {
       "epoch": 4.7,
-      "grad_norm": 4.273800373077393,
-      "learning_rate": 9.425e-05,
-      "loss": 0.2125,
       "step": 1510
     },
     {
       "epoch": 4.74,
-      "grad_norm": 6.921429634094238,
-      "learning_rate": 9.4875e-05,
-      "loss": 0.2207,
       "step": 1520
     },
     {
       "epoch": 4.77,
-      "grad_norm": 5.302011966705322,
-      "learning_rate": 9.55e-05,
-      "loss": 0.1411,
       "step": 1530
     },
     {
       "epoch": 4.8,
-      "grad_norm": 6.112096786499023,
-      "learning_rate": 9.6125e-05,
-      "loss": 0.2486,
       "step": 1540
     },
     {
       "epoch": 4.83,
-      "grad_norm": 4.856971263885498,
-      "learning_rate": 9.675000000000001e-05,
-      "loss": 0.1348,
       "step": 1550
     },
     {
       "epoch": 4.86,
-      "grad_norm": 5.860950469970703,
-      "learning_rate": 9.737500000000001e-05,
-      "loss": 0.1904,
       "step": 1560
     },
     {
       "epoch": 4.89,
-      "grad_norm": 20.086708068847656,
-      "learning_rate": 9.8e-05,
-      "loss": 0.4989,
       "step": 1570
     },
     {
       "epoch": 4.92,
-      "grad_norm": 8.487300872802734,
-      "learning_rate": 9.8625e-05,
-      "loss": 0.3612,
       "step": 1580
     },
     {
       "epoch": 4.95,
-      "grad_norm": 7.535490036010742,
-      "learning_rate": 9.925000000000001e-05,
-      "loss": 0.213,
       "step": 1590
     },
     {
       "epoch": 4.98,
-      "grad_norm": 0.8333636522293091,
-      "learning_rate": 9.9875e-05,
-      "loss": 0.2443,
       "step": 1600
     },
     {
       "epoch": 4.98,
-      "eval_accuracy": 0.8030513176144244,
-      "eval_f1": 0.7857260281816361,
-      "eval_loss": 0.7500908970832825,
-      "eval_precision": 0.8171747232724846,
-      "eval_recall": 0.8030513176144244,
-      "eval_runtime": 39.1476,
-      "eval_samples_per_second": 73.67,
-      "eval_steps_per_second": 9.222,
       "step": 1600
     },
     {
       "epoch": 5.02,
-      "grad_norm": 2.681772470474243,
-      "learning_rate": 9.999957561556831e-05,
-      "loss": 0.3144,
       "step": 1610
     },
     {
       "epoch": 5.05,
-      "grad_norm": 9.32345962524414,
-      "learning_rate": 9.999785156616144e-05,
-      "loss": 0.2125,
       "step": 1620
     },
     {
       "epoch": 5.08,
-      "grad_norm": 5.002188205718994,
-      "learning_rate": 9.999480137344589e-05,
-      "loss": 0.0641,
       "step": 1630
     },
     {
       "epoch": 5.11,
-      "grad_norm": 0.3894753158092499,
-      "learning_rate": 9.999042511832502e-05,
-      "loss": 0.0477,
       "step": 1640
     },
     {
       "epoch": 5.14,
-      "grad_norm": 8.571377754211426,
-      "learning_rate": 9.998472291687463e-05,
-      "loss": 0.1252,
       "step": 1650
     },
     {
       "epoch": 5.17,
-      "grad_norm": 0.09371213614940643,
-      "learning_rate": 9.997769492033998e-05,
-      "loss": 0.1112,
       "step": 1660
     },
     {
       "epoch": 5.2,
-      "grad_norm": 0.7354293465614319,
-      "learning_rate": 9.996934131513163e-05,
-      "loss": 0.0693,
       "step": 1670
     },
     {
       "epoch": 5.23,
-      "grad_norm": 0.20948350429534912,
-      "learning_rate": 9.99596623228207e-05,
-      "loss": 0.0876,
       "step": 1680
     },
     {
       "epoch": 5.26,
-      "grad_norm": 13.952701568603516,
-      "learning_rate": 9.994865820013281e-05,
-      "loss": 0.0678,
       "step": 1690
     },
     {
       "epoch": 5.3,
-      "grad_norm": 8.131987571716309,
-      "learning_rate": 9.993632923894143e-05,
-      "loss": 0.1498,
       "step": 1700
     },
     {
       "epoch": 5.3,
-      "eval_accuracy": 0.7971567267683772,
-      "eval_f1": 0.8015651844028568,
-      "eval_loss": 0.8649423122406006,
-      "eval_precision": 0.8395248583520678,
-      "eval_recall": 0.7971567267683772,
-      "eval_runtime": 39.0539,
-      "eval_samples_per_second": 73.847,
-      "eval_steps_per_second": 9.244,
       "step": 1700
     },
     {
       "epoch": 5.33,
-      "grad_norm": 0.155848890542984,
-      "learning_rate": 9.992267576625994e-05,
-      "loss": 0.14,
       "step": 1710
     },
     {
       "epoch": 5.36,
-      "grad_norm": 9.884765625,
-      "learning_rate": 9.990769814423313e-05,
-      "loss": 0.3033,
       "step": 1720
     },
     {
       "epoch": 5.39,
-      "grad_norm": 1.2280668020248413,
-      "learning_rate": 9.989139677012757e-05,
-      "loss": 0.2559,
       "step": 1730
     },
     {
       "epoch": 5.42,
-      "grad_norm": 7.7530741691589355,
-      "learning_rate": 9.9873772076321e-05,
-      "loss": 0.1839,
       "step": 1740
     },
     {
       "epoch": 5.45,
-      "grad_norm": 3.283310651779175,
-      "learning_rate": 9.985482453029087e-05,
-      "loss": 0.1326,
       "step": 1750
     },
     {
       "epoch": 5.48,
-      "grad_norm": 6.871270656585693,
-      "learning_rate": 9.983455463460203e-05,
-      "loss": 0.1726,
       "step": 1760
     },
     {
       "epoch": 5.51,
-      "grad_norm": 4.748425483703613,
-      "learning_rate": 9.98129629268933e-05,
-      "loss": 0.0782,
       "step": 1770
     },
     {
       "epoch": 5.55,
-      "grad_norm": 6.772828578948975,
-      "learning_rate": 9.979004997986327e-05,
-      "loss": 0.1466,
       "step": 1780
     },
     {
       "epoch": 5.58,
-      "grad_norm": 0.8694224953651428,
-      "learning_rate": 9.976581640125509e-05,
-      "loss": 0.1442,
       "step": 1790
     },
     {
       "epoch": 5.61,
-      "grad_norm": 3.4737765789031982,
-      "learning_rate": 9.974026283384031e-05,
-      "loss": 0.1072,
       "step": 1800
     },
     {
       "epoch": 5.61,
-      "eval_accuracy": 0.8335644937586685,
-      "eval_f1": 0.8386159061812507,
-      "eval_loss": 0.6284000873565674,
-      "eval_precision": 0.851118280726807,
-      "eval_recall": 0.8335644937586685,
-      "eval_runtime": 39.291,
-      "eval_samples_per_second": 73.401,
-      "eval_steps_per_second": 9.188,
       "step": 1800
     },
     {
       "epoch": 5.61,
       "step": 1800,
       "total_flos": 2.2287694956200755e+18,
-      "train_loss": 0.41900131742159524,
-      "train_runtime": 1406.907,
-      "train_samples_per_second": 364.487,
-      "train_steps_per_second": 22.816
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.4453237056732178,
   "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
   "epoch": 5.607476635514018,
   "eval_steps": 100,
   "log_history": [
     {
       "epoch": 0.03,
+      "grad_norm": 17.940969467163086,
+      "learning_rate": 1.125e-05,
+      "loss": 2.0172,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "grad_norm": 4.308961391448975,
+      "learning_rate": 2.375e-05,
+      "loss": 1.1159,
       "step": 20
     },
     {
       "epoch": 0.09,
+      "grad_norm": 5.38205099105835,
+      "learning_rate": 3.625e-05,
+      "loss": 1.1398,
       "step": 30
     },
     {
       "epoch": 0.12,
+      "grad_norm": 5.569328308105469,
+      "learning_rate": 4.875e-05,
+      "loss": 1.0508,
       "step": 40
     },
     {
       "epoch": 0.16,
+      "grad_norm": 5.870121002197266,
+      "learning_rate": 6.125000000000001e-05,
+      "loss": 0.8095,
       "step": 50
     },
     {
       "epoch": 0.19,
+      "grad_norm": 6.100069046020508,
+      "learning_rate": 7.375e-05,
+      "loss": 0.8756,
       "step": 60
     },
     {
       "epoch": 0.22,
+      "grad_norm": 4.655179023742676,
+      "learning_rate": 8.625000000000001e-05,
+      "loss": 0.9221,
       "step": 70
     },
     {
       "epoch": 0.25,
+      "grad_norm": 4.762995719909668,
+      "learning_rate": 9.875000000000002e-05,
+      "loss": 0.6852,
       "step": 80
     },
     {
       "epoch": 0.28,
+      "grad_norm": 5.309569358825684,
+      "learning_rate": 9.99995126719372e-05,
+      "loss": 0.6662,
       "step": 90
     },
     {
       "epoch": 0.31,
+      "grad_norm": 4.177795886993408,
+      "learning_rate": 9.99978280932988e-05,
+      "loss": 0.686,
       "step": 100
     },
     {
       "epoch": 0.31,
+      "eval_accuracy": 0.7517337031900139,
+      "eval_f1": 0.7444977301566197,
+      "eval_loss": 0.6707192063331604,
+      "eval_precision": 0.7624063091694634,
+      "eval_recall": 0.7517337031900139,
+      "eval_runtime": 36.8103,
+      "eval_samples_per_second": 78.348,
+      "eval_steps_per_second": 9.807,
       "step": 100
     },
     {
       "epoch": 0.34,
+      "grad_norm": 3.6934421062469482,
+      "learning_rate": 9.999494028821966e-05,
+      "loss": 0.6901,
       "step": 110
     },
     {
       "epoch": 0.37,
+      "grad_norm": 8.207216262817383,
+      "learning_rate": 9.999084932619647e-05,
+      "loss": 0.6638,
       "step": 120
     },
     {
       "epoch": 0.4,
+      "grad_norm": 8.520118713378906,
+      "learning_rate": 9.998555530568059e-05,
+      "loss": 0.6285,
       "step": 130
     },
     {
       "epoch": 0.44,
+      "grad_norm": 3.053748846054077,
+      "learning_rate": 9.997905835407567e-05,
+      "loss": 0.5225,
       "step": 140
     },
     {
       "epoch": 0.47,
+      "grad_norm": 4.431256294250488,
+      "learning_rate": 9.997135862773453e-05,
+      "loss": 0.6307,
       "step": 150
     },
     {
       "epoch": 0.5,
+      "grad_norm": 7.533073902130127,
+      "learning_rate": 9.996245631195555e-05,
+      "loss": 0.5959,
       "step": 160
     },
     {
       "epoch": 0.53,
+      "grad_norm": 5.364689350128174,
+      "learning_rate": 9.99523516209781e-05,
+      "loss": 0.6344,
       "step": 170
     },
     {
       "epoch": 0.56,
+      "grad_norm": 6.664125919342041,
+      "learning_rate": 9.994104479797728e-05,
+      "loss": 0.6724,
       "step": 180
     },
     {
       "epoch": 0.59,
+      "grad_norm": 4.114094257354736,
+      "learning_rate": 9.992853611505836e-05,
+      "loss": 0.6075,
       "step": 190
     },
     {
       "epoch": 0.62,
+      "grad_norm": 5.480118274688721,
+      "learning_rate": 9.991482587324993e-05,
+      "loss": 0.4852,
       "step": 200
     },
     {
       "epoch": 0.62,
+      "eval_accuracy": 0.7704576976421637,
+      "eval_f1": 0.7230801818181609,
+      "eval_loss": 0.7021857500076294,
+      "eval_precision": 0.7857677405887458,
+      "eval_recall": 0.7704576976421637,
+      "eval_runtime": 37.0615,
+      "eval_samples_per_second": 77.817,
+      "eval_steps_per_second": 9.741,
       "step": 200
     },
     {
       "epoch": 0.65,
+      "grad_norm": 4.710792064666748,
+      "learning_rate": 9.989991440249686e-05,
+      "loss": 0.6202,
       "step": 210
     },
     {
       "epoch": 0.69,
+      "grad_norm": 8.316452980041504,
+      "learning_rate": 9.988380206165225e-05,
+      "loss": 0.6816,
       "step": 220
     },
     {
       "epoch": 0.72,
+      "grad_norm": 3.131255626678467,
+      "learning_rate": 9.986648923846882e-05,
+      "loss": 0.4721,
       "step": 230
     },
     {
       "epoch": 0.75,
+      "grad_norm": 1.5796229839324951,
+      "learning_rate": 9.98479763495896e-05,
+      "loss": 0.5474,
       "step": 240
     },
     {
       "epoch": 0.78,
+      "grad_norm": 5.570051193237305,
+      "learning_rate": 9.98282638405379e-05,
+      "loss": 0.6763,
       "step": 250
     },
     {
       "epoch": 0.81,
+      "grad_norm": 4.160530090332031,
+      "learning_rate": 9.980735218570657e-05,
+      "loss": 0.5471,
       "step": 260
     },
     {
       "epoch": 0.84,
+      "grad_norm": 4.585910320281982,
+      "learning_rate": 9.978524188834659e-05,
+      "loss": 0.4856,
       "step": 270
     },
     {
       "epoch": 0.87,
+      "grad_norm": 2.5068447589874268,
+      "learning_rate": 9.976193348055496e-05,
+      "loss": 0.4724,
       "step": 280
     },
     {
       "epoch": 0.9,
+      "grad_norm": 7.588688373565674,
+      "learning_rate": 9.973742752326188e-05,
+      "loss": 0.7415,
       "step": 290
     },
     {
       "epoch": 0.93,
+      "grad_norm": 6.468356609344482,
+      "learning_rate": 9.971172460621732e-05,
+      "loss": 0.7098,
       "step": 300
     },
     {
       "epoch": 0.93,
+      "eval_accuracy": 0.7995839112343966,
+      "eval_f1": 0.7972999747438626,
+      "eval_loss": 0.563714325428009,
+      "eval_precision": 0.8181443293620774,
+      "eval_recall": 0.7995839112343966,
+      "eval_runtime": 37.0609,
+      "eval_samples_per_second": 77.818,
+      "eval_steps_per_second": 9.741,
       "step": 300
     },
     {
       "epoch": 0.97,
+      "grad_norm": 4.219545841217041,
+      "learning_rate": 9.968482534797669e-05,
+      "loss": 0.5762,
       "step": 310
     },
     {
       "epoch": 1.0,
+      "grad_norm": 5.357555866241455,
+      "learning_rate": 9.965673039588614e-05,
+      "loss": 0.5181,
       "step": 320
     },
     {
       "epoch": 1.03,
+      "grad_norm": 4.9291582107543945,
+      "learning_rate": 9.962744042606678e-05,
+      "loss": 0.422,
       "step": 330
     },
     {
       "epoch": 1.06,
+      "grad_norm": 5.231845855712891,
+      "learning_rate": 9.959695614339857e-05,
+      "loss": 0.3889,
       "step": 340
     },
     {
       "epoch": 1.09,
+      "grad_norm": 3.579317808151245,
+      "learning_rate": 9.956527828150326e-05,
+      "loss": 0.3912,
       "step": 350
     },
     {
       "epoch": 1.12,
+      "grad_norm": 3.0033373832702637,
+      "learning_rate": 9.95324076027268e-05,
+      "loss": 0.3439,
       "step": 360
     },
     {
       "epoch": 1.15,
+      "grad_norm": 2.9946236610412598,
+      "learning_rate": 9.949834489812094e-05,
+      "loss": 0.4737,
       "step": 370
     },
     {
       "epoch": 1.18,
+      "grad_norm": 7.183070182800293,
+      "learning_rate": 9.946309098742424e-05,
+      "loss": 0.4325,
       "step": 380
     },
     {
       "epoch": 1.21,
+      "grad_norm": 4.066940784454346,
+      "learning_rate": 9.942664671904227e-05,
+      "loss": 0.527,
       "step": 390
     },
     {
       "epoch": 1.25,
+      "grad_norm": 4.427377700805664,
+      "learning_rate": 9.938901297002732e-05,
+      "loss": 0.4226,
       "step": 400
     },
     {
       "epoch": 1.25,
+      "eval_accuracy": 0.7621359223300971,
+      "eval_f1": 0.7735141412800338,
+      "eval_loss": 0.6494001150131226,
+      "eval_precision": 0.8136939310866815,
+      "eval_recall": 0.7621359223300971,
+      "eval_runtime": 37.3436,
+      "eval_samples_per_second": 77.229,
+      "eval_steps_per_second": 9.667,
       "step": 400
     },
     {
       "epoch": 1.28,
+      "grad_norm": 3.8335494995117188,
+      "learning_rate": 9.935019064605713e-05,
+      "loss": 0.4727,
       "step": 410
     },
     {
       "epoch": 1.31,
+      "grad_norm": 3.420801877975464,
+      "learning_rate": 9.931018068141324e-05,
+      "loss": 0.4028,
       "step": 420
     },
     {
       "epoch": 1.34,
+      "grad_norm": 3.57491397857666,
+      "learning_rate": 9.926898403895842e-05,
+      "loss": 0.5144,
       "step": 430
     },
     {
       "epoch": 1.37,
+      "grad_norm": 2.4824776649475098,
+      "learning_rate": 9.92266017101135e-05,
+      "loss": 0.3917,
       "step": 440
     },
     {
       "epoch": 1.4,
+      "grad_norm": 3.9230153560638428,
+      "learning_rate": 9.918303471483359e-05,
+      "loss": 0.4286,
       "step": 450
     },
     {
       "epoch": 1.43,
+      "grad_norm": 3.334120512008667,
+      "learning_rate": 9.913828410158342e-05,
+      "loss": 0.4159,
       "step": 460
     },
     {
       "epoch": 1.46,
+      "grad_norm": 3.502173662185669,
+      "learning_rate": 9.909235094731222e-05,
+      "loss": 0.3367,
       "step": 470
     },
     {
       "epoch": 1.5,
+      "grad_norm": 6.164717674255371,
+      "learning_rate": 9.90452363574277e-05,
+      "loss": 0.3398,
       "step": 480
     },
     {
       "epoch": 1.53,
+      "grad_norm": 7.483583450317383,
+      "learning_rate": 9.899694146576952e-05,
+      "loss": 0.3941,
       "step": 490
     },
     {
       "epoch": 1.56,
+      "grad_norm": 2.83978009223938,
+      "learning_rate": 9.8947467434582e-05,
+      "loss": 0.3599,
       "step": 500
     },
     {
       "epoch": 1.56,
+      "eval_accuracy": 0.823509015256588,
+      "eval_f1": 0.8108853024782933,
+      "eval_loss": 0.5213786363601685,
+      "eval_precision": 0.8206648771819358,
+      "eval_recall": 0.823509015256588,
+      "eval_runtime": 37.1057,
+      "eval_samples_per_second": 77.724,
+      "eval_steps_per_second": 9.729,
       "step": 500
     },
     {
       "epoch": 1.59,
+      "grad_norm": 2.34218168258667,
+      "learning_rate": 9.889681545448608e-05,
+      "loss": 0.4614,
       "step": 510
     },
     {
       "epoch": 1.62,
+      "grad_norm": 4.667867660522461,
+      "learning_rate": 9.884498674445075e-05,
+      "loss": 0.4268,
       "step": 520
     },
     {
       "epoch": 1.65,
+      "grad_norm": 8.212017059326172,
+      "learning_rate": 9.87919825517637e-05,
+      "loss": 0.3964,
       "step": 530
     },
     {
       "epoch": 1.68,
+      "grad_norm": 2.64796781539917,
+      "learning_rate": 9.873780415200123e-05,
+      "loss": 0.3339,
       "step": 540
     },
     {
       "epoch": 1.71,
+      "grad_norm": 4.198647975921631,
+      "learning_rate": 9.868245284899764e-05,
+      "loss": 0.4548,
       "step": 550
     },
     {
       "epoch": 1.74,
+      "grad_norm": 4.222693920135498,
+      "learning_rate": 9.862592997481383e-05,
+      "loss": 0.3731,
       "step": 560
     },
     {
       "epoch": 1.78,
+      "grad_norm": 3.101301670074463,
+      "learning_rate": 9.856823688970525e-05,
+      "loss": 0.3133,
       "step": 570
     },
     {
       "epoch": 1.81,
+      "grad_norm": 3.361762523651123,
+      "learning_rate": 9.850937498208906e-05,
+      "loss": 0.3255,
       "step": 580
     },
     {
       "epoch": 1.84,
+      "grad_norm": 5.818238258361816,
+      "learning_rate": 9.84493456685109e-05,
+      "loss": 0.3941,
       "step": 590
     },
     {
       "epoch": 1.87,
+      "grad_norm": 2.1035287380218506,
+      "learning_rate": 9.838815039361066e-05,
+      "loss": 0.3533,
       "step": 600
     },
     {
       "epoch": 1.87,
+      "eval_accuracy": 0.8273231622746186,
+      "eval_f1": 0.8192634434149068,
+      "eval_loss": 0.534748911857605,
+      "eval_precision": 0.839212218456244,
+      "eval_recall": 0.8273231622746186,
+      "eval_runtime": 36.5566,
+      "eval_samples_per_second": 78.891,
+      "eval_steps_per_second": 9.875,
       "step": 600
     },
     {
       "epoch": 1.9,
+      "grad_norm": 5.71665620803833,
+      "learning_rate": 9.832579063008777e-05,
+      "loss": 0.4063,
       "step": 610
     },
     {
       "epoch": 1.93,
+      "grad_norm": 3.79347562789917,
+      "learning_rate": 9.826226787866574e-05,
+      "loss": 0.427,
       "step": 620
     },
     {
       "epoch": 1.96,
+      "grad_norm": 2.647468090057373,
+      "learning_rate": 9.819758366805607e-05,
+      "loss": 0.2353,
       "step": 630
     },
     {
       "epoch": 1.99,
+      "grad_norm": 3.3511950969696045,
+      "learning_rate": 9.813173955492141e-05,
+      "loss": 0.3889,
       "step": 640
     },
     {
       "epoch": 2.02,
+      "grad_norm": 4.286926746368408,
+      "learning_rate": 9.806473712383817e-05,
+      "loss": 0.2418,
       "step": 650
     },
     {
       "epoch": 2.06,
+      "grad_norm": 6.692331790924072,
+      "learning_rate": 9.79965779872583e-05,
+      "loss": 0.2296,
       "step": 660
     },
     {
       "epoch": 2.09,
+      "grad_norm": 3.424487590789795,
+      "learning_rate": 9.792726378547058e-05,
+      "loss": 0.1989,
       "step": 670
     },
     {
       "epoch": 2.12,
+      "grad_norm": 6.994248390197754,
+      "learning_rate": 9.785679618656106e-05,
+      "loss": 0.2232,
       "step": 680
     },
     {
       "epoch": 2.15,
+      "grad_norm": 5.3724365234375,
+      "learning_rate": 9.778517688637298e-05,
+      "loss": 0.2343,
       "step": 690
     },
     {
       "epoch": 2.18,
+      "grad_norm": 2.975245714187622,
+      "learning_rate": 9.77124076084659e-05,
+      "loss": 0.1178,
       "step": 700
     },
     {
       "epoch": 2.18,
+      "eval_accuracy": 0.8283633841886269,
+      "eval_f1": 0.8277021804405638,
+      "eval_loss": 0.5425286889076233,
+      "eval_precision": 0.838105973857857,
+      "eval_recall": 0.8283633841886269,
+      "eval_runtime": 36.4063,
+      "eval_samples_per_second": 79.217,
+      "eval_steps_per_second": 9.916,
       "step": 700
     },
     {
       "epoch": 2.21,
+      "grad_norm": 0.8108430504798889,
+      "learning_rate": 9.763849010407431e-05,
+      "loss": 0.2396,
       "step": 710
     },
     {
       "epoch": 2.24,
+      "grad_norm": 1.5715973377227783,
+      "learning_rate": 9.756342615206538e-05,
+      "loss": 0.3591,
       "step": 720
     },
     {
       "epoch": 2.27,
+      "grad_norm": 5.7021894454956055,
+      "learning_rate": 9.748721755889619e-05,
+      "loss": 0.3064,
       "step": 730
     },
     {
       "epoch": 2.31,
+      "grad_norm": 1.4883191585540771,
+      "learning_rate": 9.740986615857031e-05,
+      "loss": 0.1716,
       "step": 740
     },
     {
       "epoch": 2.34,
+      "grad_norm": 5.413182735443115,
+      "learning_rate": 9.733137381259363e-05,
+      "loss": 0.2045,
       "step": 750
     },
     {
       "epoch": 2.37,
+      "grad_norm": 2.8399062156677246,
+      "learning_rate": 9.725174240992947e-05,
+      "loss": 0.1557,
       "step": 760
     },
     {
       "epoch": 2.4,
+      "grad_norm": 8.557807922363281,
+      "learning_rate": 9.717097386695331e-05,
+      "loss": 0.3044,
       "step": 770
     },
     {
       "epoch": 2.43,
+      "grad_norm": 4.569642066955566,
+      "learning_rate": 9.708907012740649e-05,
+      "loss": 0.338,
       "step": 780
     },
     {
       "epoch": 2.46,
+      "grad_norm": 3.043851852416992,
+      "learning_rate": 9.700603316234952e-05,
+      "loss": 0.4123,
       "step": 790
     },
     {
       "epoch": 2.49,
+      "grad_norm": 2.985642194747925,
+      "learning_rate": 9.692186497011465e-05,
+      "loss": 0.2719,
       "step": 800
     },
     {
       "epoch": 2.49,
+      "eval_accuracy": 0.8463938973647711,
+      "eval_f1": 0.8437993661883203,
+      "eval_loss": 0.4453237056732178,
+      "eval_precision": 0.8463641738950213,
+      "eval_recall": 0.8463938973647711,
+      "eval_runtime": 36.5652,
+      "eval_samples_per_second": 78.873,
+      "eval_steps_per_second": 9.873,
       "step": 800
     },
     {
       "epoch": 2.52,
+      "grad_norm": 4.473091125488281,
+      "learning_rate": 9.683656757625777e-05,
+      "loss": 0.2869,
       "step": 810
     },
     {
       "epoch": 2.55,
+      "grad_norm": 7.418603420257568,
+      "learning_rate": 9.67501430335096e-05,
+      "loss": 0.202,
       "step": 820
     },
     {
       "epoch": 2.59,
+      "grad_norm": 3.375176191329956,
+      "learning_rate": 9.666259342172643e-05,
+      "loss": 0.1779,
       "step": 830
     },
     {
       "epoch": 2.62,
+      "grad_norm": 4.781165599822998,
+      "learning_rate": 9.65739208478399e-05,
+      "loss": 0.2148,
       "step": 840
     },
     {
       "epoch": 2.65,
+      "grad_norm": 0.5722386837005615,
+      "learning_rate": 9.648412744580644e-05,
+      "loss": 0.1715,
       "step": 850
     },
     {
       "epoch": 2.68,
+      "grad_norm": 5.580469608306885,
+      "learning_rate": 9.63932153765558e-05,
+      "loss": 0.2103,
       "step": 860
     },
     {
       "epoch": 2.71,
+      "grad_norm": 8.275124549865723,
+      "learning_rate": 9.630118682793917e-05,
+      "loss": 0.3448,
       "step": 870
     },
     {
       "epoch": 2.74,
+      "grad_norm": 5.884052753448486,
+      "learning_rate": 9.620804401467638e-05,
+      "loss": 0.2852,
       "step": 880
     },
     {
       "epoch": 2.77,
+      "grad_norm": 2.674102783203125,
+      "learning_rate": 9.611378917830271e-05,
+      "loss": 0.1887,
       "step": 890
     },
     {
       "epoch": 2.8,
+      "grad_norm": 2.95959210395813,
+      "learning_rate": 9.601842458711493e-05,
+      "loss": 0.1559,
       "step": 900
     },
     {
       "epoch": 2.8,
+      "eval_accuracy": 0.8325242718446602,
+      "eval_f1": 0.8284199470401122,
+      "eval_loss": 0.6127275824546814,
+      "eval_precision": 0.8566914070001943,
+      "eval_recall": 0.8325242718446602,
+      "eval_runtime": 37.1542,
+      "eval_samples_per_second": 77.623,
+      "eval_steps_per_second": 9.716,
       "step": 900
     },
     {
       "epoch": 2.83,
+      "grad_norm": 3.5971999168395996,
+      "learning_rate": 9.592195253611667e-05,
+      "loss": 0.3572,
       "step": 910
     },
     {
       "epoch": 2.87,
+      "grad_norm": 3.3870370388031006,
+      "learning_rate": 9.582437534696324e-05,
+      "loss": 0.3793,
       "step": 920
     },
     {
       "epoch": 2.9,
+      "grad_norm": 0.9074994325637817,
+      "learning_rate": 9.572569536790572e-05,
+      "loss": 0.3371,
       "step": 930
     },
     {
       "epoch": 2.93,
+      "grad_norm": 6.770932197570801,
+      "learning_rate": 9.562591497373448e-05,
+      "loss": 0.2833,
       "step": 940
     },
     {
       "epoch": 2.96,
+      "grad_norm": 6.183658123016357,
+      "learning_rate": 9.552503656572196e-05,
+      "loss": 0.2882,
       "step": 950
     },
     {
       "epoch": 2.99,
+      "grad_norm": 5.340375900268555,
+      "learning_rate": 9.542306257156502e-05,
+      "loss": 0.1809,
       "step": 960
     },
     {
       "epoch": 3.02,
+      "grad_norm": 4.281813621520996,
+      "learning_rate": 9.531999544532633e-05,
+      "loss": 0.1301,
       "step": 970
     },
     {
       "epoch": 3.05,
+      "grad_norm": 2.9234039783477783,
+      "learning_rate": 9.521583766737552e-05,
+      "loss": 0.088,
       "step": 980
     },
     {
       "epoch": 3.08,
+      "grad_norm": 0.24170830845832825,
+      "learning_rate": 9.511059174432925e-05,
+      "loss": 0.0491,
       "step": 990
     },
     {
       "epoch": 3.12,
+      "grad_norm": 4.773263931274414,
+      "learning_rate": 9.500426020899115e-05,
+      "loss": 0.1328,
       "step": 1000
     },
     {
       "epoch": 3.12,
+      "eval_accuracy": 0.8509015256588072,
+      "eval_f1": 0.8451195646353651,
+      "eval_loss": 0.5303316712379456,
+      "eval_precision": 0.845642270599866,
+      "eval_recall": 0.8509015256588072,
+      "eval_runtime": 36.7597,
+      "eval_samples_per_second": 78.456,
+      "eval_steps_per_second": 9.821,
       "step": 1000
     },
     {
       "epoch": 3.15,
+      "grad_norm": 1.725915789604187,
+      "learning_rate": 9.489684562029066e-05,
+      "loss": 0.1083,
       "step": 1010
     },
     {
       "epoch": 3.18,
+      "grad_norm": 4.2252888679504395,
+      "learning_rate": 9.47883505632215e-05,
+      "loss": 0.1296,
       "step": 1020
     },
     {
       "epoch": 3.21,
+      "grad_norm": 4.19112491607666,
+      "learning_rate": 9.467877764877955e-05,
+      "loss": 0.0713,
       "step": 1030
     },
     {
       "epoch": 3.24,
+      "grad_norm": 0.8787875175476074,
+      "learning_rate": 9.45681295138999e-05,
+      "loss": 0.0602,
       "step": 1040
     },
     {
       "epoch": 3.27,
+      "grad_norm": 2.9338300228118896,
+      "learning_rate": 9.445640882139342e-05,
+      "loss": 0.1112,
       "step": 1050
     },
     {
       "epoch": 3.3,
+      "grad_norm": 0.03492557257413864,
+      "learning_rate": 9.434361825988276e-05,
+      "loss": 0.0632,
       "step": 1060
     },
     {
       "epoch": 3.33,
+      "grad_norm": 7.183565616607666,
+      "learning_rate": 9.422976054373753e-05,
+      "loss": 0.1271,
       "step": 1070
     },
     {
       "epoch": 3.36,
+      "grad_norm": 5.910800457000732,
+      "learning_rate": 9.411483841300905e-05,
+      "loss": 0.1384,
       "step": 1080
     },
     {
       "epoch": 3.4,
+      "grad_norm": 4.911332607269287,
+      "learning_rate": 9.399885463336437e-05,
+      "loss": 0.0607,
       "step": 1090
     },
     {
       "epoch": 3.43,
+      "grad_norm": 1.9047012329101562,
+      "learning_rate": 9.388181199601974e-05,
+      "loss": 0.1756,
       "step": 1100
     },
     {
       "epoch": 3.43,
+      "eval_accuracy": 0.8321775312066574,
+      "eval_f1": 0.8151306059680461,
+      "eval_loss": 0.7960126996040344,
+      "eval_precision": 0.8366372545968512,
+      "eval_recall": 0.8321775312066574,
+      "eval_runtime": 36.834,
+      "eval_samples_per_second": 78.297,
+      "eval_steps_per_second": 9.801,
       "step": 1100
     },
     {
       "epoch": 3.46,
+      "grad_norm": 0.7878803610801697,
+      "learning_rate": 9.376371331767345e-05,
+      "loss": 0.1006,
       "step": 1110
     },
     {
       "epoch": 3.49,
+      "grad_norm": 1.042022705078125,
+      "learning_rate": 9.364456144043798e-05,
+      "loss": 0.1516,
       "step": 1120
     },
     {
       "epoch": 3.52,
+      "grad_norm": 1.4984287023544312,
+      "learning_rate": 9.35243592317717e-05,
+      "loss": 0.0771,
       "step": 1130
     },
     {
       "epoch": 3.55,
+      "grad_norm": 7.682912349700928,
+      "learning_rate": 9.340310958440976e-05,
+      "loss": 0.0898,
       "step": 1140
     },
     {
       "epoch": 3.58,
+      "grad_norm": 4.866548538208008,
+      "learning_rate": 9.328081541629453e-05,
+      "loss": 0.1182,
       "step": 1150
     },
     {
       "epoch": 3.61,
+      "grad_norm": 2.1378111839294434,
+      "learning_rate": 9.315747967050541e-05,
+      "loss": 0.2255,
       "step": 1160
     },
     {
       "epoch": 3.64,
+      "grad_norm": 1.4697102308273315,
+      "learning_rate": 9.303310531518793e-05,
+      "loss": 0.1011,
       "step": 1170
     },
     {
       "epoch": 3.68,
+      "grad_norm": 5.105794429779053,
+      "learning_rate": 9.290769534348236e-05,
+      "loss": 0.1298,
       "step": 1180
     },
     {
       "epoch": 3.71,
+      "grad_norm": 5.116852760314941,
+      "learning_rate": 9.278125277345168e-05,
+      "loss": 0.1145,
       "step": 1190
     },
     {
       "epoch": 3.74,
+      "grad_norm": 1.9126471281051636,
+      "learning_rate": 9.265378064800895e-05,
+      "loss": 0.3582,
       "step": 1200
     },
     {
       "epoch": 3.74,
+      "eval_accuracy": 0.834257975034674,
+      "eval_f1": 0.824916890066515,
+      "eval_loss": 0.6675512790679932,
+      "eval_precision": 0.8284494824114729,
+      "eval_recall": 0.834257975034674,
+      "eval_runtime": 36.0917,
+      "eval_samples_per_second": 79.908,
+      "eval_steps_per_second": 10.002,
       "step": 1200
     },
     {
       "epoch": 3.77,
+      "grad_norm": 4.828185081481934,
+      "learning_rate": 9.252528203484403e-05,
+      "loss": 0.1843,
       "step": 1210
     },
     {
       "epoch": 3.8,
+      "grad_norm": 2.7517149448394775,
+      "learning_rate": 9.239576002634984e-05,
+      "loss": 0.1066,
       "step": 1220
     },
     {
       "epoch": 3.83,
+      "grad_norm": 3.601691246032715,
+      "learning_rate": 9.226521773954791e-05,
+      "loss": 0.1121,
       "step": 1230
     },
     {
       "epoch": 3.86,
+      "grad_norm": 0.0293317511677742,
+      "learning_rate": 9.21336583160133e-05,
+      "loss": 0.1822,
       "step": 1240
     },
     {
       "epoch": 3.89,
+      "grad_norm": 0.6248491406440735,
+      "learning_rate": 9.200108492179906e-05,
+      "loss": 0.1261,
       "step": 1250
     },
     {
       "epoch": 3.93,
+      "grad_norm": 0.1484900414943695,
+      "learning_rate": 9.186750074736009e-05,
+      "loss": 0.1224,
       "step": 1260
     },
     {
       "epoch": 3.96,
+      "grad_norm": 2.4208881855010986,
+      "learning_rate": 9.17329090074762e-05,
+      "loss": 0.1018,
       "step": 1270
     },
     {
       "epoch": 3.99,
+      "grad_norm": 0.208229199051857,
+      "learning_rate": 9.159731294117492e-05,
+      "loss": 0.1453,
       "step": 1280
     },
     {
       "epoch": 4.02,
+      "grad_norm": 0.03745197877287865,
+      "learning_rate": 9.146071581165345e-05,
+      "loss": 0.1056,
       "step": 1290
     },
     {
       "epoch": 4.05,
+      "grad_norm": 1.308124303817749,
+      "learning_rate": 9.132312090620011e-05,
+      "loss": 0.025,
       "step": 1300
     },
     {
       "epoch": 4.05,
+      "eval_accuracy": 0.8474341192787794,
+      "eval_f1": 0.8476771584783079,
+      "eval_loss": 0.5981015563011169,
+      "eval_precision": 0.859867898706205,
+      "eval_recall": 0.8474341192787794,
+      "eval_runtime": 36.0165,
+      "eval_samples_per_second": 80.074,
+      "eval_steps_per_second": 10.023,
       "step": 1300
     },
     {
       "epoch": 4.08,
+      "grad_norm": 0.0758899599313736,
+      "learning_rate": 9.118453153611532e-05,
+      "loss": 0.0298,
       "step": 1310
     },
     {
       "epoch": 4.11,
+      "grad_norm": 0.28617605566978455,
+      "learning_rate": 9.104495103663187e-05,
+      "loss": 0.017,
       "step": 1320
     },
     {
       "epoch": 4.14,
+      "grad_norm": 0.19124433398246765,
+      "learning_rate": 9.090438276683457e-05,
+      "loss": 0.017,
       "step": 1330
     },
     {
       "epoch": 4.17,
+      "grad_norm": 0.31906023621559143,
+      "learning_rate": 9.07628301095796e-05,
+      "loss": 0.0196,
       "step": 1340
     },
     {
       "epoch": 4.21,
+      "grad_norm": 7.870569229125977,
+      "learning_rate": 9.062029647141289e-05,
+      "loss": 0.0685,
       "step": 1350
     },
     {
       "epoch": 4.24,
+      "grad_norm": 5.755252361297607,
+      "learning_rate": 9.04767852824883e-05,
+      "loss": 0.0266,
       "step": 1360
     },
     {
       "epoch": 4.27,
+      "grad_norm": 0.05481214076280594,
+      "learning_rate": 9.0332299996485e-05,
+      "loss": 0.0594,
       "step": 1370
     },
     {
       "epoch": 4.3,
+      "grad_norm": 5.236385345458984,
+      "learning_rate": 9.018684409052436e-05,
+      "loss": 0.0999,
       "step": 1380
     },
     {
       "epoch": 4.33,
+      "grad_norm": 5.066316604614258,
+      "learning_rate": 9.004042106508625e-05,
+      "loss": 0.0612,
       "step": 1390
     },
     {
       "epoch": 4.36,
+      "grad_norm": 0.9376081824302673,
+      "learning_rate": 8.989303444392487e-05,
+      "loss": 0.042,
       "step": 1400
     },
     {
       "epoch": 4.36,
+      "eval_accuracy": 0.8162274618585298,
+      "eval_f1": 0.8241381969601037,
+      "eval_loss": 0.8095719814300537,
+      "eval_precision": 0.8477203881282387,
+      "eval_recall": 0.8162274618585298,
+      "eval_runtime": 36.3685,
+      "eval_samples_per_second": 79.299,
+      "eval_steps_per_second": 9.926,
       "step": 1400
     },
     {
       "epoch": 4.39,
+      "grad_norm": 0.013413701206445694,
+      "learning_rate": 8.974468777398388e-05,
+      "loss": 0.1021,
       "step": 1410
     },
     {
       "epoch": 4.42,
+      "grad_norm": 7.129204750061035,
+      "learning_rate": 8.959538462531108e-05,
+      "loss": 0.1356,
       "step": 1420
     },
     {
       "epoch": 4.45,
+      "grad_norm": 3.306025505065918,
+      "learning_rate": 8.944512859097245e-05,
+      "loss": 0.0191,
       "step": 1430
     },
     {
       "epoch": 4.49,
+      "grad_norm": 0.022593187168240547,
+      "learning_rate": 8.929392328696574e-05,
+      "loss": 0.0448,
       "step": 1440
     },
     {
       "epoch": 4.52,
+      "grad_norm": 4.569972991943359,
+      "learning_rate": 8.914177235213341e-05,
+      "loss": 0.073,
       "step": 1450
     },
     {
       "epoch": 4.55,
+      "grad_norm": 4.406450271606445,
+      "learning_rate": 8.898867944807507e-05,
+      "loss": 0.0672,
       "step": 1460
     },
     {
       "epoch": 4.58,
+      "grad_norm": 7.7769904136657715,
+      "learning_rate": 8.883464825905934e-05,
+      "loss": 0.0947,
       "step": 1470
     },
     {
       "epoch": 4.61,
+      "grad_norm": 9.705739974975586,
+      "learning_rate": 8.867968249193526e-05,
+      "loss": 0.0344,
       "step": 1480
     },
     {
       "epoch": 4.64,
+      "grad_norm": 1.0004101991653442,
+      "learning_rate": 8.852378587604297e-05,
+      "loss": 0.0877,
       "step": 1490
     },
     {
       "epoch": 4.67,
+      "grad_norm": 0.8759760856628418,
+      "learning_rate": 8.836696216312405e-05,
+      "loss": 0.05,
       "step": 1500
     },
     {
       "epoch": 4.67,
+      "eval_accuracy": 0.841886269070735,
+      "eval_f1": 0.8341416187793224,
+      "eval_loss": 0.7948272228240967,
+      "eval_precision": 0.8474305891416275,
+      "eval_recall": 0.841886269070735,
+      "eval_runtime": 37.2997,
+      "eval_samples_per_second": 77.32,
+      "eval_steps_per_second": 9.678,
       "step": 1500
     },
     {
       "epoch": 4.7,
+      "grad_norm": 0.008059758692979813,
+      "learning_rate": 8.82092151272312e-05,
+      "loss": 0.0939,
       "step": 1510
     },
     {
       "epoch": 4.74,
+      "grad_norm": 0.09355029463768005,
+      "learning_rate": 8.80505485646374e-05,
+      "loss": 0.03,
       "step": 1520
     },
     {
       "epoch": 4.77,
+      "grad_norm": 0.4395085871219635,
+      "learning_rate": 8.78909662937446e-05,
+      "loss": 0.1189,
       "step": 1530
     },
     {
       "epoch": 4.8,
+      "grad_norm": 0.6208884119987488,
+      "learning_rate": 8.773047215499176e-05,
+      "loss": 0.06,
       "step": 1540
     },
     {
       "epoch": 4.83,
+      "grad_norm": 1.5753854513168335,
+      "learning_rate": 8.756907001076249e-05,
+      "loss": 0.0517,
       "step": 1550
     },
     {
       "epoch": 4.86,
+      "grad_norm": 5.975317001342773,
+      "learning_rate": 8.740676374529206e-05,
+      "loss": 0.1042,
       "step": 1560
     },
     {
       "epoch": 4.89,
+      "grad_norm": 3.8262839317321777,
+      "learning_rate": 8.724355726457395e-05,
+      "loss": 0.0716,
       "step": 1570
     },
     {
       "epoch": 4.92,
+      "grad_norm": 2.5249273777008057,
+      "learning_rate": 8.707945449626583e-05,
+      "loss": 0.0254,
       "step": 1580
     },
     {
       "epoch": 4.95,
+      "grad_norm": 10.16901969909668,
+      "learning_rate": 8.691445938959504e-05,
+      "loss": 0.1318,
       "step": 1590
     },
     {
       "epoch": 4.98,
+      "grad_norm": 1.012184977531433,
+      "learning_rate": 8.674857591526355e-05,
+      "loss": 0.028,
       "step": 1600
     },
     {
       "epoch": 4.98,
+      "eval_accuracy": 0.8457004160887656,
+      "eval_f1": 0.8476462818721602,
+      "eval_loss": 0.6741925477981567,
+      "eval_precision": 0.8558392490201036,
+      "eval_recall": 0.8457004160887656,
+      "eval_runtime": 37.79,
+      "eval_samples_per_second": 76.316,
+      "eval_steps_per_second": 9.553,
       "step": 1600
     },
     {
       "epoch": 5.02,
+      "grad_norm": 1.2411854267120361,
+      "learning_rate": 8.658180806535243e-05,
+      "loss": 0.0079,
       "step": 1610
     },
     {
       "epoch": 5.05,
+      "grad_norm": 8.111499786376953,
+      "learning_rate": 8.641415985322571e-05,
+      "loss": 0.0455,
       "step": 1620
     },
     {
       "epoch": 5.08,
+      "grad_norm": 0.05484266206622124,
+      "learning_rate": 8.624563531343393e-05,
+      "loss": 0.0255,
       "step": 1630
     },
     {
       "epoch": 5.11,
+      "grad_norm": 0.6857353448867798,
+      "learning_rate": 8.607623850161686e-05,
+      "loss": 0.0115,
       "step": 1640
     },
     {
       "epoch": 5.14,
+      "grad_norm": 0.38402843475341797,
+      "learning_rate": 8.590597349440604e-05,
+      "loss": 0.0171,
       "step": 1650
     },
     {
       "epoch": 5.17,
+      "grad_norm": 0.07074743509292603,
+      "learning_rate": 8.573484438932666e-05,
+      "loss": 0.0067,
       "step": 1660
     },
     {
       "epoch": 5.2,
+      "grad_norm": 0.1260824352502823,
+      "learning_rate": 8.556285530469887e-05,
+      "loss": 0.009,
       "step": 1670
     },
     {
       "epoch": 5.23,
+      "grad_norm": 0.23438212275505066,
+      "learning_rate": 8.539001037953876e-05,
+      "loss": 0.0232,
       "step": 1680
     },
     {
       "epoch": 5.26,
+      "grad_norm": 0.19910460710525513,
+      "learning_rate": 8.521631377345869e-05,
+      "loss": 0.0022,
       "step": 1690
     },
     {
       "epoch": 5.3,
+      "grad_norm": 0.016467662528157234,
+      "learning_rate": 8.50417696665672e-05,
+      "loss": 0.0048,
       "step": 1700
     },
     {
       "epoch": 5.3,
+      "eval_accuracy": 0.8484743411927878,
+      "eval_f1": 0.8499629260872099,
+      "eval_loss": 0.7832539081573486,
+      "eval_precision": 0.8576584679191768,
+      "eval_recall": 0.8484743411927878,
+      "eval_runtime": 37.0076,
+      "eval_samples_per_second": 77.93,
+      "eval_steps_per_second": 9.755,
       "step": 1700
     },
     {
       "epoch": 5.33,
+      "grad_norm": 0.006973025389015675,
+      "learning_rate": 8.486638225936848e-05,
+      "loss": 0.073,
       "step": 1710
     },
     {
       "epoch": 5.36,
+      "grad_norm": 0.29455187916755676,
+      "learning_rate": 8.469015577266115e-05,
+      "loss": 0.002,
       "step": 1720
     },
     {
       "epoch": 5.39,
+      "grad_norm": 0.06881581246852875,
+      "learning_rate": 8.451309444743682e-05,
+      "loss": 0.0479,
       "step": 1730
     },
     {
       "epoch": 5.42,
+      "grad_norm": 0.03852876275777817,
+      "learning_rate": 8.433520254477793e-05,
+      "loss": 0.0821,
       "step": 1740
     },
     {
       "epoch": 5.45,
+      "grad_norm": 0.0018428952898830175,
+      "learning_rate": 8.415648434575529e-05,
+      "loss": 0.0375,
       "step": 1750
     },
     {
       "epoch": 5.48,
+      "grad_norm": 0.003056368324905634,
+      "learning_rate": 8.397694415132495e-05,
+      "loss": 0.0884,
       "step": 1760
     },
     {
       "epoch": 5.51,
+      "grad_norm": 1.8021758794784546,
+      "learning_rate": 8.379658628222478e-05,
+      "loss": 0.0091,
       "step": 1770
     },
     {
       "epoch": 5.55,
+      "grad_norm": 0.1937793642282486,
+      "learning_rate": 8.361541507887045e-05,
+      "loss": 0.0101,
       "step": 1780
     },
     {
       "epoch": 5.58,
+      "grad_norm": 2.138684034347534,
+      "learning_rate": 8.343343490125102e-05,
+      "loss": 0.1135,
       "step": 1790
     },
     {
       "epoch": 5.61,
+      "grad_norm": 0.781872034072876,
+      "learning_rate": 8.325065012882392e-05,
+      "loss": 0.0324,
       "step": 1800
     },
     {
       "epoch": 5.61,
+      "eval_accuracy": 0.8533287101248266,
+      "eval_f1": 0.8511397162148655,
+      "eval_loss": 0.7405093312263489,
+      "eval_precision": 0.8523403828700276,
+      "eval_recall": 0.8533287101248266,
+      "eval_runtime": 37.0368,
+      "eval_samples_per_second": 77.869,
+      "eval_steps_per_second": 9.747,
       "step": 1800
     },
     {
       "epoch": 5.61,
       "step": 1800,
       "total_flos": 2.2287694956200755e+18,
+      "train_loss": 0.2811500767639114,
+      "train_runtime": 1301.746,
+      "train_samples_per_second": 393.932,
+      "train_steps_per_second": 24.659
     }
   ],
   "logging_steps": 10,