🍻 cheers

Browse files

Files changed (6) hide show

README.md +7 -6
all_results.json +14 -14
eval_results.json +9 -9
runs/Mar20_11-30-34_457efe287a8c/events.out.tfevents.1710936371.457efe287a8c.174.3 +3 -0
train_results.json +6 -6
trainer_state.json +239 -1487

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-lr-cosine-restarts
-This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9344
-- Accuracy: 0.7965
-- Precision: 0.8086
-- Recall: 0.7965
-- F1: 0.8004
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # vit-lr-cosine-restarts
+This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the skin-cancer dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5964
+- Accuracy: 0.7979
+- Precision: 0.7970
+- Recall: 0.7979
+- F1: 0.7793
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 5.61,
-    "eval_accuracy": 0.8463938973647711,
-    "eval_f1": 0.8437993661883203,
-    "eval_loss": 0.4453237056732178,
-    "eval_precision": 0.8463641738950213,
-    "eval_recall": 0.8463938973647711,
-    "eval_runtime": 38.0107,
-    "eval_samples_per_second": 75.873,
-    "eval_steps_per_second": 9.497,
-    "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.2811500767639114,
-    "train_runtime": 1301.746,
-    "train_samples_per_second": 393.932,
-    "train_steps_per_second": 24.659
 }

 {
+    "epoch": 12.0,
+    "eval_accuracy": 0.7978502080443828,
+    "eval_f1": 0.7792929975948731,
+    "eval_loss": 0.5963773131370544,
+    "eval_precision": 0.7969524883183612,
+    "eval_recall": 0.7978502080443828,
+    "eval_runtime": 41.5106,
+    "eval_samples_per_second": 69.476,
+    "eval_steps_per_second": 8.697,
+    "total_flos": 4.768760767819088e+18,
+    "train_loss": 0.30000500961256177,
+    "train_runtime": 2048.5956,
+    "train_samples_per_second": 250.318,
+    "train_steps_per_second": 15.669
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 5.61,
-    "eval_accuracy": 0.8463938973647711,
-    "eval_f1": 0.8437993661883203,
-    "eval_loss": 0.4453237056732178,
-    "eval_precision": 0.8463641738950213,
-    "eval_recall": 0.8463938973647711,
-    "eval_runtime": 38.0107,
-    "eval_samples_per_second": 75.873,
-    "eval_steps_per_second": 9.497
 }

 {
+    "epoch": 12.0,
+    "eval_accuracy": 0.7978502080443828,
+    "eval_f1": 0.7792929975948731,
+    "eval_loss": 0.5963773131370544,
+    "eval_precision": 0.7969524883183612,
+    "eval_recall": 0.7978502080443828,
+    "eval_runtime": 41.5106,
+    "eval_samples_per_second": 69.476,
+    "eval_steps_per_second": 8.697
 }

runs/Mar20_11-30-34_457efe287a8c/events.out.tfevents.1710936371.457efe287a8c.174.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5607ab628ecdef118db426d1336d526f9ada8288ae677270dff3cb1383f42cd6
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.61,
-    "total_flos": 2.2287694956200755e+18,
-    "train_loss": 0.2811500767639114,
-    "train_runtime": 1301.746,
-    "train_samples_per_second": 393.932,
-    "train_steps_per_second": 24.659
 }

 {
+    "epoch": 12.0,
+    "total_flos": 4.768760767819088e+18,
+    "train_loss": 0.30000500961256177,
+    "train_runtime": 2048.5956,
+    "train_samples_per_second": 250.318,
+    "train_steps_per_second": 15.669
 }

trainer_state.json CHANGED Viewed

@@ -1,1505 +1,257 @@
 {
-  "best_metric": 0.4453237056732178,
-  "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
-  "epoch": 5.607476635514018,
-  "eval_steps": 100,
-  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "grad_norm": 17.940969467163086,
-      "learning_rate": 1.125e-05,
-      "loss": 2.0172,
-      "step": 10
-    },
-    {
-      "epoch": 0.06,
-      "grad_norm": 4.308961391448975,
-      "learning_rate": 2.375e-05,
-      "loss": 1.1159,
-      "step": 20
-    },
-    {
-      "epoch": 0.09,
-      "grad_norm": 5.38205099105835,
-      "learning_rate": 3.625e-05,
-      "loss": 1.1398,
-      "step": 30
-    },
-    {
-      "epoch": 0.12,
-      "grad_norm": 5.569328308105469,
-      "learning_rate": 4.875e-05,
-      "loss": 1.0508,
-      "step": 40
-    },
-    {
-      "epoch": 0.16,
-      "grad_norm": 5.870121002197266,
-      "learning_rate": 6.125000000000001e-05,
-      "loss": 0.8095,
-      "step": 50
-    },
-    {
-      "epoch": 0.19,
-      "grad_norm": 6.100069046020508,
-      "learning_rate": 7.375e-05,
-      "loss": 0.8756,
-      "step": 60
-    },
-    {
-      "epoch": 0.22,
-      "grad_norm": 4.655179023742676,
-      "learning_rate": 8.625000000000001e-05,
-      "loss": 0.9221,
-      "step": 70
-    },
-    {
-      "epoch": 0.25,
-      "grad_norm": 4.762995719909668,
-      "learning_rate": 9.875000000000002e-05,
-      "loss": 0.6852,
-      "step": 80
-    },
-    {
-      "epoch": 0.28,
-      "grad_norm": 5.309569358825684,
-      "learning_rate": 9.99995126719372e-05,
-      "loss": 0.6662,
-      "step": 90
-    },
-    {
-      "epoch": 0.31,
-      "grad_norm": 4.177795886993408,
-      "learning_rate": 9.99978280932988e-05,
-      "loss": 0.686,
-      "step": 100
     },
     {
-      "epoch": 0.31,
       "eval_accuracy": 0.7517337031900139,
-      "eval_f1": 0.7444977301566197,
-      "eval_loss": 0.6707192063331604,
-      "eval_precision": 0.7624063091694634,
       "eval_recall": 0.7517337031900139,
-      "eval_runtime": 36.8103,
-      "eval_samples_per_second": 78.348,
-      "eval_steps_per_second": 9.807,
-      "step": 100
-    },
-    {
-      "epoch": 0.34,
-      "grad_norm": 3.6934421062469482,
-      "learning_rate": 9.999494028821966e-05,
-      "loss": 0.6901,
-      "step": 110
-    },
-    {
-      "epoch": 0.37,
-      "grad_norm": 8.207216262817383,
-      "learning_rate": 9.999084932619647e-05,
-      "loss": 0.6638,
-      "step": 120
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 8.520118713378906,
-      "learning_rate": 9.998555530568059e-05,
-      "loss": 0.6285,
-      "step": 130
-    },
-    {
-      "epoch": 0.44,
-      "grad_norm": 3.053748846054077,
-      "learning_rate": 9.997905835407567e-05,
-      "loss": 0.5225,
-      "step": 140
-    },
-    {
-      "epoch": 0.47,
-      "grad_norm": 4.431256294250488,
-      "learning_rate": 9.997135862773453e-05,
-      "loss": 0.6307,
-      "step": 150
-    },
-    {
-      "epoch": 0.5,
-      "grad_norm": 7.533073902130127,
-      "learning_rate": 9.996245631195555e-05,
-      "loss": 0.5959,
-      "step": 160
-    },
-    {
-      "epoch": 0.53,
-      "grad_norm": 5.364689350128174,
-      "learning_rate": 9.99523516209781e-05,
-      "loss": 0.6344,
-      "step": 170
-    },
-    {
-      "epoch": 0.56,
-      "grad_norm": 6.664125919342041,
-      "learning_rate": 9.994104479797728e-05,
-      "loss": 0.6724,
-      "step": 180
-    },
-    {
-      "epoch": 0.59,
-      "grad_norm": 4.114094257354736,
-      "learning_rate": 9.992853611505836e-05,
-      "loss": 0.6075,
-      "step": 190
-    },
-    {
-      "epoch": 0.62,
-      "grad_norm": 5.480118274688721,
-      "learning_rate": 9.991482587324993e-05,
-      "loss": 0.4852,
-      "step": 200
-    },
-    {
-      "epoch": 0.62,
-      "eval_accuracy": 0.7704576976421637,
-      "eval_f1": 0.7230801818181609,
-      "eval_loss": 0.7021857500076294,
-      "eval_precision": 0.7857677405887458,
-      "eval_recall": 0.7704576976421637,
-      "eval_runtime": 37.0615,
-      "eval_samples_per_second": 77.817,
-      "eval_steps_per_second": 9.741,
-      "step": 200
-    },
-    {
-      "epoch": 0.65,
-      "grad_norm": 4.710792064666748,
-      "learning_rate": 9.989991440249686e-05,
-      "loss": 0.6202,
-      "step": 210
-    },
-    {
-      "epoch": 0.69,
-      "grad_norm": 8.316452980041504,
-      "learning_rate": 9.988380206165225e-05,
-      "loss": 0.6816,
-      "step": 220
-    },
-    {
-      "epoch": 0.72,
-      "grad_norm": 3.131255626678467,
-      "learning_rate": 9.986648923846882e-05,
-      "loss": 0.4721,
-      "step": 230
-    },
-    {
-      "epoch": 0.75,
-      "grad_norm": 1.5796229839324951,
-      "learning_rate": 9.98479763495896e-05,
-      "loss": 0.5474,
-      "step": 240
-    },
-    {
-      "epoch": 0.78,
-      "grad_norm": 5.570051193237305,
-      "learning_rate": 9.98282638405379e-05,
-      "loss": 0.6763,
-      "step": 250
-    },
-    {
-      "epoch": 0.81,
-      "grad_norm": 4.160530090332031,
-      "learning_rate": 9.980735218570657e-05,
-      "loss": 0.5471,
-      "step": 260
-    },
-    {
-      "epoch": 0.84,
-      "grad_norm": 4.585910320281982,
-      "learning_rate": 9.978524188834659e-05,
-      "loss": 0.4856,
-      "step": 270
-    },
-    {
-      "epoch": 0.87,
-      "grad_norm": 2.5068447589874268,
-      "learning_rate": 9.976193348055496e-05,
-      "loss": 0.4724,
-      "step": 280
-    },
-    {
-      "epoch": 0.9,
-      "grad_norm": 7.588688373565674,
-      "learning_rate": 9.973742752326188e-05,
-      "loss": 0.7415,
-      "step": 290
-    },
-    {
-      "epoch": 0.93,
-      "grad_norm": 6.468356609344482,
-      "learning_rate": 9.971172460621732e-05,
-      "loss": 0.7098,
-      "step": 300
-    },
-    {
-      "epoch": 0.93,
-      "eval_accuracy": 0.7995839112343966,
-      "eval_f1": 0.7972999747438626,
-      "eval_loss": 0.563714325428009,
-      "eval_precision": 0.8181443293620774,
-      "eval_recall": 0.7995839112343966,
-      "eval_runtime": 37.0609,
-      "eval_samples_per_second": 77.818,
-      "eval_steps_per_second": 9.741,
-      "step": 300
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 4.219545841217041,
-      "learning_rate": 9.968482534797669e-05,
-      "loss": 0.5762,
-      "step": 310
-    },
-    {
-      "epoch": 1.0,
-      "grad_norm": 5.357555866241455,
-      "learning_rate": 9.965673039588614e-05,
-      "loss": 0.5181,
-      "step": 320
-    },
-    {
-      "epoch": 1.03,
-      "grad_norm": 4.9291582107543945,
-      "learning_rate": 9.962744042606678e-05,
-      "loss": 0.422,
-      "step": 330
-    },
-    {
-      "epoch": 1.06,
-      "grad_norm": 5.231845855712891,
-      "learning_rate": 9.959695614339857e-05,
-      "loss": 0.3889,
-      "step": 340
-    },
-    {
-      "epoch": 1.09,
-      "grad_norm": 3.579317808151245,
-      "learning_rate": 9.956527828150326e-05,
-      "loss": 0.3912,
-      "step": 350
-    },
-    {
-      "epoch": 1.12,
-      "grad_norm": 3.0033373832702637,
-      "learning_rate": 9.95324076027268e-05,
-      "loss": 0.3439,
-      "step": 360
-    },
-    {
-      "epoch": 1.15,
-      "grad_norm": 2.9946236610412598,
-      "learning_rate": 9.949834489812094e-05,
-      "loss": 0.4737,
-      "step": 370
-    },
-    {
-      "epoch": 1.18,
-      "grad_norm": 7.183070182800293,
-      "learning_rate": 9.946309098742424e-05,
-      "loss": 0.4325,
-      "step": 380
-    },
-    {
-      "epoch": 1.21,
-      "grad_norm": 4.066940784454346,
-      "learning_rate": 9.942664671904227e-05,
-      "loss": 0.527,
-      "step": 390
-    },
-    {
-      "epoch": 1.25,
-      "grad_norm": 4.427377700805664,
-      "learning_rate": 9.938901297002732e-05,
-      "loss": 0.4226,
-      "step": 400
-    },
-    {
-      "epoch": 1.25,
-      "eval_accuracy": 0.7621359223300971,
-      "eval_f1": 0.7735141412800338,
-      "eval_loss": 0.6494001150131226,
-      "eval_precision": 0.8136939310866815,
-      "eval_recall": 0.7621359223300971,
-      "eval_runtime": 37.3436,
-      "eval_samples_per_second": 77.229,
-      "eval_steps_per_second": 9.667,
-      "step": 400
-    },
-    {
-      "epoch": 1.28,
-      "grad_norm": 3.8335494995117188,
-      "learning_rate": 9.935019064605713e-05,
-      "loss": 0.4727,
-      "step": 410
-    },
-    {
-      "epoch": 1.31,
-      "grad_norm": 3.420801877975464,
-      "learning_rate": 9.931018068141324e-05,
-      "loss": 0.4028,
-      "step": 420
-    },
-    {
-      "epoch": 1.34,
-      "grad_norm": 3.57491397857666,
-      "learning_rate": 9.926898403895842e-05,
-      "loss": 0.5144,
-      "step": 430
-    },
-    {
-      "epoch": 1.37,
-      "grad_norm": 2.4824776649475098,
-      "learning_rate": 9.92266017101135e-05,
-      "loss": 0.3917,
-      "step": 440
-    },
-    {
-      "epoch": 1.4,
-      "grad_norm": 3.9230153560638428,
-      "learning_rate": 9.918303471483359e-05,
-      "loss": 0.4286,
-      "step": 450
-    },
-    {
-      "epoch": 1.43,
-      "grad_norm": 3.334120512008667,
-      "learning_rate": 9.913828410158342e-05,
-      "loss": 0.4159,
-      "step": 460
-    },
-    {
-      "epoch": 1.46,
-      "grad_norm": 3.502173662185669,
-      "learning_rate": 9.909235094731222e-05,
-      "loss": 0.3367,
-      "step": 470
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 6.164717674255371,
-      "learning_rate": 9.90452363574277e-05,
-      "loss": 0.3398,
-      "step": 480
-    },
-    {
-      "epoch": 1.53,
-      "grad_norm": 7.483583450317383,
-      "learning_rate": 9.899694146576952e-05,
-      "loss": 0.3941,
-      "step": 490
-    },
-    {
-      "epoch": 1.56,
-      "grad_norm": 2.83978009223938,
-      "learning_rate": 9.8947467434582e-05,
-      "loss": 0.3599,
-      "step": 500
-    },
-    {
-      "epoch": 1.56,
-      "eval_accuracy": 0.823509015256588,
-      "eval_f1": 0.8108853024782933,
-      "eval_loss": 0.5213786363601685,
-      "eval_precision": 0.8206648771819358,
-      "eval_recall": 0.823509015256588,
-      "eval_runtime": 37.1057,
-      "eval_samples_per_second": 77.724,
-      "eval_steps_per_second": 9.729,
-      "step": 500
-    },
-    {
-      "epoch": 1.59,
-      "grad_norm": 2.34218168258667,
-      "learning_rate": 9.889681545448608e-05,
-      "loss": 0.4614,
-      "step": 510
-    },
-    {
-      "epoch": 1.62,
-      "grad_norm": 4.667867660522461,
-      "learning_rate": 9.884498674445075e-05,
-      "loss": 0.4268,
-      "step": 520
-    },
-    {
-      "epoch": 1.65,
-      "grad_norm": 8.212017059326172,
-      "learning_rate": 9.87919825517637e-05,
-      "loss": 0.3964,
-      "step": 530
-    },
-    {
-      "epoch": 1.68,
-      "grad_norm": 2.64796781539917,
-      "learning_rate": 9.873780415200123e-05,
-      "loss": 0.3339,
-      "step": 540
-    },
-    {
-      "epoch": 1.71,
-      "grad_norm": 4.198647975921631,
-      "learning_rate": 9.868245284899764e-05,
-      "loss": 0.4548,
-      "step": 550
-    },
-    {
-      "epoch": 1.74,
-      "grad_norm": 4.222693920135498,
-      "learning_rate": 9.862592997481383e-05,
-      "loss": 0.3731,
-      "step": 560
-    },
-    {
-      "epoch": 1.78,
-      "grad_norm": 3.101301670074463,
-      "learning_rate": 9.856823688970525e-05,
-      "loss": 0.3133,
-      "step": 570
-    },
-    {
-      "epoch": 1.81,
-      "grad_norm": 3.361762523651123,
-      "learning_rate": 9.850937498208906e-05,
-      "loss": 0.3255,
-      "step": 580
-    },
-    {
-      "epoch": 1.84,
-      "grad_norm": 5.818238258361816,
-      "learning_rate": 9.84493456685109e-05,
-      "loss": 0.3941,
-      "step": 590
-    },
-    {
-      "epoch": 1.87,
-      "grad_norm": 2.1035287380218506,
-      "learning_rate": 9.838815039361066e-05,
-      "loss": 0.3533,
-      "step": 600
-    },
-    {
-      "epoch": 1.87,
-      "eval_accuracy": 0.8273231622746186,
-      "eval_f1": 0.8192634434149068,
-      "eval_loss": 0.534748911857605,
-      "eval_precision": 0.839212218456244,
-      "eval_recall": 0.8273231622746186,
-      "eval_runtime": 36.5566,
-      "eval_samples_per_second": 78.891,
-      "eval_steps_per_second": 9.875,
-      "step": 600
-    },
-    {
-      "epoch": 1.9,
-      "grad_norm": 5.71665620803833,
-      "learning_rate": 9.832579063008777e-05,
-      "loss": 0.4063,
-      "step": 610
-    },
-    {
-      "epoch": 1.93,
-      "grad_norm": 3.79347562789917,
-      "learning_rate": 9.826226787866574e-05,
-      "loss": 0.427,
-      "step": 620
-    },
-    {
-      "epoch": 1.96,
-      "grad_norm": 2.647468090057373,
-      "learning_rate": 9.819758366805607e-05,
-      "loss": 0.2353,
-      "step": 630
-    },
-    {
-      "epoch": 1.99,
-      "grad_norm": 3.3511950969696045,
-      "learning_rate": 9.813173955492141e-05,
-      "loss": 0.3889,
-      "step": 640
-    },
-    {
-      "epoch": 2.02,
-      "grad_norm": 4.286926746368408,
-      "learning_rate": 9.806473712383817e-05,
-      "loss": 0.2418,
-      "step": 650
-    },
-    {
-      "epoch": 2.06,
-      "grad_norm": 6.692331790924072,
-      "learning_rate": 9.79965779872583e-05,
-      "loss": 0.2296,
-      "step": 660
-    },
-    {
-      "epoch": 2.09,
-      "grad_norm": 3.424487590789795,
-      "learning_rate": 9.792726378547058e-05,
-      "loss": 0.1989,
-      "step": 670
-    },
-    {
-      "epoch": 2.12,
-      "grad_norm": 6.994248390197754,
-      "learning_rate": 9.785679618656106e-05,
-      "loss": 0.2232,
-      "step": 680
-    },
-    {
-      "epoch": 2.15,
-      "grad_norm": 5.3724365234375,
-      "learning_rate": 9.778517688637298e-05,
-      "loss": 0.2343,
-      "step": 690
-    },
-    {
-      "epoch": 2.18,
-      "grad_norm": 2.975245714187622,
-      "learning_rate": 9.77124076084659e-05,
-      "loss": 0.1178,
-      "step": 700
-    },
-    {
-      "epoch": 2.18,
-      "eval_accuracy": 0.8283633841886269,
-      "eval_f1": 0.8277021804405638,
-      "eval_loss": 0.5425286889076233,
-      "eval_precision": 0.838105973857857,
-      "eval_recall": 0.8283633841886269,
-      "eval_runtime": 36.4063,
-      "eval_samples_per_second": 79.217,
-      "eval_steps_per_second": 9.916,
-      "step": 700
-    },
-    {
-      "epoch": 2.21,
-      "grad_norm": 0.8108430504798889,
-      "learning_rate": 9.763849010407431e-05,
-      "loss": 0.2396,
-      "step": 710
-    },
-    {
-      "epoch": 2.24,
-      "grad_norm": 1.5715973377227783,
-      "learning_rate": 9.756342615206538e-05,
-      "loss": 0.3591,
-      "step": 720
-    },
-    {
-      "epoch": 2.27,
-      "grad_norm": 5.7021894454956055,
-      "learning_rate": 9.748721755889619e-05,
-      "loss": 0.3064,
-      "step": 730
-    },
-    {
-      "epoch": 2.31,
-      "grad_norm": 1.4883191585540771,
-      "learning_rate": 9.740986615857031e-05,
-      "loss": 0.1716,
-      "step": 740
-    },
-    {
-      "epoch": 2.34,
-      "grad_norm": 5.413182735443115,
-      "learning_rate": 9.733137381259363e-05,
-      "loss": 0.2045,
-      "step": 750
-    },
-    {
-      "epoch": 2.37,
-      "grad_norm": 2.8399062156677246,
-      "learning_rate": 9.725174240992947e-05,
-      "loss": 0.1557,
-      "step": 760
-    },
-    {
-      "epoch": 2.4,
-      "grad_norm": 8.557807922363281,
-      "learning_rate": 9.717097386695331e-05,
-      "loss": 0.3044,
-      "step": 770
-    },
-    {
-      "epoch": 2.43,
-      "grad_norm": 4.569642066955566,
-      "learning_rate": 9.708907012740649e-05,
-      "loss": 0.338,
-      "step": 780
-    },
-    {
-      "epoch": 2.46,
-      "grad_norm": 3.043851852416992,
-      "learning_rate": 9.700603316234952e-05,
-      "loss": 0.4123,
-      "step": 790
-    },
-    {
-      "epoch": 2.49,
-      "grad_norm": 2.985642194747925,
-      "learning_rate": 9.692186497011465e-05,
-      "loss": 0.2719,
-      "step": 800
-    },
-    {
-      "epoch": 2.49,
-      "eval_accuracy": 0.8463938973647711,
-      "eval_f1": 0.8437993661883203,
-      "eval_loss": 0.4453237056732178,
-      "eval_precision": 0.8463641738950213,
-      "eval_recall": 0.8463938973647711,
-      "eval_runtime": 36.5652,
-      "eval_samples_per_second": 78.873,
-      "eval_steps_per_second": 9.873,
-      "step": 800
-    },
-    {
-      "epoch": 2.52,
-      "grad_norm": 4.473091125488281,
-      "learning_rate": 9.683656757625777e-05,
-      "loss": 0.2869,
-      "step": 810
-    },
-    {
-      "epoch": 2.55,
-      "grad_norm": 7.418603420257568,
-      "learning_rate": 9.67501430335096e-05,
-      "loss": 0.202,
-      "step": 820
-    },
-    {
-      "epoch": 2.59,
-      "grad_norm": 3.375176191329956,
-      "learning_rate": 9.666259342172643e-05,
-      "loss": 0.1779,
-      "step": 830
-    },
-    {
-      "epoch": 2.62,
-      "grad_norm": 4.781165599822998,
-      "learning_rate": 9.65739208478399e-05,
-      "loss": 0.2148,
-      "step": 840
-    },
-    {
-      "epoch": 2.65,
-      "grad_norm": 0.5722386837005615,
-      "learning_rate": 9.648412744580644e-05,
-      "loss": 0.1715,
-      "step": 850
-    },
-    {
-      "epoch": 2.68,
-      "grad_norm": 5.580469608306885,
-      "learning_rate": 9.63932153765558e-05,
-      "loss": 0.2103,
-      "step": 860
-    },
-    {
-      "epoch": 2.71,
-      "grad_norm": 8.275124549865723,
-      "learning_rate": 9.630118682793917e-05,
-      "loss": 0.3448,
-      "step": 870
-    },
-    {
-      "epoch": 2.74,
-      "grad_norm": 5.884052753448486,
-      "learning_rate": 9.620804401467638e-05,
-      "loss": 0.2852,
-      "step": 880
-    },
-    {
-      "epoch": 2.77,
-      "grad_norm": 2.674102783203125,
-      "learning_rate": 9.611378917830271e-05,
-      "loss": 0.1887,
-      "step": 890
-    },
-    {
-      "epoch": 2.8,
-      "grad_norm": 2.95959210395813,
-      "learning_rate": 9.601842458711493e-05,
-      "loss": 0.1559,
-      "step": 900
-    },
-    {
-      "epoch": 2.8,
-      "eval_accuracy": 0.8325242718446602,
-      "eval_f1": 0.8284199470401122,
-      "eval_loss": 0.6127275824546814,
-      "eval_precision": 0.8566914070001943,
-      "eval_recall": 0.8325242718446602,
-      "eval_runtime": 37.1542,
-      "eval_samples_per_second": 77.623,
-      "eval_steps_per_second": 9.716,
-      "step": 900
-    },
-    {
-      "epoch": 2.83,
-      "grad_norm": 3.5971999168395996,
-      "learning_rate": 9.592195253611667e-05,
-      "loss": 0.3572,
-      "step": 910
-    },
-    {
-      "epoch": 2.87,
-      "grad_norm": 3.3870370388031006,
-      "learning_rate": 9.582437534696324e-05,
-      "loss": 0.3793,
-      "step": 920
-    },
-    {
-      "epoch": 2.9,
-      "grad_norm": 0.9074994325637817,
-      "learning_rate": 9.572569536790572e-05,
-      "loss": 0.3371,
-      "step": 930
-    },
-    {
-      "epoch": 2.93,
-      "grad_norm": 6.770932197570801,
-      "learning_rate": 9.562591497373448e-05,
-      "loss": 0.2833,
-      "step": 940
-    },
-    {
-      "epoch": 2.96,
-      "grad_norm": 6.183658123016357,
-      "learning_rate": 9.552503656572196e-05,
-      "loss": 0.2882,
-      "step": 950
-    },
-    {
-      "epoch": 2.99,
-      "grad_norm": 5.340375900268555,
-      "learning_rate": 9.542306257156502e-05,
-      "loss": 0.1809,
-      "step": 960
-    },
-    {
-      "epoch": 3.02,
-      "grad_norm": 4.281813621520996,
-      "learning_rate": 9.531999544532633e-05,
-      "loss": 0.1301,
-      "step": 970
-    },
-    {
-      "epoch": 3.05,
-      "grad_norm": 2.9234039783477783,
-      "learning_rate": 9.521583766737552e-05,
-      "loss": 0.088,
-      "step": 980
-    },
-    {
-      "epoch": 3.08,
-      "grad_norm": 0.24170830845832825,
-      "learning_rate": 9.511059174432925e-05,
-      "loss": 0.0491,
-      "step": 990
-    },
-    {
-      "epoch": 3.12,
-      "grad_norm": 4.773263931274414,
-      "learning_rate": 9.500426020899115e-05,
-      "loss": 0.1328,
-      "step": 1000
-    },
-    {
-      "epoch": 3.12,
-      "eval_accuracy": 0.8509015256588072,
-      "eval_f1": 0.8451195646353651,
-      "eval_loss": 0.5303316712379456,
-      "eval_precision": 0.845642270599866,
-      "eval_recall": 0.8509015256588072,
-      "eval_runtime": 36.7597,
-      "eval_samples_per_second": 78.456,
-      "eval_steps_per_second": 9.821,
-      "step": 1000
-    },
-    {
-      "epoch": 3.15,
-      "grad_norm": 1.725915789604187,
-      "learning_rate": 9.489684562029066e-05,
-      "loss": 0.1083,
-      "step": 1010
-    },
-    {
-      "epoch": 3.18,
-      "grad_norm": 4.2252888679504395,
-      "learning_rate": 9.47883505632215e-05,
-      "loss": 0.1296,
-      "step": 1020
-    },
-    {
-      "epoch": 3.21,
-      "grad_norm": 4.19112491607666,
-      "learning_rate": 9.467877764877955e-05,
-      "loss": 0.0713,
-      "step": 1030
-    },
-    {
-      "epoch": 3.24,
-      "grad_norm": 0.8787875175476074,
-      "learning_rate": 9.45681295138999e-05,
-      "loss": 0.0602,
-      "step": 1040
-    },
-    {
-      "epoch": 3.27,
-      "grad_norm": 2.9338300228118896,
-      "learning_rate": 9.445640882139342e-05,
-      "loss": 0.1112,
-      "step": 1050
-    },
-    {
-      "epoch": 3.3,
-      "grad_norm": 0.03492557257413864,
-      "learning_rate": 9.434361825988276e-05,
-      "loss": 0.0632,
-      "step": 1060
-    },
-    {
-      "epoch": 3.33,
-      "grad_norm": 7.183565616607666,
-      "learning_rate": 9.422976054373753e-05,
-      "loss": 0.1271,
-      "step": 1070
-    },
-    {
-      "epoch": 3.36,
-      "grad_norm": 5.910800457000732,
-      "learning_rate": 9.411483841300905e-05,
-      "loss": 0.1384,
-      "step": 1080
-    },
-    {
-      "epoch": 3.4,
-      "grad_norm": 4.911332607269287,
-      "learning_rate": 9.399885463336437e-05,
-      "loss": 0.0607,
-      "step": 1090
-    },
-    {
-      "epoch": 3.43,
-      "grad_norm": 1.9047012329101562,
-      "learning_rate": 9.388181199601974e-05,
-      "loss": 0.1756,
-      "step": 1100
-    },
-    {
-      "epoch": 3.43,
-      "eval_accuracy": 0.8321775312066574,
-      "eval_f1": 0.8151306059680461,
-      "eval_loss": 0.7960126996040344,
-      "eval_precision": 0.8366372545968512,
-      "eval_recall": 0.8321775312066574,
-      "eval_runtime": 36.834,
-      "eval_samples_per_second": 78.297,
-      "eval_steps_per_second": 9.801,
-      "step": 1100
-    },
-    {
-      "epoch": 3.46,
-      "grad_norm": 0.7878803610801697,
-      "learning_rate": 9.376371331767345e-05,
-      "loss": 0.1006,
-      "step": 1110
-    },
-    {
-      "epoch": 3.49,
-      "grad_norm": 1.042022705078125,
-      "learning_rate": 9.364456144043798e-05,
-      "loss": 0.1516,
-      "step": 1120
-    },
-    {
-      "epoch": 3.52,
-      "grad_norm": 1.4984287023544312,
-      "learning_rate": 9.35243592317717e-05,
-      "loss": 0.0771,
-      "step": 1130
-    },
-    {
-      "epoch": 3.55,
-      "grad_norm": 7.682912349700928,
-      "learning_rate": 9.340310958440976e-05,
-      "loss": 0.0898,
-      "step": 1140
-    },
-    {
-      "epoch": 3.58,
-      "grad_norm": 4.866548538208008,
-      "learning_rate": 9.328081541629453e-05,
-      "loss": 0.1182,
-      "step": 1150
-    },
-    {
-      "epoch": 3.61,
-      "grad_norm": 2.1378111839294434,
-      "learning_rate": 9.315747967050541e-05,
-      "loss": 0.2255,
-      "step": 1160
-    },
-    {
-      "epoch": 3.64,
-      "grad_norm": 1.4697102308273315,
-      "learning_rate": 9.303310531518793e-05,
-      "loss": 0.1011,
-      "step": 1170
-    },
-    {
-      "epoch": 3.68,
-      "grad_norm": 5.105794429779053,
-      "learning_rate": 9.290769534348236e-05,
-      "loss": 0.1298,
-      "step": 1180
-    },
-    {
-      "epoch": 3.71,
-      "grad_norm": 5.116852760314941,
-      "learning_rate": 9.278125277345168e-05,
-      "loss": 0.1145,
-      "step": 1190
-    },
-    {
-      "epoch": 3.74,
-      "grad_norm": 1.9126471281051636,
-      "learning_rate": 9.265378064800895e-05,
-      "loss": 0.3582,
-      "step": 1200
-    },
-    {
-      "epoch": 3.74,
-      "eval_accuracy": 0.834257975034674,
-      "eval_f1": 0.824916890066515,
-      "eval_loss": 0.6675512790679932,
-      "eval_precision": 0.8284494824114729,
-      "eval_recall": 0.834257975034674,
-      "eval_runtime": 36.0917,
-      "eval_samples_per_second": 79.908,
-      "eval_steps_per_second": 10.002,
-      "step": 1200
-    },
-    {
-      "epoch": 3.77,
-      "grad_norm": 4.828185081481934,
-      "learning_rate": 9.252528203484403e-05,
-      "loss": 0.1843,
-      "step": 1210
-    },
-    {
-      "epoch": 3.8,
-      "grad_norm": 2.7517149448394775,
-      "learning_rate": 9.239576002634984e-05,
-      "loss": 0.1066,
-      "step": 1220
-    },
-    {
-      "epoch": 3.83,
-      "grad_norm": 3.601691246032715,
-      "learning_rate": 9.226521773954791e-05,
-      "loss": 0.1121,
-      "step": 1230
-    },
-    {
-      "epoch": 3.86,
-      "grad_norm": 0.0293317511677742,
-      "learning_rate": 9.21336583160133e-05,
-      "loss": 0.1822,
-      "step": 1240
-    },
-    {
-      "epoch": 3.89,
-      "grad_norm": 0.6248491406440735,
-      "learning_rate": 9.200108492179906e-05,
-      "loss": 0.1261,
-      "step": 1250
-    },
-    {
-      "epoch": 3.93,
-      "grad_norm": 0.1484900414943695,
-      "learning_rate": 9.186750074736009e-05,
-      "loss": 0.1224,
-      "step": 1260
-    },
-    {
-      "epoch": 3.96,
-      "grad_norm": 2.4208881855010986,
-      "learning_rate": 9.17329090074762e-05,
-      "loss": 0.1018,
-      "step": 1270
-    },
-    {
-      "epoch": 3.99,
-      "grad_norm": 0.208229199051857,
-      "learning_rate": 9.159731294117492e-05,
-      "loss": 0.1453,
-      "step": 1280
-    },
-    {
-      "epoch": 4.02,
-      "grad_norm": 0.03745197877287865,
-      "learning_rate": 9.146071581165345e-05,
-      "loss": 0.1056,
-      "step": 1290
-    },
-    {
-      "epoch": 4.05,
-      "grad_norm": 1.308124303817749,
-      "learning_rate": 9.132312090620011e-05,
-      "loss": 0.025,
-      "step": 1300
-    },
-    {
-      "epoch": 4.05,
-      "eval_accuracy": 0.8474341192787794,
-      "eval_f1": 0.8476771584783079,
-      "eval_loss": 0.5981015563011169,
-      "eval_precision": 0.859867898706205,
-      "eval_recall": 0.8474341192787794,
-      "eval_runtime": 36.0165,
-      "eval_samples_per_second": 80.074,
-      "eval_steps_per_second": 10.023,
-      "step": 1300
-    },
-    {
-      "epoch": 4.08,
-      "grad_norm": 0.0758899599313736,
-      "learning_rate": 9.118453153611532e-05,
-      "loss": 0.0298,
-      "step": 1310
-    },
-    {
-      "epoch": 4.11,
-      "grad_norm": 0.28617605566978455,
-      "learning_rate": 9.104495103663187e-05,
-      "loss": 0.017,
-      "step": 1320
-    },
-    {
-      "epoch": 4.14,
-      "grad_norm": 0.19124433398246765,
-      "learning_rate": 9.090438276683457e-05,
-      "loss": 0.017,
-      "step": 1330
-    },
-    {
-      "epoch": 4.17,
-      "grad_norm": 0.31906023621559143,
-      "learning_rate": 9.07628301095796e-05,
-      "loss": 0.0196,
-      "step": 1340
-    },
-    {
-      "epoch": 4.21,
-      "grad_norm": 7.870569229125977,
-      "learning_rate": 9.062029647141289e-05,
-      "loss": 0.0685,
-      "step": 1350
-    },
-    {
-      "epoch": 4.24,
-      "grad_norm": 5.755252361297607,
-      "learning_rate": 9.04767852824883e-05,
-      "loss": 0.0266,
-      "step": 1360
-    },
-    {
-      "epoch": 4.27,
-      "grad_norm": 0.05481214076280594,
-      "learning_rate": 9.0332299996485e-05,
-      "loss": 0.0594,
-      "step": 1370
-    },
-    {
-      "epoch": 4.3,
-      "grad_norm": 5.236385345458984,
-      "learning_rate": 9.018684409052436e-05,
-      "loss": 0.0999,
-      "step": 1380
-    },
-    {
-      "epoch": 4.33,
-      "grad_norm": 5.066316604614258,
-      "learning_rate": 9.004042106508625e-05,
-      "loss": 0.0612,
-      "step": 1390
-    },
-    {
-      "epoch": 4.36,
-      "grad_norm": 0.9376081824302673,
-      "learning_rate": 8.989303444392487e-05,
-      "loss": 0.042,
-      "step": 1400
-    },
-    {
-      "epoch": 4.36,
-      "eval_accuracy": 0.8162274618585298,
-      "eval_f1": 0.8241381969601037,
-      "eval_loss": 0.8095719814300537,
-      "eval_precision": 0.8477203881282387,
-      "eval_recall": 0.8162274618585298,
-      "eval_runtime": 36.3685,
-      "eval_samples_per_second": 79.299,
-      "eval_steps_per_second": 9.926,
-      "step": 1400
-    },
-    {
-      "epoch": 4.39,
-      "grad_norm": 0.013413701206445694,
-      "learning_rate": 8.974468777398388e-05,
-      "loss": 0.1021,
-      "step": 1410
-    },
-    {
-      "epoch": 4.42,
-      "grad_norm": 7.129204750061035,
-      "learning_rate": 8.959538462531108e-05,
-      "loss": 0.1356,
-      "step": 1420
-    },
-    {
-      "epoch": 4.45,
-      "grad_norm": 3.306025505065918,
-      "learning_rate": 8.944512859097245e-05,
-      "loss": 0.0191,
-      "step": 1430
-    },
-    {
-      "epoch": 4.49,
-      "grad_norm": 0.022593187168240547,
-      "learning_rate": 8.929392328696574e-05,
-      "loss": 0.0448,
-      "step": 1440
-    },
-    {
-      "epoch": 4.52,
-      "grad_norm": 4.569972991943359,
-      "learning_rate": 8.914177235213341e-05,
-      "loss": 0.073,
-      "step": 1450
-    },
-    {
-      "epoch": 4.55,
-      "grad_norm": 4.406450271606445,
-      "learning_rate": 8.898867944807507e-05,
-      "loss": 0.0672,
-      "step": 1460
-    },
-    {
-      "epoch": 4.58,
-      "grad_norm": 7.7769904136657715,
-      "learning_rate": 8.883464825905934e-05,
-      "loss": 0.0947,
-      "step": 1470
-    },
-    {
-      "epoch": 4.61,
-      "grad_norm": 9.705739974975586,
-      "learning_rate": 8.867968249193526e-05,
-      "loss": 0.0344,
-      "step": 1480
-    },
-    {
-      "epoch": 4.64,
-      "grad_norm": 1.0004101991653442,
-      "learning_rate": 8.852378587604297e-05,
-      "loss": 0.0877,
-      "step": 1490
-    },
-    {
-      "epoch": 4.67,
-      "grad_norm": 0.8759760856628418,
-      "learning_rate": 8.836696216312405e-05,
-      "loss": 0.05,
-      "step": 1500
-    },
-    {
-      "epoch": 4.67,
-      "eval_accuracy": 0.841886269070735,
-      "eval_f1": 0.8341416187793224,
-      "eval_loss": 0.7948272228240967,
-      "eval_precision": 0.8474305891416275,
-      "eval_recall": 0.841886269070735,
-      "eval_runtime": 37.2997,
-      "eval_samples_per_second": 77.32,
-      "eval_steps_per_second": 9.678,
-      "step": 1500
-    },
-    {
-      "epoch": 4.7,
-      "grad_norm": 0.008059758692979813,
-      "learning_rate": 8.82092151272312e-05,
-      "loss": 0.0939,
-      "step": 1510
-    },
-    {
-      "epoch": 4.74,
-      "grad_norm": 0.09355029463768005,
-      "learning_rate": 8.80505485646374e-05,
-      "loss": 0.03,
-      "step": 1520
-    },
-    {
-      "epoch": 4.77,
-      "grad_norm": 0.4395085871219635,
-      "learning_rate": 8.78909662937446e-05,
-      "loss": 0.1189,
-      "step": 1530
-    },
-    {
-      "epoch": 4.8,
-      "grad_norm": 0.6208884119987488,
-      "learning_rate": 8.773047215499176e-05,
-      "loss": 0.06,
-      "step": 1540
-    },
-    {
-      "epoch": 4.83,
-      "grad_norm": 1.5753854513168335,
-      "learning_rate": 8.756907001076249e-05,
-      "loss": 0.0517,
-      "step": 1550
-    },
-    {
-      "epoch": 4.86,
-      "grad_norm": 5.975317001342773,
-      "learning_rate": 8.740676374529206e-05,
-      "loss": 0.1042,
-      "step": 1560
-    },
-    {
-      "epoch": 4.89,
-      "grad_norm": 3.8262839317321777,
-      "learning_rate": 8.724355726457395e-05,
-      "loss": 0.0716,
-      "step": 1570
-    },
-    {
-      "epoch": 4.92,
-      "grad_norm": 2.5249273777008057,
-      "learning_rate": 8.707945449626583e-05,
-      "loss": 0.0254,
-      "step": 1580
-    },
-    {
-      "epoch": 4.95,
-      "grad_norm": 10.16901969909668,
-      "learning_rate": 8.691445938959504e-05,
-      "loss": 0.1318,
-      "step": 1590
-    },
-    {
-      "epoch": 4.98,
-      "grad_norm": 1.012184977531433,
-      "learning_rate": 8.674857591526355e-05,
-      "loss": 0.028,
-      "step": 1600
-    },
-    {
-      "epoch": 4.98,
-      "eval_accuracy": 0.8457004160887656,
-      "eval_f1": 0.8476462818721602,
-      "eval_loss": 0.6741925477981567,
-      "eval_precision": 0.8558392490201036,
-      "eval_recall": 0.8457004160887656,
-      "eval_runtime": 37.79,
-      "eval_samples_per_second": 76.316,
-      "eval_steps_per_second": 9.553,
-      "step": 1600
-    },
-    {
-      "epoch": 5.02,
-      "grad_norm": 1.2411854267120361,
-      "learning_rate": 8.658180806535243e-05,
-      "loss": 0.0079,
-      "step": 1610
-    },
-    {
-      "epoch": 5.05,
-      "grad_norm": 8.111499786376953,
-      "learning_rate": 8.641415985322571e-05,
-      "loss": 0.0455,
-      "step": 1620
-    },
-    {
-      "epoch": 5.08,
-      "grad_norm": 0.05484266206622124,
-      "learning_rate": 8.624563531343393e-05,
-      "loss": 0.0255,
-      "step": 1630
-    },
-    {
-      "epoch": 5.11,
-      "grad_norm": 0.6857353448867798,
-      "learning_rate": 8.607623850161686e-05,
-      "loss": 0.0115,
-      "step": 1640
-    },
-    {
-      "epoch": 5.14,
-      "grad_norm": 0.38402843475341797,
-      "learning_rate": 8.590597349440604e-05,
-      "loss": 0.0171,
-      "step": 1650
-    },
-    {
-      "epoch": 5.17,
-      "grad_norm": 0.07074743509292603,
-      "learning_rate": 8.573484438932666e-05,
-      "loss": 0.0067,
-      "step": 1660
-    },
-    {
-      "epoch": 5.2,
-      "grad_norm": 0.1260824352502823,
-      "learning_rate": 8.556285530469887e-05,
-      "loss": 0.009,
-      "step": 1670
-    },
-    {
-      "epoch": 5.23,
-      "grad_norm": 0.23438212275505066,
-      "learning_rate": 8.539001037953876e-05,
-      "loss": 0.0232,
-      "step": 1680
-    },
-    {
-      "epoch": 5.26,
-      "grad_norm": 0.19910460710525513,
-      "learning_rate": 8.521631377345869e-05,
-      "loss": 0.0022,
-      "step": 1690
-    },
-    {
-      "epoch": 5.3,
-      "grad_norm": 0.016467662528157234,
-      "learning_rate": 8.50417696665672e-05,
-      "loss": 0.0048,
-      "step": 1700
-    },
-    {
-      "epoch": 5.3,
-      "eval_accuracy": 0.8484743411927878,
-      "eval_f1": 0.8499629260872099,
-      "eval_loss": 0.7832539081573486,
-      "eval_precision": 0.8576584679191768,
-      "eval_recall": 0.8484743411927878,
-      "eval_runtime": 37.0076,
-      "eval_samples_per_second": 77.93,
-      "eval_steps_per_second": 9.755,
-      "step": 1700
-    },
-    {
-      "epoch": 5.33,
-      "grad_norm": 0.006973025389015675,
-      "learning_rate": 8.486638225936848e-05,
-      "loss": 0.073,
-      "step": 1710
-    },
-    {
-      "epoch": 5.36,
-      "grad_norm": 0.29455187916755676,
-      "learning_rate": 8.469015577266115e-05,
-      "loss": 0.002,
-      "step": 1720
-    },
-    {
-      "epoch": 5.39,
-      "grad_norm": 0.06881581246852875,
-      "learning_rate": 8.451309444743682e-05,
-      "loss": 0.0479,
-      "step": 1730
-    },
-    {
-      "epoch": 5.42,
-      "grad_norm": 0.03852876275777817,
-      "learning_rate": 8.433520254477793e-05,
-      "loss": 0.0821,
-      "step": 1740
-    },
-    {
-      "epoch": 5.45,
-      "grad_norm": 0.0018428952898830175,
-      "learning_rate": 8.415648434575529e-05,
-      "loss": 0.0375,
-      "step": 1750
-    },
-    {
-      "epoch": 5.48,
-      "grad_norm": 0.003056368324905634,
-      "learning_rate": 8.397694415132495e-05,
-      "loss": 0.0884,
-      "step": 1760
-    },
-    {
-      "epoch": 5.51,
-      "grad_norm": 1.8021758794784546,
-      "learning_rate": 8.379658628222478e-05,
-      "loss": 0.0091,
-      "step": 1770
-    },
-    {
-      "epoch": 5.55,
-      "grad_norm": 0.1937793642282486,
-      "learning_rate": 8.361541507887045e-05,
-      "loss": 0.0101,
-      "step": 1780
-    },
-    {
-      "epoch": 5.58,
-      "grad_norm": 2.138684034347534,
-      "learning_rate": 8.343343490125102e-05,
-      "loss": 0.1135,
-      "step": 1790
-    },
-    {
-      "epoch": 5.61,
-      "grad_norm": 0.781872034072876,
-      "learning_rate": 8.325065012882392e-05,
-      "loss": 0.0324,
-      "step": 1800
-    },
-    {
-      "epoch": 5.61,
-      "eval_accuracy": 0.8533287101248266,
-      "eval_f1": 0.8511397162148655,
-      "eval_loss": 0.7405093312263489,
-      "eval_precision": 0.8523403828700276,
-      "eval_recall": 0.8533287101248266,
-      "eval_runtime": 37.0368,
-      "eval_samples_per_second": 77.869,
-      "eval_steps_per_second": 9.747,
-      "step": 1800
-    },
-    {
-      "epoch": 5.61,
-      "step": 1800,
-      "total_flos": 2.2287694956200755e+18,
-      "train_loss": 0.2811500767639114,
-      "train_runtime": 1301.746,
-      "train_samples_per_second": 393.932,
-      "train_steps_per_second": 24.659
     }
   ],
-  "logging_steps": 10,
   "max_steps": 32100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
-  "save_steps": 100,
-  "total_flos": 2.2287694956200755e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5963773131370544,
+  "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-642",
+  "epoch": 12.0,
+  "eval_steps": 500,
+  "global_step": 3852,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "grad_norm": 4.743273735046387,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 0.806,
+      "step": 321
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7465325936199723,
+      "eval_f1": 0.6995266195661654,
+      "eval_loss": 0.7538458108901978,
+      "eval_precision": 0.7318596775013999,
+      "eval_recall": 0.7465325936199723,
+      "eval_runtime": 42.3197,
+      "eval_samples_per_second": 68.148,
+      "eval_steps_per_second": 8.53,
+      "step": 321
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.603039741516113,
+      "learning_rate": 0.0001585786437626905,
+      "loss": 0.6108,
+      "step": 642
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7978502080443828,
+      "eval_f1": 0.7792929975948731,
+      "eval_loss": 0.5963773131370544,
+      "eval_precision": 0.7969524883183612,
+      "eval_recall": 0.7978502080443828,
+      "eval_runtime": 41.5398,
+      "eval_samples_per_second": 69.427,
+      "eval_steps_per_second": 8.69,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.9543079137802124,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.5038,
+      "step": 963
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7857142857142857,
+      "eval_f1": 0.7634339903359785,
+      "eval_loss": 0.6932518482208252,
+      "eval_precision": 0.7761466356337973,
+      "eval_recall": 0.7857142857142857,
+      "eval_runtime": 41.9279,
+      "eval_samples_per_second": 68.785,
+      "eval_steps_per_second": 8.61,
+      "step": 963
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 5.373469352722168,
+      "learning_rate": 0.0004414213562373095,
+      "loss": 0.3939,
+      "step": 1284
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8023578363384188,
+      "eval_f1": 0.792141645758032,
+      "eval_loss": 0.6029081344604492,
+      "eval_precision": 0.798347633331751,
+      "eval_recall": 0.8023578363384188,
+      "eval_runtime": 40.6302,
+      "eval_samples_per_second": 70.982,
+      "eval_steps_per_second": 8.885,
+      "step": 1284
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.7852970361709595,
+      "learning_rate": 0.0004414213562373095,
+      "loss": 0.2961,
+      "step": 1605
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7874479889042996,
+      "eval_f1": 0.7616828983903079,
+      "eval_loss": 0.7347444891929626,
+      "eval_precision": 0.7657012162041952,
+      "eval_recall": 0.7874479889042996,
+      "eval_runtime": 40.4935,
+      "eval_samples_per_second": 71.221,
+      "eval_steps_per_second": 8.915,
+      "step": 1605
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.07125339657068253,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 0.2392,
+      "step": 1926
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8002773925104022,
+      "eval_f1": 0.8006330723917671,
+      "eval_loss": 0.7591750025749207,
+      "eval_precision": 0.804264341802859,
+      "eval_recall": 0.8002773925104022,
+      "eval_runtime": 40.5444,
+      "eval_samples_per_second": 71.132,
+      "eval_steps_per_second": 8.904,
+      "step": 1926
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 8.10545539855957,
+      "learning_rate": 0.0001585786437626905,
+      "loss": 0.1848,
+      "step": 2247
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7763522884882108,
+      "eval_f1": 0.7715354351312519,
+      "eval_loss": 0.9079565405845642,
+      "eval_precision": 0.788489029323623,
+      "eval_recall": 0.7763522884882108,
+      "eval_runtime": 40.1034,
+      "eval_samples_per_second": 71.914,
+      "eval_steps_per_second": 9.002,
+      "step": 2247
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 5.128286838531494,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.1469,
+      "step": 2568
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7905686546463245,
+      "eval_f1": 0.7939091078548914,
+      "eval_loss": 0.871410608291626,
+      "eval_precision": 0.8024879308626485,
+      "eval_recall": 0.7905686546463245,
+      "eval_runtime": 41.0669,
+      "eval_samples_per_second": 70.227,
+      "eval_steps_per_second": 8.791,
+      "step": 2568
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 1.628487467765808,
+      "learning_rate": 0.0004414213562373095,
+      "loss": 0.1179,
+      "step": 2889
+    },
+    {
+      "epoch": 9.0,
       "eval_accuracy": 0.7517337031900139,
+      "eval_f1": 0.7621676655719284,
+      "eval_loss": 1.072391390800476,
+      "eval_precision": 0.8053888419832579,
       "eval_recall": 0.7517337031900139,
+      "eval_runtime": 41.0124,
+      "eval_samples_per_second": 70.32,
+      "eval_steps_per_second": 8.802,
+      "step": 2889
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 9.185128211975098,
+      "learning_rate": 9.999999999999999e-05,
+      "loss": 0.1122,
+      "step": 3210
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7513869625520111,
+      "eval_f1": 0.7618970117176088,
+      "eval_loss": 1.0936229228973389,
+      "eval_precision": 0.7897952030598315,
+      "eval_recall": 0.7513869625520111,
+      "eval_runtime": 40.8123,
+      "eval_samples_per_second": 70.665,
+      "eval_steps_per_second": 8.845,
+      "step": 3210
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.01600128598511219,
+      "learning_rate": 0.0001585786437626905,
+      "loss": 0.0854,
+      "step": 3531
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7839805825242718,
+      "eval_f1": 0.7887505283170607,
+      "eval_loss": 1.1094753742218018,
+      "eval_precision": 0.7999745071462654,
+      "eval_recall": 0.7839805825242718,
+      "eval_runtime": 41.6728,
+      "eval_samples_per_second": 69.206,
+      "eval_steps_per_second": 8.663,
+      "step": 3531
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 7.80008602142334,
+      "learning_rate": 0.00030000000000000003,
+      "loss": 0.1031,
+      "step": 3852
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7964632454923717,
+      "eval_f1": 0.8003938414468947,
+      "eval_loss": 0.9343960881233215,
+      "eval_precision": 0.80861375284537,
+      "eval_recall": 0.7964632454923717,
+      "eval_runtime": 40.1152,
+      "eval_samples_per_second": 71.893,
+      "eval_steps_per_second": 8.999,
+      "step": 3852
+    },
+    {
+      "epoch": 12.0,
+      "step": 3852,
+      "total_flos": 4.768760767819088e+18,
+      "train_loss": 0.30000500961256177,
+      "train_runtime": 2048.5956,
+      "train_samples_per_second": 250.318,
+      "train_steps_per_second": 15.669
     }
   ],
+  "logging_steps": 500,
   "max_steps": 32100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 100,
+  "save_steps": 500,
+  "total_flos": 4.768760767819088e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null