🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +11 -11
eval_results.json +6 -6
runs/Nov19_07-31-43_09d27efa0afa/events.out.tfevents.1700384480.09d27efa0afa.1367.1 +3 -0
train_results.json +6 -6
trainer_state.json +2041 -322

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8461538461538461
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_all_10_class
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5398
-- Accuracy: 0.8462
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: Action_small_dataset
       type: imagefolder
       config: default
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8646723646723646
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Action_all_10_class
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the Action_small_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5056
+- Accuracy: 0.8647
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.8945868945868946,
-    "eval_loss": 0.3586599826812744,
-    "eval_runtime": 12.4844,
-    "eval_samples_per_second": 56.23,
-    "eval_steps_per_second": 7.049,
-    "total_flos": 1.539101261655982e+18,
-    "train_loss": 0.6706935805968013,
-    "train_runtime": 749.324,
-    "train_samples_per_second": 26.504,
-    "train_steps_per_second": 1.661
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.8646723646723646,
+    "eval_loss": 0.5055693984031677,
+    "eval_runtime": 16.1252,
+    "eval_samples_per_second": 43.534,
+    "eval_steps_per_second": 5.457,
+    "total_flos": 4.617303784967946e+18,
+    "train_loss": 0.43795731744293864,
+    "train_runtime": 5300.4754,
+    "train_samples_per_second": 11.241,
+    "train_steps_per_second": 0.705
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "eval_accuracy": 0.8945868945868946,
-    "eval_loss": 0.3586599826812744,
-    "eval_runtime": 12.4844,
-    "eval_samples_per_second": 56.23,
-    "eval_steps_per_second": 7.049
 }

 {
+    "epoch": 15.0,
+    "eval_accuracy": 0.8646723646723646,
+    "eval_loss": 0.5055693984031677,
+    "eval_runtime": 16.1252,
+    "eval_samples_per_second": 43.534,
+    "eval_steps_per_second": 5.457
 }

runs/Nov19_07-31-43_09d27efa0afa/events.out.tfevents.1700384480.09d27efa0afa.1367.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b338b4882b66ba3ec59776afe6226a5809d426dd2460d3ca89313edf32cd7e0
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 5.0,
-    "total_flos": 1.539101261655982e+18,
-    "train_loss": 0.6706935805968013,
-    "train_runtime": 749.324,
-    "train_samples_per_second": 26.504,
-    "train_steps_per_second": 1.661
 }

 {
+    "epoch": 15.0,
+    "total_flos": 4.617303784967946e+18,
+    "train_loss": 0.43795731744293864,
+    "train_runtime": 5300.4754,
+    "train_samples_per_second": 11.241,
+    "train_steps_per_second": 0.705
 }

trainer_state.json CHANGED Viewed

@@ -1,880 +1,2599 @@
 {
-  "best_metric": 0.3586599826812744,
-  "best_model_checkpoint": "Action_all_10_class/checkpoint-1000",
-  "epoch": 5.0,
   "eval_steps": 100,
-  "global_step": 1245,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 0.00019839357429718877,
-      "loss": 2.1986,
       "step": 10
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00019678714859437752,
-      "loss": 2.0053,
       "step": 20
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019518072289156628,
-      "loss": 1.8025,
       "step": 30
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.00019357429718875504,
-      "loss": 1.577,
       "step": 40
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.00019196787148594377,
-      "loss": 1.5746,
       "step": 50
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00019036144578313252,
-      "loss": 1.4402,
       "step": 60
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.00018875502008032128,
-      "loss": 1.3624,
       "step": 70
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00018714859437751004,
-      "loss": 1.2849,
       "step": 80
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0001855421686746988,
-      "loss": 1.2064,
       "step": 90
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.00018393574297188755,
-      "loss": 1.1524,
       "step": 100
     },
     {
       "epoch": 0.4,
-      "eval_accuracy": 0.6951566951566952,
-      "eval_loss": 1.0612293481826782,
-      "eval_runtime": 13.0271,
-      "eval_samples_per_second": 53.888,
-      "eval_steps_per_second": 6.755,
       "step": 100
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0001823293172690763,
-      "loss": 1.085,
       "step": 110
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00018072289156626507,
-      "loss": 0.9779,
       "step": 120
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.00017911646586345382,
-      "loss": 1.0527,
       "step": 130
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.00017751004016064258,
-      "loss": 1.2653,
       "step": 140
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00017590361445783134,
-      "loss": 1.0224,
       "step": 150
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0001742971887550201,
-      "loss": 1.0313,
       "step": 160
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.00017269076305220885,
-      "loss": 1.1361,
       "step": 170
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.0001710843373493976,
-      "loss": 1.0008,
       "step": 180
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.00016947791164658636,
-      "loss": 1.0386,
       "step": 190
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.00016787148594377512,
-      "loss": 0.9818,
       "step": 200
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.7877492877492878,
-      "eval_loss": 0.7399429082870483,
-      "eval_runtime": 13.2513,
-      "eval_samples_per_second": 52.976,
-      "eval_steps_per_second": 6.641,
       "step": 200
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.00016626506024096388,
-      "loss": 1.058,
       "step": 210
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.00016465863453815263,
-      "loss": 0.9421,
       "step": 220
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.0001630522088353414,
-      "loss": 0.9055,
       "step": 230
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.00016144578313253015,
-      "loss": 0.7195,
       "step": 240
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.00015983935742971888,
-      "loss": 0.9547,
       "step": 250
     },
     {
       "epoch": 1.04,
-      "learning_rate": 0.00015823293172690763,
-      "loss": 0.7786,
       "step": 260
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.0001566265060240964,
-      "loss": 0.7334,
       "step": 270
     },
     {
       "epoch": 1.12,
-      "learning_rate": 0.00015502008032128515,
-      "loss": 0.8422,
       "step": 280
     },
     {
       "epoch": 1.16,
-      "learning_rate": 0.0001534136546184739,
-      "loss": 0.7638,
       "step": 290
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00015180722891566266,
-      "loss": 0.844,
       "step": 300
     },
     {
       "epoch": 1.2,
-      "eval_accuracy": 0.7692307692307693,
-      "eval_loss": 0.7196186780929565,
-      "eval_runtime": 12.9868,
-      "eval_samples_per_second": 54.055,
-      "eval_steps_per_second": 6.776,
       "step": 300
     },
     {
       "epoch": 1.24,
-      "learning_rate": 0.00015020080321285142,
-      "loss": 0.812,
       "step": 310
     },
     {
       "epoch": 1.29,
-      "learning_rate": 0.00014859437751004018,
-      "loss": 0.801,
       "step": 320
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.00014698795180722893,
-      "loss": 0.72,
       "step": 330
     },
     {
       "epoch": 1.37,
-      "learning_rate": 0.0001453815261044177,
-      "loss": 0.7235,
       "step": 340
     },
     {
       "epoch": 1.41,
-      "learning_rate": 0.00014377510040160642,
-      "loss": 0.7429,
       "step": 350
     },
     {
       "epoch": 1.45,
-      "learning_rate": 0.00014216867469879518,
-      "loss": 0.8045,
       "step": 360
     },
     {
       "epoch": 1.49,
-      "learning_rate": 0.00014056224899598393,
-      "loss": 0.6534,
       "step": 370
     },
     {
       "epoch": 1.53,
-      "learning_rate": 0.0001389558232931727,
-      "loss": 0.6554,
       "step": 380
     },
     {
       "epoch": 1.57,
-      "learning_rate": 0.00013734939759036145,
-      "loss": 0.7605,
       "step": 390
     },
     {
       "epoch": 1.61,
-      "learning_rate": 0.0001357429718875502,
-      "loss": 0.7992,
       "step": 400
     },
     {
       "epoch": 1.61,
-      "eval_accuracy": 0.8376068376068376,
-      "eval_loss": 0.5383489727973938,
-      "eval_runtime": 13.2408,
-      "eval_samples_per_second": 53.018,
-      "eval_steps_per_second": 6.646,
       "step": 400
     },
     {
       "epoch": 1.65,
-      "learning_rate": 0.00013413654618473896,
-      "loss": 0.8029,
       "step": 410
     },
     {
       "epoch": 1.69,
-      "learning_rate": 0.00013253012048192772,
-      "loss": 0.7173,
       "step": 420
     },
     {
       "epoch": 1.73,
-      "learning_rate": 0.00013092369477911648,
-      "loss": 0.7658,
       "step": 430
     },
     {
       "epoch": 1.77,
-      "learning_rate": 0.00012931726907630523,
-      "loss": 0.6767,
       "step": 440
     },
     {
       "epoch": 1.81,
-      "learning_rate": 0.00012771084337349396,
-      "loss": 0.7436,
       "step": 450
     },
     {
       "epoch": 1.85,
-      "learning_rate": 0.00012610441767068272,
-      "loss": 0.679,
       "step": 460
     },
     {
       "epoch": 1.89,
-      "learning_rate": 0.00012449799196787148,
-      "loss": 0.6192,
       "step": 470
     },
     {
       "epoch": 1.93,
-      "learning_rate": 0.00012289156626506023,
-      "loss": 0.7447,
       "step": 480
     },
     {
       "epoch": 1.97,
-      "learning_rate": 0.000121285140562249,
-      "loss": 0.7223,
       "step": 490
     },
     {
       "epoch": 2.01,
-      "learning_rate": 0.00011967871485943776,
-      "loss": 0.7203,
       "step": 500
     },
     {
       "epoch": 2.01,
-      "eval_accuracy": 0.8390313390313391,
-      "eval_loss": 0.5222235321998596,
-      "eval_runtime": 12.8642,
-      "eval_samples_per_second": 54.57,
-      "eval_steps_per_second": 6.841,
       "step": 500
     },
     {
       "epoch": 2.05,
-      "learning_rate": 0.00011807228915662652,
-      "loss": 0.7294,
       "step": 510
     },
     {
       "epoch": 2.09,
-      "learning_rate": 0.00011646586345381527,
-      "loss": 0.5726,
       "step": 520
     },
     {
       "epoch": 2.13,
-      "learning_rate": 0.00011485943775100403,
-      "loss": 0.6862,
       "step": 530
     },
     {
       "epoch": 2.17,
-      "learning_rate": 0.00011325301204819279,
-      "loss": 0.5806,
       "step": 540
     },
     {
       "epoch": 2.21,
-      "learning_rate": 0.00011164658634538152,
-      "loss": 0.7621,
       "step": 550
     },
     {
       "epoch": 2.25,
-      "learning_rate": 0.00011004016064257027,
-      "loss": 0.4579,
       "step": 560
     },
     {
       "epoch": 2.29,
-      "learning_rate": 0.00010843373493975903,
-      "loss": 0.5173,
       "step": 570
     },
     {
       "epoch": 2.33,
-      "learning_rate": 0.00010682730923694779,
-      "loss": 0.5604,
       "step": 580
     },
     {
       "epoch": 2.37,
-      "learning_rate": 0.00010522088353413654,
-      "loss": 0.5459,
       "step": 590
     },
     {
       "epoch": 2.41,
-      "learning_rate": 0.0001036144578313253,
-      "loss": 0.5527,
       "step": 600
     },
     {
       "epoch": 2.41,
-      "eval_accuracy": 0.8376068376068376,
-      "eval_loss": 0.5394238233566284,
-      "eval_runtime": 12.6495,
-      "eval_samples_per_second": 55.496,
-      "eval_steps_per_second": 6.957,
       "step": 600
     },
     {
       "epoch": 2.45,
-      "learning_rate": 0.00010200803212851406,
-      "loss": 0.7029,
       "step": 610
     },
     {
       "epoch": 2.49,
-      "learning_rate": 0.00010040160642570282,
-      "loss": 0.5672,
       "step": 620
     },
     {
       "epoch": 2.53,
-      "learning_rate": 9.879518072289157e-05,
-      "loss": 0.5614,
       "step": 630
     },
     {
       "epoch": 2.57,
-      "learning_rate": 9.718875502008033e-05,
-      "loss": 0.6897,
       "step": 640
     },
     {
       "epoch": 2.61,
-      "learning_rate": 9.558232931726909e-05,
-      "loss": 0.5952,
       "step": 650
     },
     {
       "epoch": 2.65,
-      "learning_rate": 9.397590361445784e-05,
-      "loss": 0.6168,
       "step": 660
     },
     {
       "epoch": 2.69,
-      "learning_rate": 9.23694779116466e-05,
-      "loss": 0.5881,
       "step": 670
     },
     {
       "epoch": 2.73,
-      "learning_rate": 9.076305220883534e-05,
-      "loss": 0.464,
       "step": 680
     },
     {
       "epoch": 2.77,
-      "learning_rate": 8.91566265060241e-05,
-      "loss": 0.541,
       "step": 690
     },
     {
       "epoch": 2.81,
-      "learning_rate": 8.755020080321286e-05,
-      "loss": 0.5682,
       "step": 700
     },
     {
       "epoch": 2.81,
-      "eval_accuracy": 0.8461538461538461,
-      "eval_loss": 0.4943247437477112,
-      "eval_runtime": 12.6964,
-      "eval_samples_per_second": 55.291,
-      "eval_steps_per_second": 6.931,
       "step": 700
     },
     {
       "epoch": 2.85,
-      "learning_rate": 8.594377510040161e-05,
-      "loss": 0.4844,
       "step": 710
     },
     {
       "epoch": 2.89,
-      "learning_rate": 8.433734939759037e-05,
-      "loss": 0.6745,
       "step": 720
     },
     {
       "epoch": 2.93,
-      "learning_rate": 8.273092369477911e-05,
-      "loss": 0.5597,
       "step": 730
     },
     {
       "epoch": 2.97,
-      "learning_rate": 8.112449799196787e-05,
-      "loss": 0.4626,
       "step": 740
     },
     {
       "epoch": 3.01,
-      "learning_rate": 7.951807228915663e-05,
-      "loss": 0.6571,
       "step": 750
     },
     {
       "epoch": 3.05,
-      "learning_rate": 7.791164658634539e-05,
-      "loss": 0.4811,
       "step": 760
     },
     {
       "epoch": 3.09,
-      "learning_rate": 7.630522088353414e-05,
-      "loss": 0.5323,
       "step": 770
     },
     {
       "epoch": 3.13,
-      "learning_rate": 7.469879518072289e-05,
-      "loss": 0.5492,
       "step": 780
     },
     {
       "epoch": 3.17,
-      "learning_rate": 7.309236947791164e-05,
-      "loss": 0.4278,
       "step": 790
     },
     {
       "epoch": 3.21,
-      "learning_rate": 7.14859437751004e-05,
-      "loss": 0.4238,
       "step": 800
     },
     {
       "epoch": 3.21,
-      "eval_accuracy": 0.8675213675213675,
-      "eval_loss": 0.4441128373146057,
-      "eval_runtime": 12.9024,
-      "eval_samples_per_second": 54.409,
-      "eval_steps_per_second": 6.82,
       "step": 800
     },
     {
       "epoch": 3.25,
-      "learning_rate": 6.987951807228917e-05,
-      "loss": 0.5329,
       "step": 810
     },
     {
       "epoch": 3.29,
-      "learning_rate": 6.827309236947793e-05,
-      "loss": 0.3775,
       "step": 820
     },
     {
       "epoch": 3.33,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.4408,
       "step": 830
     },
     {
       "epoch": 3.37,
-      "learning_rate": 6.506024096385543e-05,
-      "loss": 0.3515,
       "step": 840
     },
     {
       "epoch": 3.41,
-      "learning_rate": 6.345381526104418e-05,
-      "loss": 0.5296,
       "step": 850
     },
     {
       "epoch": 3.45,
-      "learning_rate": 6.184738955823294e-05,
-      "loss": 0.4531,
       "step": 860
     },
     {
       "epoch": 3.49,
-      "learning_rate": 6.02409638554217e-05,
-      "loss": 0.3878,
       "step": 870
     },
     {
       "epoch": 3.53,
-      "learning_rate": 5.863453815261044e-05,
-      "loss": 0.4233,
       "step": 880
     },
     {
       "epoch": 3.57,
-      "learning_rate": 5.70281124497992e-05,
-      "loss": 0.3732,
       "step": 890
     },
     {
       "epoch": 3.61,
-      "learning_rate": 5.5421686746987955e-05,
-      "loss": 0.4684,
       "step": 900
     },
     {
       "epoch": 3.61,
-      "eval_accuracy": 0.8846153846153846,
-      "eval_loss": 0.41125282645225525,
-      "eval_runtime": 13.1688,
-      "eval_samples_per_second": 53.308,
-      "eval_steps_per_second": 6.682,
       "step": 900
     },
     {
       "epoch": 3.65,
-      "learning_rate": 5.381526104417671e-05,
-      "loss": 0.4347,
       "step": 910
     },
     {
       "epoch": 3.69,
-      "learning_rate": 5.220883534136547e-05,
-      "loss": 0.3793,
       "step": 920
     },
     {
       "epoch": 3.73,
-      "learning_rate": 5.060240963855422e-05,
-      "loss": 0.4689,
       "step": 930
     },
     {
       "epoch": 3.78,
-      "learning_rate": 4.9156626506024104e-05,
-      "loss": 0.4459,
       "step": 940
     },
     {
       "epoch": 3.82,
-      "learning_rate": 4.7550200803212854e-05,
-      "loss": 0.4529,
       "step": 950
     },
     {
       "epoch": 3.86,
-      "learning_rate": 4.594377510040161e-05,
-      "loss": 0.3795,
       "step": 960
     },
     {
       "epoch": 3.9,
-      "learning_rate": 4.433734939759036e-05,
-      "loss": 0.4545,
       "step": 970
     },
     {
       "epoch": 3.94,
-      "learning_rate": 4.273092369477912e-05,
-      "loss": 0.4298,
       "step": 980
     },
     {
       "epoch": 3.98,
-      "learning_rate": 4.1124497991967875e-05,
-      "loss": 0.2978,
       "step": 990
     },
     {
       "epoch": 4.02,
-      "learning_rate": 3.9518072289156625e-05,
-      "loss": 0.4239,
       "step": 1000
     },
     {
       "epoch": 4.02,
-      "eval_accuracy": 0.8945868945868946,
-      "eval_loss": 0.3586599826812744,
-      "eval_runtime": 12.9226,
-      "eval_samples_per_second": 54.323,
-      "eval_steps_per_second": 6.81,
       "step": 1000
     },
     {
       "epoch": 4.06,
-      "learning_rate": 3.791164658634538e-05,
-      "loss": 0.2987,
       "step": 1010
     },
     {
       "epoch": 4.1,
-      "learning_rate": 3.630522088353414e-05,
-      "loss": 0.3289,
       "step": 1020
     },
     {
       "epoch": 4.14,
-      "learning_rate": 3.4698795180722896e-05,
-      "loss": 0.3527,
       "step": 1030
     },
     {
       "epoch": 4.18,
-      "learning_rate": 3.309236947791165e-05,
-      "loss": 0.3239,
       "step": 1040
     },
     {
       "epoch": 4.22,
-      "learning_rate": 3.14859437751004e-05,
-      "loss": 0.4095,
       "step": 1050
     },
     {
       "epoch": 4.26,
-      "learning_rate": 2.987951807228916e-05,
-      "loss": 0.2874,
       "step": 1060
     },
     {
       "epoch": 4.3,
-      "learning_rate": 2.827309236947791e-05,
-      "loss": 0.3045,
       "step": 1070
     },
     {
       "epoch": 4.34,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 0.3476,
       "step": 1080
     },
     {
       "epoch": 4.38,
-      "learning_rate": 2.5060240963855423e-05,
-      "loss": 0.3654,
       "step": 1090
     },
     {
       "epoch": 4.42,
-      "learning_rate": 2.345381526104418e-05,
-      "loss": 0.4083,
       "step": 1100
     },
     {
       "epoch": 4.42,
-      "eval_accuracy": 0.8831908831908832,
-      "eval_loss": 0.3767581582069397,
-      "eval_runtime": 12.931,
-      "eval_samples_per_second": 54.288,
-      "eval_steps_per_second": 6.805,
       "step": 1100
     },
     {
       "epoch": 4.46,
-      "learning_rate": 2.1847389558232934e-05,
-      "loss": 0.3791,
       "step": 1110
     },
     {
       "epoch": 4.5,
-      "learning_rate": 2.0240963855421687e-05,
-      "loss": 0.4041,
       "step": 1120
     },
     {
       "epoch": 4.54,
-      "learning_rate": 1.863453815261044e-05,
-      "loss": 0.3001,
       "step": 1130
     },
     {
       "epoch": 4.58,
-      "learning_rate": 1.7028112449799198e-05,
-      "loss": 0.4239,
       "step": 1140
     },
     {
       "epoch": 4.62,
-      "learning_rate": 1.5421686746987955e-05,
-      "loss": 0.3491,
       "step": 1150
     },
     {
       "epoch": 4.66,
-      "learning_rate": 1.3815261044176708e-05,
-      "loss": 0.4658,
       "step": 1160
     },
     {
       "epoch": 4.7,
-      "learning_rate": 1.2208835341365463e-05,
-      "loss": 0.4182,
       "step": 1170
     },
     {
       "epoch": 4.74,
-      "learning_rate": 1.0602409638554217e-05,
-      "loss": 0.2625,
       "step": 1180
     },
     {
       "epoch": 4.78,
-      "learning_rate": 8.995983935742972e-06,
-      "loss": 0.3003,
       "step": 1190
     },
     {
       "epoch": 4.82,
-      "learning_rate": 7.389558232931727e-06,
-      "loss": 0.3541,
       "step": 1200
     },
     {
       "epoch": 4.82,
-      "eval_accuracy": 0.9017094017094017,
-      "eval_loss": 0.35980701446533203,
-      "eval_runtime": 13.1716,
-      "eval_samples_per_second": 53.297,
-      "eval_steps_per_second": 6.681,
       "step": 1200
     },
     {
       "epoch": 4.86,
-      "learning_rate": 5.783132530120483e-06,
-      "loss": 0.3299,
       "step": 1210
     },
     {
       "epoch": 4.9,
-      "learning_rate": 4.176706827309238e-06,
-      "loss": 0.2998,
       "step": 1220
     },
     {
       "epoch": 4.94,
-      "learning_rate": 2.570281124497992e-06,
-      "loss": 0.3439,
       "step": 1230
     },
     {
       "epoch": 4.98,
-      "learning_rate": 9.638554216867472e-07,
-      "loss": 0.308,
       "step": 1240
     },
     {
-      "epoch": 5.0,
-      "step": 1245,
-      "total_flos": 1.539101261655982e+18,
-      "train_loss": 0.6706935805968013,
-      "train_runtime": 749.324,
-      "train_samples_per_second": 26.504,
-      "train_steps_per_second": 1.661
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1245,
-  "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 1.539101261655982e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5055693984031677,
+  "best_model_checkpoint": "Action_all_10_class/checkpoint-2700",
+  "epoch": 15.0,
   "eval_steps": 100,
+  "global_step": 3735,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 0.0001994645247657296,
+      "loss": 2.2354,
       "step": 10
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00019892904953145918,
+      "loss": 2.071,
       "step": 20
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00019839357429718877,
+      "loss": 1.8632,
       "step": 30
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00019785809906291835,
+      "loss": 1.6341,
       "step": 40
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.0001973226238286479,
+      "loss": 1.5563,
       "step": 50
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.00019678714859437752,
+      "loss": 1.3715,
       "step": 60
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0001962516733601071,
+      "loss": 1.3253,
       "step": 70
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00019571619812583667,
+      "loss": 1.2745,
       "step": 80
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.00019518072289156628,
+      "loss": 1.2778,
       "step": 90
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.00019464524765729587,
+      "loss": 1.1504,
       "step": 100
     },
     {
       "epoch": 0.4,
+      "eval_accuracy": 0.7777777777777778,
+      "eval_loss": 0.8748393058776855,
+      "eval_runtime": 418.086,
+      "eval_samples_per_second": 1.679,
+      "eval_steps_per_second": 0.21,
       "step": 100
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.00019410977242302542,
+      "loss": 1.0145,
       "step": 110
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.00019357429718875504,
+      "loss": 1.1444,
       "step": 120
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.00019303882195448462,
+      "loss": 0.9792,
       "step": 130
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.0001925033467202142,
+      "loss": 1.1636,
       "step": 140
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00019196787148594377,
+      "loss": 1.0842,
       "step": 150
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00019143239625167338,
+      "loss": 0.9826,
       "step": 160
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00019089692101740297,
+      "loss": 0.8372,
       "step": 170
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.00019036144578313252,
+      "loss": 0.8697,
       "step": 180
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00018982597054886214,
+      "loss": 0.9655,
       "step": 190
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.00018929049531459172,
+      "loss": 0.944,
       "step": 200
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.7549857549857549,
+      "eval_loss": 0.8146545886993408,
+      "eval_runtime": 15.9187,
+      "eval_samples_per_second": 44.099,
+      "eval_steps_per_second": 5.528,
       "step": 200
     },
     {
       "epoch": 0.84,
+      "learning_rate": 0.00018875502008032128,
+      "loss": 0.9529,
       "step": 210
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.0001882195448460509,
+      "loss": 0.9535,
       "step": 220
     },
     {
       "epoch": 0.92,
+      "learning_rate": 0.00018768406961178048,
+      "loss": 0.8665,
       "step": 230
     },
     {
       "epoch": 0.96,
+      "learning_rate": 0.00018714859437751004,
+      "loss": 0.8345,
       "step": 240
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.00018661311914323962,
+      "loss": 1.0123,
       "step": 250
     },
     {
       "epoch": 1.04,
+      "learning_rate": 0.00018607764390896924,
+      "loss": 0.8241,
       "step": 260
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.0001855421686746988,
+      "loss": 0.8182,
       "step": 270
     },
     {
       "epoch": 1.12,
+      "learning_rate": 0.00018500669344042838,
+      "loss": 0.8616,
       "step": 280
     },
     {
       "epoch": 1.16,
+      "learning_rate": 0.000184471218206158,
+      "loss": 0.7276,
       "step": 290
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00018393574297188755,
+      "loss": 0.9096,
       "step": 300
     },
     {
       "epoch": 1.2,
+      "eval_accuracy": 0.7507122507122507,
+      "eval_loss": 0.7890926003456116,
+      "eval_runtime": 16.3956,
+      "eval_samples_per_second": 42.816,
+      "eval_steps_per_second": 5.367,
       "step": 300
     },
     {
       "epoch": 1.24,
+      "learning_rate": 0.00018340026773761714,
+      "loss": 0.8907,
       "step": 310
     },
     {
       "epoch": 1.29,
+      "learning_rate": 0.00018286479250334675,
+      "loss": 0.8123,
       "step": 320
     },
     {
       "epoch": 1.33,
+      "learning_rate": 0.0001823293172690763,
+      "loss": 0.7859,
       "step": 330
     },
     {
       "epoch": 1.37,
+      "learning_rate": 0.0001817938420348059,
+      "loss": 0.8536,
       "step": 340
     },
     {
       "epoch": 1.41,
+      "learning_rate": 0.00018125836680053548,
+      "loss": 0.7297,
       "step": 350
     },
     {
       "epoch": 1.45,
+      "learning_rate": 0.00018072289156626507,
+      "loss": 0.9101,
       "step": 360
     },
     {
       "epoch": 1.49,
+      "learning_rate": 0.00018018741633199465,
+      "loss": 0.8368,
       "step": 370
     },
     {
       "epoch": 1.53,
+      "learning_rate": 0.00017965194109772424,
+      "loss": 0.7023,
       "step": 380
     },
     {
       "epoch": 1.57,
+      "learning_rate": 0.00017911646586345382,
+      "loss": 0.7859,
       "step": 390
     },
     {
       "epoch": 1.61,
+      "learning_rate": 0.0001785809906291834,
+      "loss": 0.7847,
       "step": 400
     },
     {
       "epoch": 1.61,
+      "eval_accuracy": 0.7749287749287749,
+      "eval_loss": 0.749781608581543,
+      "eval_runtime": 16.0514,
+      "eval_samples_per_second": 43.735,
+      "eval_steps_per_second": 5.482,
       "step": 400
     },
     {
       "epoch": 1.65,
+      "learning_rate": 0.000178045515394913,
+      "loss": 0.7916,
       "step": 410
     },
     {
       "epoch": 1.69,
+      "learning_rate": 0.00017751004016064258,
+      "loss": 0.832,
       "step": 420
     },
     {
       "epoch": 1.73,
+      "learning_rate": 0.00017697456492637216,
+      "loss": 0.8133,
       "step": 430
     },
     {
       "epoch": 1.77,
+      "learning_rate": 0.00017643908969210175,
+      "loss": 0.9792,
       "step": 440
     },
     {
       "epoch": 1.81,
+      "learning_rate": 0.00017590361445783134,
+      "loss": 0.8379,
       "step": 450
     },
     {
       "epoch": 1.85,
+      "learning_rate": 0.00017536813922356092,
+      "loss": 0.6937,
       "step": 460
     },
     {
       "epoch": 1.89,
+      "learning_rate": 0.0001748326639892905,
+      "loss": 0.6223,
       "step": 470
     },
     {
       "epoch": 1.93,
+      "learning_rate": 0.0001742971887550201,
+      "loss": 0.7433,
       "step": 480
     },
     {
       "epoch": 1.97,
+      "learning_rate": 0.00017376171352074968,
+      "loss": 0.8604,
       "step": 490
     },
     {
       "epoch": 2.01,
+      "learning_rate": 0.00017322623828647926,
+      "loss": 0.7296,
       "step": 500
     },
     {
       "epoch": 2.01,
+      "eval_accuracy": 0.8034188034188035,
+      "eval_loss": 0.6464697122573853,
+      "eval_runtime": 15.9168,
+      "eval_samples_per_second": 44.104,
+      "eval_steps_per_second": 5.529,
       "step": 500
     },
     {
       "epoch": 2.05,
+      "learning_rate": 0.00017269076305220885,
+      "loss": 0.6047,
       "step": 510
     },
     {
       "epoch": 2.09,
+      "learning_rate": 0.00017215528781793844,
+      "loss": 0.7931,
       "step": 520
     },
     {
       "epoch": 2.13,
+      "learning_rate": 0.00017161981258366802,
+      "loss": 0.6484,
       "step": 530
     },
     {
       "epoch": 2.17,
+      "learning_rate": 0.0001710843373493976,
+      "loss": 0.6168,
       "step": 540
     },
     {
       "epoch": 2.21,
+      "learning_rate": 0.00017054886211512717,
+      "loss": 0.6084,
       "step": 550
     },
     {
       "epoch": 2.25,
+      "learning_rate": 0.00017001338688085678,
+      "loss": 0.5808,
       "step": 560
     },
     {
       "epoch": 2.29,
+      "learning_rate": 0.00016947791164658636,
+      "loss": 0.6777,
       "step": 570
     },
     {
       "epoch": 2.33,
+      "learning_rate": 0.00016894243641231592,
+      "loss": 0.6263,
       "step": 580
     },
     {
       "epoch": 2.37,
+      "learning_rate": 0.00016840696117804553,
+      "loss": 0.6697,
       "step": 590
     },
     {
       "epoch": 2.41,
+      "learning_rate": 0.00016787148594377512,
+      "loss": 0.7107,
       "step": 600
     },
     {
       "epoch": 2.41,
+      "eval_accuracy": 0.7549857549857549,
+      "eval_loss": 0.7201387882232666,
+      "eval_runtime": 16.1564,
+      "eval_samples_per_second": 43.45,
+      "eval_steps_per_second": 5.447,
       "step": 600
     },
     {
       "epoch": 2.45,
+      "learning_rate": 0.00016733601070950468,
+      "loss": 0.6248,
       "step": 610
     },
     {
       "epoch": 2.49,
+      "learning_rate": 0.0001668005354752343,
+      "loss": 0.6299,
       "step": 620
     },
     {
       "epoch": 2.53,
+      "learning_rate": 0.00016631860776439089,
+      "loss": 0.7085,
       "step": 630
     },
     {
       "epoch": 2.57,
+      "learning_rate": 0.0001657831325301205,
+      "loss": 0.6907,
       "step": 640
     },
     {
       "epoch": 2.61,
+      "learning_rate": 0.00016524765729585008,
+      "loss": 0.7222,
       "step": 650
     },
     {
       "epoch": 2.65,
+      "learning_rate": 0.00016471218206157964,
+      "loss": 0.5053,
       "step": 660
     },
     {
       "epoch": 2.69,
+      "learning_rate": 0.00016417670682730923,
+      "loss": 0.5526,
       "step": 670
     },
     {
       "epoch": 2.73,
+      "learning_rate": 0.00016364123159303884,
+      "loss": 0.7261,
       "step": 680
     },
     {
       "epoch": 2.77,
+      "learning_rate": 0.0001631057563587684,
+      "loss": 0.7419,
       "step": 690
     },
     {
       "epoch": 2.81,
+      "learning_rate": 0.00016257028112449799,
+      "loss": 0.5229,
       "step": 700
     },
     {
       "epoch": 2.81,
+      "eval_accuracy": 0.7521367521367521,
+      "eval_loss": 0.7578324675559998,
+      "eval_runtime": 15.6021,
+      "eval_samples_per_second": 44.994,
+      "eval_steps_per_second": 5.64,
       "step": 700
     },
     {
       "epoch": 2.85,
+      "learning_rate": 0.0001620348058902276,
+      "loss": 0.5829,
       "step": 710
     },
     {
       "epoch": 2.89,
+      "learning_rate": 0.00016149933065595716,
+      "loss": 0.7214,
       "step": 720
     },
     {
       "epoch": 2.93,
+      "learning_rate": 0.00016096385542168674,
+      "loss": 0.5506,
       "step": 730
     },
     {
       "epoch": 2.97,
+      "learning_rate": 0.00016042838018741636,
+      "loss": 0.6699,
       "step": 740
     },
     {
       "epoch": 3.01,
+      "learning_rate": 0.00015989290495314594,
+      "loss": 0.6616,
       "step": 750
     },
     {
       "epoch": 3.05,
+      "learning_rate": 0.0001593574297188755,
+      "loss": 0.6225,
       "step": 760
     },
     {
       "epoch": 3.09,
+      "learning_rate": 0.00015882195448460509,
+      "loss": 0.4438,
       "step": 770
     },
     {
       "epoch": 3.13,
+      "learning_rate": 0.0001582864792503347,
+      "loss": 0.5325,
       "step": 780
     },
     {
       "epoch": 3.17,
+      "learning_rate": 0.00015775100401606426,
+      "loss": 0.4131,
       "step": 790
     },
     {
       "epoch": 3.21,
+      "learning_rate": 0.00015721552878179384,
+      "loss": 0.4698,
       "step": 800
     },
     {
       "epoch": 3.21,
+      "eval_accuracy": 0.811965811965812,
+      "eval_loss": 0.6026700735092163,
+      "eval_runtime": 16.0444,
+      "eval_samples_per_second": 43.754,
+      "eval_steps_per_second": 5.485,
       "step": 800
     },
     {
       "epoch": 3.25,
+      "learning_rate": 0.00015668005354752345,
+      "loss": 0.6905,
       "step": 810
     },
     {
       "epoch": 3.29,
+      "learning_rate": 0.000156144578313253,
+      "loss": 0.5132,
       "step": 820
     },
     {
       "epoch": 3.33,
+      "learning_rate": 0.0001556091030789826,
+      "loss": 0.474,
       "step": 830
     },
     {
       "epoch": 3.37,
+      "learning_rate": 0.0001550736278447122,
+      "loss": 0.5092,
       "step": 840
     },
     {
       "epoch": 3.41,
+      "learning_rate": 0.00015453815261044177,
+      "loss": 0.538,
       "step": 850
     },
     {
       "epoch": 3.45,
+      "learning_rate": 0.00015400267737617136,
+      "loss": 0.5138,
       "step": 860
     },
     {
       "epoch": 3.49,
+      "learning_rate": 0.00015346720214190094,
+      "loss": 0.5828,
       "step": 870
     },
     {
       "epoch": 3.53,
+      "learning_rate": 0.00015293172690763053,
+      "loss": 0.562,
       "step": 880
     },
     {
       "epoch": 3.57,
+      "learning_rate": 0.0001523962516733601,
+      "loss": 0.6672,
       "step": 890
     },
     {
       "epoch": 3.61,
+      "learning_rate": 0.0001518607764390897,
+      "loss": 0.4846,
       "step": 900
     },
     {
       "epoch": 3.61,
+      "eval_accuracy": 0.7877492877492878,
+      "eval_loss": 0.7316339612007141,
+      "eval_runtime": 16.5159,
+      "eval_samples_per_second": 42.505,
+      "eval_steps_per_second": 5.328,
       "step": 900
     },
     {
       "epoch": 3.65,
+      "learning_rate": 0.00015132530120481928,
+      "loss": 0.5271,
       "step": 910
     },
     {
       "epoch": 3.69,
+      "learning_rate": 0.00015078982597054887,
+      "loss": 0.5956,
       "step": 920
     },
     {
       "epoch": 3.73,
+      "learning_rate": 0.00015025435073627846,
+      "loss": 0.5846,
       "step": 930
     },
     {
       "epoch": 3.78,
+      "learning_rate": 0.00014971887550200804,
+      "loss": 0.6677,
       "step": 940
     },
     {
       "epoch": 3.82,
+      "learning_rate": 0.00014918340026773763,
+      "loss": 0.5125,
       "step": 950
     },
     {
       "epoch": 3.86,
+      "learning_rate": 0.0001486479250334672,
+      "loss": 0.5183,
       "step": 960
     },
     {
       "epoch": 3.9,
+      "learning_rate": 0.00014811244979919677,
+      "loss": 0.654,
       "step": 970
     },
     {
       "epoch": 3.94,
+      "learning_rate": 0.00014757697456492638,
+      "loss": 0.5701,
       "step": 980
     },
     {
       "epoch": 3.98,
+      "learning_rate": 0.00014704149933065597,
+      "loss": 0.508,
       "step": 990
     },
     {
       "epoch": 4.02,
+      "learning_rate": 0.00014650602409638555,
+      "loss": 0.5676,
       "step": 1000
     },
     {
       "epoch": 4.02,
+      "eval_accuracy": 0.7948717948717948,
+      "eval_loss": 0.6542341113090515,
+      "eval_runtime": 15.7886,
+      "eval_samples_per_second": 44.462,
+      "eval_steps_per_second": 5.574,
       "step": 1000
     },
     {
       "epoch": 4.06,
+      "learning_rate": 0.00014597054886211514,
+      "loss": 0.5009,
       "step": 1010
     },
     {
       "epoch": 4.1,
+      "learning_rate": 0.00014543507362784473,
+      "loss": 0.5297,
       "step": 1020
     },
     {
       "epoch": 4.14,
+      "learning_rate": 0.0001448995983935743,
+      "loss": 0.4541,
       "step": 1030
     },
     {
       "epoch": 4.18,
+      "learning_rate": 0.0001443641231593039,
+      "loss": 0.5364,
       "step": 1040
     },
     {
       "epoch": 4.22,
+      "learning_rate": 0.00014382864792503348,
+      "loss": 0.5752,
       "step": 1050
     },
     {
       "epoch": 4.26,
+      "learning_rate": 0.00014329317269076307,
+      "loss": 0.4823,
       "step": 1060
     },
     {
       "epoch": 4.3,
+      "learning_rate": 0.00014275769745649263,
+      "loss": 0.3711,
       "step": 1070
     },
     {
       "epoch": 4.34,
+      "learning_rate": 0.00014222222222222224,
+      "loss": 0.546,
       "step": 1080
     },
     {
       "epoch": 4.38,
+      "learning_rate": 0.00014168674698795183,
+      "loss": 0.5474,
       "step": 1090
     },
     {
       "epoch": 4.42,
+      "learning_rate": 0.00014115127175368138,
+      "loss": 0.4784,
       "step": 1100
     },
     {
       "epoch": 4.42,
+      "eval_accuracy": 0.7991452991452992,
+      "eval_loss": 0.6610600352287292,
+      "eval_runtime": 16.6911,
+      "eval_samples_per_second": 42.058,
+      "eval_steps_per_second": 5.272,
       "step": 1100
     },
     {
       "epoch": 4.46,
+      "learning_rate": 0.000140615796519411,
+      "loss": 0.3035,
       "step": 1110
     },
     {
       "epoch": 4.5,
+      "learning_rate": 0.00014008032128514058,
+      "loss": 0.5735,
       "step": 1120
     },
     {
       "epoch": 4.54,
+      "learning_rate": 0.00013954484605087014,
+      "loss": 0.4467,
       "step": 1130
     },
     {
       "epoch": 4.58,
+      "learning_rate": 0.00013900937081659975,
+      "loss": 0.5254,
       "step": 1140
     },
     {
       "epoch": 4.62,
+      "learning_rate": 0.00013847389558232934,
+      "loss": 0.5678,
       "step": 1150
     },
     {
       "epoch": 4.66,
+      "learning_rate": 0.0001379384203480589,
+      "loss": 0.5742,
       "step": 1160
     },
     {
       "epoch": 4.7,
+      "learning_rate": 0.00013740294511378848,
+      "loss": 0.53,
       "step": 1170
     },
     {
       "epoch": 4.74,
+      "learning_rate": 0.0001368674698795181,
+      "loss": 0.4964,
       "step": 1180
     },
     {
       "epoch": 4.78,
+      "learning_rate": 0.00013633199464524765,
+      "loss": 0.6265,
       "step": 1190
     },
     {
       "epoch": 4.82,
+      "learning_rate": 0.00013579651941097724,
+      "loss": 0.411,
       "step": 1200
     },
     {
       "epoch": 4.82,
+      "eval_accuracy": 0.8076923076923077,
+      "eval_loss": 0.5829504728317261,
+      "eval_runtime": 15.3709,
+      "eval_samples_per_second": 45.671,
+      "eval_steps_per_second": 5.725,
       "step": 1200
     },
     {
       "epoch": 4.86,
+      "learning_rate": 0.00013526104417670685,
+      "loss": 0.5112,
       "step": 1210
     },
     {
       "epoch": 4.9,
+      "learning_rate": 0.0001347255689424364,
+      "loss": 0.4058,
       "step": 1220
     },
     {
       "epoch": 4.94,
+      "learning_rate": 0.000134190093708166,
+      "loss": 0.4561,
       "step": 1230
     },
     {
       "epoch": 4.98,
+      "learning_rate": 0.0001336546184738956,
+      "loss": 0.5612,
       "step": 1240
     },
     {
+      "epoch": 5.02,
+      "learning_rate": 0.00013311914323962517,
+      "loss": 0.5281,
+      "step": 1250
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 0.00013258366800535475,
+      "loss": 0.4303,
+      "step": 1260
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 0.00013204819277108434,
+      "loss": 0.5335,
+      "step": 1270
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.00013151271753681393,
+      "loss": 0.516,
+      "step": 1280
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 0.0001309772423025435,
+      "loss": 0.3724,
+      "step": 1290
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.0001304417670682731,
+      "loss": 0.4021,
+      "step": 1300
+    },
+    {
+      "epoch": 5.22,
+      "eval_accuracy": 0.8447293447293447,
+      "eval_loss": 0.5220329165458679,
+      "eval_runtime": 16.7754,
+      "eval_samples_per_second": 41.847,
+      "eval_steps_per_second": 5.246,
+      "step": 1300
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 0.00012990629183400268,
+      "loss": 0.3457,
+      "step": 1310
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 0.00012937081659973227,
+      "loss": 0.5637,
+      "step": 1320
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 0.00012883534136546185,
+      "loss": 0.5554,
+      "step": 1330
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 0.00012829986613119144,
+      "loss": 0.4353,
+      "step": 1340
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 0.00012776439089692102,
+      "loss": 0.4007,
+      "step": 1350
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 0.0001272289156626506,
+      "loss": 0.5503,
+      "step": 1360
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 0.0001266934404283802,
+      "loss": 0.4853,
+      "step": 1370
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 0.00012615796519410978,
+      "loss": 0.472,
+      "step": 1380
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 0.00012562248995983937,
+      "loss": 0.3708,
+      "step": 1390
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 0.00012508701472556895,
+      "loss": 0.6442,
+      "step": 1400
+    },
+    {
+      "epoch": 5.62,
+      "eval_accuracy": 0.7849002849002849,
+      "eval_loss": 0.7221683859825134,
+      "eval_runtime": 16.0745,
+      "eval_samples_per_second": 43.672,
+      "eval_steps_per_second": 5.475,
+      "step": 1400
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 0.00012455153949129854,
+      "loss": 0.5429,
+      "step": 1410
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.00012401606425702812,
+      "loss": 0.3282,
+      "step": 1420
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 0.0001234805890227577,
+      "loss": 0.3511,
+      "step": 1430
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 0.0001229451137884873,
+      "loss": 0.4462,
+      "step": 1440
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 0.00012240963855421688,
+      "loss": 0.3959,
+      "step": 1450
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.00012187416331994645,
+      "loss": 0.4424,
+      "step": 1460
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 0.00012133868808567604,
+      "loss": 0.4374,
+      "step": 1470
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.00012080321285140564,
+      "loss": 0.5365,
+      "step": 1480
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 0.00012026773761713521,
+      "loss": 0.4206,
+      "step": 1490
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 0.0001197322623828648,
+      "loss": 0.4539,
+      "step": 1500
+    },
+    {
+      "epoch": 6.02,
+      "eval_accuracy": 0.8347578347578347,
+      "eval_loss": 0.5616238117218018,
+      "eval_runtime": 15.9222,
+      "eval_samples_per_second": 44.089,
+      "eval_steps_per_second": 5.527,
+      "step": 1500
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 0.0001191967871485944,
+      "loss": 0.3495,
+      "step": 1510
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 0.00011866131191432397,
+      "loss": 0.4073,
+      "step": 1520
+    },
+    {
+      "epoch": 6.14,
+      "learning_rate": 0.00011812583668005355,
+      "loss": 0.4443,
+      "step": 1530
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 0.00011759036144578315,
+      "loss": 0.4943,
+      "step": 1540
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 0.00011705488621151272,
+      "loss": 0.3544,
+      "step": 1550
+    },
+    {
+      "epoch": 6.27,
+      "learning_rate": 0.00011651941097724231,
+      "loss": 0.3664,
+      "step": 1560
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 0.00011598393574297188,
+      "loss": 0.3431,
+      "step": 1570
+    },
+    {
+      "epoch": 6.35,
+      "learning_rate": 0.00011544846050870148,
+      "loss": 0.4448,
+      "step": 1580
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 0.00011491298527443107,
+      "loss": 0.3958,
+      "step": 1590
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 0.00011437751004016064,
+      "loss": 0.4256,
+      "step": 1600
+    },
+    {
+      "epoch": 6.43,
+      "eval_accuracy": 0.801994301994302,
+      "eval_loss": 0.6621670722961426,
+      "eval_runtime": 16.4993,
+      "eval_samples_per_second": 42.547,
+      "eval_steps_per_second": 5.334,
+      "step": 1600
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 0.00011384203480589024,
+      "loss": 0.4149,
+      "step": 1610
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 0.00011330655957161982,
+      "loss": 0.3562,
+      "step": 1620
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 0.0001127710843373494,
+      "loss": 0.4423,
+      "step": 1630
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.000112235609103079,
+      "loss": 0.5026,
+      "step": 1640
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 0.00011170013386880858,
+      "loss": 0.4306,
+      "step": 1650
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 0.00011116465863453815,
+      "loss": 0.3413,
+      "step": 1660
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 0.00011062918340026774,
+      "loss": 0.3856,
+      "step": 1670
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 0.00011009370816599734,
+      "loss": 0.441,
+      "step": 1680
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 0.00010955823293172691,
+      "loss": 0.3613,
+      "step": 1690
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 0.0001090227576974565,
+      "loss": 0.2839,
+      "step": 1700
+    },
+    {
+      "epoch": 6.83,
+      "eval_accuracy": 0.8262108262108262,
+      "eval_loss": 0.6048392057418823,
+      "eval_runtime": 16.0148,
+      "eval_samples_per_second": 43.835,
+      "eval_steps_per_second": 5.495,
+      "step": 1700
+    },
+    {
+      "epoch": 6.87,
+      "learning_rate": 0.0001084872824631861,
+      "loss": 0.4067,
+      "step": 1710
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 0.00010795180722891567,
+      "loss": 0.4729,
+      "step": 1720
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 0.00010741633199464525,
+      "loss": 0.414,
+      "step": 1730
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.00010688085676037485,
+      "loss": 0.3331,
+      "step": 1740
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 0.00010634538152610442,
+      "loss": 0.3609,
+      "step": 1750
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 0.00010580990629183401,
+      "loss": 0.344,
+      "step": 1760
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 0.00010527443105756358,
+      "loss": 0.2764,
+      "step": 1770
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 0.00010473895582329318,
+      "loss": 0.3016,
+      "step": 1780
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 0.00010420348058902277,
+      "loss": 0.3246,
+      "step": 1790
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.00010366800535475234,
+      "loss": 0.4236,
+      "step": 1800
+    },
+    {
+      "epoch": 7.23,
+      "eval_accuracy": 0.8262108262108262,
+      "eval_loss": 0.5745150446891785,
+      "eval_runtime": 16.5747,
+      "eval_samples_per_second": 42.354,
+      "eval_steps_per_second": 5.309,
+      "step": 1800
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.00010313253012048194,
+      "loss": 0.2888,
+      "step": 1810
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.00010259705488621152,
+      "loss": 0.3958,
+      "step": 1820
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 0.0001020615796519411,
+      "loss": 0.4288,
+      "step": 1830
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 0.0001015261044176707,
+      "loss": 0.3465,
+      "step": 1840
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.00010099062918340028,
+      "loss": 0.4222,
+      "step": 1850
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.00010045515394912985,
+      "loss": 0.2903,
+      "step": 1860
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 9.991967871485944e-05,
+      "loss": 0.4449,
+      "step": 1870
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 9.938420348058902e-05,
+      "loss": 0.2636,
+      "step": 1880
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 9.884872824631861e-05,
+      "loss": 0.2312,
+      "step": 1890
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 9.831325301204821e-05,
+      "loss": 0.3371,
+      "step": 1900
+    },
+    {
+      "epoch": 7.63,
+      "eval_accuracy": 0.8447293447293447,
+      "eval_loss": 0.5557853579521179,
+      "eval_runtime": 15.8613,
+      "eval_samples_per_second": 44.259,
+      "eval_steps_per_second": 5.548,
+      "step": 1900
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 9.777777777777778e-05,
+      "loss": 0.3054,
+      "step": 1910
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 9.724230254350737e-05,
+      "loss": 0.2751,
+      "step": 1920
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 9.670682730923695e-05,
+      "loss": 0.292,
+      "step": 1930
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 9.617135207496654e-05,
+      "loss": 0.3959,
+      "step": 1940
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 9.563587684069612e-05,
+      "loss": 0.3317,
+      "step": 1950
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 9.510040160642571e-05,
+      "loss": 0.3576,
+      "step": 1960
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 9.45649263721553e-05,
+      "loss": 0.2761,
+      "step": 1970
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 9.402945113788487e-05,
+      "loss": 0.3616,
+      "step": 1980
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 9.349397590361446e-05,
+      "loss": 0.3875,
+      "step": 1990
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 9.295850066934405e-05,
+      "loss": 0.2564,
+      "step": 2000
+    },
+    {
+      "epoch": 8.03,
+      "eval_accuracy": 0.8376068376068376,
+      "eval_loss": 0.5993377566337585,
+      "eval_runtime": 15.9305,
+      "eval_samples_per_second": 44.066,
+      "eval_steps_per_second": 5.524,
+      "step": 2000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 9.242302543507362e-05,
+      "loss": 0.264,
+      "step": 2010
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 9.188755020080322e-05,
+      "loss": 0.2075,
+      "step": 2020
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 9.13520749665328e-05,
+      "loss": 0.1795,
+      "step": 2030
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 9.081659973226239e-05,
+      "loss": 0.3475,
+      "step": 2040
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 9.028112449799198e-05,
+      "loss": 0.386,
+      "step": 2050
+    },
+    {
+      "epoch": 8.27,
+      "learning_rate": 8.974564926372155e-05,
+      "loss": 0.4569,
+      "step": 2060
+    },
+    {
+      "epoch": 8.31,
+      "learning_rate": 8.921017402945115e-05,
+      "loss": 0.2956,
+      "step": 2070
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 8.867469879518072e-05,
+      "loss": 0.2071,
+      "step": 2080
+    },
+    {
+      "epoch": 8.39,
+      "learning_rate": 8.813922356091031e-05,
+      "loss": 0.2673,
+      "step": 2090
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 8.760374832663991e-05,
+      "loss": 0.2802,
+      "step": 2100
+    },
+    {
+      "epoch": 8.43,
+      "eval_accuracy": 0.8589743589743589,
+      "eval_loss": 0.5201694965362549,
+      "eval_runtime": 16.9693,
+      "eval_samples_per_second": 41.369,
+      "eval_steps_per_second": 5.186,
+      "step": 2100
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 8.706827309236948e-05,
+      "loss": 0.4448,
+      "step": 2110
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 8.653279785809906e-05,
+      "loss": 0.3018,
+      "step": 2120
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 8.599732262382865e-05,
+      "loss": 0.4112,
+      "step": 2130
+    },
+    {
+      "epoch": 8.59,
+      "learning_rate": 8.546184738955824e-05,
+      "loss": 0.3,
+      "step": 2140
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 8.492637215528782e-05,
+      "loss": 0.2328,
+      "step": 2150
+    },
+    {
+      "epoch": 8.67,
+      "learning_rate": 8.439089692101741e-05,
+      "loss": 0.3432,
+      "step": 2160
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 8.385542168674699e-05,
+      "loss": 0.2498,
+      "step": 2170
+    },
+    {
+      "epoch": 8.76,
+      "learning_rate": 8.331994645247658e-05,
+      "loss": 0.3595,
+      "step": 2180
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 8.278447121820616e-05,
+      "loss": 0.3939,
+      "step": 2190
+    },
+    {
+      "epoch": 8.84,
+      "learning_rate": 8.224899598393575e-05,
+      "loss": 0.2938,
+      "step": 2200
+    },
+    {
+      "epoch": 8.84,
+      "eval_accuracy": 0.8176638176638177,
+      "eval_loss": 0.619129478931427,
+      "eval_runtime": 17.7657,
+      "eval_samples_per_second": 39.514,
+      "eval_steps_per_second": 4.953,
+      "step": 2200
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 8.171352074966534e-05,
+      "loss": 0.3719,
+      "step": 2210
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 8.117804551539492e-05,
+      "loss": 0.3056,
+      "step": 2220
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 8.064257028112449e-05,
+      "loss": 0.4149,
+      "step": 2230
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 8.010709504685409e-05,
+      "loss": 0.3413,
+      "step": 2240
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 7.957161981258368e-05,
+      "loss": 0.2569,
+      "step": 2250
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 7.903614457831325e-05,
+      "loss": 0.3128,
+      "step": 2260
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 7.850066934404285e-05,
+      "loss": 0.2906,
+      "step": 2270
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 7.796519410977242e-05,
+      "loss": 0.233,
+      "step": 2280
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 7.7429718875502e-05,
+      "loss": 0.3216,
+      "step": 2290
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 7.68942436412316e-05,
+      "loss": 0.2777,
+      "step": 2300
+    },
+    {
+      "epoch": 9.24,
+      "eval_accuracy": 0.8504273504273504,
+      "eval_loss": 0.5119191408157349,
+      "eval_runtime": 16.0458,
+      "eval_samples_per_second": 43.75,
+      "eval_steps_per_second": 5.484,
+      "step": 2300
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 7.635876840696118e-05,
+      "loss": 0.1969,
+      "step": 2310
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 7.582329317269076e-05,
+      "loss": 0.185,
+      "step": 2320
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 7.528781793842035e-05,
+      "loss": 0.1591,
+      "step": 2330
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 7.475234270414993e-05,
+      "loss": 0.2421,
+      "step": 2340
+    },
+    {
+      "epoch": 9.44,
+      "learning_rate": 7.421686746987952e-05,
+      "loss": 0.1847,
+      "step": 2350
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 7.36813922356091e-05,
+      "loss": 0.2552,
+      "step": 2360
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 7.314591700133869e-05,
+      "loss": 0.2998,
+      "step": 2370
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 7.261044176706828e-05,
+      "loss": 0.1865,
+      "step": 2380
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 7.207496653279786e-05,
+      "loss": 0.2479,
+      "step": 2390
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 7.153949129852745e-05,
+      "loss": 0.1851,
+      "step": 2400
+    },
+    {
+      "epoch": 9.64,
+      "eval_accuracy": 0.8547008547008547,
+      "eval_loss": 0.5540783405303955,
+      "eval_runtime": 16.572,
+      "eval_samples_per_second": 42.361,
+      "eval_steps_per_second": 5.31,
+      "step": 2400
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 7.100401606425703e-05,
+      "loss": 0.2578,
+      "step": 2410
+    },
+    {
+      "epoch": 9.72,
+      "learning_rate": 7.046854082998662e-05,
+      "loss": 0.365,
+      "step": 2420
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 6.993306559571619e-05,
+      "loss": 0.3247,
+      "step": 2430
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 6.939759036144579e-05,
+      "loss": 0.3411,
+      "step": 2440
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 6.886211512717538e-05,
+      "loss": 0.3435,
+      "step": 2450
+    },
+    {
+      "epoch": 9.88,
+      "learning_rate": 6.832663989290495e-05,
+      "loss": 0.2834,
+      "step": 2460
+    },
+    {
+      "epoch": 9.92,
+      "learning_rate": 6.779116465863455e-05,
+      "loss": 0.2982,
+      "step": 2470
+    },
+    {
+      "epoch": 9.96,
+      "learning_rate": 6.725568942436412e-05,
+      "loss": 0.4454,
+      "step": 2480
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 6.67202141900937e-05,
+      "loss": 0.3108,
+      "step": 2490
+    },
+    {
+      "epoch": 10.04,
+      "learning_rate": 6.61847389558233e-05,
+      "loss": 0.2274,
+      "step": 2500
+    },
+    {
+      "epoch": 10.04,
+      "eval_accuracy": 0.8433048433048433,
+      "eval_loss": 0.5599452257156372,
+      "eval_runtime": 15.5521,
+      "eval_samples_per_second": 45.138,
+      "eval_steps_per_second": 5.658,
+      "step": 2500
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 6.564926372155288e-05,
+      "loss": 0.2869,
+      "step": 2510
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 6.511378848728246e-05,
+      "loss": 0.2677,
+      "step": 2520
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 6.457831325301205e-05,
+      "loss": 0.3096,
+      "step": 2530
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 6.404283801874163e-05,
+      "loss": 0.3939,
+      "step": 2540
+    },
+    {
+      "epoch": 10.24,
+      "learning_rate": 6.350736278447122e-05,
+      "loss": 0.3081,
+      "step": 2550
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 6.29718875502008e-05,
+      "loss": 0.2795,
+      "step": 2560
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 6.243641231593039e-05,
+      "loss": 0.2558,
+      "step": 2570
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 6.190093708165998e-05,
+      "loss": 0.3104,
+      "step": 2580
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 6.136546184738956e-05,
+      "loss": 0.3196,
+      "step": 2590
+    },
+    {
+      "epoch": 10.44,
+      "learning_rate": 6.082998661311915e-05,
+      "loss": 0.3051,
+      "step": 2600
+    },
+    {
+      "epoch": 10.44,
+      "eval_accuracy": 0.8504273504273504,
+      "eval_loss": 0.5281407237052917,
+      "eval_runtime": 15.978,
+      "eval_samples_per_second": 43.935,
+      "eval_steps_per_second": 5.508,
+      "step": 2600
+    },
+    {
+      "epoch": 10.48,
+      "learning_rate": 6.029451137884873e-05,
+      "loss": 0.2053,
+      "step": 2610
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 5.975903614457832e-05,
+      "loss": 0.2982,
+      "step": 2620
+    },
+    {
+      "epoch": 10.56,
+      "learning_rate": 5.92235609103079e-05,
+      "loss": 0.2457,
+      "step": 2630
+    },
+    {
+      "epoch": 10.6,
+      "learning_rate": 5.8741633199464526e-05,
+      "loss": 0.1915,
+      "step": 2640
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 5.8206157965194105e-05,
+      "loss": 0.2598,
+      "step": 2650
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 5.76706827309237e-05,
+      "loss": 0.2896,
+      "step": 2660
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 5.713520749665329e-05,
+      "loss": 0.1819,
+      "step": 2670
+    },
+    {
+      "epoch": 10.76,
+      "learning_rate": 5.659973226238286e-05,
+      "loss": 0.353,
+      "step": 2680
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 5.6064257028112455e-05,
+      "loss": 0.307,
+      "step": 2690
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 5.5528781793842033e-05,
+      "loss": 0.2368,
+      "step": 2700
+    },
+    {
+      "epoch": 10.84,
+      "eval_accuracy": 0.8646723646723646,
+      "eval_loss": 0.5055693984031677,
+      "eval_runtime": 16.6514,
+      "eval_samples_per_second": 42.159,
+      "eval_steps_per_second": 5.285,
+      "step": 2700
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 5.499330655957162e-05,
+      "loss": 0.2823,
+      "step": 2710
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 5.445783132530121e-05,
+      "loss": 0.1548,
+      "step": 2720
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 5.392235609103079e-05,
+      "loss": 0.2435,
+      "step": 2730
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 5.338688085676038e-05,
+      "loss": 0.2424,
+      "step": 2740
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 5.2851405622489955e-05,
+      "loss": 0.2384,
+      "step": 2750
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 5.231593038821955e-05,
+      "loss": 0.278,
+      "step": 2760
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 5.178045515394914e-05,
+      "loss": 0.2402,
+      "step": 2770
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 5.124497991967871e-05,
+      "loss": 0.1498,
+      "step": 2780
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 5.0709504685408304e-05,
+      "loss": 0.217,
+      "step": 2790
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 5.017402945113788e-05,
+      "loss": 0.2029,
+      "step": 2800
+    },
+    {
+      "epoch": 11.24,
+      "eval_accuracy": 0.8390313390313391,
+      "eval_loss": 0.5582476854324341,
+      "eval_runtime": 17.4878,
+      "eval_samples_per_second": 40.142,
+      "eval_steps_per_second": 5.032,
+      "step": 2800
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 4.9638554216867475e-05,
+      "loss": 0.2471,
+      "step": 2810
+    },
+    {
+      "epoch": 11.33,
+      "learning_rate": 4.9103078982597054e-05,
+      "loss": 0.2972,
+      "step": 2820
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 4.856760374832664e-05,
+      "loss": 0.2014,
+      "step": 2830
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 4.803212851405623e-05,
+      "loss": 0.142,
+      "step": 2840
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 4.749665327978581e-05,
+      "loss": 0.3213,
+      "step": 2850
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 4.69611780455154e-05,
+      "loss": 0.2315,
+      "step": 2860
+    },
+    {
+      "epoch": 11.53,
+      "learning_rate": 4.642570281124498e-05,
+      "loss": 0.2014,
+      "step": 2870
+    },
+    {
+      "epoch": 11.57,
+      "learning_rate": 4.589022757697457e-05,
+      "loss": 0.3035,
+      "step": 2880
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 4.5354752342704154e-05,
+      "loss": 0.1635,
+      "step": 2890
+    },
+    {
+      "epoch": 11.65,
+      "learning_rate": 4.481927710843374e-05,
+      "loss": 0.1971,
+      "step": 2900
+    },
+    {
+      "epoch": 11.65,
+      "eval_accuracy": 0.8433048433048433,
+      "eval_loss": 0.5440123677253723,
+      "eval_runtime": 16.1487,
+      "eval_samples_per_second": 43.471,
+      "eval_steps_per_second": 5.449,
+      "step": 2900
+    },
+    {
+      "epoch": 11.69,
+      "learning_rate": 4.4283801874163325e-05,
+      "loss": 0.2525,
+      "step": 2910
+    },
+    {
+      "epoch": 11.73,
+      "learning_rate": 4.3748326639892904e-05,
+      "loss": 0.2254,
+      "step": 2920
+    },
+    {
+      "epoch": 11.77,
+      "learning_rate": 4.321285140562249e-05,
+      "loss": 0.1619,
+      "step": 2930
+    },
+    {
+      "epoch": 11.81,
+      "learning_rate": 4.267737617135208e-05,
+      "loss": 0.2398,
+      "step": 2940
+    },
+    {
+      "epoch": 11.85,
+      "learning_rate": 4.214190093708166e-05,
+      "loss": 0.2213,
+      "step": 2950
+    },
+    {
+      "epoch": 11.89,
+      "learning_rate": 4.1606425702811246e-05,
+      "loss": 0.1775,
+      "step": 2960
+    },
+    {
+      "epoch": 11.93,
+      "learning_rate": 4.107095046854083e-05,
+      "loss": 0.2309,
+      "step": 2970
+    },
+    {
+      "epoch": 11.97,
+      "learning_rate": 4.053547523427042e-05,
+      "loss": 0.1681,
+      "step": 2980
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4e-05,
+      "loss": 0.3173,
+      "step": 2990
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 3.946452476572959e-05,
+      "loss": 0.2014,
+      "step": 3000
+    },
+    {
+      "epoch": 12.05,
+      "eval_accuracy": 0.8618233618233618,
+      "eval_loss": 0.5087952017784119,
+      "eval_runtime": 15.8505,
+      "eval_samples_per_second": 44.289,
+      "eval_steps_per_second": 5.552,
+      "step": 3000
+    },
+    {
+      "epoch": 12.09,
+      "learning_rate": 3.8929049531459175e-05,
+      "loss": 0.1908,
+      "step": 3010
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 3.8393574297188753e-05,
+      "loss": 0.1207,
+      "step": 3020
+    },
+    {
+      "epoch": 12.17,
+      "learning_rate": 3.785809906291834e-05,
+      "loss": 0.2251,
+      "step": 3030
+    },
+    {
+      "epoch": 12.21,
+      "learning_rate": 3.732262382864793e-05,
+      "loss": 0.1701,
+      "step": 3040
+    },
+    {
+      "epoch": 12.25,
+      "learning_rate": 3.678714859437751e-05,
+      "loss": 0.1692,
+      "step": 3050
+    },
+    {
+      "epoch": 12.29,
+      "learning_rate": 3.6251673360107096e-05,
+      "loss": 0.1648,
+      "step": 3060
+    },
+    {
+      "epoch": 12.33,
+      "learning_rate": 3.571619812583668e-05,
+      "loss": 0.1305,
+      "step": 3070
+    },
+    {
+      "epoch": 12.37,
+      "learning_rate": 3.518072289156627e-05,
+      "loss": 0.2228,
+      "step": 3080
+    },
+    {
+      "epoch": 12.41,
+      "learning_rate": 3.464524765729585e-05,
+      "loss": 0.1924,
+      "step": 3090
+    },
+    {
+      "epoch": 12.45,
+      "learning_rate": 3.410977242302544e-05,
+      "loss": 0.1458,
+      "step": 3100
+    },
+    {
+      "epoch": 12.45,
+      "eval_accuracy": 0.8618233618233618,
+      "eval_loss": 0.5538750290870667,
+      "eval_runtime": 15.995,
+      "eval_samples_per_second": 43.889,
+      "eval_steps_per_second": 5.502,
+      "step": 3100
+    },
+    {
+      "epoch": 12.49,
+      "learning_rate": 3.3574297188755024e-05,
+      "loss": 0.2216,
+      "step": 3110
+    },
+    {
+      "epoch": 12.53,
+      "learning_rate": 3.30388219544846e-05,
+      "loss": 0.2085,
+      "step": 3120
+    },
+    {
+      "epoch": 12.57,
+      "learning_rate": 3.250334672021419e-05,
+      "loss": 0.2727,
+      "step": 3130
+    },
+    {
+      "epoch": 12.61,
+      "learning_rate": 3.196787148594378e-05,
+      "loss": 0.1823,
+      "step": 3140
+    },
+    {
+      "epoch": 12.65,
+      "learning_rate": 3.143239625167336e-05,
+      "loss": 0.3328,
+      "step": 3150
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 3.0896921017402946e-05,
+      "loss": 0.1052,
+      "step": 3160
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 3.036144578313253e-05,
+      "loss": 0.1101,
+      "step": 3170
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 2.9825970548862113e-05,
+      "loss": 0.1827,
+      "step": 3180
+    },
+    {
+      "epoch": 12.81,
+      "learning_rate": 2.9290495314591702e-05,
+      "loss": 0.0858,
+      "step": 3190
+    },
+    {
+      "epoch": 12.85,
+      "learning_rate": 2.8755020080321288e-05,
+      "loss": 0.139,
+      "step": 3200
+    },
+    {
+      "epoch": 12.85,
+      "eval_accuracy": 0.8433048433048433,
+      "eval_loss": 0.5865837335586548,
+      "eval_runtime": 16.0651,
+      "eval_samples_per_second": 43.697,
+      "eval_steps_per_second": 5.478,
+      "step": 3200
+    },
+    {
+      "epoch": 12.89,
+      "learning_rate": 2.821954484605087e-05,
+      "loss": 0.2402,
+      "step": 3210
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 2.7684069611780456e-05,
+      "loss": 0.1964,
+      "step": 3220
+    },
+    {
+      "epoch": 12.97,
+      "learning_rate": 2.7148594377510038e-05,
+      "loss": 0.2707,
+      "step": 3230
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 2.6613119143239627e-05,
+      "loss": 0.2498,
+      "step": 3240
+    },
+    {
+      "epoch": 13.05,
+      "learning_rate": 2.6077643908969213e-05,
+      "loss": 0.0964,
+      "step": 3250
+    },
+    {
+      "epoch": 13.09,
+      "learning_rate": 2.5542168674698795e-05,
+      "loss": 0.2616,
+      "step": 3260
+    },
+    {
+      "epoch": 13.13,
+      "learning_rate": 2.500669344042838e-05,
+      "loss": 0.1971,
+      "step": 3270
+    },
+    {
+      "epoch": 13.17,
+      "learning_rate": 2.4471218206157966e-05,
+      "loss": 0.1651,
+      "step": 3280
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 2.3935742971887552e-05,
+      "loss": 0.0599,
+      "step": 3290
+    },
+    {
+      "epoch": 13.25,
+      "learning_rate": 2.3400267737617138e-05,
+      "loss": 0.2202,
+      "step": 3300
+    },
+    {
+      "epoch": 13.25,
+      "eval_accuracy": 0.8589743589743589,
+      "eval_loss": 0.5248175859451294,
+      "eval_runtime": 17.4004,
+      "eval_samples_per_second": 40.344,
+      "eval_steps_per_second": 5.057,
+      "step": 3300
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 2.286479250334672e-05,
+      "loss": 0.2497,
+      "step": 3310
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 2.2329317269076305e-05,
+      "loss": 0.1713,
+      "step": 3320
+    },
+    {
+      "epoch": 13.37,
+      "learning_rate": 2.179384203480589e-05,
+      "loss": 0.2707,
+      "step": 3330
+    },
+    {
+      "epoch": 13.41,
+      "learning_rate": 2.1258366800535477e-05,
+      "loss": 0.2123,
+      "step": 3340
+    },
+    {
+      "epoch": 13.45,
+      "learning_rate": 2.0722891566265062e-05,
+      "loss": 0.2833,
+      "step": 3350
+    },
+    {
+      "epoch": 13.49,
+      "learning_rate": 2.0187416331994645e-05,
+      "loss": 0.2003,
+      "step": 3360
+    },
+    {
+      "epoch": 13.53,
+      "learning_rate": 1.965194109772423e-05,
+      "loss": 0.2538,
+      "step": 3370
+    },
+    {
+      "epoch": 13.57,
+      "learning_rate": 1.9116465863453816e-05,
+      "loss": 0.112,
+      "step": 3380
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 1.85809906291834e-05,
+      "loss": 0.213,
+      "step": 3390
+    },
+    {
+      "epoch": 13.65,
+      "learning_rate": 1.8045515394912987e-05,
+      "loss": 0.1421,
+      "step": 3400
+    },
+    {
+      "epoch": 13.65,
+      "eval_accuracy": 0.8475783475783476,
+      "eval_loss": 0.5547856688499451,
+      "eval_runtime": 16.1927,
+      "eval_samples_per_second": 43.353,
+      "eval_steps_per_second": 5.435,
+      "step": 3400
+    },
+    {
+      "epoch": 13.69,
+      "learning_rate": 1.7510040160642573e-05,
+      "loss": 0.1792,
+      "step": 3410
+    },
+    {
+      "epoch": 13.73,
+      "learning_rate": 1.6974564926372155e-05,
+      "loss": 0.1797,
+      "step": 3420
+    },
+    {
+      "epoch": 13.78,
+      "learning_rate": 1.643908969210174e-05,
+      "loss": 0.1612,
+      "step": 3430
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 1.5903614457831326e-05,
+      "loss": 0.1175,
+      "step": 3440
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 1.5368139223560912e-05,
+      "loss": 0.2389,
+      "step": 3450
+    },
+    {
+      "epoch": 13.9,
+      "learning_rate": 1.4832663989290496e-05,
+      "loss": 0.1918,
+      "step": 3460
+    },
+    {
+      "epoch": 13.94,
+      "learning_rate": 1.429718875502008e-05,
+      "loss": 0.1623,
+      "step": 3470
+    },
+    {
+      "epoch": 13.98,
+      "learning_rate": 1.3761713520749667e-05,
+      "loss": 0.1686,
+      "step": 3480
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 1.3226238286479251e-05,
+      "loss": 0.2198,
+      "step": 3490
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 1.2690763052208837e-05,
+      "loss": 0.211,
+      "step": 3500
+    },
+    {
+      "epoch": 14.06,
+      "eval_accuracy": 0.8490028490028491,
+      "eval_loss": 0.5502182841300964,
+      "eval_runtime": 15.5914,
+      "eval_samples_per_second": 45.025,
+      "eval_steps_per_second": 5.644,
+      "step": 3500
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 1.215528781793842e-05,
+      "loss": 0.2969,
+      "step": 3510
+    },
+    {
+      "epoch": 14.14,
+      "learning_rate": 1.1619812583668006e-05,
+      "loss": 0.2386,
+      "step": 3520
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 1.108433734939759e-05,
+      "loss": 0.218,
+      "step": 3530
+    },
+    {
+      "epoch": 14.22,
+      "learning_rate": 1.0548862115127176e-05,
+      "loss": 0.2143,
+      "step": 3540
+    },
+    {
+      "epoch": 14.26,
+      "learning_rate": 1.0013386880856762e-05,
+      "loss": 0.1939,
+      "step": 3550
+    },
+    {
+      "epoch": 14.3,
+      "learning_rate": 9.477911646586345e-06,
+      "loss": 0.1032,
+      "step": 3560
+    },
+    {
+      "epoch": 14.34,
+      "learning_rate": 8.942436412315931e-06,
+      "loss": 0.0938,
+      "step": 3570
+    },
+    {
+      "epoch": 14.38,
+      "learning_rate": 8.406961178045515e-06,
+      "loss": 0.2132,
+      "step": 3580
+    },
+    {
+      "epoch": 14.42,
+      "learning_rate": 7.8714859437751e-06,
+      "loss": 0.0733,
+      "step": 3590
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 7.3360107095046855e-06,
+      "loss": 0.2106,
+      "step": 3600
+    },
+    {
+      "epoch": 14.46,
+      "eval_accuracy": 0.8504273504273504,
+      "eval_loss": 0.5413134694099426,
+      "eval_runtime": 16.0305,
+      "eval_samples_per_second": 43.792,
+      "eval_steps_per_second": 5.49,
+      "step": 3600
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 6.800535475234271e-06,
+      "loss": 0.1462,
+      "step": 3610
+    },
+    {
+      "epoch": 14.54,
+      "learning_rate": 6.265060240963856e-06,
+      "loss": 0.0978,
+      "step": 3620
+    },
+    {
+      "epoch": 14.58,
+      "learning_rate": 5.729585006693441e-06,
+      "loss": 0.2382,
+      "step": 3630
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 5.194109772423026e-06,
+      "loss": 0.2068,
+      "step": 3640
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 4.65863453815261e-06,
+      "loss": 0.1502,
+      "step": 3650
+    },
+    {
+      "epoch": 14.7,
+      "learning_rate": 4.123159303882196e-06,
+      "loss": 0.1871,
+      "step": 3660
+    },
+    {
+      "epoch": 14.74,
+      "learning_rate": 3.5876840696117802e-06,
+      "loss": 0.1998,
+      "step": 3670
+    },
+    {
+      "epoch": 14.78,
+      "learning_rate": 3.052208835341366e-06,
+      "loss": 0.1783,
+      "step": 3680
+    },
+    {
+      "epoch": 14.82,
+      "learning_rate": 2.5167336010709507e-06,
+      "loss": 0.1364,
+      "step": 3690
+    },
+    {
+      "epoch": 14.86,
+      "learning_rate": 1.9812583668005354e-06,
+      "loss": 0.1716,
+      "step": 3700
+    },
+    {
+      "epoch": 14.86,
+      "eval_accuracy": 0.8461538461538461,
+      "eval_loss": 0.5398270487785339,
+      "eval_runtime": 16.7227,
+      "eval_samples_per_second": 41.979,
+      "eval_steps_per_second": 5.262,
+      "step": 3700
+    },
+    {
+      "epoch": 14.9,
+      "learning_rate": 1.4457831325301207e-06,
+      "loss": 0.2021,
+      "step": 3710
+    },
+    {
+      "epoch": 14.94,
+      "learning_rate": 9.103078982597055e-07,
+      "loss": 0.2808,
+      "step": 3720
+    },
+    {
+      "epoch": 14.98,
+      "learning_rate": 3.748326639892905e-07,
+      "loss": 0.1892,
+      "step": 3730
+    },
+    {
+      "epoch": 15.0,
+      "step": 3735,
+      "total_flos": 4.617303784967946e+18,
+      "train_loss": 0.43795731744293864,
+      "train_runtime": 5300.4754,
+      "train_samples_per_second": 11.241,
+      "train_steps_per_second": 0.705
     }
   ],
   "logging_steps": 10,
+  "max_steps": 3735,
+  "num_train_epochs": 15,
   "save_steps": 100,
+  "total_flos": 4.617303784967946e+18,
   "trial_name": null,
   "trial_params": null
 }