🍻 cheers

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +11 -11
eval_results.json +6 -6
runs/Nov19_09-32-04_09d27efa0afa/events.out.tfevents.1700387193.09d27efa0afa.31695.1 +3 -0
train_results.json +6 -6
trainer_state.json +322 -2041

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -15,10 +16,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_all_10_class
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4417
-- Accuracy: 0.8604
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # Action_all_10_class
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the Action_small_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4259
+- Accuracy: 0.8661
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.8646723646723646,
-    "eval_loss": 0.5055693984031677,
-    "eval_runtime": 16.1252,
-    "eval_samples_per_second": 43.534,
-    "eval_steps_per_second": 5.457,
-    "total_flos": 4.617303784967946e+18,
-    "train_loss": 0.43795731744293864,
-    "train_runtime": 5300.4754,
-    "train_samples_per_second": 11.241,
-    "train_steps_per_second": 0.705
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.8660968660968661,
+    "eval_loss": 0.42591235041618347,
+    "eval_runtime": 11.9995,
+    "eval_samples_per_second": 58.502,
+    "eval_steps_per_second": 7.334,
+    "total_flos": 1.539101261655982e+18,
+    "train_loss": 0.6624564435108599,
+    "train_runtime": 820.1847,
+    "train_samples_per_second": 24.214,
+    "train_steps_per_second": 1.518
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.8646723646723646,
-    "eval_loss": 0.5055693984031677,
-    "eval_runtime": 16.1252,
-    "eval_samples_per_second": 43.534,
-    "eval_steps_per_second": 5.457
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.8660968660968661,
+    "eval_loss": 0.42591235041618347,
+    "eval_runtime": 11.9995,
+    "eval_samples_per_second": 58.502,
+    "eval_steps_per_second": 7.334
 }

runs/Nov19_09-32-04_09d27efa0afa/events.out.tfevents.1700387193.09d27efa0afa.31695.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca8de3090d397d26743aca8c5060909b65a826db89b2a8eed2a607ca731b0e40
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "total_flos": 4.617303784967946e+18,
-    "train_loss": 0.43795731744293864,
-    "train_runtime": 5300.4754,
-    "train_samples_per_second": 11.241,
-    "train_steps_per_second": 0.705
 }

 {
+    "epoch": 5.0,
+    "total_flos": 1.539101261655982e+18,
+    "train_loss": 0.6624564435108599,
+    "train_runtime": 820.1847,
+    "train_samples_per_second": 24.214,
+    "train_steps_per_second": 1.518
 }

trainer_state.json CHANGED Viewed

@@ -1,2599 +1,880 @@
 {
-  "best_metric": 0.5055693984031677,
-  "best_model_checkpoint": "Action_all_10_class/checkpoint-2700",
-  "epoch": 15.0,
   "eval_steps": 100,
-  "global_step": 3735,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 0.0001994645247657296,
-      "loss": 2.2354,
       "step": 10
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.00019892904953145918,
-      "loss": 2.071,
       "step": 20
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.00019839357429718877,
-      "loss": 1.8632,
       "step": 30
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.00019785809906291835,
-      "loss": 1.6341,
       "step": 40
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0001973226238286479,
-      "loss": 1.5563,
       "step": 50
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.00019678714859437752,
-      "loss": 1.3715,
       "step": 60
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0001962516733601071,
-      "loss": 1.3253,
       "step": 70
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00019571619812583667,
-      "loss": 1.2745,
       "step": 80
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.00019518072289156628,
-      "loss": 1.2778,
       "step": 90
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.00019464524765729587,
-      "loss": 1.1504,
       "step": 100
     },
     {
       "epoch": 0.4,
-      "eval_accuracy": 0.7777777777777778,
-      "eval_loss": 0.8748393058776855,
-      "eval_runtime": 418.086,
-      "eval_samples_per_second": 1.679,
-      "eval_steps_per_second": 0.21,
       "step": 100
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.00019410977242302542,
-      "loss": 1.0145,
       "step": 110
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00019357429718875504,
-      "loss": 1.1444,
       "step": 120
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.00019303882195448462,
-      "loss": 0.9792,
       "step": 130
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.0001925033467202142,
-      "loss": 1.1636,
       "step": 140
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00019196787148594377,
-      "loss": 1.0842,
       "step": 150
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.00019143239625167338,
-      "loss": 0.9826,
       "step": 160
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.00019089692101740297,
-      "loss": 0.8372,
       "step": 170
     },
     {
       "epoch": 0.72,
-      "learning_rate": 0.00019036144578313252,
-      "loss": 0.8697,
       "step": 180
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.00018982597054886214,
-      "loss": 0.9655,
       "step": 190
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.00018929049531459172,
-      "loss": 0.944,
       "step": 200
     },
     {
       "epoch": 0.8,
-      "eval_accuracy": 0.7549857549857549,
-      "eval_loss": 0.8146545886993408,
-      "eval_runtime": 15.9187,
-      "eval_samples_per_second": 44.099,
-      "eval_steps_per_second": 5.528,
       "step": 200
     },
     {
       "epoch": 0.84,
-      "learning_rate": 0.00018875502008032128,
-      "loss": 0.9529,
       "step": 210
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.0001882195448460509,
-      "loss": 0.9535,
       "step": 220
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.00018768406961178048,
-      "loss": 0.8665,
       "step": 230
     },
     {
       "epoch": 0.96,
-      "learning_rate": 0.00018714859437751004,
-      "loss": 0.8345,
       "step": 240
     },
     {
       "epoch": 1.0,
-      "learning_rate": 0.00018661311914323962,
-      "loss": 1.0123,
       "step": 250
     },
     {
       "epoch": 1.04,
-      "learning_rate": 0.00018607764390896924,
-      "loss": 0.8241,
       "step": 260
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.0001855421686746988,
-      "loss": 0.8182,
       "step": 270
     },
     {
       "epoch": 1.12,
-      "learning_rate": 0.00018500669344042838,
-      "loss": 0.8616,
       "step": 280
     },
     {
       "epoch": 1.16,
-      "learning_rate": 0.000184471218206158,
-      "loss": 0.7276,
       "step": 290
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.00018393574297188755,
-      "loss": 0.9096,
       "step": 300
     },
     {
       "epoch": 1.2,
-      "eval_accuracy": 0.7507122507122507,
-      "eval_loss": 0.7890926003456116,
-      "eval_runtime": 16.3956,
-      "eval_samples_per_second": 42.816,
-      "eval_steps_per_second": 5.367,
       "step": 300
     },
     {
       "epoch": 1.24,
-      "learning_rate": 0.00018340026773761714,
-      "loss": 0.8907,
       "step": 310
     },
     {
       "epoch": 1.29,
-      "learning_rate": 0.00018286479250334675,
-      "loss": 0.8123,
       "step": 320
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.0001823293172690763,
-      "loss": 0.7859,
       "step": 330
     },
     {
       "epoch": 1.37,
-      "learning_rate": 0.0001817938420348059,
-      "loss": 0.8536,
       "step": 340
     },
     {
       "epoch": 1.41,
-      "learning_rate": 0.00018125836680053548,
-      "loss": 0.7297,
       "step": 350
     },
     {
       "epoch": 1.45,
-      "learning_rate": 0.00018072289156626507,
-      "loss": 0.9101,
       "step": 360
     },
     {
       "epoch": 1.49,
-      "learning_rate": 0.00018018741633199465,
-      "loss": 0.8368,
       "step": 370
     },
     {
       "epoch": 1.53,
-      "learning_rate": 0.00017965194109772424,
-      "loss": 0.7023,
       "step": 380
     },
     {
       "epoch": 1.57,
-      "learning_rate": 0.00017911646586345382,
-      "loss": 0.7859,
       "step": 390
     },
     {
       "epoch": 1.61,
-      "learning_rate": 0.0001785809906291834,
-      "loss": 0.7847,
       "step": 400
     },
     {
       "epoch": 1.61,
-      "eval_accuracy": 0.7749287749287749,
-      "eval_loss": 0.749781608581543,
-      "eval_runtime": 16.0514,
-      "eval_samples_per_second": 43.735,
-      "eval_steps_per_second": 5.482,
       "step": 400
     },
     {
       "epoch": 1.65,
-      "learning_rate": 0.000178045515394913,
-      "loss": 0.7916,
       "step": 410
     },
     {
       "epoch": 1.69,
-      "learning_rate": 0.00017751004016064258,
-      "loss": 0.832,
       "step": 420
     },
     {
       "epoch": 1.73,
-      "learning_rate": 0.00017697456492637216,
-      "loss": 0.8133,
       "step": 430
     },
     {
       "epoch": 1.77,
-      "learning_rate": 0.00017643908969210175,
-      "loss": 0.9792,
       "step": 440
     },
     {
       "epoch": 1.81,
-      "learning_rate": 0.00017590361445783134,
-      "loss": 0.8379,
       "step": 450
     },
     {
       "epoch": 1.85,
-      "learning_rate": 0.00017536813922356092,
-      "loss": 0.6937,
       "step": 460
     },
     {
       "epoch": 1.89,
-      "learning_rate": 0.0001748326639892905,
-      "loss": 0.6223,
       "step": 470
     },
     {
       "epoch": 1.93,
-      "learning_rate": 0.0001742971887550201,
-      "loss": 0.7433,
       "step": 480
     },
     {
       "epoch": 1.97,
-      "learning_rate": 0.00017376171352074968,
-      "loss": 0.8604,
       "step": 490
     },
     {
       "epoch": 2.01,
-      "learning_rate": 0.00017322623828647926,
-      "loss": 0.7296,
       "step": 500
     },
     {
       "epoch": 2.01,
-      "eval_accuracy": 0.8034188034188035,
-      "eval_loss": 0.6464697122573853,
-      "eval_runtime": 15.9168,
-      "eval_samples_per_second": 44.104,
-      "eval_steps_per_second": 5.529,
       "step": 500
     },
     {
       "epoch": 2.05,
-      "learning_rate": 0.00017269076305220885,
-      "loss": 0.6047,
       "step": 510
     },
     {
       "epoch": 2.09,
-      "learning_rate": 0.00017215528781793844,
-      "loss": 0.7931,
       "step": 520
     },
     {
       "epoch": 2.13,
-      "learning_rate": 0.00017161981258366802,
-      "loss": 0.6484,
       "step": 530
     },
     {
       "epoch": 2.17,
-      "learning_rate": 0.0001710843373493976,
-      "loss": 0.6168,
       "step": 540
     },
     {
       "epoch": 2.21,
-      "learning_rate": 0.00017054886211512717,
-      "loss": 0.6084,
       "step": 550
     },
     {
       "epoch": 2.25,
-      "learning_rate": 0.00017001338688085678,
-      "loss": 0.5808,
       "step": 560
     },
     {
       "epoch": 2.29,
-      "learning_rate": 0.00016947791164658636,
-      "loss": 0.6777,
       "step": 570
     },
     {
       "epoch": 2.33,
-      "learning_rate": 0.00016894243641231592,
-      "loss": 0.6263,
       "step": 580
     },
     {
       "epoch": 2.37,
-      "learning_rate": 0.00016840696117804553,
-      "loss": 0.6697,
       "step": 590
     },
     {
       "epoch": 2.41,
-      "learning_rate": 0.00016787148594377512,
-      "loss": 0.7107,
       "step": 600
     },
     {
       "epoch": 2.41,
-      "eval_accuracy": 0.7549857549857549,
-      "eval_loss": 0.7201387882232666,
-      "eval_runtime": 16.1564,
-      "eval_samples_per_second": 43.45,
-      "eval_steps_per_second": 5.447,
       "step": 600
     },
     {
       "epoch": 2.45,
-      "learning_rate": 0.00016733601070950468,
-      "loss": 0.6248,
       "step": 610
     },
     {
       "epoch": 2.49,
-      "learning_rate": 0.0001668005354752343,
-      "loss": 0.6299,
       "step": 620
     },
     {
       "epoch": 2.53,
-      "learning_rate": 0.00016631860776439089,
-      "loss": 0.7085,
       "step": 630
     },
     {
       "epoch": 2.57,
-      "learning_rate": 0.0001657831325301205,
-      "loss": 0.6907,
       "step": 640
     },
     {
       "epoch": 2.61,
-      "learning_rate": 0.00016524765729585008,
-      "loss": 0.7222,
       "step": 650
     },
     {
       "epoch": 2.65,
-      "learning_rate": 0.00016471218206157964,
-      "loss": 0.5053,
       "step": 660
     },
     {
       "epoch": 2.69,
-      "learning_rate": 0.00016417670682730923,
-      "loss": 0.5526,
       "step": 670
     },
     {
       "epoch": 2.73,
-      "learning_rate": 0.00016364123159303884,
-      "loss": 0.7261,
       "step": 680
     },
     {
       "epoch": 2.77,
-      "learning_rate": 0.0001631057563587684,
-      "loss": 0.7419,
       "step": 690
     },
     {
       "epoch": 2.81,
-      "learning_rate": 0.00016257028112449799,
-      "loss": 0.5229,
       "step": 700
     },
     {
       "epoch": 2.81,
-      "eval_accuracy": 0.7521367521367521,
-      "eval_loss": 0.7578324675559998,
-      "eval_runtime": 15.6021,
-      "eval_samples_per_second": 44.994,
-      "eval_steps_per_second": 5.64,
       "step": 700
     },
     {
       "epoch": 2.85,
-      "learning_rate": 0.0001620348058902276,
-      "loss": 0.5829,
       "step": 710
     },
     {
       "epoch": 2.89,
-      "learning_rate": 0.00016149933065595716,
-      "loss": 0.7214,
       "step": 720
     },
     {
       "epoch": 2.93,
-      "learning_rate": 0.00016096385542168674,
-      "loss": 0.5506,
       "step": 730
     },
     {
       "epoch": 2.97,
-      "learning_rate": 0.00016042838018741636,
-      "loss": 0.6699,
       "step": 740
     },
     {
       "epoch": 3.01,
-      "learning_rate": 0.00015989290495314594,
-      "loss": 0.6616,
       "step": 750
     },
     {
       "epoch": 3.05,
-      "learning_rate": 0.0001593574297188755,
-      "loss": 0.6225,
       "step": 760
     },
     {
       "epoch": 3.09,
-      "learning_rate": 0.00015882195448460509,
-      "loss": 0.4438,
       "step": 770
     },
     {
       "epoch": 3.13,
-      "learning_rate": 0.0001582864792503347,
-      "loss": 0.5325,
       "step": 780
     },
     {
       "epoch": 3.17,
-      "learning_rate": 0.00015775100401606426,
-      "loss": 0.4131,
       "step": 790
     },
     {
       "epoch": 3.21,
-      "learning_rate": 0.00015721552878179384,
-      "loss": 0.4698,
       "step": 800
     },
     {
       "epoch": 3.21,
-      "eval_accuracy": 0.811965811965812,
-      "eval_loss": 0.6026700735092163,
-      "eval_runtime": 16.0444,
-      "eval_samples_per_second": 43.754,
-      "eval_steps_per_second": 5.485,
       "step": 800
     },
     {
       "epoch": 3.25,
-      "learning_rate": 0.00015668005354752345,
-      "loss": 0.6905,
       "step": 810
     },
     {
       "epoch": 3.29,
-      "learning_rate": 0.000156144578313253,
-      "loss": 0.5132,
       "step": 820
     },
     {
       "epoch": 3.33,
-      "learning_rate": 0.0001556091030789826,
-      "loss": 0.474,
       "step": 830
     },
     {
       "epoch": 3.37,
-      "learning_rate": 0.0001550736278447122,
-      "loss": 0.5092,
       "step": 840
     },
     {
       "epoch": 3.41,
-      "learning_rate": 0.00015453815261044177,
-      "loss": 0.538,
       "step": 850
     },
     {
       "epoch": 3.45,
-      "learning_rate": 0.00015400267737617136,
-      "loss": 0.5138,
       "step": 860
     },
     {
       "epoch": 3.49,
-      "learning_rate": 0.00015346720214190094,
-      "loss": 0.5828,
       "step": 870
     },
     {
       "epoch": 3.53,
-      "learning_rate": 0.00015293172690763053,
-      "loss": 0.562,
       "step": 880
     },
     {
       "epoch": 3.57,
-      "learning_rate": 0.0001523962516733601,
-      "loss": 0.6672,
       "step": 890
     },
     {
       "epoch": 3.61,
-      "learning_rate": 0.0001518607764390897,
-      "loss": 0.4846,
       "step": 900
     },
     {
       "epoch": 3.61,
-      "eval_accuracy": 0.7877492877492878,
-      "eval_loss": 0.7316339612007141,
-      "eval_runtime": 16.5159,
-      "eval_samples_per_second": 42.505,
-      "eval_steps_per_second": 5.328,
       "step": 900
     },
     {
       "epoch": 3.65,
-      "learning_rate": 0.00015132530120481928,
-      "loss": 0.5271,
       "step": 910
     },
     {
       "epoch": 3.69,
-      "learning_rate": 0.00015078982597054887,
-      "loss": 0.5956,
       "step": 920
     },
     {
       "epoch": 3.73,
-      "learning_rate": 0.00015025435073627846,
-      "loss": 0.5846,
       "step": 930
     },
     {
       "epoch": 3.78,
-      "learning_rate": 0.00014971887550200804,
-      "loss": 0.6677,
       "step": 940
     },
     {
       "epoch": 3.82,
-      "learning_rate": 0.00014918340026773763,
-      "loss": 0.5125,
       "step": 950
     },
     {
       "epoch": 3.86,
-      "learning_rate": 0.0001486479250334672,
-      "loss": 0.5183,
       "step": 960
     },
     {
       "epoch": 3.9,
-      "learning_rate": 0.00014811244979919677,
-      "loss": 0.654,
       "step": 970
     },
     {
       "epoch": 3.94,
-      "learning_rate": 0.00014757697456492638,
-      "loss": 0.5701,
       "step": 980
     },
     {
       "epoch": 3.98,
-      "learning_rate": 0.00014704149933065597,
-      "loss": 0.508,
       "step": 990
     },
     {
       "epoch": 4.02,
-      "learning_rate": 0.00014650602409638555,
-      "loss": 0.5676,
       "step": 1000
     },
     {
       "epoch": 4.02,
-      "eval_accuracy": 0.7948717948717948,
-      "eval_loss": 0.6542341113090515,
-      "eval_runtime": 15.7886,
-      "eval_samples_per_second": 44.462,
-      "eval_steps_per_second": 5.574,
       "step": 1000
     },
     {
       "epoch": 4.06,
-      "learning_rate": 0.00014597054886211514,
-      "loss": 0.5009,
       "step": 1010
     },
     {
       "epoch": 4.1,
-      "learning_rate": 0.00014543507362784473,
-      "loss": 0.5297,
       "step": 1020
     },
     {
       "epoch": 4.14,
-      "learning_rate": 0.0001448995983935743,
-      "loss": 0.4541,
       "step": 1030
     },
     {
       "epoch": 4.18,
-      "learning_rate": 0.0001443641231593039,
-      "loss": 0.5364,
       "step": 1040
     },
     {
       "epoch": 4.22,
-      "learning_rate": 0.00014382864792503348,
-      "loss": 0.5752,
       "step": 1050
     },
     {
       "epoch": 4.26,
-      "learning_rate": 0.00014329317269076307,
-      "loss": 0.4823,
       "step": 1060
     },
     {
       "epoch": 4.3,
-      "learning_rate": 0.00014275769745649263,
-      "loss": 0.3711,
       "step": 1070
     },
     {
       "epoch": 4.34,
-      "learning_rate": 0.00014222222222222224,
-      "loss": 0.546,
       "step": 1080
     },
     {
       "epoch": 4.38,
-      "learning_rate": 0.00014168674698795183,
-      "loss": 0.5474,
       "step": 1090
     },
     {
       "epoch": 4.42,
-      "learning_rate": 0.00014115127175368138,
-      "loss": 0.4784,
       "step": 1100
     },
     {
       "epoch": 4.42,
-      "eval_accuracy": 0.7991452991452992,
-      "eval_loss": 0.6610600352287292,
-      "eval_runtime": 16.6911,
-      "eval_samples_per_second": 42.058,
-      "eval_steps_per_second": 5.272,
       "step": 1100
     },
     {
       "epoch": 4.46,
-      "learning_rate": 0.000140615796519411,
-      "loss": 0.3035,
       "step": 1110
     },
     {
       "epoch": 4.5,
-      "learning_rate": 0.00014008032128514058,
-      "loss": 0.5735,
       "step": 1120
     },
     {
       "epoch": 4.54,
-      "learning_rate": 0.00013954484605087014,
-      "loss": 0.4467,
       "step": 1130
     },
     {
       "epoch": 4.58,
-      "learning_rate": 0.00013900937081659975,
-      "loss": 0.5254,
       "step": 1140
     },
     {
       "epoch": 4.62,
-      "learning_rate": 0.00013847389558232934,
-      "loss": 0.5678,
       "step": 1150
     },
     {
       "epoch": 4.66,
-      "learning_rate": 0.0001379384203480589,
-      "loss": 0.5742,
       "step": 1160
     },
     {
       "epoch": 4.7,
-      "learning_rate": 0.00013740294511378848,
-      "loss": 0.53,
       "step": 1170
     },
     {
       "epoch": 4.74,
-      "learning_rate": 0.0001368674698795181,
-      "loss": 0.4964,
       "step": 1180
     },
     {
       "epoch": 4.78,
-      "learning_rate": 0.00013633199464524765,
-      "loss": 0.6265,
       "step": 1190
     },
     {
       "epoch": 4.82,
-      "learning_rate": 0.00013579651941097724,
-      "loss": 0.411,
       "step": 1200
     },
     {
       "epoch": 4.82,
-      "eval_accuracy": 0.8076923076923077,
-      "eval_loss": 0.5829504728317261,
-      "eval_runtime": 15.3709,
-      "eval_samples_per_second": 45.671,
-      "eval_steps_per_second": 5.725,
       "step": 1200
     },
     {
       "epoch": 4.86,
-      "learning_rate": 0.00013526104417670685,
-      "loss": 0.5112,
       "step": 1210
     },
     {
       "epoch": 4.9,
-      "learning_rate": 0.0001347255689424364,
-      "loss": 0.4058,
       "step": 1220
     },
     {
       "epoch": 4.94,
-      "learning_rate": 0.000134190093708166,
-      "loss": 0.4561,
       "step": 1230
     },
     {
       "epoch": 4.98,
-      "learning_rate": 0.0001336546184738956,
-      "loss": 0.5612,
       "step": 1240
     },
     {
-      "epoch": 5.02,
-      "learning_rate": 0.00013311914323962517,
-      "loss": 0.5281,
-      "step": 1250
-    },
-    {
-      "epoch": 5.06,
-      "learning_rate": 0.00013258366800535475,
-      "loss": 0.4303,
-      "step": 1260
-    },
-    {
-      "epoch": 5.1,
-      "learning_rate": 0.00013204819277108434,
-      "loss": 0.5335,
-      "step": 1270
-    },
-    {
-      "epoch": 5.14,
-      "learning_rate": 0.00013151271753681393,
-      "loss": 0.516,
-      "step": 1280
-    },
-    {
-      "epoch": 5.18,
-      "learning_rate": 0.0001309772423025435,
-      "loss": 0.3724,
-      "step": 1290
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 0.0001304417670682731,
-      "loss": 0.4021,
-      "step": 1300
-    },
-    {
-      "epoch": 5.22,
-      "eval_accuracy": 0.8447293447293447,
-      "eval_loss": 0.5220329165458679,
-      "eval_runtime": 16.7754,
-      "eval_samples_per_second": 41.847,
-      "eval_steps_per_second": 5.246,
-      "step": 1300
-    },
-    {
-      "epoch": 5.26,
-      "learning_rate": 0.00012990629183400268,
-      "loss": 0.3457,
-      "step": 1310
-    },
-    {
-      "epoch": 5.3,
-      "learning_rate": 0.00012937081659973227,
-      "loss": 0.5637,
-      "step": 1320
-    },
-    {
-      "epoch": 5.34,
-      "learning_rate": 0.00012883534136546185,
-      "loss": 0.5554,
-      "step": 1330
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 0.00012829986613119144,
-      "loss": 0.4353,
-      "step": 1340
-    },
-    {
-      "epoch": 5.42,
-      "learning_rate": 0.00012776439089692102,
-      "loss": 0.4007,
-      "step": 1350
-    },
-    {
-      "epoch": 5.46,
-      "learning_rate": 0.0001272289156626506,
-      "loss": 0.5503,
-      "step": 1360
-    },
-    {
-      "epoch": 5.5,
-      "learning_rate": 0.0001266934404283802,
-      "loss": 0.4853,
-      "step": 1370
-    },
-    {
-      "epoch": 5.54,
-      "learning_rate": 0.00012615796519410978,
-      "loss": 0.472,
-      "step": 1380
-    },
-    {
-      "epoch": 5.58,
-      "learning_rate": 0.00012562248995983937,
-      "loss": 0.3708,
-      "step": 1390
-    },
-    {
-      "epoch": 5.62,
-      "learning_rate": 0.00012508701472556895,
-      "loss": 0.6442,
-      "step": 1400
-    },
-    {
-      "epoch": 5.62,
-      "eval_accuracy": 0.7849002849002849,
-      "eval_loss": 0.7221683859825134,
-      "eval_runtime": 16.0745,
-      "eval_samples_per_second": 43.672,
-      "eval_steps_per_second": 5.475,
-      "step": 1400
-    },
-    {
-      "epoch": 5.66,
-      "learning_rate": 0.00012455153949129854,
-      "loss": 0.5429,
-      "step": 1410
-    },
-    {
-      "epoch": 5.7,
-      "learning_rate": 0.00012401606425702812,
-      "loss": 0.3282,
-      "step": 1420
-    },
-    {
-      "epoch": 5.74,
-      "learning_rate": 0.0001234805890227577,
-      "loss": 0.3511,
-      "step": 1430
-    },
-    {
-      "epoch": 5.78,
-      "learning_rate": 0.0001229451137884873,
-      "loss": 0.4462,
-      "step": 1440
-    },
-    {
-      "epoch": 5.82,
-      "learning_rate": 0.00012240963855421688,
-      "loss": 0.3959,
-      "step": 1450
-    },
-    {
-      "epoch": 5.86,
-      "learning_rate": 0.00012187416331994645,
-      "loss": 0.4424,
-      "step": 1460
-    },
-    {
-      "epoch": 5.9,
-      "learning_rate": 0.00012133868808567604,
-      "loss": 0.4374,
-      "step": 1470
-    },
-    {
-      "epoch": 5.94,
-      "learning_rate": 0.00012080321285140564,
-      "loss": 0.5365,
-      "step": 1480
-    },
-    {
-      "epoch": 5.98,
-      "learning_rate": 0.00012026773761713521,
-      "loss": 0.4206,
-      "step": 1490
-    },
-    {
-      "epoch": 6.02,
-      "learning_rate": 0.0001197322623828648,
-      "loss": 0.4539,
-      "step": 1500
-    },
-    {
-      "epoch": 6.02,
-      "eval_accuracy": 0.8347578347578347,
-      "eval_loss": 0.5616238117218018,
-      "eval_runtime": 15.9222,
-      "eval_samples_per_second": 44.089,
-      "eval_steps_per_second": 5.527,
-      "step": 1500
-    },
-    {
-      "epoch": 6.06,
-      "learning_rate": 0.0001191967871485944,
-      "loss": 0.3495,
-      "step": 1510
-    },
-    {
-      "epoch": 6.1,
-      "learning_rate": 0.00011866131191432397,
-      "loss": 0.4073,
-      "step": 1520
-    },
-    {
-      "epoch": 6.14,
-      "learning_rate": 0.00011812583668005355,
-      "loss": 0.4443,
-      "step": 1530
-    },
-    {
-      "epoch": 6.18,
-      "learning_rate": 0.00011759036144578315,
-      "loss": 0.4943,
-      "step": 1540
-    },
-    {
-      "epoch": 6.22,
-      "learning_rate": 0.00011705488621151272,
-      "loss": 0.3544,
-      "step": 1550
-    },
-    {
-      "epoch": 6.27,
-      "learning_rate": 0.00011651941097724231,
-      "loss": 0.3664,
-      "step": 1560
-    },
-    {
-      "epoch": 6.31,
-      "learning_rate": 0.00011598393574297188,
-      "loss": 0.3431,
-      "step": 1570
-    },
-    {
-      "epoch": 6.35,
-      "learning_rate": 0.00011544846050870148,
-      "loss": 0.4448,
-      "step": 1580
-    },
-    {
-      "epoch": 6.39,
-      "learning_rate": 0.00011491298527443107,
-      "loss": 0.3958,
-      "step": 1590
-    },
-    {
-      "epoch": 6.43,
-      "learning_rate": 0.00011437751004016064,
-      "loss": 0.4256,
-      "step": 1600
-    },
-    {
-      "epoch": 6.43,
-      "eval_accuracy": 0.801994301994302,
-      "eval_loss": 0.6621670722961426,
-      "eval_runtime": 16.4993,
-      "eval_samples_per_second": 42.547,
-      "eval_steps_per_second": 5.334,
-      "step": 1600
-    },
-    {
-      "epoch": 6.47,
-      "learning_rate": 0.00011384203480589024,
-      "loss": 0.4149,
-      "step": 1610
-    },
-    {
-      "epoch": 6.51,
-      "learning_rate": 0.00011330655957161982,
-      "loss": 0.3562,
-      "step": 1620
-    },
-    {
-      "epoch": 6.55,
-      "learning_rate": 0.0001127710843373494,
-      "loss": 0.4423,
-      "step": 1630
-    },
-    {
-      "epoch": 6.59,
-      "learning_rate": 0.000112235609103079,
-      "loss": 0.5026,
-      "step": 1640
-    },
-    {
-      "epoch": 6.63,
-      "learning_rate": 0.00011170013386880858,
-      "loss": 0.4306,
-      "step": 1650
-    },
-    {
-      "epoch": 6.67,
-      "learning_rate": 0.00011116465863453815,
-      "loss": 0.3413,
-      "step": 1660
-    },
-    {
-      "epoch": 6.71,
-      "learning_rate": 0.00011062918340026774,
-      "loss": 0.3856,
-      "step": 1670
-    },
-    {
-      "epoch": 6.75,
-      "learning_rate": 0.00011009370816599734,
-      "loss": 0.441,
-      "step": 1680
-    },
-    {
-      "epoch": 6.79,
-      "learning_rate": 0.00010955823293172691,
-      "loss": 0.3613,
-      "step": 1690
-    },
-    {
-      "epoch": 6.83,
-      "learning_rate": 0.0001090227576974565,
-      "loss": 0.2839,
-      "step": 1700
-    },
-    {
-      "epoch": 6.83,
-      "eval_accuracy": 0.8262108262108262,
-      "eval_loss": 0.6048392057418823,
-      "eval_runtime": 16.0148,
-      "eval_samples_per_second": 43.835,
-      "eval_steps_per_second": 5.495,
-      "step": 1700
-    },
-    {
-      "epoch": 6.87,
-      "learning_rate": 0.0001084872824631861,
-      "loss": 0.4067,
-      "step": 1710
-    },
-    {
-      "epoch": 6.91,
-      "learning_rate": 0.00010795180722891567,
-      "loss": 0.4729,
-      "step": 1720
-    },
-    {
-      "epoch": 6.95,
-      "learning_rate": 0.00010741633199464525,
-      "loss": 0.414,
-      "step": 1730
-    },
-    {
-      "epoch": 6.99,
-      "learning_rate": 0.00010688085676037485,
-      "loss": 0.3331,
-      "step": 1740
-    },
-    {
-      "epoch": 7.03,
-      "learning_rate": 0.00010634538152610442,
-      "loss": 0.3609,
-      "step": 1750
-    },
-    {
-      "epoch": 7.07,
-      "learning_rate": 0.00010580990629183401,
-      "loss": 0.344,
-      "step": 1760
-    },
-    {
-      "epoch": 7.11,
-      "learning_rate": 0.00010527443105756358,
-      "loss": 0.2764,
-      "step": 1770
-    },
-    {
-      "epoch": 7.15,
-      "learning_rate": 0.00010473895582329318,
-      "loss": 0.3016,
-      "step": 1780
-    },
-    {
-      "epoch": 7.19,
-      "learning_rate": 0.00010420348058902277,
-      "loss": 0.3246,
-      "step": 1790
-    },
-    {
-      "epoch": 7.23,
-      "learning_rate": 0.00010366800535475234,
-      "loss": 0.4236,
-      "step": 1800
-    },
-    {
-      "epoch": 7.23,
-      "eval_accuracy": 0.8262108262108262,
-      "eval_loss": 0.5745150446891785,
-      "eval_runtime": 16.5747,
-      "eval_samples_per_second": 42.354,
-      "eval_steps_per_second": 5.309,
-      "step": 1800
-    },
-    {
-      "epoch": 7.27,
-      "learning_rate": 0.00010313253012048194,
-      "loss": 0.2888,
-      "step": 1810
-    },
-    {
-      "epoch": 7.31,
-      "learning_rate": 0.00010259705488621152,
-      "loss": 0.3958,
-      "step": 1820
-    },
-    {
-      "epoch": 7.35,
-      "learning_rate": 0.0001020615796519411,
-      "loss": 0.4288,
-      "step": 1830
-    },
-    {
-      "epoch": 7.39,
-      "learning_rate": 0.0001015261044176707,
-      "loss": 0.3465,
-      "step": 1840
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 0.00010099062918340028,
-      "loss": 0.4222,
-      "step": 1850
-    },
-    {
-      "epoch": 7.47,
-      "learning_rate": 0.00010045515394912985,
-      "loss": 0.2903,
-      "step": 1860
-    },
-    {
-      "epoch": 7.51,
-      "learning_rate": 9.991967871485944e-05,
-      "loss": 0.4449,
-      "step": 1870
-    },
-    {
-      "epoch": 7.55,
-      "learning_rate": 9.938420348058902e-05,
-      "loss": 0.2636,
-      "step": 1880
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 9.884872824631861e-05,
-      "loss": 0.2312,
-      "step": 1890
-    },
-    {
-      "epoch": 7.63,
-      "learning_rate": 9.831325301204821e-05,
-      "loss": 0.3371,
-      "step": 1900
-    },
-    {
-      "epoch": 7.63,
-      "eval_accuracy": 0.8447293447293447,
-      "eval_loss": 0.5557853579521179,
-      "eval_runtime": 15.8613,
-      "eval_samples_per_second": 44.259,
-      "eval_steps_per_second": 5.548,
-      "step": 1900
-    },
-    {
-      "epoch": 7.67,
-      "learning_rate": 9.777777777777778e-05,
-      "loss": 0.3054,
-      "step": 1910
-    },
-    {
-      "epoch": 7.71,
-      "learning_rate": 9.724230254350737e-05,
-      "loss": 0.2751,
-      "step": 1920
-    },
-    {
-      "epoch": 7.75,
-      "learning_rate": 9.670682730923695e-05,
-      "loss": 0.292,
-      "step": 1930
-    },
-    {
-      "epoch": 7.79,
-      "learning_rate": 9.617135207496654e-05,
-      "loss": 0.3959,
-      "step": 1940
-    },
-    {
-      "epoch": 7.83,
-      "learning_rate": 9.563587684069612e-05,
-      "loss": 0.3317,
-      "step": 1950
-    },
-    {
-      "epoch": 7.87,
-      "learning_rate": 9.510040160642571e-05,
-      "loss": 0.3576,
-      "step": 1960
-    },
-    {
-      "epoch": 7.91,
-      "learning_rate": 9.45649263721553e-05,
-      "loss": 0.2761,
-      "step": 1970
-    },
-    {
-      "epoch": 7.95,
-      "learning_rate": 9.402945113788487e-05,
-      "loss": 0.3616,
-      "step": 1980
-    },
-    {
-      "epoch": 7.99,
-      "learning_rate": 9.349397590361446e-05,
-      "loss": 0.3875,
-      "step": 1990
-    },
-    {
-      "epoch": 8.03,
-      "learning_rate": 9.295850066934405e-05,
-      "loss": 0.2564,
-      "step": 2000
-    },
-    {
-      "epoch": 8.03,
-      "eval_accuracy": 0.8376068376068376,
-      "eval_loss": 0.5993377566337585,
-      "eval_runtime": 15.9305,
-      "eval_samples_per_second": 44.066,
-      "eval_steps_per_second": 5.524,
-      "step": 2000
-    },
-    {
-      "epoch": 8.07,
-      "learning_rate": 9.242302543507362e-05,
-      "loss": 0.264,
-      "step": 2010
-    },
-    {
-      "epoch": 8.11,
-      "learning_rate": 9.188755020080322e-05,
-      "loss": 0.2075,
-      "step": 2020
-    },
-    {
-      "epoch": 8.15,
-      "learning_rate": 9.13520749665328e-05,
-      "loss": 0.1795,
-      "step": 2030
-    },
-    {
-      "epoch": 8.19,
-      "learning_rate": 9.081659973226239e-05,
-      "loss": 0.3475,
-      "step": 2040
-    },
-    {
-      "epoch": 8.23,
-      "learning_rate": 9.028112449799198e-05,
-      "loss": 0.386,
-      "step": 2050
-    },
-    {
-      "epoch": 8.27,
-      "learning_rate": 8.974564926372155e-05,
-      "loss": 0.4569,
-      "step": 2060
-    },
-    {
-      "epoch": 8.31,
-      "learning_rate": 8.921017402945115e-05,
-      "loss": 0.2956,
-      "step": 2070
-    },
-    {
-      "epoch": 8.35,
-      "learning_rate": 8.867469879518072e-05,
-      "loss": 0.2071,
-      "step": 2080
-    },
-    {
-      "epoch": 8.39,
-      "learning_rate": 8.813922356091031e-05,
-      "loss": 0.2673,
-      "step": 2090
-    },
-    {
-      "epoch": 8.43,
-      "learning_rate": 8.760374832663991e-05,
-      "loss": 0.2802,
-      "step": 2100
-    },
-    {
-      "epoch": 8.43,
-      "eval_accuracy": 0.8589743589743589,
-      "eval_loss": 0.5201694965362549,
-      "eval_runtime": 16.9693,
-      "eval_samples_per_second": 41.369,
-      "eval_steps_per_second": 5.186,
-      "step": 2100
-    },
-    {
-      "epoch": 8.47,
-      "learning_rate": 8.706827309236948e-05,
-      "loss": 0.4448,
-      "step": 2110
-    },
-    {
-      "epoch": 8.51,
-      "learning_rate": 8.653279785809906e-05,
-      "loss": 0.3018,
-      "step": 2120
-    },
-    {
-      "epoch": 8.55,
-      "learning_rate": 8.599732262382865e-05,
-      "loss": 0.4112,
-      "step": 2130
-    },
-    {
-      "epoch": 8.59,
-      "learning_rate": 8.546184738955824e-05,
-      "loss": 0.3,
-      "step": 2140
-    },
-    {
-      "epoch": 8.63,
-      "learning_rate": 8.492637215528782e-05,
-      "loss": 0.2328,
-      "step": 2150
-    },
-    {
-      "epoch": 8.67,
-      "learning_rate": 8.439089692101741e-05,
-      "loss": 0.3432,
-      "step": 2160
-    },
-    {
-      "epoch": 8.71,
-      "learning_rate": 8.385542168674699e-05,
-      "loss": 0.2498,
-      "step": 2170
-    },
-    {
-      "epoch": 8.76,
-      "learning_rate": 8.331994645247658e-05,
-      "loss": 0.3595,
-      "step": 2180
-    },
-    {
-      "epoch": 8.8,
-      "learning_rate": 8.278447121820616e-05,
-      "loss": 0.3939,
-      "step": 2190
-    },
-    {
-      "epoch": 8.84,
-      "learning_rate": 8.224899598393575e-05,
-      "loss": 0.2938,
-      "step": 2200
-    },
-    {
-      "epoch": 8.84,
-      "eval_accuracy": 0.8176638176638177,
-      "eval_loss": 0.619129478931427,
-      "eval_runtime": 17.7657,
-      "eval_samples_per_second": 39.514,
-      "eval_steps_per_second": 4.953,
-      "step": 2200
-    },
-    {
-      "epoch": 8.88,
-      "learning_rate": 8.171352074966534e-05,
-      "loss": 0.3719,
-      "step": 2210
-    },
-    {
-      "epoch": 8.92,
-      "learning_rate": 8.117804551539492e-05,
-      "loss": 0.3056,
-      "step": 2220
-    },
-    {
-      "epoch": 8.96,
-      "learning_rate": 8.064257028112449e-05,
-      "loss": 0.4149,
-      "step": 2230
-    },
-    {
-      "epoch": 9.0,
-      "learning_rate": 8.010709504685409e-05,
-      "loss": 0.3413,
-      "step": 2240
-    },
-    {
-      "epoch": 9.04,
-      "learning_rate": 7.957161981258368e-05,
-      "loss": 0.2569,
-      "step": 2250
-    },
-    {
-      "epoch": 9.08,
-      "learning_rate": 7.903614457831325e-05,
-      "loss": 0.3128,
-      "step": 2260
-    },
-    {
-      "epoch": 9.12,
-      "learning_rate": 7.850066934404285e-05,
-      "loss": 0.2906,
-      "step": 2270
-    },
-    {
-      "epoch": 9.16,
-      "learning_rate": 7.796519410977242e-05,
-      "loss": 0.233,
-      "step": 2280
-    },
-    {
-      "epoch": 9.2,
-      "learning_rate": 7.7429718875502e-05,
-      "loss": 0.3216,
-      "step": 2290
-    },
-    {
-      "epoch": 9.24,
-      "learning_rate": 7.68942436412316e-05,
-      "loss": 0.2777,
-      "step": 2300
-    },
-    {
-      "epoch": 9.24,
-      "eval_accuracy": 0.8504273504273504,
-      "eval_loss": 0.5119191408157349,
-      "eval_runtime": 16.0458,
-      "eval_samples_per_second": 43.75,
-      "eval_steps_per_second": 5.484,
-      "step": 2300
-    },
-    {
-      "epoch": 9.28,
-      "learning_rate": 7.635876840696118e-05,
-      "loss": 0.1969,
-      "step": 2310
-    },
-    {
-      "epoch": 9.32,
-      "learning_rate": 7.582329317269076e-05,
-      "loss": 0.185,
-      "step": 2320
-    },
-    {
-      "epoch": 9.36,
-      "learning_rate": 7.528781793842035e-05,
-      "loss": 0.1591,
-      "step": 2330
-    },
-    {
-      "epoch": 9.4,
-      "learning_rate": 7.475234270414993e-05,
-      "loss": 0.2421,
-      "step": 2340
-    },
-    {
-      "epoch": 9.44,
-      "learning_rate": 7.421686746987952e-05,
-      "loss": 0.1847,
-      "step": 2350
-    },
-    {
-      "epoch": 9.48,
-      "learning_rate": 7.36813922356091e-05,
-      "loss": 0.2552,
-      "step": 2360
-    },
-    {
-      "epoch": 9.52,
-      "learning_rate": 7.314591700133869e-05,
-      "loss": 0.2998,
-      "step": 2370
-    },
-    {
-      "epoch": 9.56,
-      "learning_rate": 7.261044176706828e-05,
-      "loss": 0.1865,
-      "step": 2380
-    },
-    {
-      "epoch": 9.6,
-      "learning_rate": 7.207496653279786e-05,
-      "loss": 0.2479,
-      "step": 2390
-    },
-    {
-      "epoch": 9.64,
-      "learning_rate": 7.153949129852745e-05,
-      "loss": 0.1851,
-      "step": 2400
-    },
-    {
-      "epoch": 9.64,
-      "eval_accuracy": 0.8547008547008547,
-      "eval_loss": 0.5540783405303955,
-      "eval_runtime": 16.572,
-      "eval_samples_per_second": 42.361,
-      "eval_steps_per_second": 5.31,
-      "step": 2400
-    },
-    {
-      "epoch": 9.68,
-      "learning_rate": 7.100401606425703e-05,
-      "loss": 0.2578,
-      "step": 2410
-    },
-    {
-      "epoch": 9.72,
-      "learning_rate": 7.046854082998662e-05,
-      "loss": 0.365,
-      "step": 2420
-    },
-    {
-      "epoch": 9.76,
-      "learning_rate": 6.993306559571619e-05,
-      "loss": 0.3247,
-      "step": 2430
-    },
-    {
-      "epoch": 9.8,
-      "learning_rate": 6.939759036144579e-05,
-      "loss": 0.3411,
-      "step": 2440
-    },
-    {
-      "epoch": 9.84,
-      "learning_rate": 6.886211512717538e-05,
-      "loss": 0.3435,
-      "step": 2450
-    },
-    {
-      "epoch": 9.88,
-      "learning_rate": 6.832663989290495e-05,
-      "loss": 0.2834,
-      "step": 2460
-    },
-    {
-      "epoch": 9.92,
-      "learning_rate": 6.779116465863455e-05,
-      "loss": 0.2982,
-      "step": 2470
-    },
-    {
-      "epoch": 9.96,
-      "learning_rate": 6.725568942436412e-05,
-      "loss": 0.4454,
-      "step": 2480
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 6.67202141900937e-05,
-      "loss": 0.3108,
-      "step": 2490
-    },
-    {
-      "epoch": 10.04,
-      "learning_rate": 6.61847389558233e-05,
-      "loss": 0.2274,
-      "step": 2500
-    },
-    {
-      "epoch": 10.04,
-      "eval_accuracy": 0.8433048433048433,
-      "eval_loss": 0.5599452257156372,
-      "eval_runtime": 15.5521,
-      "eval_samples_per_second": 45.138,
-      "eval_steps_per_second": 5.658,
-      "step": 2500
-    },
-    {
-      "epoch": 10.08,
-      "learning_rate": 6.564926372155288e-05,
-      "loss": 0.2869,
-      "step": 2510
-    },
-    {
-      "epoch": 10.12,
-      "learning_rate": 6.511378848728246e-05,
-      "loss": 0.2677,
-      "step": 2520
-    },
-    {
-      "epoch": 10.16,
-      "learning_rate": 6.457831325301205e-05,
-      "loss": 0.3096,
-      "step": 2530
-    },
-    {
-      "epoch": 10.2,
-      "learning_rate": 6.404283801874163e-05,
-      "loss": 0.3939,
-      "step": 2540
-    },
-    {
-      "epoch": 10.24,
-      "learning_rate": 6.350736278447122e-05,
-      "loss": 0.3081,
-      "step": 2550
-    },
-    {
-      "epoch": 10.28,
-      "learning_rate": 6.29718875502008e-05,
-      "loss": 0.2795,
-      "step": 2560
-    },
-    {
-      "epoch": 10.32,
-      "learning_rate": 6.243641231593039e-05,
-      "loss": 0.2558,
-      "step": 2570
-    },
-    {
-      "epoch": 10.36,
-      "learning_rate": 6.190093708165998e-05,
-      "loss": 0.3104,
-      "step": 2580
-    },
-    {
-      "epoch": 10.4,
-      "learning_rate": 6.136546184738956e-05,
-      "loss": 0.3196,
-      "step": 2590
-    },
-    {
-      "epoch": 10.44,
-      "learning_rate": 6.082998661311915e-05,
-      "loss": 0.3051,
-      "step": 2600
-    },
-    {
-      "epoch": 10.44,
-      "eval_accuracy": 0.8504273504273504,
-      "eval_loss": 0.5281407237052917,
-      "eval_runtime": 15.978,
-      "eval_samples_per_second": 43.935,
-      "eval_steps_per_second": 5.508,
-      "step": 2600
-    },
-    {
-      "epoch": 10.48,
-      "learning_rate": 6.029451137884873e-05,
-      "loss": 0.2053,
-      "step": 2610
-    },
-    {
-      "epoch": 10.52,
-      "learning_rate": 5.975903614457832e-05,
-      "loss": 0.2982,
-      "step": 2620
-    },
-    {
-      "epoch": 10.56,
-      "learning_rate": 5.92235609103079e-05,
-      "loss": 0.2457,
-      "step": 2630
-    },
-    {
-      "epoch": 10.6,
-      "learning_rate": 5.8741633199464526e-05,
-      "loss": 0.1915,
-      "step": 2640
-    },
-    {
-      "epoch": 10.64,
-      "learning_rate": 5.8206157965194105e-05,
-      "loss": 0.2598,
-      "step": 2650
-    },
-    {
-      "epoch": 10.68,
-      "learning_rate": 5.76706827309237e-05,
-      "loss": 0.2896,
-      "step": 2660
-    },
-    {
-      "epoch": 10.72,
-      "learning_rate": 5.713520749665329e-05,
-      "loss": 0.1819,
-      "step": 2670
-    },
-    {
-      "epoch": 10.76,
-      "learning_rate": 5.659973226238286e-05,
-      "loss": 0.353,
-      "step": 2680
-    },
-    {
-      "epoch": 10.8,
-      "learning_rate": 5.6064257028112455e-05,
-      "loss": 0.307,
-      "step": 2690
-    },
-    {
-      "epoch": 10.84,
-      "learning_rate": 5.5528781793842033e-05,
-      "loss": 0.2368,
-      "step": 2700
-    },
-    {
-      "epoch": 10.84,
-      "eval_accuracy": 0.8646723646723646,
-      "eval_loss": 0.5055693984031677,
-      "eval_runtime": 16.6514,
-      "eval_samples_per_second": 42.159,
-      "eval_steps_per_second": 5.285,
-      "step": 2700
-    },
-    {
-      "epoch": 10.88,
-      "learning_rate": 5.499330655957162e-05,
-      "loss": 0.2823,
-      "step": 2710
-    },
-    {
-      "epoch": 10.92,
-      "learning_rate": 5.445783132530121e-05,
-      "loss": 0.1548,
-      "step": 2720
-    },
-    {
-      "epoch": 10.96,
-      "learning_rate": 5.392235609103079e-05,
-      "loss": 0.2435,
-      "step": 2730
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 5.338688085676038e-05,
-      "loss": 0.2424,
-      "step": 2740
-    },
-    {
-      "epoch": 11.04,
-      "learning_rate": 5.2851405622489955e-05,
-      "loss": 0.2384,
-      "step": 2750
-    },
-    {
-      "epoch": 11.08,
-      "learning_rate": 5.231593038821955e-05,
-      "loss": 0.278,
-      "step": 2760
-    },
-    {
-      "epoch": 11.12,
-      "learning_rate": 5.178045515394914e-05,
-      "loss": 0.2402,
-      "step": 2770
-    },
-    {
-      "epoch": 11.16,
-      "learning_rate": 5.124497991967871e-05,
-      "loss": 0.1498,
-      "step": 2780
-    },
-    {
-      "epoch": 11.2,
-      "learning_rate": 5.0709504685408304e-05,
-      "loss": 0.217,
-      "step": 2790
-    },
-    {
-      "epoch": 11.24,
-      "learning_rate": 5.017402945113788e-05,
-      "loss": 0.2029,
-      "step": 2800
-    },
-    {
-      "epoch": 11.24,
-      "eval_accuracy": 0.8390313390313391,
-      "eval_loss": 0.5582476854324341,
-      "eval_runtime": 17.4878,
-      "eval_samples_per_second": 40.142,
-      "eval_steps_per_second": 5.032,
-      "step": 2800
-    },
-    {
-      "epoch": 11.29,
-      "learning_rate": 4.9638554216867475e-05,
-      "loss": 0.2471,
-      "step": 2810
-    },
-    {
-      "epoch": 11.33,
-      "learning_rate": 4.9103078982597054e-05,
-      "loss": 0.2972,
-      "step": 2820
-    },
-    {
-      "epoch": 11.37,
-      "learning_rate": 4.856760374832664e-05,
-      "loss": 0.2014,
-      "step": 2830
-    },
-    {
-      "epoch": 11.41,
-      "learning_rate": 4.803212851405623e-05,
-      "loss": 0.142,
-      "step": 2840
-    },
-    {
-      "epoch": 11.45,
-      "learning_rate": 4.749665327978581e-05,
-      "loss": 0.3213,
-      "step": 2850
-    },
-    {
-      "epoch": 11.49,
-      "learning_rate": 4.69611780455154e-05,
-      "loss": 0.2315,
-      "step": 2860
-    },
-    {
-      "epoch": 11.53,
-      "learning_rate": 4.642570281124498e-05,
-      "loss": 0.2014,
-      "step": 2870
-    },
-    {
-      "epoch": 11.57,
-      "learning_rate": 4.589022757697457e-05,
-      "loss": 0.3035,
-      "step": 2880
-    },
-    {
-      "epoch": 11.61,
-      "learning_rate": 4.5354752342704154e-05,
-      "loss": 0.1635,
-      "step": 2890
-    },
-    {
-      "epoch": 11.65,
-      "learning_rate": 4.481927710843374e-05,
-      "loss": 0.1971,
-      "step": 2900
-    },
-    {
-      "epoch": 11.65,
-      "eval_accuracy": 0.8433048433048433,
-      "eval_loss": 0.5440123677253723,
-      "eval_runtime": 16.1487,
-      "eval_samples_per_second": 43.471,
-      "eval_steps_per_second": 5.449,
-      "step": 2900
-    },
-    {
-      "epoch": 11.69,
-      "learning_rate": 4.4283801874163325e-05,
-      "loss": 0.2525,
-      "step": 2910
-    },
-    {
-      "epoch": 11.73,
-      "learning_rate": 4.3748326639892904e-05,
-      "loss": 0.2254,
-      "step": 2920
-    },
-    {
-      "epoch": 11.77,
-      "learning_rate": 4.321285140562249e-05,
-      "loss": 0.1619,
-      "step": 2930
-    },
-    {
-      "epoch": 11.81,
-      "learning_rate": 4.267737617135208e-05,
-      "loss": 0.2398,
-      "step": 2940
-    },
-    {
-      "epoch": 11.85,
-      "learning_rate": 4.214190093708166e-05,
-      "loss": 0.2213,
-      "step": 2950
-    },
-    {
-      "epoch": 11.89,
-      "learning_rate": 4.1606425702811246e-05,
-      "loss": 0.1775,
-      "step": 2960
-    },
-    {
-      "epoch": 11.93,
-      "learning_rate": 4.107095046854083e-05,
-      "loss": 0.2309,
-      "step": 2970
-    },
-    {
-      "epoch": 11.97,
-      "learning_rate": 4.053547523427042e-05,
-      "loss": 0.1681,
-      "step": 2980
-    },
-    {
-      "epoch": 12.01,
-      "learning_rate": 4e-05,
-      "loss": 0.3173,
-      "step": 2990
-    },
-    {
-      "epoch": 12.05,
-      "learning_rate": 3.946452476572959e-05,
-      "loss": 0.2014,
-      "step": 3000
-    },
-    {
-      "epoch": 12.05,
-      "eval_accuracy": 0.8618233618233618,
-      "eval_loss": 0.5087952017784119,
-      "eval_runtime": 15.8505,
-      "eval_samples_per_second": 44.289,
-      "eval_steps_per_second": 5.552,
-      "step": 3000
-    },
-    {
-      "epoch": 12.09,
-      "learning_rate": 3.8929049531459175e-05,
-      "loss": 0.1908,
-      "step": 3010
-    },
-    {
-      "epoch": 12.13,
-      "learning_rate": 3.8393574297188753e-05,
-      "loss": 0.1207,
-      "step": 3020
-    },
-    {
-      "epoch": 12.17,
-      "learning_rate": 3.785809906291834e-05,
-      "loss": 0.2251,
-      "step": 3030
-    },
-    {
-      "epoch": 12.21,
-      "learning_rate": 3.732262382864793e-05,
-      "loss": 0.1701,
-      "step": 3040
-    },
-    {
-      "epoch": 12.25,
-      "learning_rate": 3.678714859437751e-05,
-      "loss": 0.1692,
-      "step": 3050
-    },
-    {
-      "epoch": 12.29,
-      "learning_rate": 3.6251673360107096e-05,
-      "loss": 0.1648,
-      "step": 3060
-    },
-    {
-      "epoch": 12.33,
-      "learning_rate": 3.571619812583668e-05,
-      "loss": 0.1305,
-      "step": 3070
-    },
-    {
-      "epoch": 12.37,
-      "learning_rate": 3.518072289156627e-05,
-      "loss": 0.2228,
-      "step": 3080
-    },
-    {
-      "epoch": 12.41,
-      "learning_rate": 3.464524765729585e-05,
-      "loss": 0.1924,
-      "step": 3090
-    },
-    {
-      "epoch": 12.45,
-      "learning_rate": 3.410977242302544e-05,
-      "loss": 0.1458,
-      "step": 3100
-    },
-    {
-      "epoch": 12.45,
-      "eval_accuracy": 0.8618233618233618,
-      "eval_loss": 0.5538750290870667,
-      "eval_runtime": 15.995,
-      "eval_samples_per_second": 43.889,
-      "eval_steps_per_second": 5.502,
-      "step": 3100
-    },
-    {
-      "epoch": 12.49,
-      "learning_rate": 3.3574297188755024e-05,
-      "loss": 0.2216,
-      "step": 3110
-    },
-    {
-      "epoch": 12.53,
-      "learning_rate": 3.30388219544846e-05,
-      "loss": 0.2085,
-      "step": 3120
-    },
-    {
-      "epoch": 12.57,
-      "learning_rate": 3.250334672021419e-05,
-      "loss": 0.2727,
-      "step": 3130
-    },
-    {
-      "epoch": 12.61,
-      "learning_rate": 3.196787148594378e-05,
-      "loss": 0.1823,
-      "step": 3140
-    },
-    {
-      "epoch": 12.65,
-      "learning_rate": 3.143239625167336e-05,
-      "loss": 0.3328,
-      "step": 3150
-    },
-    {
-      "epoch": 12.69,
-      "learning_rate": 3.0896921017402946e-05,
-      "loss": 0.1052,
-      "step": 3160
-    },
-    {
-      "epoch": 12.73,
-      "learning_rate": 3.036144578313253e-05,
-      "loss": 0.1101,
-      "step": 3170
-    },
-    {
-      "epoch": 12.77,
-      "learning_rate": 2.9825970548862113e-05,
-      "loss": 0.1827,
-      "step": 3180
-    },
-    {
-      "epoch": 12.81,
-      "learning_rate": 2.9290495314591702e-05,
-      "loss": 0.0858,
-      "step": 3190
-    },
-    {
-      "epoch": 12.85,
-      "learning_rate": 2.8755020080321288e-05,
-      "loss": 0.139,
-      "step": 3200
-    },
-    {
-      "epoch": 12.85,
-      "eval_accuracy": 0.8433048433048433,
-      "eval_loss": 0.5865837335586548,
-      "eval_runtime": 16.0651,
-      "eval_samples_per_second": 43.697,
-      "eval_steps_per_second": 5.478,
-      "step": 3200
-    },
-    {
-      "epoch": 12.89,
-      "learning_rate": 2.821954484605087e-05,
-      "loss": 0.2402,
-      "step": 3210
-    },
-    {
-      "epoch": 12.93,
-      "learning_rate": 2.7684069611780456e-05,
-      "loss": 0.1964,
-      "step": 3220
-    },
-    {
-      "epoch": 12.97,
-      "learning_rate": 2.7148594377510038e-05,
-      "loss": 0.2707,
-      "step": 3230
-    },
-    {
-      "epoch": 13.01,
-      "learning_rate": 2.6613119143239627e-05,
-      "loss": 0.2498,
-      "step": 3240
-    },
-    {
-      "epoch": 13.05,
-      "learning_rate": 2.6077643908969213e-05,
-      "loss": 0.0964,
-      "step": 3250
-    },
-    {
-      "epoch": 13.09,
-      "learning_rate": 2.5542168674698795e-05,
-      "loss": 0.2616,
-      "step": 3260
-    },
-    {
-      "epoch": 13.13,
-      "learning_rate": 2.500669344042838e-05,
-      "loss": 0.1971,
-      "step": 3270
-    },
-    {
-      "epoch": 13.17,
-      "learning_rate": 2.4471218206157966e-05,
-      "loss": 0.1651,
-      "step": 3280
-    },
-    {
-      "epoch": 13.21,
-      "learning_rate": 2.3935742971887552e-05,
-      "loss": 0.0599,
-      "step": 3290
-    },
-    {
-      "epoch": 13.25,
-      "learning_rate": 2.3400267737617138e-05,
-      "loss": 0.2202,
-      "step": 3300
-    },
-    {
-      "epoch": 13.25,
-      "eval_accuracy": 0.8589743589743589,
-      "eval_loss": 0.5248175859451294,
-      "eval_runtime": 17.4004,
-      "eval_samples_per_second": 40.344,
-      "eval_steps_per_second": 5.057,
-      "step": 3300
-    },
-    {
-      "epoch": 13.29,
-      "learning_rate": 2.286479250334672e-05,
-      "loss": 0.2497,
-      "step": 3310
-    },
-    {
-      "epoch": 13.33,
-      "learning_rate": 2.2329317269076305e-05,
-      "loss": 0.1713,
-      "step": 3320
-    },
-    {
-      "epoch": 13.37,
-      "learning_rate": 2.179384203480589e-05,
-      "loss": 0.2707,
-      "step": 3330
-    },
-    {
-      "epoch": 13.41,
-      "learning_rate": 2.1258366800535477e-05,
-      "loss": 0.2123,
-      "step": 3340
-    },
-    {
-      "epoch": 13.45,
-      "learning_rate": 2.0722891566265062e-05,
-      "loss": 0.2833,
-      "step": 3350
-    },
-    {
-      "epoch": 13.49,
-      "learning_rate": 2.0187416331994645e-05,
-      "loss": 0.2003,
-      "step": 3360
-    },
-    {
-      "epoch": 13.53,
-      "learning_rate": 1.965194109772423e-05,
-      "loss": 0.2538,
-      "step": 3370
-    },
-    {
-      "epoch": 13.57,
-      "learning_rate": 1.9116465863453816e-05,
-      "loss": 0.112,
-      "step": 3380
-    },
-    {
-      "epoch": 13.61,
-      "learning_rate": 1.85809906291834e-05,
-      "loss": 0.213,
-      "step": 3390
-    },
-    {
-      "epoch": 13.65,
-      "learning_rate": 1.8045515394912987e-05,
-      "loss": 0.1421,
-      "step": 3400
-    },
-    {
-      "epoch": 13.65,
-      "eval_accuracy": 0.8475783475783476,
-      "eval_loss": 0.5547856688499451,
-      "eval_runtime": 16.1927,
-      "eval_samples_per_second": 43.353,
-      "eval_steps_per_second": 5.435,
-      "step": 3400
-    },
-    {
-      "epoch": 13.69,
-      "learning_rate": 1.7510040160642573e-05,
-      "loss": 0.1792,
-      "step": 3410
-    },
-    {
-      "epoch": 13.73,
-      "learning_rate": 1.6974564926372155e-05,
-      "loss": 0.1797,
-      "step": 3420
-    },
-    {
-      "epoch": 13.78,
-      "learning_rate": 1.643908969210174e-05,
-      "loss": 0.1612,
-      "step": 3430
-    },
-    {
-      "epoch": 13.82,
-      "learning_rate": 1.5903614457831326e-05,
-      "loss": 0.1175,
-      "step": 3440
-    },
-    {
-      "epoch": 13.86,
-      "learning_rate": 1.5368139223560912e-05,
-      "loss": 0.2389,
-      "step": 3450
-    },
-    {
-      "epoch": 13.9,
-      "learning_rate": 1.4832663989290496e-05,
-      "loss": 0.1918,
-      "step": 3460
-    },
-    {
-      "epoch": 13.94,
-      "learning_rate": 1.429718875502008e-05,
-      "loss": 0.1623,
-      "step": 3470
-    },
-    {
-      "epoch": 13.98,
-      "learning_rate": 1.3761713520749667e-05,
-      "loss": 0.1686,
-      "step": 3480
-    },
-    {
-      "epoch": 14.02,
-      "learning_rate": 1.3226238286479251e-05,
-      "loss": 0.2198,
-      "step": 3490
-    },
-    {
-      "epoch": 14.06,
-      "learning_rate": 1.2690763052208837e-05,
-      "loss": 0.211,
-      "step": 3500
-    },
-    {
-      "epoch": 14.06,
-      "eval_accuracy": 0.8490028490028491,
-      "eval_loss": 0.5502182841300964,
-      "eval_runtime": 15.5914,
-      "eval_samples_per_second": 45.025,
-      "eval_steps_per_second": 5.644,
-      "step": 3500
-    },
-    {
-      "epoch": 14.1,
-      "learning_rate": 1.215528781793842e-05,
-      "loss": 0.2969,
-      "step": 3510
-    },
-    {
-      "epoch": 14.14,
-      "learning_rate": 1.1619812583668006e-05,
-      "loss": 0.2386,
-      "step": 3520
-    },
-    {
-      "epoch": 14.18,
-      "learning_rate": 1.108433734939759e-05,
-      "loss": 0.218,
-      "step": 3530
-    },
-    {
-      "epoch": 14.22,
-      "learning_rate": 1.0548862115127176e-05,
-      "loss": 0.2143,
-      "step": 3540
-    },
-    {
-      "epoch": 14.26,
-      "learning_rate": 1.0013386880856762e-05,
-      "loss": 0.1939,
-      "step": 3550
-    },
-    {
-      "epoch": 14.3,
-      "learning_rate": 9.477911646586345e-06,
-      "loss": 0.1032,
-      "step": 3560
-    },
-    {
-      "epoch": 14.34,
-      "learning_rate": 8.942436412315931e-06,
-      "loss": 0.0938,
-      "step": 3570
-    },
-    {
-      "epoch": 14.38,
-      "learning_rate": 8.406961178045515e-06,
-      "loss": 0.2132,
-      "step": 3580
-    },
-    {
-      "epoch": 14.42,
-      "learning_rate": 7.8714859437751e-06,
-      "loss": 0.0733,
-      "step": 3590
-    },
-    {
-      "epoch": 14.46,
-      "learning_rate": 7.3360107095046855e-06,
-      "loss": 0.2106,
-      "step": 3600
-    },
-    {
-      "epoch": 14.46,
-      "eval_accuracy": 0.8504273504273504,
-      "eval_loss": 0.5413134694099426,
-      "eval_runtime": 16.0305,
-      "eval_samples_per_second": 43.792,
-      "eval_steps_per_second": 5.49,
-      "step": 3600
-    },
-    {
-      "epoch": 14.5,
-      "learning_rate": 6.800535475234271e-06,
-      "loss": 0.1462,
-      "step": 3610
-    },
-    {
-      "epoch": 14.54,
-      "learning_rate": 6.265060240963856e-06,
-      "loss": 0.0978,
-      "step": 3620
-    },
-    {
-      "epoch": 14.58,
-      "learning_rate": 5.729585006693441e-06,
-      "loss": 0.2382,
-      "step": 3630
-    },
-    {
-      "epoch": 14.62,
-      "learning_rate": 5.194109772423026e-06,
-      "loss": 0.2068,
-      "step": 3640
-    },
-    {
-      "epoch": 14.66,
-      "learning_rate": 4.65863453815261e-06,
-      "loss": 0.1502,
-      "step": 3650
-    },
-    {
-      "epoch": 14.7,
-      "learning_rate": 4.123159303882196e-06,
-      "loss": 0.1871,
-      "step": 3660
-    },
-    {
-      "epoch": 14.74,
-      "learning_rate": 3.5876840696117802e-06,
-      "loss": 0.1998,
-      "step": 3670
-    },
-    {
-      "epoch": 14.78,
-      "learning_rate": 3.052208835341366e-06,
-      "loss": 0.1783,
-      "step": 3680
-    },
-    {
-      "epoch": 14.82,
-      "learning_rate": 2.5167336010709507e-06,
-      "loss": 0.1364,
-      "step": 3690
-    },
-    {
-      "epoch": 14.86,
-      "learning_rate": 1.9812583668005354e-06,
-      "loss": 0.1716,
-      "step": 3700
-    },
-    {
-      "epoch": 14.86,
-      "eval_accuracy": 0.8461538461538461,
-      "eval_loss": 0.5398270487785339,
-      "eval_runtime": 16.7227,
-      "eval_samples_per_second": 41.979,
-      "eval_steps_per_second": 5.262,
-      "step": 3700
-    },
-    {
-      "epoch": 14.9,
-      "learning_rate": 1.4457831325301207e-06,
-      "loss": 0.2021,
-      "step": 3710
-    },
-    {
-      "epoch": 14.94,
-      "learning_rate": 9.103078982597055e-07,
-      "loss": 0.2808,
-      "step": 3720
-    },
-    {
-      "epoch": 14.98,
-      "learning_rate": 3.748326639892905e-07,
-      "loss": 0.1892,
-      "step": 3730
-    },
-    {
-      "epoch": 15.0,
-      "step": 3735,
-      "total_flos": 4.617303784967946e+18,
-      "train_loss": 0.43795731744293864,
-      "train_runtime": 5300.4754,
-      "train_samples_per_second": 11.241,
-      "train_steps_per_second": 0.705
     }
   ],
   "logging_steps": 10,
-  "max_steps": 3735,
-  "num_train_epochs": 15,
   "save_steps": 100,
-  "total_flos": 4.617303784967946e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.42591235041618347,
+  "best_model_checkpoint": "Action_all_10_class/checkpoint-1100",
+  "epoch": 5.0,
   "eval_steps": 100,
+  "global_step": 1245,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 0.00019839357429718877,
+      "loss": 2.2375,
       "step": 10
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.00019678714859437752,
+      "loss": 2.0451,
       "step": 20
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.00019518072289156628,
+      "loss": 1.8663,
       "step": 30
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.00019357429718875504,
+      "loss": 1.5435,
       "step": 40
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.00019196787148594377,
+      "loss": 1.4349,
       "step": 50
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.00019036144578313252,
+      "loss": 1.4104,
       "step": 60
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.00018875502008032128,
+      "loss": 1.2762,
       "step": 70
     },
     {
       "epoch": 0.32,
+      "learning_rate": 0.00018714859437751004,
+      "loss": 1.2306,
       "step": 80
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.0001855421686746988,
+      "loss": 1.2362,
       "step": 90
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0001840963855421687,
+      "loss": 1.0772,
       "step": 100
     },
     {
       "epoch": 0.4,
+      "eval_accuracy": 0.6737891737891738,
+      "eval_loss": 1.0524766445159912,
+      "eval_runtime": 12.1219,
+      "eval_samples_per_second": 57.912,
+      "eval_steps_per_second": 7.26,
       "step": 100
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.00018248995983935744,
+      "loss": 1.2642,
       "step": 110
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.0001808835341365462,
+      "loss": 1.0873,
       "step": 120
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.00017927710843373496,
+      "loss": 1.1482,
       "step": 130
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.00017767068273092371,
+      "loss": 0.9356,
       "step": 140
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.00017606425702811247,
+      "loss": 1.0534,
       "step": 150
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00017445783132530123,
+      "loss": 1.1054,
       "step": 160
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.00017285140562248996,
+      "loss": 1.0417,
       "step": 170
     },
     {
       "epoch": 0.72,
+      "learning_rate": 0.00017124497991967871,
+      "loss": 0.9529,
       "step": 180
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.00016963855421686747,
+      "loss": 1.0454,
       "step": 190
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.00016803212851405623,
+      "loss": 0.9054,
       "step": 200
     },
     {
       "epoch": 0.8,
+      "eval_accuracy": 0.8005698005698005,
+      "eval_loss": 0.734963595867157,
+      "eval_runtime": 11.844,
+      "eval_samples_per_second": 59.27,
+      "eval_steps_per_second": 7.43,
       "step": 200
     },
     {
       "epoch": 0.84,
+      "learning_rate": 0.00016642570281124499,
+      "loss": 1.0347,
       "step": 210
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00016481927710843374,
+      "loss": 1.0496,
       "step": 220
     },
     {
       "epoch": 0.92,
+      "learning_rate": 0.0001632128514056225,
+      "loss": 0.8833,
       "step": 230
     },
     {
       "epoch": 0.96,
+      "learning_rate": 0.00016160642570281126,
+      "loss": 0.9624,
       "step": 240
     },
     {
       "epoch": 1.0,
+      "learning_rate": 0.00016,
+      "loss": 0.8419,
       "step": 250
     },
     {
       "epoch": 1.04,
+      "learning_rate": 0.00015839357429718874,
+      "loss": 0.7875,
       "step": 260
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.0001567871485943775,
+      "loss": 0.7934,
       "step": 270
     },
     {
       "epoch": 1.12,
+      "learning_rate": 0.00015518072289156626,
+      "loss": 0.897,
       "step": 280
     },
     {
       "epoch": 1.16,
+      "learning_rate": 0.00015357429718875501,
+      "loss": 0.7199,
       "step": 290
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00015196787148594377,
+      "loss": 0.9093,
       "step": 300
     },
     {
       "epoch": 1.2,
+      "eval_accuracy": 0.8162393162393162,
+      "eval_loss": 0.6519011855125427,
+      "eval_runtime": 12.7334,
+      "eval_samples_per_second": 55.13,
+      "eval_steps_per_second": 6.911,
       "step": 300
     },
     {
       "epoch": 1.24,
+      "learning_rate": 0.00015036144578313253,
+      "loss": 0.8521,
       "step": 310
     },
     {
       "epoch": 1.29,
+      "learning_rate": 0.00014875502008032128,
+      "loss": 0.9056,
       "step": 320
     },
     {
       "epoch": 1.33,
+      "learning_rate": 0.00014714859437751004,
+      "loss": 0.8005,
       "step": 330
     },
     {
       "epoch": 1.37,
+      "learning_rate": 0.0001455421686746988,
+      "loss": 0.8129,
       "step": 340
     },
     {
       "epoch": 1.41,
+      "learning_rate": 0.00014393574297188756,
+      "loss": 0.6784,
       "step": 350
     },
     {
       "epoch": 1.45,
+      "learning_rate": 0.0001423293172690763,
+      "loss": 0.7941,
       "step": 360
     },
     {
       "epoch": 1.49,
+      "learning_rate": 0.00014072289156626507,
+      "loss": 0.7838,
       "step": 370
     },
     {
       "epoch": 1.53,
+      "learning_rate": 0.00013911646586345383,
+      "loss": 0.7424,
       "step": 380
     },
     {
       "epoch": 1.57,
+      "learning_rate": 0.00013751004016064258,
+      "loss": 0.7194,
       "step": 390
     },
     {
       "epoch": 1.61,
+      "learning_rate": 0.00013590361445783134,
+      "loss": 0.6264,
       "step": 400
     },
     {
       "epoch": 1.61,
+      "eval_accuracy": 0.8105413105413105,
+      "eval_loss": 0.6052153706550598,
+      "eval_runtime": 10.8279,
+      "eval_samples_per_second": 64.833,
+      "eval_steps_per_second": 8.127,
       "step": 400
     },
     {
       "epoch": 1.65,
+      "learning_rate": 0.0001342971887550201,
+      "loss": 0.7401,
       "step": 410
     },
     {
       "epoch": 1.69,
+      "learning_rate": 0.00013269076305220885,
+      "loss": 0.5516,
       "step": 420
     },
     {
       "epoch": 1.73,
+      "learning_rate": 0.0001310843373493976,
+      "loss": 0.6522,
       "step": 430
     },
     {
       "epoch": 1.77,
+      "learning_rate": 0.00012947791164658637,
+      "loss": 0.7528,
       "step": 440
     },
     {
       "epoch": 1.81,
+      "learning_rate": 0.00012787148594377512,
+      "loss": 0.5984,
       "step": 450
     },
     {
       "epoch": 1.85,
+      "learning_rate": 0.00012626506024096385,
+      "loss": 0.6913,
       "step": 460
     },
     {
       "epoch": 1.89,
+      "learning_rate": 0.0001246586345381526,
+      "loss": 0.7507,
       "step": 470
     },
     {
       "epoch": 1.93,
+      "learning_rate": 0.00012305220883534137,
+      "loss": 0.8109,
       "step": 480
     },
     {
       "epoch": 1.97,
+      "learning_rate": 0.00012144578313253012,
+      "loss": 0.7775,
       "step": 490
     },
     {
       "epoch": 2.01,
+      "learning_rate": 0.00011983935742971888,
+      "loss": 0.9279,
       "step": 500
     },
     {
       "epoch": 2.01,
+      "eval_accuracy": 0.7934472934472935,
+      "eval_loss": 0.6441792249679565,
+      "eval_runtime": 12.779,
+      "eval_samples_per_second": 54.934,
+      "eval_steps_per_second": 6.886,
       "step": 500
     },
     {
       "epoch": 2.05,
+      "learning_rate": 0.00011839357429718876,
+      "loss": 0.7877,
       "step": 510
     },
     {
       "epoch": 2.09,
+      "learning_rate": 0.00011678714859437752,
+      "loss": 0.519,
       "step": 520
     },
     {
       "epoch": 2.13,
+      "learning_rate": 0.00011518072289156627,
+      "loss": 0.5842,
       "step": 530
     },
     {
       "epoch": 2.17,
+      "learning_rate": 0.00011357429718875503,
+      "loss": 0.4631,
       "step": 540
     },
     {
       "epoch": 2.21,
+      "learning_rate": 0.00011196787148594379,
+      "loss": 0.6516,
       "step": 550
     },
     {
       "epoch": 2.25,
+      "learning_rate": 0.00011036144578313254,
+      "loss": 0.782,
       "step": 560
     },
     {
       "epoch": 2.29,
+      "learning_rate": 0.00010875502008032127,
+      "loss": 0.4786,
       "step": 570
     },
     {
       "epoch": 2.33,
+      "learning_rate": 0.00010714859437751003,
+      "loss": 0.5342,
       "step": 580
     },
     {
       "epoch": 2.37,
+      "learning_rate": 0.00010554216867469879,
+      "loss": 0.5114,
       "step": 590
     },
     {
       "epoch": 2.41,
+      "learning_rate": 0.00010393574297188754,
+      "loss": 0.5023,
       "step": 600
     },
     {
       "epoch": 2.41,
+      "eval_accuracy": 0.8262108262108262,
+      "eval_loss": 0.5365344882011414,
+      "eval_runtime": 13.1708,
+      "eval_samples_per_second": 53.3,
+      "eval_steps_per_second": 6.681,
       "step": 600
     },
     {
       "epoch": 2.45,
+      "learning_rate": 0.0001023293172690763,
+      "loss": 0.6584,
       "step": 610
     },
     {
       "epoch": 2.49,
+      "learning_rate": 0.00010072289156626506,
+      "loss": 0.5492,
       "step": 620
     },
     {
       "epoch": 2.53,
+      "learning_rate": 9.911646586345382e-05,
+      "loss": 0.5666,
       "step": 630
     },
     {
       "epoch": 2.57,
+      "learning_rate": 9.751004016064259e-05,
+      "loss": 0.5791,
       "step": 640
     },
     {
       "epoch": 2.61,
+      "learning_rate": 9.590361445783133e-05,
+      "loss": 0.5201,
       "step": 650
     },
     {
       "epoch": 2.65,
+      "learning_rate": 9.429718875502009e-05,
+      "loss": 0.5602,
       "step": 660
     },
     {
       "epoch": 2.69,
+      "learning_rate": 9.269076305220884e-05,
+      "loss": 0.5228,
       "step": 670
     },
     {
       "epoch": 2.73,
+      "learning_rate": 9.10843373493976e-05,
+      "loss": 0.5114,
       "step": 680
     },
     {
       "epoch": 2.77,
+      "learning_rate": 8.947791164658636e-05,
+      "loss": 0.4281,
       "step": 690
     },
     {
       "epoch": 2.81,
+      "learning_rate": 8.78714859437751e-05,
+      "loss": 0.4644,
       "step": 700
     },
     {
       "epoch": 2.81,
+      "eval_accuracy": 0.8304843304843305,
+      "eval_loss": 0.5504655241966248,
+      "eval_runtime": 12.0796,
+      "eval_samples_per_second": 58.114,
+      "eval_steps_per_second": 7.285,
       "step": 700
     },
     {
       "epoch": 2.85,
+      "learning_rate": 8.626506024096386e-05,
+      "loss": 0.5208,
       "step": 710
     },
     {
       "epoch": 2.89,
+      "learning_rate": 8.465863453815261e-05,
+      "loss": 0.4574,
       "step": 720
     },
     {
       "epoch": 2.93,
+      "learning_rate": 8.305220883534137e-05,
+      "loss": 0.4136,
       "step": 730
     },
     {
       "epoch": 2.97,
+      "learning_rate": 8.144578313253013e-05,
+      "loss": 0.418,
       "step": 740
     },
     {
       "epoch": 3.01,
+      "learning_rate": 7.983935742971887e-05,
+      "loss": 0.472,
       "step": 750
     },
     {
       "epoch": 3.05,
+      "learning_rate": 7.823293172690763e-05,
+      "loss": 0.3784,
       "step": 760
     },
     {
       "epoch": 3.09,
+      "learning_rate": 7.662650602409639e-05,
+      "loss": 0.5764,
       "step": 770
     },
     {
       "epoch": 3.13,
+      "learning_rate": 7.502008032128514e-05,
+      "loss": 0.6532,
       "step": 780
     },
     {
       "epoch": 3.17,
+      "learning_rate": 7.34136546184739e-05,
+      "loss": 0.3921,
       "step": 790
     },
     {
       "epoch": 3.21,
+      "learning_rate": 7.180722891566266e-05,
+      "loss": 0.4217,
       "step": 800
     },
     {
       "epoch": 3.21,
+      "eval_accuracy": 0.8433048433048433,
+      "eval_loss": 0.502394437789917,
+      "eval_runtime": 10.653,
+      "eval_samples_per_second": 65.897,
+      "eval_steps_per_second": 8.261,
       "step": 800
     },
     {
       "epoch": 3.25,
+      "learning_rate": 7.020080321285141e-05,
+      "loss": 0.4454,
       "step": 810
     },
     {
       "epoch": 3.29,
+      "learning_rate": 6.859437751004017e-05,
+      "loss": 0.2962,
       "step": 820
     },
     {
       "epoch": 3.33,
+      "learning_rate": 6.698795180722893e-05,
+      "loss": 0.4175,
       "step": 830
     },
     {
       "epoch": 3.37,
+      "learning_rate": 6.538152610441768e-05,
+      "loss": 0.3381,
       "step": 840
     },
     {
       "epoch": 3.41,
+      "learning_rate": 6.377510040160643e-05,
+      "loss": 0.4441,
       "step": 850
     },
     {
       "epoch": 3.45,
+      "learning_rate": 6.216867469879518e-05,
+      "loss": 0.3907,
       "step": 860
     },
     {
       "epoch": 3.49,
+      "learning_rate": 6.056224899598394e-05,
+      "loss": 0.4765,
       "step": 870
     },
     {
       "epoch": 3.53,
+      "learning_rate": 5.89558232931727e-05,
+      "loss": 0.4384,
       "step": 880
     },
     {
       "epoch": 3.57,
+      "learning_rate": 5.7349397590361454e-05,
+      "loss": 0.5241,
       "step": 890
     },
     {
       "epoch": 3.61,
+      "learning_rate": 5.57429718875502e-05,
+      "loss": 0.4447,
       "step": 900
     },
     {
       "epoch": 3.61,
+      "eval_accuracy": 0.8532763532763533,
+      "eval_loss": 0.4699917733669281,
+      "eval_runtime": 11.6414,
+      "eval_samples_per_second": 60.302,
+      "eval_steps_per_second": 7.559,
       "step": 900
     },
     {
       "epoch": 3.65,
+      "learning_rate": 5.4136546184738955e-05,
+      "loss": 0.3466,
       "step": 910
     },
     {
       "epoch": 3.69,
+      "learning_rate": 5.253012048192771e-05,
+      "loss": 0.4321,
       "step": 920
     },
     {
       "epoch": 3.73,
+      "learning_rate": 5.092369477911647e-05,
+      "loss": 0.4604,
       "step": 930
     },
     {
       "epoch": 3.78,
+      "learning_rate": 4.9317269076305225e-05,
+      "loss": 0.4072,
       "step": 940
     },
     {
       "epoch": 3.82,
+      "learning_rate": 4.771084337349398e-05,
+      "loss": 0.4058,
       "step": 950
     },
     {
       "epoch": 3.86,
+      "learning_rate": 4.610441767068273e-05,
+      "loss": 0.319,
       "step": 960
     },
     {
       "epoch": 3.9,
+      "learning_rate": 4.449799196787149e-05,
+      "loss": 0.514,
       "step": 970
     },
     {
       "epoch": 3.94,
+      "learning_rate": 4.2891566265060246e-05,
+      "loss": 0.427,
       "step": 980
     },
     {
       "epoch": 3.98,
+      "learning_rate": 4.1285140562248996e-05,
+      "loss": 0.5547,
       "step": 990
     },
     {
       "epoch": 4.02,
+      "learning_rate": 3.967871485943775e-05,
+      "loss": 0.4073,
       "step": 1000
     },
     {
       "epoch": 4.02,
+      "eval_accuracy": 0.8632478632478633,
+      "eval_loss": 0.460509717464447,
+      "eval_runtime": 11.5739,
+      "eval_samples_per_second": 60.654,
+      "eval_steps_per_second": 7.603,
       "step": 1000
     },
     {
       "epoch": 4.06,
+      "learning_rate": 3.8072289156626503e-05,
+      "loss": 0.2889,
       "step": 1010
     },
     {
       "epoch": 4.1,
+      "learning_rate": 3.646586345381526e-05,
+      "loss": 0.2756,
       "step": 1020
     },
     {
       "epoch": 4.14,
+      "learning_rate": 3.485943775100402e-05,
+      "loss": 0.3363,
       "step": 1030
     },
     {
       "epoch": 4.18,
+      "learning_rate": 3.3253012048192774e-05,
+      "loss": 0.2898,
       "step": 1040
     },
     {
       "epoch": 4.22,
+      "learning_rate": 3.164658634538153e-05,
+      "loss": 0.3705,
       "step": 1050
     },
     {
       "epoch": 4.26,
+      "learning_rate": 3.004016064257028e-05,
+      "loss": 0.2515,
       "step": 1060
     },
     {
       "epoch": 4.3,
+      "learning_rate": 2.8433734939759038e-05,
+      "loss": 0.3794,
       "step": 1070
     },
     {
       "epoch": 4.34,
+      "learning_rate": 2.6827309236947795e-05,
+      "loss": 0.3288,
       "step": 1080
     },
     {
       "epoch": 4.38,
+      "learning_rate": 2.522088353413655e-05,
+      "loss": 0.3614,
       "step": 1090
     },
     {
       "epoch": 4.42,
+      "learning_rate": 2.3614457831325302e-05,
+      "loss": 0.2679,
       "step": 1100
     },
     {
       "epoch": 4.42,
+      "eval_accuracy": 0.8660968660968661,
+      "eval_loss": 0.42591235041618347,
+      "eval_runtime": 12.9146,
+      "eval_samples_per_second": 54.357,
+      "eval_steps_per_second": 6.814,
       "step": 1100
     },
     {
       "epoch": 4.46,
+      "learning_rate": 2.200803212851406e-05,
+      "loss": 0.2891,
       "step": 1110
     },
     {
       "epoch": 4.5,
+      "learning_rate": 2.0401606425702812e-05,
+      "loss": 0.4053,
       "step": 1120
     },
     {
       "epoch": 4.54,
+      "learning_rate": 1.8795180722891566e-05,
+      "loss": 0.3411,
       "step": 1130
     },
     {
       "epoch": 4.58,
+      "learning_rate": 1.7188755020080323e-05,
+      "loss": 0.3382,
       "step": 1140
     },
     {
       "epoch": 4.62,
+      "learning_rate": 1.5582329317269076e-05,
+      "loss": 0.4011,
       "step": 1150
     },
     {
       "epoch": 4.66,
+      "learning_rate": 1.3975903614457833e-05,
+      "loss": 0.3232,
       "step": 1160
     },
     {
       "epoch": 4.7,
+      "learning_rate": 1.2369477911646587e-05,
+      "loss": 0.4139,
       "step": 1170
     },
     {
       "epoch": 4.74,
+      "learning_rate": 1.0763052208835342e-05,
+      "loss": 0.4019,
       "step": 1180
     },
     {
       "epoch": 4.78,
+      "learning_rate": 9.156626506024097e-06,
+      "loss": 0.2942,
       "step": 1190
     },
     {
       "epoch": 4.82,
+      "learning_rate": 7.550200803212852e-06,
+      "loss": 0.262,
       "step": 1200
     },
     {
       "epoch": 4.82,
+      "eval_accuracy": 0.8603988603988604,
+      "eval_loss": 0.4417168200016022,
+      "eval_runtime": 12.439,
+      "eval_samples_per_second": 56.435,
+      "eval_steps_per_second": 7.075,
       "step": 1200
     },
     {
       "epoch": 4.86,
+      "learning_rate": 5.943775100401607e-06,
+      "loss": 0.2907,
       "step": 1210
     },
     {
       "epoch": 4.9,
+      "learning_rate": 4.337349397590362e-06,
+      "loss": 0.3646,
       "step": 1220
     },
     {
       "epoch": 4.94,
+      "learning_rate": 2.7309236947791167e-06,
+      "loss": 0.4708,
       "step": 1230
     },
     {
       "epoch": 4.98,
+      "learning_rate": 1.1244979919678715e-06,
+      "loss": 0.4184,
       "step": 1240
     },
     {
+      "epoch": 5.0,
+      "step": 1245,
+      "total_flos": 1.539101261655982e+18,
+      "train_loss": 0.6624564435108599,
+      "train_runtime": 820.1847,
+      "train_samples_per_second": 24.214,
+      "train_steps_per_second": 1.518
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1245,
+  "num_train_epochs": 5,
   "save_steps": 100,
+  "total_flos": 1.539101261655982e+18,
   "trial_name": null,
   "trial_params": null
 }