🍻 cheers

Browse files

Files changed (6) hide show

README.md +3 -2
all_results.json +10 -10
eval_results.json +5 -5
runs/Apr30_14-52-00_e47bc2c7ac19/events.out.tfevents.1714489523.e47bc2c7ac19.34.1 +3 -0
train_results.json +5 -5
trainer_state.json +739 -455

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: imagefolder
       type: imagefolder
       config: default
       split: train
@@ -30,7 +31,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Action_all_10_class
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4146
 - Accuracy: 0.8785

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
       name: Image Classification
       type: image-classification
     dataset:
+      name: Action_small_dataset
       type: imagefolder
       config: default
       split: train
 # Action_all_10_class
+This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the Action_small_dataset dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4146
 - Accuracy: 0.8785

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.8660968660968661,
-    "eval_loss": 0.42591235041618347,
-    "eval_runtime": 11.9995,
-    "eval_samples_per_second": 58.502,
-    "eval_steps_per_second": 7.334,
-    "total_flos": 1.539101261655982e+18,
-    "train_loss": 0.6624564435108599,
-    "train_runtime": 820.1847,
-    "train_samples_per_second": 24.214,
-    "train_steps_per_second": 1.518
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.8785276073619632,
+    "eval_loss": 0.4145749807357788,
+    "eval_runtime": 11.5662,
+    "eval_samples_per_second": 70.464,
+    "eval_steps_per_second": 8.819,
+    "total_flos": 1.789030847196795e+18,
+    "train_loss": 0.6435174308433664,
+    "train_runtime": 776.1745,
+    "train_samples_per_second": 29.742,
+    "train_steps_per_second": 1.862
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.8660968660968661,
-    "eval_loss": 0.42591235041618347,
-    "eval_runtime": 11.9995,
-    "eval_samples_per_second": 58.502,
-    "eval_steps_per_second": 7.334
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.8785276073619632,
+    "eval_loss": 0.4145749807357788,
+    "eval_runtime": 11.5662,
+    "eval_samples_per_second": 70.464,
+    "eval_steps_per_second": 8.819
 }

runs/Apr30_14-52-00_e47bc2c7ac19/events.out.tfevents.1714489523.e47bc2c7ac19.34.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b915e629320c5d37a2eb5c4eb05ad751b260745a4910295acff1688f81bc0ad7
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 5.0,
-    "total_flos": 1.539101261655982e+18,
-    "train_loss": 0.6624564435108599,
-    "train_runtime": 820.1847,
-    "train_samples_per_second": 24.214,
-    "train_steps_per_second": 1.518
 }

 {
     "epoch": 5.0,
+    "total_flos": 1.789030847196795e+18,
+    "train_loss": 0.6435174308433664,
+    "train_runtime": 776.1745,
+    "train_samples_per_second": 29.742,
+    "train_steps_per_second": 1.862
 }

trainer_state.json CHANGED Viewed

@@ -1,880 +1,1164 @@
 {
-  "best_metric": 0.42591235041618347,
-  "best_model_checkpoint": "Action_all_10_class/checkpoint-1100",
   "epoch": 5.0,
   "eval_steps": 100,
-  "global_step": 1245,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "learning_rate": 0.00019839357429718877,
-      "loss": 2.2375,
       "step": 10
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 0.00019678714859437752,
-      "loss": 2.0451,
       "step": 20
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 0.00019518072289156628,
-      "loss": 1.8663,
       "step": 30
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 0.00019357429718875504,
-      "loss": 1.5435,
       "step": 40
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 0.00019196787148594377,
-      "loss": 1.4349,
       "step": 50
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 0.00019036144578313252,
-      "loss": 1.4104,
       "step": 60
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 0.00018875502008032128,
-      "loss": 1.2762,
       "step": 70
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 0.00018714859437751004,
-      "loss": 1.2306,
       "step": 80
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 0.0001855421686746988,
-      "loss": 1.2362,
       "step": 90
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 0.0001840963855421687,
-      "loss": 1.0772,
       "step": 100
     },
     {
-      "epoch": 0.4,
-      "eval_accuracy": 0.6737891737891738,
-      "eval_loss": 1.0524766445159912,
-      "eval_runtime": 12.1219,
-      "eval_samples_per_second": 57.912,
-      "eval_steps_per_second": 7.26,
       "step": 100
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 0.00018248995983935744,
-      "loss": 1.2642,
       "step": 110
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 0.0001808835341365462,
-      "loss": 1.0873,
       "step": 120
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 0.00017927710843373496,
-      "loss": 1.1482,
       "step": 130
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 0.00017767068273092371,
-      "loss": 0.9356,
       "step": 140
     },
     {
-      "epoch": 0.6,
-      "learning_rate": 0.00017606425702811247,
-      "loss": 1.0534,
       "step": 150
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.00017445783132530123,
-      "loss": 1.1054,
       "step": 160
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 0.00017285140562248996,
-      "loss": 1.0417,
       "step": 170
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 0.00017124497991967871,
-      "loss": 0.9529,
       "step": 180
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 0.00016963855421686747,
-      "loss": 1.0454,
       "step": 190
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.00016803212851405623,
-      "loss": 0.9054,
       "step": 200
     },
     {
-      "epoch": 0.8,
-      "eval_accuracy": 0.8005698005698005,
-      "eval_loss": 0.734963595867157,
-      "eval_runtime": 11.844,
-      "eval_samples_per_second": 59.27,
-      "eval_steps_per_second": 7.43,
       "step": 200
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 0.00016642570281124499,
-      "loss": 1.0347,
       "step": 210
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.00016481927710843374,
-      "loss": 1.0496,
       "step": 220
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 0.0001632128514056225,
-      "loss": 0.8833,
       "step": 230
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.00016160642570281126,
-      "loss": 0.9624,
       "step": 240
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 0.00016,
-      "loss": 0.8419,
       "step": 250
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 0.00015839357429718874,
-      "loss": 0.7875,
       "step": 260
     },
     {
-      "epoch": 1.08,
-      "learning_rate": 0.0001567871485943775,
-      "loss": 0.7934,
       "step": 270
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 0.00015518072289156626,
-      "loss": 0.897,
       "step": 280
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 0.00015357429718875501,
-      "loss": 0.7199,
       "step": 290
     },
     {
-      "epoch": 1.2,
-      "learning_rate": 0.00015196787148594377,
-      "loss": 0.9093,
       "step": 300
     },
     {
-      "epoch": 1.2,
-      "eval_accuracy": 0.8162393162393162,
-      "eval_loss": 0.6519011855125427,
-      "eval_runtime": 12.7334,
-      "eval_samples_per_second": 55.13,
-      "eval_steps_per_second": 6.911,
       "step": 300
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 0.00015036144578313253,
-      "loss": 0.8521,
       "step": 310
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 0.00014875502008032128,
-      "loss": 0.9056,
       "step": 320
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 0.00014714859437751004,
-      "loss": 0.8005,
       "step": 330
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 0.0001455421686746988,
-      "loss": 0.8129,
       "step": 340
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 0.00014393574297188756,
-      "loss": 0.6784,
       "step": 350
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 0.0001423293172690763,
-      "loss": 0.7941,
       "step": 360
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 0.00014072289156626507,
-      "loss": 0.7838,
       "step": 370
     },
     {
-      "epoch": 1.53,
-      "learning_rate": 0.00013911646586345383,
-      "loss": 0.7424,
       "step": 380
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 0.00013751004016064258,
-      "loss": 0.7194,
       "step": 390
     },
     {
-      "epoch": 1.61,
-      "learning_rate": 0.00013590361445783134,
-      "loss": 0.6264,
       "step": 400
     },
     {
-      "epoch": 1.61,
-      "eval_accuracy": 0.8105413105413105,
-      "eval_loss": 0.6052153706550598,
-      "eval_runtime": 10.8279,
-      "eval_samples_per_second": 64.833,
-      "eval_steps_per_second": 8.127,
       "step": 400
     },
     {
-      "epoch": 1.65,
-      "learning_rate": 0.0001342971887550201,
-      "loss": 0.7401,
       "step": 410
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 0.00013269076305220885,
-      "loss": 0.5516,
       "step": 420
     },
     {
-      "epoch": 1.73,
-      "learning_rate": 0.0001310843373493976,
-      "loss": 0.6522,
       "step": 430
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 0.00012947791164658637,
-      "loss": 0.7528,
       "step": 440
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 0.00012787148594377512,
-      "loss": 0.5984,
       "step": 450
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 0.00012626506024096385,
-      "loss": 0.6913,
       "step": 460
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 0.0001246586345381526,
-      "loss": 0.7507,
       "step": 470
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 0.00012305220883534137,
-      "loss": 0.8109,
       "step": 480
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 0.00012144578313253012,
-      "loss": 0.7775,
       "step": 490
     },
     {
-      "epoch": 2.01,
-      "learning_rate": 0.00011983935742971888,
-      "loss": 0.9279,
       "step": 500
     },
     {
-      "epoch": 2.01,
-      "eval_accuracy": 0.7934472934472935,
-      "eval_loss": 0.6441792249679565,
-      "eval_runtime": 12.779,
-      "eval_samples_per_second": 54.934,
-      "eval_steps_per_second": 6.886,
       "step": 500
     },
     {
-      "epoch": 2.05,
-      "learning_rate": 0.00011839357429718876,
-      "loss": 0.7877,
       "step": 510
     },
     {
-      "epoch": 2.09,
-      "learning_rate": 0.00011678714859437752,
-      "loss": 0.519,
       "step": 520
     },
     {
-      "epoch": 2.13,
-      "learning_rate": 0.00011518072289156627,
-      "loss": 0.5842,
       "step": 530
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 0.00011357429718875503,
-      "loss": 0.4631,
       "step": 540
     },
     {
-      "epoch": 2.21,
-      "learning_rate": 0.00011196787148594379,
-      "loss": 0.6516,
       "step": 550
     },
     {
-      "epoch": 2.25,
-      "learning_rate": 0.00011036144578313254,
-      "loss": 0.782,
       "step": 560
     },
     {
-      "epoch": 2.29,
-      "learning_rate": 0.00010875502008032127,
-      "loss": 0.4786,
       "step": 570
     },
     {
-      "epoch": 2.33,
-      "learning_rate": 0.00010714859437751003,
-      "loss": 0.5342,
       "step": 580
     },
     {
-      "epoch": 2.37,
-      "learning_rate": 0.00010554216867469879,
-      "loss": 0.5114,
       "step": 590
     },
     {
-      "epoch": 2.41,
-      "learning_rate": 0.00010393574297188754,
-      "loss": 0.5023,
       "step": 600
     },
     {
-      "epoch": 2.41,
-      "eval_accuracy": 0.8262108262108262,
-      "eval_loss": 0.5365344882011414,
-      "eval_runtime": 13.1708,
-      "eval_samples_per_second": 53.3,
-      "eval_steps_per_second": 6.681,
       "step": 600
     },
     {
-      "epoch": 2.45,
-      "learning_rate": 0.0001023293172690763,
-      "loss": 0.6584,
       "step": 610
     },
     {
-      "epoch": 2.49,
-      "learning_rate": 0.00010072289156626506,
-      "loss": 0.5492,
       "step": 620
     },
     {
-      "epoch": 2.53,
-      "learning_rate": 9.911646586345382e-05,
-      "loss": 0.5666,
       "step": 630
     },
     {
-      "epoch": 2.57,
-      "learning_rate": 9.751004016064259e-05,
-      "loss": 0.5791,
       "step": 640
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 9.590361445783133e-05,
-      "loss": 0.5201,
       "step": 650
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 9.429718875502009e-05,
-      "loss": 0.5602,
       "step": 660
     },
     {
-      "epoch": 2.69,
-      "learning_rate": 9.269076305220884e-05,
-      "loss": 0.5228,
       "step": 670
     },
     {
-      "epoch": 2.73,
-      "learning_rate": 9.10843373493976e-05,
-      "loss": 0.5114,
       "step": 680
     },
     {
-      "epoch": 2.77,
-      "learning_rate": 8.947791164658636e-05,
-      "loss": 0.4281,
       "step": 690
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 8.78714859437751e-05,
-      "loss": 0.4644,
       "step": 700
     },
     {
-      "epoch": 2.81,
-      "eval_accuracy": 0.8304843304843305,
-      "eval_loss": 0.5504655241966248,
-      "eval_runtime": 12.0796,
-      "eval_samples_per_second": 58.114,
-      "eval_steps_per_second": 7.285,
       "step": 700
     },
     {
-      "epoch": 2.85,
-      "learning_rate": 8.626506024096386e-05,
-      "loss": 0.5208,
       "step": 710
     },
     {
-      "epoch": 2.89,
-      "learning_rate": 8.465863453815261e-05,
-      "loss": 0.4574,
       "step": 720
     },
     {
-      "epoch": 2.93,
-      "learning_rate": 8.305220883534137e-05,
-      "loss": 0.4136,
       "step": 730
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 8.144578313253013e-05,
-      "loss": 0.418,
       "step": 740
     },
     {
-      "epoch": 3.01,
-      "learning_rate": 7.983935742971887e-05,
-      "loss": 0.472,
       "step": 750
     },
     {
-      "epoch": 3.05,
-      "learning_rate": 7.823293172690763e-05,
-      "loss": 0.3784,
       "step": 760
     },
     {
-      "epoch": 3.09,
-      "learning_rate": 7.662650602409639e-05,
-      "loss": 0.5764,
       "step": 770
     },
     {
-      "epoch": 3.13,
-      "learning_rate": 7.502008032128514e-05,
-      "loss": 0.6532,
       "step": 780
     },
     {
-      "epoch": 3.17,
-      "learning_rate": 7.34136546184739e-05,
-      "loss": 0.3921,
       "step": 790
     },
     {
-      "epoch": 3.21,
-      "learning_rate": 7.180722891566266e-05,
-      "loss": 0.4217,
       "step": 800
     },
     {
-      "epoch": 3.21,
-      "eval_accuracy": 0.8433048433048433,
-      "eval_loss": 0.502394437789917,
-      "eval_runtime": 10.653,
-      "eval_samples_per_second": 65.897,
-      "eval_steps_per_second": 8.261,
       "step": 800
     },
     {
-      "epoch": 3.25,
-      "learning_rate": 7.020080321285141e-05,
-      "loss": 0.4454,
       "step": 810
     },
     {
-      "epoch": 3.29,
-      "learning_rate": 6.859437751004017e-05,
-      "loss": 0.2962,
       "step": 820
     },
     {
-      "epoch": 3.33,
-      "learning_rate": 6.698795180722893e-05,
-      "loss": 0.4175,
       "step": 830
     },
     {
-      "epoch": 3.37,
-      "learning_rate": 6.538152610441768e-05,
-      "loss": 0.3381,
       "step": 840
     },
     {
-      "epoch": 3.41,
-      "learning_rate": 6.377510040160643e-05,
-      "loss": 0.4441,
       "step": 850
     },
     {
-      "epoch": 3.45,
-      "learning_rate": 6.216867469879518e-05,
-      "loss": 0.3907,
       "step": 860
     },
     {
-      "epoch": 3.49,
-      "learning_rate": 6.056224899598394e-05,
-      "loss": 0.4765,
       "step": 870
     },
     {
-      "epoch": 3.53,
-      "learning_rate": 5.89558232931727e-05,
-      "loss": 0.4384,
       "step": 880
     },
     {
-      "epoch": 3.57,
-      "learning_rate": 5.7349397590361454e-05,
-      "loss": 0.5241,
       "step": 890
     },
     {
-      "epoch": 3.61,
-      "learning_rate": 5.57429718875502e-05,
-      "loss": 0.4447,
       "step": 900
     },
     {
-      "epoch": 3.61,
-      "eval_accuracy": 0.8532763532763533,
-      "eval_loss": 0.4699917733669281,
-      "eval_runtime": 11.6414,
-      "eval_samples_per_second": 60.302,
-      "eval_steps_per_second": 7.559,
       "step": 900
     },
     {
-      "epoch": 3.65,
-      "learning_rate": 5.4136546184738955e-05,
-      "loss": 0.3466,
       "step": 910
     },
     {
-      "epoch": 3.69,
-      "learning_rate": 5.253012048192771e-05,
-      "loss": 0.4321,
       "step": 920
     },
     {
-      "epoch": 3.73,
-      "learning_rate": 5.092369477911647e-05,
-      "loss": 0.4604,
       "step": 930
     },
     {
-      "epoch": 3.78,
-      "learning_rate": 4.9317269076305225e-05,
-      "loss": 0.4072,
       "step": 940
     },
     {
-      "epoch": 3.82,
-      "learning_rate": 4.771084337349398e-05,
-      "loss": 0.4058,
       "step": 950
     },
     {
-      "epoch": 3.86,
-      "learning_rate": 4.610441767068273e-05,
-      "loss": 0.319,
       "step": 960
     },
     {
-      "epoch": 3.9,
-      "learning_rate": 4.449799196787149e-05,
-      "loss": 0.514,
       "step": 970
     },
     {
-      "epoch": 3.94,
-      "learning_rate": 4.2891566265060246e-05,
-      "loss": 0.427,
       "step": 980
     },
     {
-      "epoch": 3.98,
-      "learning_rate": 4.1285140562248996e-05,
-      "loss": 0.5547,
       "step": 990
     },
     {
-      "epoch": 4.02,
-      "learning_rate": 3.967871485943775e-05,
-      "loss": 0.4073,
       "step": 1000
     },
     {
-      "epoch": 4.02,
-      "eval_accuracy": 0.8632478632478633,
-      "eval_loss": 0.460509717464447,
-      "eval_runtime": 11.5739,
-      "eval_samples_per_second": 60.654,
-      "eval_steps_per_second": 7.603,
       "step": 1000
     },
     {
-      "epoch": 4.06,
-      "learning_rate": 3.8072289156626503e-05,
-      "loss": 0.2889,
       "step": 1010
     },
     {
-      "epoch": 4.1,
-      "learning_rate": 3.646586345381526e-05,
-      "loss": 0.2756,
       "step": 1020
     },
     {
-      "epoch": 4.14,
-      "learning_rate": 3.485943775100402e-05,
-      "loss": 0.3363,
       "step": 1030
     },
     {
-      "epoch": 4.18,
-      "learning_rate": 3.3253012048192774e-05,
-      "loss": 0.2898,
       "step": 1040
     },
     {
-      "epoch": 4.22,
-      "learning_rate": 3.164658634538153e-05,
-      "loss": 0.3705,
       "step": 1050
     },
     {
-      "epoch": 4.26,
-      "learning_rate": 3.004016064257028e-05,
-      "loss": 0.2515,
       "step": 1060
     },
     {
-      "epoch": 4.3,
-      "learning_rate": 2.8433734939759038e-05,
-      "loss": 0.3794,
       "step": 1070
     },
     {
-      "epoch": 4.34,
-      "learning_rate": 2.6827309236947795e-05,
-      "loss": 0.3288,
       "step": 1080
     },
     {
-      "epoch": 4.38,
-      "learning_rate": 2.522088353413655e-05,
-      "loss": 0.3614,
       "step": 1090
     },
     {
-      "epoch": 4.42,
-      "learning_rate": 2.3614457831325302e-05,
-      "loss": 0.2679,
       "step": 1100
     },
     {
-      "epoch": 4.42,
-      "eval_accuracy": 0.8660968660968661,
-      "eval_loss": 0.42591235041618347,
-      "eval_runtime": 12.9146,
-      "eval_samples_per_second": 54.357,
-      "eval_steps_per_second": 6.814,
       "step": 1100
     },
     {
-      "epoch": 4.46,
-      "learning_rate": 2.200803212851406e-05,
-      "loss": 0.2891,
       "step": 1110
     },
     {
-      "epoch": 4.5,
-      "learning_rate": 2.0401606425702812e-05,
-      "loss": 0.4053,
       "step": 1120
     },
     {
-      "epoch": 4.54,
-      "learning_rate": 1.8795180722891566e-05,
-      "loss": 0.3411,
       "step": 1130
     },
     {
-      "epoch": 4.58,
-      "learning_rate": 1.7188755020080323e-05,
-      "loss": 0.3382,
       "step": 1140
     },
     {
-      "epoch": 4.62,
-      "learning_rate": 1.5582329317269076e-05,
-      "loss": 0.4011,
       "step": 1150
     },
     {
-      "epoch": 4.66,
-      "learning_rate": 1.3975903614457833e-05,
-      "loss": 0.3232,
       "step": 1160
     },
     {
-      "epoch": 4.7,
-      "learning_rate": 1.2369477911646587e-05,
-      "loss": 0.4139,
       "step": 1170
     },
     {
-      "epoch": 4.74,
-      "learning_rate": 1.0763052208835342e-05,
-      "loss": 0.4019,
       "step": 1180
     },
     {
-      "epoch": 4.78,
-      "learning_rate": 9.156626506024097e-06,
-      "loss": 0.2942,
       "step": 1190
     },
     {
-      "epoch": 4.82,
-      "learning_rate": 7.550200803212852e-06,
-      "loss": 0.262,
       "step": 1200
     },
     {
-      "epoch": 4.82,
-      "eval_accuracy": 0.8603988603988604,
-      "eval_loss": 0.4417168200016022,
-      "eval_runtime": 12.439,
-      "eval_samples_per_second": 56.435,
-      "eval_steps_per_second": 7.075,
       "step": 1200
     },
     {
-      "epoch": 4.86,
-      "learning_rate": 5.943775100401607e-06,
-      "loss": 0.2907,
       "step": 1210
     },
     {
-      "epoch": 4.9,
-      "learning_rate": 4.337349397590362e-06,
-      "loss": 0.3646,
       "step": 1220
     },
     {
-      "epoch": 4.94,
-      "learning_rate": 2.7309236947791167e-06,
-      "loss": 0.4708,
       "step": 1230
     },
     {
-      "epoch": 4.98,
-      "learning_rate": 1.1244979919678715e-06,
-      "loss": 0.4184,
       "step": 1240
     },
     {
       "epoch": 5.0,
-      "step": 1245,
-      "total_flos": 1.539101261655982e+18,
-      "train_loss": 0.6624564435108599,
-      "train_runtime": 820.1847,
-      "train_samples_per_second": 24.214,
-      "train_steps_per_second": 1.518
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1245,
   "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 1.539101261655982e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4145749807357788,
+  "best_model_checkpoint": "Action_all_10_class/checkpoint-1400",
   "epoch": 5.0,
   "eval_steps": 100,
+  "global_step": 1445,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
+      "grad_norm": 2.3712973594665527,
+      "learning_rate": 0.0001986159169550173,
+      "loss": 2.271,
       "step": 10
     },
     {
+      "epoch": 0.07,
+      "grad_norm": 1.8230082988739014,
+      "learning_rate": 0.0001972318339100346,
+      "loss": 2.0335,
       "step": 20
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 2.621448040008545,
+      "learning_rate": 0.0001958477508650519,
+      "loss": 1.8885,
       "step": 30
     },
     {
+      "epoch": 0.14,
+      "grad_norm": 3.194303274154663,
+      "learning_rate": 0.0001944636678200692,
+      "loss": 1.6835,
       "step": 40
     },
     {
+      "epoch": 0.17,
+      "grad_norm": 2.9692325592041016,
+      "learning_rate": 0.0001930795847750865,
+      "loss": 1.5658,
       "step": 50
     },
     {
+      "epoch": 0.21,
+      "grad_norm": 3.6100592613220215,
+      "learning_rate": 0.00019169550173010383,
+      "loss": 1.4881,
       "step": 60
     },
     {
+      "epoch": 0.24,
+      "grad_norm": 2.926745653152466,
+      "learning_rate": 0.00019031141868512113,
+      "loss": 1.2581,
       "step": 70
     },
     {
+      "epoch": 0.28,
+      "grad_norm": 3.4733943939208984,
+      "learning_rate": 0.00018892733564013843,
+      "loss": 1.1786,
       "step": 80
     },
     {
+      "epoch": 0.31,
+      "grad_norm": 3.609900951385498,
+      "learning_rate": 0.00018754325259515573,
+      "loss": 1.1612,
       "step": 90
     },
     {
+      "epoch": 0.35,
+      "grad_norm": 3.1664867401123047,
+      "learning_rate": 0.00018615916955017303,
+      "loss": 1.1239,
       "step": 100
     },
     {
+      "epoch": 0.35,
+      "eval_accuracy": 0.7116564417177914,
+      "eval_loss": 0.9933902025222778,
+      "eval_runtime": 13.7579,
+      "eval_samples_per_second": 59.239,
+      "eval_steps_per_second": 7.414,
       "step": 100
     },
     {
+      "epoch": 0.38,
+      "grad_norm": 3.3514106273651123,
+      "learning_rate": 0.00018477508650519033,
+      "loss": 1.1763,
       "step": 110
     },
     {
+      "epoch": 0.42,
+      "grad_norm": 2.530064821243286,
+      "learning_rate": 0.0001833910034602076,
+      "loss": 1.1493,
       "step": 120
     },
     {
+      "epoch": 0.45,
+      "grad_norm": 4.615677833557129,
+      "learning_rate": 0.0001820069204152249,
+      "loss": 1.1661,
       "step": 130
     },
     {
+      "epoch": 0.48,
+      "grad_norm": 5.2710065841674805,
+      "learning_rate": 0.0001807612456747405,
+      "loss": 1.1174,
       "step": 140
     },
     {
+      "epoch": 0.52,
+      "grad_norm": 2.854151487350464,
+      "learning_rate": 0.0001793771626297578,
+      "loss": 1.0679,
       "step": 150
     },
     {
+      "epoch": 0.55,
+      "grad_norm": 4.68364143371582,
+      "learning_rate": 0.0001779930795847751,
+      "loss": 1.1566,
       "step": 160
     },
     {
+      "epoch": 0.59,
+      "grad_norm": 5.799492359161377,
+      "learning_rate": 0.0001766089965397924,
+      "loss": 0.9811,
       "step": 170
     },
     {
+      "epoch": 0.62,
+      "grad_norm": 7.8334760665893555,
+      "learning_rate": 0.0001752249134948097,
+      "loss": 1.0781,
       "step": 180
     },
     {
+      "epoch": 0.66,
+      "grad_norm": 4.817080020904541,
+      "learning_rate": 0.000173840830449827,
+      "loss": 1.0302,
       "step": 190
     },
     {
+      "epoch": 0.69,
+      "grad_norm": 4.084784507751465,
+      "learning_rate": 0.0001724567474048443,
+      "loss": 0.8878,
       "step": 200
     },
     {
+      "epoch": 0.69,
+      "eval_accuracy": 0.7705521472392638,
+      "eval_loss": 0.7667088508605957,
+      "eval_runtime": 10.9837,
+      "eval_samples_per_second": 74.201,
+      "eval_steps_per_second": 9.286,
       "step": 200
     },
     {
+      "epoch": 0.73,
+      "grad_norm": 3.8510003089904785,
+      "learning_rate": 0.0001710726643598616,
+      "loss": 1.0539,
       "step": 210
     },
     {
+      "epoch": 0.76,
+      "grad_norm": 4.4905619621276855,
+      "learning_rate": 0.00016968858131487892,
+      "loss": 0.9855,
       "step": 220
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 3.903388738632202,
+      "learning_rate": 0.00016830449826989622,
+      "loss": 1.0442,
       "step": 230
     },
     {
+      "epoch": 0.83,
+      "grad_norm": 4.052041530609131,
+      "learning_rate": 0.00016692041522491352,
+      "loss": 1.004,
       "step": 240
     },
     {
+      "epoch": 0.87,
+      "grad_norm": 4.503437042236328,
+      "learning_rate": 0.00016553633217993081,
+      "loss": 0.8825,
       "step": 250
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 4.2403459548950195,
+      "learning_rate": 0.00016415224913494811,
+      "loss": 0.9616,
       "step": 260
     },
     {
+      "epoch": 0.93,
+      "grad_norm": 6.690958499908447,
+      "learning_rate": 0.00016276816608996541,
+      "loss": 0.9127,
       "step": 270
     },
     {
+      "epoch": 0.97,
+      "grad_norm": 6.591899394989014,
+      "learning_rate": 0.0001613840830449827,
+      "loss": 1.0545,
       "step": 280
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 2.814940929412842,
+      "learning_rate": 0.0001601384083044983,
+      "loss": 0.9937,
       "step": 290
     },
     {
+      "epoch": 1.04,
+      "grad_norm": 5.890912055969238,
+      "learning_rate": 0.00015875432525951557,
+      "loss": 0.9037,
       "step": 300
     },
     {
+      "epoch": 1.04,
+      "eval_accuracy": 0.8098159509202454,
+      "eval_loss": 0.6369422674179077,
+      "eval_runtime": 11.1962,
+      "eval_samples_per_second": 72.793,
+      "eval_steps_per_second": 9.11,
       "step": 300
     },
     {
+      "epoch": 1.07,
+      "grad_norm": 3.311278820037842,
+      "learning_rate": 0.00015737024221453287,
+      "loss": 0.825,
       "step": 310
     },
     {
+      "epoch": 1.11,
+      "grad_norm": 4.0047454833984375,
+      "learning_rate": 0.00015598615916955017,
+      "loss": 0.7347,
       "step": 320
     },
     {
+      "epoch": 1.14,
+      "grad_norm": 4.145818710327148,
+      "learning_rate": 0.00015460207612456747,
+      "loss": 0.8906,
       "step": 330
     },
     {
+      "epoch": 1.18,
+      "grad_norm": 5.543643951416016,
+      "learning_rate": 0.00015321799307958477,
+      "loss": 0.7669,
       "step": 340
     },
     {
+      "epoch": 1.21,
+      "grad_norm": 5.490930080413818,
+      "learning_rate": 0.00015183391003460207,
+      "loss": 0.774,
       "step": 350
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 4.895139217376709,
+      "learning_rate": 0.00015044982698961937,
+      "loss": 0.6658,
       "step": 360
     },
     {
+      "epoch": 1.28,
+      "grad_norm": 4.527533054351807,
+      "learning_rate": 0.00014906574394463667,
+      "loss": 0.8603,
       "step": 370
     },
     {
+      "epoch": 1.31,
+      "grad_norm": 3.3609440326690674,
+      "learning_rate": 0.00014768166089965397,
+      "loss": 0.7099,
       "step": 380
     },
     {
+      "epoch": 1.35,
+      "grad_norm": 10.356605529785156,
+      "learning_rate": 0.0001462975778546713,
+      "loss": 0.7262,
       "step": 390
     },
     {
+      "epoch": 1.38,
+      "grad_norm": 3.6397433280944824,
+      "learning_rate": 0.0001449134948096886,
+      "loss": 0.7307,
       "step": 400
     },
     {
+      "epoch": 1.38,
+      "eval_accuracy": 0.8319018404907975,
+      "eval_loss": 0.577174186706543,
+      "eval_runtime": 11.1343,
+      "eval_samples_per_second": 73.197,
+      "eval_steps_per_second": 9.161,
       "step": 400
     },
     {
+      "epoch": 1.42,
+      "grad_norm": 5.693297386169434,
+      "learning_rate": 0.0001435294117647059,
+      "loss": 0.8061,
       "step": 410
     },
     {
+      "epoch": 1.45,
+      "grad_norm": 3.4219260215759277,
+      "learning_rate": 0.0001421453287197232,
+      "loss": 0.6227,
       "step": 420
     },
     {
+      "epoch": 1.49,
+      "grad_norm": 9.225582122802734,
+      "learning_rate": 0.0001407612456747405,
+      "loss": 0.6429,
       "step": 430
     },
     {
+      "epoch": 1.52,
+      "grad_norm": 5.8882293701171875,
+      "learning_rate": 0.0001393771626297578,
+      "loss": 0.686,
       "step": 440
     },
     {
+      "epoch": 1.56,
+      "grad_norm": 3.3229711055755615,
+      "learning_rate": 0.0001379930795847751,
+      "loss": 0.7574,
       "step": 450
     },
     {
+      "epoch": 1.59,
+      "grad_norm": 5.165830135345459,
+      "learning_rate": 0.0001366089965397924,
+      "loss": 0.6195,
       "step": 460
     },
     {
+      "epoch": 1.63,
+      "grad_norm": 6.676501274108887,
+      "learning_rate": 0.0001352249134948097,
+      "loss": 0.6789,
       "step": 470
     },
     {
+      "epoch": 1.66,
+      "grad_norm": 6.1190643310546875,
+      "learning_rate": 0.000133840830449827,
+      "loss": 0.7149,
       "step": 480
     },
     {
+      "epoch": 1.7,
+      "grad_norm": 2.723904848098755,
+      "learning_rate": 0.0001324567474048443,
+      "loss": 0.7014,
       "step": 490
     },
     {
+      "epoch": 1.73,
+      "grad_norm": 4.995339870452881,
+      "learning_rate": 0.00013107266435986162,
+      "loss": 0.6624,
       "step": 500
     },
     {
+      "epoch": 1.73,
+      "eval_accuracy": 0.7717791411042945,
+      "eval_loss": 0.6924724578857422,
+      "eval_runtime": 11.3854,
+      "eval_samples_per_second": 71.583,
+      "eval_steps_per_second": 8.959,
       "step": 500
     },
     {
+      "epoch": 1.76,
+      "grad_norm": 5.440706729888916,
+      "learning_rate": 0.00012968858131487892,
+      "loss": 0.8681,
       "step": 510
     },
     {
+      "epoch": 1.8,
+      "grad_norm": 4.539951801300049,
+      "learning_rate": 0.0001283044982698962,
+      "loss": 0.5997,
       "step": 520
     },
     {
+      "epoch": 1.83,
+      "grad_norm": 4.5558013916015625,
+      "learning_rate": 0.0001269204152249135,
+      "loss": 0.6839,
       "step": 530
     },
     {
+      "epoch": 1.87,
+      "grad_norm": 4.361762046813965,
+      "learning_rate": 0.0001255363321799308,
+      "loss": 0.6016,
       "step": 540
     },
     {
+      "epoch": 1.9,
+      "grad_norm": 4.278672695159912,
+      "learning_rate": 0.0001241522491349481,
+      "loss": 0.6111,
       "step": 550
     },
     {
+      "epoch": 1.94,
+      "grad_norm": 5.990556240081787,
+      "learning_rate": 0.0001227681660899654,
+      "loss": 0.9729,
       "step": 560
     },
     {
+      "epoch": 1.97,
+      "grad_norm": 4.511960983276367,
+      "learning_rate": 0.0001213840830449827,
+      "loss": 0.6829,
       "step": 570
     },
     {
+      "epoch": 2.01,
+      "grad_norm": 3.139665365219116,
+      "learning_rate": 0.00012,
+      "loss": 0.6516,
       "step": 580
     },
     {
+      "epoch": 2.04,
+      "grad_norm": 2.4773037433624268,
+      "learning_rate": 0.0001186159169550173,
+      "loss": 0.492,
       "step": 590
     },
     {
+      "epoch": 2.08,
+      "grad_norm": 1.613572597503662,
+      "learning_rate": 0.0001172318339100346,
+      "loss": 0.5781,
       "step": 600
     },
     {
+      "epoch": 2.08,
+      "eval_accuracy": 0.8404907975460123,
+      "eval_loss": 0.5438538789749146,
+      "eval_runtime": 11.1336,
+      "eval_samples_per_second": 73.202,
+      "eval_steps_per_second": 9.161,
       "step": 600
     },
     {
+      "epoch": 2.11,
+      "grad_norm": 2.5122666358947754,
+      "learning_rate": 0.0001158477508650519,
+      "loss": 0.55,
       "step": 610
     },
     {
+      "epoch": 2.15,
+      "grad_norm": 5.037026882171631,
+      "learning_rate": 0.00011446366782006921,
+      "loss": 0.5404,
       "step": 620
     },
     {
+      "epoch": 2.18,
+      "grad_norm": 6.795055866241455,
+      "learning_rate": 0.00011307958477508651,
+      "loss": 0.6455,
       "step": 630
     },
     {
+      "epoch": 2.21,
+      "grad_norm": 6.474560260772705,
+      "learning_rate": 0.00011169550173010381,
+      "loss": 0.5184,
       "step": 640
     },
     {
+      "epoch": 2.25,
+      "grad_norm": 8.110054969787598,
+      "learning_rate": 0.00011031141868512111,
+      "loss": 0.4706,
       "step": 650
     },
     {
+      "epoch": 2.28,
+      "grad_norm": 2.1118876934051514,
+      "learning_rate": 0.00010892733564013841,
+      "loss": 0.5291,
       "step": 660
     },
     {
+      "epoch": 2.32,
+      "grad_norm": 5.386865615844727,
+      "learning_rate": 0.00010754325259515571,
+      "loss": 0.605,
       "step": 670
     },
     {
+      "epoch": 2.35,
+      "grad_norm": 4.501631736755371,
+      "learning_rate": 0.00010615916955017303,
+      "loss": 0.4696,
       "step": 680
     },
     {
+      "epoch": 2.39,
+      "grad_norm": 4.06800651550293,
+      "learning_rate": 0.00010477508650519033,
+      "loss": 0.5214,
       "step": 690
     },
     {
+      "epoch": 2.42,
+      "grad_norm": 3.3574037551879883,
+      "learning_rate": 0.00010339100346020762,
+      "loss": 0.5537,
       "step": 700
     },
     {
+      "epoch": 2.42,
+      "eval_accuracy": 0.8331288343558282,
+      "eval_loss": 0.5256926417350769,
+      "eval_runtime": 11.3468,
+      "eval_samples_per_second": 71.826,
+      "eval_steps_per_second": 8.989,
       "step": 700
     },
     {
+      "epoch": 2.46,
+      "grad_norm": 6.940188884735107,
+      "learning_rate": 0.00010200692041522492,
+      "loss": 0.5371,
       "step": 710
     },
     {
+      "epoch": 2.49,
+      "grad_norm": 5.517166614532471,
+      "learning_rate": 0.00010076124567474047,
+      "loss": 0.5419,
       "step": 720
     },
     {
+      "epoch": 2.53,
+      "grad_norm": 3.2714200019836426,
+      "learning_rate": 9.937716262975779e-05,
+      "loss": 0.6657,
       "step": 730
     },
     {
+      "epoch": 2.56,
+      "grad_norm": 2.734272003173828,
+      "learning_rate": 9.79930795847751e-05,
+      "loss": 0.5712,
       "step": 740
     },
     {
+      "epoch": 2.6,
+      "grad_norm": 7.275644302368164,
+      "learning_rate": 9.66089965397924e-05,
+      "loss": 0.6513,
       "step": 750
     },
     {
+      "epoch": 2.63,
+      "grad_norm": 4.910625457763672,
+      "learning_rate": 9.52249134948097e-05,
+      "loss": 0.5641,
       "step": 760
     },
     {
+      "epoch": 2.66,
+      "grad_norm": 2.4771077632904053,
+      "learning_rate": 9.384083044982698e-05,
+      "loss": 0.4163,
       "step": 770
     },
     {
+      "epoch": 2.7,
+      "grad_norm": 4.3278303146362305,
+      "learning_rate": 9.24567474048443e-05,
+      "loss": 0.5759,
       "step": 780
     },
     {
+      "epoch": 2.73,
+      "grad_norm": 8.122814178466797,
+      "learning_rate": 9.10726643598616e-05,
+      "loss": 0.6389,
       "step": 790
     },
     {
+      "epoch": 2.77,
+      "grad_norm": 6.369782447814941,
+      "learning_rate": 8.96885813148789e-05,
+      "loss": 0.4112,
       "step": 800
     },
     {
+      "epoch": 2.77,
+      "eval_accuracy": 0.8564417177914111,
+      "eval_loss": 0.4499729573726654,
+      "eval_runtime": 11.5138,
+      "eval_samples_per_second": 70.785,
+      "eval_steps_per_second": 8.859,
       "step": 800
     },
     {
+      "epoch": 2.8,
+      "grad_norm": 7.130208969116211,
+      "learning_rate": 8.83044982698962e-05,
+      "loss": 0.4534,
       "step": 810
     },
     {
+      "epoch": 2.84,
+      "grad_norm": 5.094985008239746,
+      "learning_rate": 8.69204152249135e-05,
+      "loss": 0.4881,
       "step": 820
     },
     {
+      "epoch": 2.87,
+      "grad_norm": 2.527794361114502,
+      "learning_rate": 8.55363321799308e-05,
+      "loss": 0.2775,
       "step": 830
     },
     {
+      "epoch": 2.91,
+      "grad_norm": 9.366188049316406,
+      "learning_rate": 8.415224913494811e-05,
+      "loss": 0.6528,
       "step": 840
     },
     {
+      "epoch": 2.94,
+      "grad_norm": 3.863041400909424,
+      "learning_rate": 8.276816608996541e-05,
+      "loss": 0.5632,
       "step": 850
     },
     {
+      "epoch": 2.98,
+      "grad_norm": 3.3894691467285156,
+      "learning_rate": 8.138408304498271e-05,
+      "loss": 0.5885,
       "step": 860
     },
     {
+      "epoch": 3.01,
+      "grad_norm": 5.836617469787598,
+      "learning_rate": 8e-05,
+      "loss": 0.5864,
       "step": 870
     },
     {
+      "epoch": 3.04,
+      "grad_norm": 4.380435943603516,
+      "learning_rate": 7.86159169550173e-05,
+      "loss": 0.4523,
       "step": 880
     },
     {
+      "epoch": 3.08,
+      "grad_norm": 0.4667840898036957,
+      "learning_rate": 7.72318339100346e-05,
+      "loss": 0.2999,
       "step": 890
     },
     {
+      "epoch": 3.11,
+      "grad_norm": 3.003122091293335,
+      "learning_rate": 7.58477508650519e-05,
+      "loss": 0.3263,
       "step": 900
     },
     {
+      "epoch": 3.11,
+      "eval_accuracy": 0.841717791411043,
+      "eval_loss": 0.4910809397697449,
+      "eval_runtime": 11.4121,
+      "eval_samples_per_second": 71.416,
+      "eval_steps_per_second": 8.938,
       "step": 900
     },
     {
+      "epoch": 3.15,
+      "grad_norm": 4.519166469573975,
+      "learning_rate": 7.44636678200692e-05,
+      "loss": 0.417,
       "step": 910
     },
     {
+      "epoch": 3.18,
+      "grad_norm": 6.071402549743652,
+      "learning_rate": 7.30795847750865e-05,
+      "loss": 0.351,
       "step": 920
     },
     {
+      "epoch": 3.22,
+      "grad_norm": 6.0896687507629395,
+      "learning_rate": 7.16955017301038e-05,
+      "loss": 0.4687,
       "step": 930
     },
     {
+      "epoch": 3.25,
+      "grad_norm": 4.001879692077637,
+      "learning_rate": 7.031141868512112e-05,
+      "loss": 0.5083,
       "step": 940
     },
     {
+      "epoch": 3.29,
+      "grad_norm": 5.064093112945557,
+      "learning_rate": 6.892733564013842e-05,
+      "loss": 0.3407,
       "step": 950
     },
     {
+      "epoch": 3.32,
+      "grad_norm": 1.3715455532073975,
+      "learning_rate": 6.754325259515572e-05,
+      "loss": 0.4073,
       "step": 960
     },
     {
+      "epoch": 3.36,
+      "grad_norm": 6.380220413208008,
+      "learning_rate": 6.615916955017302e-05,
+      "loss": 0.4613,
       "step": 970
     },
     {
+      "epoch": 3.39,
+      "grad_norm": 2.1010074615478516,
+      "learning_rate": 6.477508650519032e-05,
+      "loss": 0.3706,
       "step": 980
     },
     {
+      "epoch": 3.43,
+      "grad_norm": 2.2640676498413086,
+      "learning_rate": 6.339100346020761e-05,
+      "loss": 0.3235,
       "step": 990
     },
     {
+      "epoch": 3.46,
+      "grad_norm": 2.6152210235595703,
+      "learning_rate": 6.200692041522491e-05,
+      "loss": 0.4592,
       "step": 1000
     },
     {
+      "epoch": 3.46,
+      "eval_accuracy": 0.8711656441717791,
+      "eval_loss": 0.4550653100013733,
+      "eval_runtime": 11.3924,
+      "eval_samples_per_second": 71.539,
+      "eval_steps_per_second": 8.953,
       "step": 1000
     },
     {
+      "epoch": 3.49,
+      "grad_norm": 4.868244647979736,
+      "learning_rate": 6.0622837370242214e-05,
+      "loss": 0.3891,
       "step": 1010
     },
     {
+      "epoch": 3.53,
+      "grad_norm": 4.125463962554932,
+      "learning_rate": 5.9238754325259514e-05,
+      "loss": 0.3462,
       "step": 1020
     },
     {
+      "epoch": 3.56,
+      "grad_norm": 5.510716915130615,
+      "learning_rate": 5.785467128027682e-05,
+      "loss": 0.3938,
       "step": 1030
     },
     {
+      "epoch": 3.6,
+      "grad_norm": 4.867416858673096,
+      "learning_rate": 5.647058823529412e-05,
+      "loss": 0.3851,
       "step": 1040
     },
     {
+      "epoch": 3.63,
+      "grad_norm": 5.599556922912598,
+      "learning_rate": 5.508650519031142e-05,
+      "loss": 0.3939,
       "step": 1050
     },
     {
+      "epoch": 3.67,
+      "grad_norm": 6.144674777984619,
+      "learning_rate": 5.3702422145328725e-05,
+      "loss": 0.5787,
       "step": 1060
     },
     {
+      "epoch": 3.7,
+      "grad_norm": 6.78063440322876,
+      "learning_rate": 5.2318339100346025e-05,
+      "loss": 0.4548,
       "step": 1070
     },
     {
+      "epoch": 3.74,
+      "grad_norm": 2.213515281677246,
+      "learning_rate": 5.0934256055363325e-05,
+      "loss": 0.418,
       "step": 1080
     },
     {
+      "epoch": 3.77,
+      "grad_norm": 3.3876266479492188,
+      "learning_rate": 4.9550173010380624e-05,
+      "loss": 0.432,
       "step": 1090
     },
     {
+      "epoch": 3.81,
+      "grad_norm": 6.500645160675049,
+      "learning_rate": 4.8166089965397924e-05,
+      "loss": 0.3204,
       "step": 1100
     },
     {
+      "epoch": 3.81,
+      "eval_accuracy": 0.8723926380368098,
+      "eval_loss": 0.4324829876422882,
+      "eval_runtime": 11.2965,
+      "eval_samples_per_second": 72.146,
+      "eval_steps_per_second": 9.029,
       "step": 1100
     },
     {
+      "epoch": 3.84,
+      "grad_norm": 2.518057107925415,
+      "learning_rate": 4.678200692041523e-05,
+      "loss": 0.3505,
       "step": 1110
     },
     {
+      "epoch": 3.88,
+      "grad_norm": 4.820311546325684,
+      "learning_rate": 4.539792387543253e-05,
+      "loss": 0.4641,
       "step": 1120
     },
     {
+      "epoch": 3.91,
+      "grad_norm": 1.1859557628631592,
+      "learning_rate": 4.401384083044983e-05,
+      "loss": 0.5202,
       "step": 1130
     },
     {
+      "epoch": 3.94,
+      "grad_norm": 2.3869946002960205,
+      "learning_rate": 4.262975778546713e-05,
+      "loss": 0.5007,
       "step": 1140
     },
     {
+      "epoch": 3.98,
+      "grad_norm": 6.64663553237915,
+      "learning_rate": 4.124567474048443e-05,
+      "loss": 0.3478,
       "step": 1150
     },
     {
+      "epoch": 4.01,
+      "grad_norm": 4.931898593902588,
+      "learning_rate": 3.9861591695501735e-05,
+      "loss": 0.3808,
       "step": 1160
     },
     {
+      "epoch": 4.05,
+      "grad_norm": 1.7521384954452515,
+      "learning_rate": 3.8477508650519034e-05,
+      "loss": 0.3247,
       "step": 1170
     },
     {
+      "epoch": 4.08,
+      "grad_norm": 1.5513068437576294,
+      "learning_rate": 3.7093425605536334e-05,
+      "loss": 0.393,
       "step": 1180
     },
     {
+      "epoch": 4.12,
+      "grad_norm": 5.2524094581604,
+      "learning_rate": 3.570934256055363e-05,
+      "loss": 0.3697,
       "step": 1190
     },
     {
+      "epoch": 4.15,
+      "grad_norm": 5.346503734588623,
+      "learning_rate": 3.432525951557093e-05,
+      "loss": 0.3268,
       "step": 1200
     },
     {
+      "epoch": 4.15,
+      "eval_accuracy": 0.8539877300613496,
+      "eval_loss": 0.4529338777065277,
+      "eval_runtime": 11.243,
+      "eval_samples_per_second": 72.49,
+      "eval_steps_per_second": 9.072,
       "step": 1200
     },
     {
+      "epoch": 4.19,
+      "grad_norm": 2.0786306858062744,
+      "learning_rate": 3.294117647058824e-05,
+      "loss": 0.2967,
       "step": 1210
     },
     {
+      "epoch": 4.22,
+      "grad_norm": 3.8141846656799316,
+      "learning_rate": 3.155709342560554e-05,
+      "loss": 0.2483,
       "step": 1220
     },
     {
+      "epoch": 4.26,
+      "grad_norm": 1.8864765167236328,
+      "learning_rate": 3.0173010380622842e-05,
+      "loss": 0.2443,
       "step": 1230
     },
     {
+      "epoch": 4.29,
+      "grad_norm": 0.9406078457832336,
+      "learning_rate": 2.878892733564014e-05,
+      "loss": 0.2637,
       "step": 1240
     },
+    {
+      "epoch": 4.33,
+      "grad_norm": 3.418455123901367,
+      "learning_rate": 2.7404844290657437e-05,
+      "loss": 0.2866,
+      "step": 1250
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 1.8662397861480713,
+      "learning_rate": 2.602076124567474e-05,
+      "loss": 0.3381,
+      "step": 1260
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 3.9735002517700195,
+      "learning_rate": 2.4636678200692043e-05,
+      "loss": 0.3328,
+      "step": 1270
+    },
+    {
+      "epoch": 4.43,
+      "grad_norm": 2.229581117630005,
+      "learning_rate": 2.3252595155709346e-05,
+      "loss": 0.4579,
+      "step": 1280
+    },
+    {
+      "epoch": 4.46,
+      "grad_norm": 3.8186144828796387,
+      "learning_rate": 2.1868512110726642e-05,
+      "loss": 0.2986,
+      "step": 1290
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 2.310910701751709,
+      "learning_rate": 2.0484429065743945e-05,
+      "loss": 0.4267,
+      "step": 1300
+    },
+    {
+      "epoch": 4.5,
+      "eval_accuracy": 0.8723926380368098,
+      "eval_loss": 0.4355594515800476,
+      "eval_runtime": 11.2323,
+      "eval_samples_per_second": 72.559,
+      "eval_steps_per_second": 9.081,
+      "step": 1300
+    },
+    {
+      "epoch": 4.53,
+      "grad_norm": 5.4986042976379395,
+      "learning_rate": 1.910034602076125e-05,
+      "loss": 0.3289,
+      "step": 1310
+    },
+    {
+      "epoch": 4.57,
+      "grad_norm": 9.17880916595459,
+      "learning_rate": 1.7716262975778548e-05,
+      "loss": 0.4384,
+      "step": 1320
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 0.5825958251953125,
+      "learning_rate": 1.6332179930795848e-05,
+      "loss": 0.1629,
+      "step": 1330
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 3.7861948013305664,
+      "learning_rate": 1.4948096885813149e-05,
+      "loss": 0.2607,
+      "step": 1340
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.08592710644006729,
+      "learning_rate": 1.356401384083045e-05,
+      "loss": 0.23,
+      "step": 1350
+    },
+    {
+      "epoch": 4.71,
+      "grad_norm": 3.897566556930542,
+      "learning_rate": 1.2179930795847751e-05,
+      "loss": 0.2927,
+      "step": 1360
+    },
+    {
+      "epoch": 4.74,
+      "grad_norm": 3.4900457859039307,
+      "learning_rate": 1.0795847750865053e-05,
+      "loss": 0.3149,
+      "step": 1370
+    },
+    {
+      "epoch": 4.78,
+      "grad_norm": 0.48032164573669434,
+      "learning_rate": 9.411764705882354e-06,
+      "loss": 0.3346,
+      "step": 1380
+    },
+    {
+      "epoch": 4.81,
+      "grad_norm": 3.148484945297241,
+      "learning_rate": 8.027681660899653e-06,
+      "loss": 0.3006,
+      "step": 1390
+    },
+    {
+      "epoch": 4.84,
+      "grad_norm": 8.376299858093262,
+      "learning_rate": 6.6435986159169555e-06,
+      "loss": 0.2886,
+      "step": 1400
+    },
+    {
+      "epoch": 4.84,
+      "eval_accuracy": 0.8785276073619632,
+      "eval_loss": 0.4145749807357788,
+      "eval_runtime": 11.483,
+      "eval_samples_per_second": 70.974,
+      "eval_steps_per_second": 8.883,
+      "step": 1400
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 10.592811584472656,
+      "learning_rate": 5.259515570934257e-06,
+      "loss": 0.2866,
+      "step": 1410
+    },
+    {
+      "epoch": 4.91,
+      "grad_norm": 1.9005374908447266,
+      "learning_rate": 3.875432525951557e-06,
+      "loss": 0.367,
+      "step": 1420
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 6.674309730529785,
+      "learning_rate": 2.4913494809688584e-06,
+      "loss": 0.2715,
+      "step": 1430
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 7.622613430023193,
+      "learning_rate": 1.1072664359861592e-06,
+      "loss": 0.3306,
+      "step": 1440
+    },
     {
       "epoch": 5.0,
+      "step": 1445,
+      "total_flos": 1.789030847196795e+18,
+      "train_loss": 0.6435174308433664,
+      "train_runtime": 776.1745,
+      "train_samples_per_second": 29.742,
+      "train_steps_per_second": 1.862
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1445,
+  "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 100,
+  "total_flos": 1.789030847196795e+18,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }