End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Jan23_12-36-19_bfd4d44bc961/events.out.tfevents.1674483070.bfd4d44bc961.110.2 +3 -0
train_results.json +6 -6
trainer_state.json +496 -478

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 59.84,
-    "eval_accuracy": 0.9692307692307692,
-    "eval_loss": 0.22925466299057007,
-    "eval_runtime": 4.2919,
-    "eval_samples_per_second": 15.145,
-    "eval_steps_per_second": 0.699,
-    "total_flos": 8.648855308501955e+17,
-    "train_loss": 0.5746380070845286,
-    "train_runtime": 4313.6028,
-    "train_samples_per_second": 8.081,
-    "train_steps_per_second": 0.056
 }

 {
+    "epoch": 60.0,
+    "eval_accuracy": 0.9714285714285714,
+    "eval_loss": 0.11924324184656143,
+    "eval_runtime": 4.266,
+    "eval_samples_per_second": 16.409,
+    "eval_steps_per_second": 0.703,
+    "total_flos": 9.381960833056358e+17,
+    "train_loss": 0.48240819613138836,
+    "train_runtime": 5472.4354,
+    "train_samples_per_second": 6.896,
+    "train_steps_per_second": 0.055
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.84,
-    "eval_accuracy": 0.9692307692307692,
-    "eval_loss": 0.22925466299057007,
-    "eval_runtime": 4.2919,
-    "eval_samples_per_second": 15.145,
-    "eval_steps_per_second": 0.699
 }

 {
+    "epoch": 60.0,
+    "eval_accuracy": 0.9714285714285714,
+    "eval_loss": 0.11924324184656143,
+    "eval_runtime": 4.266,
+    "eval_samples_per_second": 16.409,
+    "eval_steps_per_second": 0.703
 }

runs/Jan23_12-36-19_bfd4d44bc961/events.out.tfevents.1674483070.bfd4d44bc961.110.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:570db232929484273788e8ca275d20d8ad81c33aec17c51df5604d4c8ec0461e
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.84,
-    "total_flos": 8.648855308501955e+17,
-    "train_loss": 0.5746380070845286,
-    "train_runtime": 4313.6028,
-    "train_samples_per_second": 8.081,
-    "train_steps_per_second": 0.056
 }

 {
+    "epoch": 60.0,
+    "total_flos": 9.381960833056358e+17,
+    "train_loss": 0.48240819613138836,
+    "train_runtime": 5472.4354,
+    "train_samples_per_second": 6.896,
+    "train_steps_per_second": 0.055
 }

trainer_state.json CHANGED Viewed

@@ -1,637 +1,655 @@
 {
-  "best_metric": 0.9692307692307692,
-  "best_model_checkpoint": "delivery_truck_classification/checkpoint-56",
-  "epoch": 59.8421052631579,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.84,
-      "eval_accuracy": 0.18461538461538463,
-      "eval_loss": 1.9335094690322876,
-      "eval_runtime": 4.2505,
-      "eval_samples_per_second": 15.292,
-      "eval_steps_per_second": 0.706,
-      "step": 4
-    },
-    {
-      "epoch": 1.84,
-      "eval_accuracy": 0.26153846153846155,
-      "eval_loss": 1.83644700050354,
-      "eval_runtime": 4.7909,
-      "eval_samples_per_second": 13.567,
-      "eval_steps_per_second": 0.626,
-      "step": 8
     },
     {
-      "epoch": 2.84,
-      "eval_accuracy": 0.38461538461538464,
-      "eval_loss": 1.7054301500320435,
-      "eval_runtime": 4.2339,
-      "eval_samples_per_second": 15.352,
-      "eval_steps_per_second": 0.709,
-      "step": 12
     },
     {
-      "epoch": 3.84,
-      "eval_accuracy": 0.4153846153846154,
-      "eval_loss": 1.5629212856292725,
-      "eval_runtime": 4.6,
-      "eval_samples_per_second": 14.13,
-      "eval_steps_per_second": 0.652,
-      "step": 16
     },
     {
-      "epoch": 4.84,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 2.0106,
       "step": 20
     },
     {
-      "epoch": 4.84,
-      "eval_accuracy": 0.47692307692307695,
-      "eval_loss": 1.3906540870666504,
-      "eval_runtime": 4.2108,
-      "eval_samples_per_second": 15.437,
-      "eval_steps_per_second": 0.712,
       "step": 20
     },
     {
-      "epoch": 5.84,
-      "eval_accuracy": 0.5692307692307692,
-      "eval_loss": 1.1983743906021118,
-      "eval_runtime": 4.4922,
-      "eval_samples_per_second": 14.47,
-      "eval_steps_per_second": 0.668,
-      "step": 24
     },
     {
-      "epoch": 6.84,
-      "eval_accuracy": 0.6615384615384615,
-      "eval_loss": 0.951930582523346,
-      "eval_runtime": 4.3052,
-      "eval_samples_per_second": 15.098,
-      "eval_steps_per_second": 0.697,
-      "step": 28
     },
     {
-      "epoch": 7.84,
-      "eval_accuracy": 0.7846153846153846,
-      "eval_loss": 0.7509785294532776,
-      "eval_runtime": 4.6224,
-      "eval_samples_per_second": 14.062,
-      "eval_steps_per_second": 0.649,
-      "step": 32
     },
     {
-      "epoch": 8.84,
-      "eval_accuracy": 0.8615384615384616,
-      "eval_loss": 0.5749186277389526,
-      "eval_runtime": 5.8947,
-      "eval_samples_per_second": 11.027,
-      "eval_steps_per_second": 0.509,
-      "step": 36
-    },
-    {
-      "epoch": 9.84,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 1.1009,
       "step": 40
     },
     {
-      "epoch": 9.84,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.42441025376319885,
-      "eval_runtime": 4.917,
-      "eval_samples_per_second": 13.219,
-      "eval_steps_per_second": 0.61,
       "step": 40
     },
     {
-      "epoch": 10.84,
-      "eval_accuracy": 0.8923076923076924,
-      "eval_loss": 0.3652417063713074,
-      "eval_runtime": 4.3232,
-      "eval_samples_per_second": 15.035,
-      "eval_steps_per_second": 0.694,
-      "step": 44
-    },
-    {
-      "epoch": 11.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.2734673023223877,
-      "eval_runtime": 4.5868,
-      "eval_samples_per_second": 14.171,
-      "eval_steps_per_second": 0.654,
-      "step": 48
     },
     {
-      "epoch": 12.84,
-      "eval_accuracy": 0.8923076923076924,
-      "eval_loss": 0.29086846113204956,
-      "eval_runtime": 4.5389,
-      "eval_samples_per_second": 14.321,
-      "eval_steps_per_second": 0.661,
-      "step": 52
     },
     {
-      "epoch": 13.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.22925466299057007,
-      "eval_runtime": 4.2293,
-      "eval_samples_per_second": 15.369,
-      "eval_steps_per_second": 0.709,
-      "step": 56
     },
     {
-      "epoch": 14.84,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.6329,
       "step": 60
     },
     {
-      "epoch": 14.84,
-      "eval_accuracy": 0.9076923076923077,
-      "eval_loss": 0.2562795877456665,
-      "eval_runtime": 4.6895,
-      "eval_samples_per_second": 13.861,
-      "eval_steps_per_second": 0.64,
       "step": 60
     },
     {
-      "epoch": 15.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.22179557383060455,
-      "eval_runtime": 4.4085,
-      "eval_samples_per_second": 14.744,
-      "eval_steps_per_second": 0.681,
-      "step": 64
     },
     {
-      "epoch": 16.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.21023423969745636,
-      "eval_runtime": 4.6409,
-      "eval_samples_per_second": 14.006,
-      "eval_steps_per_second": 0.646,
-      "step": 68
     },
     {
-      "epoch": 17.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.18287315964698792,
-      "eval_runtime": 4.2374,
-      "eval_samples_per_second": 15.339,
-      "eval_steps_per_second": 0.708,
-      "step": 72
-    },
-    {
-      "epoch": 18.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.1991574615240097,
-      "eval_runtime": 4.6374,
-      "eval_samples_per_second": 14.016,
-      "eval_steps_per_second": 0.647,
-      "step": 76
     },
     {
-      "epoch": 19.84,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.497,
       "step": 80
     },
     {
-      "epoch": 19.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.18140976130962372,
-      "eval_runtime": 4.3083,
-      "eval_samples_per_second": 15.087,
-      "eval_steps_per_second": 0.696,
       "step": 80
     },
     {
-      "epoch": 20.84,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.18073710799217224,
-      "eval_runtime": 4.692,
-      "eval_samples_per_second": 13.853,
-      "eval_steps_per_second": 0.639,
-      "step": 84
     },
     {
-      "epoch": 21.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.17651371657848358,
-      "eval_runtime": 4.3195,
-      "eval_samples_per_second": 15.048,
-      "eval_steps_per_second": 0.695,
-      "step": 88
     },
     {
-      "epoch": 22.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.18682582676410675,
-      "eval_runtime": 4.7596,
-      "eval_samples_per_second": 13.657,
-      "eval_steps_per_second": 0.63,
-      "step": 92
     },
     {
-      "epoch": 23.84,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.20892775058746338,
-      "eval_runtime": 4.337,
-      "eval_samples_per_second": 14.987,
-      "eval_steps_per_second": 0.692,
-      "step": 96
-    },
-    {
-      "epoch": 24.84,
-      "learning_rate": 3.240740740740741e-05,
-      "loss": 0.4198,
       "step": 100
     },
     {
-      "epoch": 24.84,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.18977122008800507,
-      "eval_runtime": 4.6813,
-      "eval_samples_per_second": 13.885,
-      "eval_steps_per_second": 0.641,
       "step": 100
     },
     {
-      "epoch": 25.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.20645342767238617,
-      "eval_runtime": 4.2709,
-      "eval_samples_per_second": 15.219,
-      "eval_steps_per_second": 0.702,
-      "step": 104
     },
     {
-      "epoch": 26.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.18446099758148193,
-      "eval_runtime": 4.7129,
-      "eval_samples_per_second": 13.792,
-      "eval_steps_per_second": 0.637,
-      "step": 108
     },
     {
-      "epoch": 27.84,
-      "eval_accuracy": 0.9230769230769231,
-      "eval_loss": 0.17242665588855743,
-      "eval_runtime": 4.2634,
-      "eval_samples_per_second": 15.246,
-      "eval_steps_per_second": 0.704,
-      "step": 112
     },
     {
-      "epoch": 28.84,
-      "eval_accuracy": 0.9384615384615385,
-      "eval_loss": 0.1611722856760025,
-      "eval_runtime": 4.5386,
-      "eval_samples_per_second": 14.322,
-      "eval_steps_per_second": 0.661,
-      "step": 116
-    },
-    {
-      "epoch": 29.84,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.368,
       "step": 120
     },
     {
-      "epoch": 29.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.15382908284664154,
-      "eval_runtime": 5.2863,
-      "eval_samples_per_second": 12.296,
-      "eval_steps_per_second": 0.567,
       "step": 120
     },
     {
-      "epoch": 30.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.15675745904445648,
-      "eval_runtime": 4.6707,
-      "eval_samples_per_second": 13.916,
-      "eval_steps_per_second": 0.642,
-      "step": 124
-    },
-    {
-      "epoch": 31.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14750127494335175,
-      "eval_runtime": 4.2141,
-      "eval_samples_per_second": 15.425,
-      "eval_steps_per_second": 0.712,
-      "step": 128
     },
     {
-      "epoch": 32.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.14530035853385925,
-      "eval_runtime": 4.5446,
-      "eval_samples_per_second": 14.303,
-      "eval_steps_per_second": 0.66,
-      "step": 132
     },
     {
-      "epoch": 33.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.1576438844203949,
-      "eval_runtime": 4.2804,
-      "eval_samples_per_second": 15.186,
-      "eval_steps_per_second": 0.701,
-      "step": 136
     },
     {
-      "epoch": 34.84,
-      "learning_rate": 2.314814814814815e-05,
-      "loss": 0.3709,
       "step": 140
     },
     {
-      "epoch": 34.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14298613369464874,
-      "eval_runtime": 4.6347,
-      "eval_samples_per_second": 14.025,
-      "eval_steps_per_second": 0.647,
       "step": 140
     },
     {
-      "epoch": 35.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.13841809332370758,
-      "eval_runtime": 4.3512,
-      "eval_samples_per_second": 14.938,
-      "eval_steps_per_second": 0.689,
-      "step": 144
     },
     {
-      "epoch": 36.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14322978258132935,
-      "eval_runtime": 4.6696,
-      "eval_samples_per_second": 13.92,
-      "eval_steps_per_second": 0.642,
-      "step": 148
     },
     {
-      "epoch": 37.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.13474790751934052,
-      "eval_runtime": 4.2951,
-      "eval_samples_per_second": 15.133,
-      "eval_steps_per_second": 0.698,
-      "step": 152
     },
     {
-      "epoch": 38.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.1358633041381836,
-      "eval_runtime": 4.6622,
-      "eval_samples_per_second": 13.942,
-      "eval_steps_per_second": 0.643,
-      "step": 156
-    },
-    {
-      "epoch": 39.84,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.3373,
       "step": 160
     },
     {
-      "epoch": 39.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.15974925458431244,
-      "eval_runtime": 4.2867,
-      "eval_samples_per_second": 15.163,
-      "eval_steps_per_second": 0.7,
       "step": 160
     },
     {
-      "epoch": 40.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.15224121510982513,
-      "eval_runtime": 4.6977,
-      "eval_samples_per_second": 13.837,
-      "eval_steps_per_second": 0.639,
-      "step": 164
     },
     {
-      "epoch": 41.84,
-      "eval_accuracy": 0.9538461538461539,
-      "eval_loss": 0.14772085845470428,
-      "eval_runtime": 4.316,
-      "eval_samples_per_second": 15.06,
-      "eval_steps_per_second": 0.695,
-      "step": 168
     },
     {
-      "epoch": 42.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.1480209231376648,
-      "eval_runtime": 4.7164,
-      "eval_samples_per_second": 13.782,
-      "eval_steps_per_second": 0.636,
-      "step": 172
     },
     {
-      "epoch": 43.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14724673330783844,
-      "eval_runtime": 4.3123,
-      "eval_samples_per_second": 15.073,
-      "eval_steps_per_second": 0.696,
-      "step": 176
-    },
-    {
-      "epoch": 44.84,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3342,
       "step": 180
     },
     {
-      "epoch": 44.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14734135568141937,
-      "eval_runtime": 4.5929,
-      "eval_samples_per_second": 14.152,
-      "eval_steps_per_second": 0.653,
       "step": 180
     },
     {
-      "epoch": 45.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14583279192447662,
-      "eval_runtime": 4.3738,
-      "eval_samples_per_second": 14.861,
-      "eval_steps_per_second": 0.686,
-      "step": 184
     },
     {
-      "epoch": 46.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.15290141105651855,
-      "eval_runtime": 4.6815,
-      "eval_samples_per_second": 13.884,
-      "eval_steps_per_second": 0.641,
-      "step": 188
     },
     {
-      "epoch": 47.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.15495683252811432,
-      "eval_runtime": 4.3181,
-      "eval_samples_per_second": 15.053,
-      "eval_steps_per_second": 0.695,
-      "step": 192
     },
     {
-      "epoch": 48.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14939415454864502,
-      "eval_runtime": 4.7194,
-      "eval_samples_per_second": 13.773,
-      "eval_steps_per_second": 0.636,
-      "step": 196
     },
     {
-      "epoch": 49.84,
-      "learning_rate": 9.259259259259259e-06,
-      "loss": 0.2914,
       "step": 200
     },
     {
-      "epoch": 49.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.1469651609659195,
-      "eval_runtime": 4.259,
-      "eval_samples_per_second": 15.262,
-      "eval_steps_per_second": 0.704,
-      "step": 200
     },
     {
-      "epoch": 50.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.146009162068367,
-      "eval_runtime": 4.6878,
-      "eval_samples_per_second": 13.866,
-      "eval_steps_per_second": 0.64,
-      "step": 204
     },
     {
-      "epoch": 51.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14776931703090668,
-      "eval_runtime": 4.265,
-      "eval_samples_per_second": 15.24,
-      "eval_steps_per_second": 0.703,
-      "step": 208
     },
     {
-      "epoch": 52.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.1481345295906067,
-      "eval_runtime": 4.5299,
-      "eval_samples_per_second": 14.349,
-      "eval_steps_per_second": 0.662,
-      "step": 212
     },
     {
-      "epoch": 53.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14605876803398132,
-      "eval_runtime": 4.1658,
-      "eval_samples_per_second": 15.603,
       "eval_steps_per_second": 0.72,
-      "step": 216
     },
     {
-      "epoch": 54.84,
-      "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.2736,
-      "step": 220
     },
     {
-      "epoch": 54.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14581629633903503,
-      "eval_runtime": 4.4574,
-      "eval_samples_per_second": 14.583,
-      "eval_steps_per_second": 0.673,
-      "step": 220
     },
     {
-      "epoch": 55.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14382527768611908,
-      "eval_runtime": 4.1183,
-      "eval_samples_per_second": 15.783,
       "eval_steps_per_second": 0.728,
-      "step": 224
     },
     {
-      "epoch": 56.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14272591471672058,
-      "eval_runtime": 4.5294,
-      "eval_samples_per_second": 14.351,
-      "eval_steps_per_second": 0.662,
-      "step": 228
     },
     {
-      "epoch": 57.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.14175653457641602,
-      "eval_runtime": 4.1288,
-      "eval_samples_per_second": 15.743,
-      "eval_steps_per_second": 0.727,
-      "step": 232
     },
     {
-      "epoch": 58.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.140133798122406,
-      "eval_runtime": 4.5233,
-      "eval_samples_per_second": 14.37,
-      "eval_steps_per_second": 0.663,
-      "step": 236
     },
     {
-      "epoch": 59.84,
-      "learning_rate": 0.0,
-      "loss": 0.2589,
-      "step": 240
     },
     {
-      "epoch": 59.84,
-      "eval_accuracy": 0.9692307692307692,
-      "eval_loss": 0.13985498249530792,
-      "eval_runtime": 4.4933,
-      "eval_samples_per_second": 14.466,
-      "eval_steps_per_second": 0.668,
-      "step": 240
     },
     {
-      "epoch": 59.84,
-      "step": 240,
-      "total_flos": 8.648855308501955e+17,
-      "train_loss": 0.5746380070845286,
-      "train_runtime": 4313.6028,
-      "train_samples_per_second": 8.081,
-      "train_steps_per_second": 0.056
     }
   ],
-  "max_steps": 240,
   "num_train_epochs": 60,
-  "total_flos": 8.648855308501955e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9714285714285714,
+  "best_model_checkpoint": "delivery_truck_classification/checkpoint-120",
+  "epoch": 60.0,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.12857142857142856,
+      "eval_loss": 1.9401942491531372,
+      "eval_runtime": 4.0508,
+      "eval_samples_per_second": 17.281,
+      "eval_steps_per_second": 0.741,
+      "step": 5
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.24285714285714285,
+      "eval_loss": 1.8379000425338745,
+      "eval_runtime": 4.25,
+      "eval_samples_per_second": 16.47,
+      "eval_steps_per_second": 0.706,
+      "step": 10
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.6960197687149048,
+      "eval_runtime": 4.0325,
+      "eval_samples_per_second": 17.359,
+      "eval_steps_per_second": 0.744,
+      "step": 15
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.7795,
       "step": 20
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5142857142857142,
+      "eval_loss": 1.4422836303710938,
+      "eval_runtime": 4.0892,
+      "eval_samples_per_second": 17.118,
+      "eval_steps_per_second": 0.734,
       "step": 20
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6857142857142857,
+      "eval_loss": 1.129531741142273,
+      "eval_runtime": 4.0522,
+      "eval_samples_per_second": 17.275,
+      "eval_steps_per_second": 0.74,
+      "step": 25
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7285714285714285,
+      "eval_loss": 0.8280124068260193,
+      "eval_runtime": 4.1393,
+      "eval_samples_per_second": 16.911,
+      "eval_steps_per_second": 0.725,
+      "step": 30
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8428571428571429,
+      "eval_loss": 0.5571854710578918,
+      "eval_runtime": 4.1115,
+      "eval_samples_per_second": 17.026,
+      "eval_steps_per_second": 0.73,
+      "step": 35
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 1.0588,
       "step": 40
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.38549211621284485,
+      "eval_runtime": 4.081,
+      "eval_samples_per_second": 17.153,
+      "eval_steps_per_second": 0.735,
       "step": 40
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9142857142857143,
+      "eval_loss": 0.3106531500816345,
+      "eval_runtime": 4.0992,
+      "eval_samples_per_second": 17.076,
+      "eval_steps_per_second": 0.732,
+      "step": 45
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.25636935234069824,
+      "eval_runtime": 4.1866,
+      "eval_samples_per_second": 16.72,
+      "eval_steps_per_second": 0.717,
+      "step": 50
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.20498664677143097,
+      "eval_runtime": 4.0728,
+      "eval_samples_per_second": 17.187,
+      "eval_steps_per_second": 0.737,
+      "step": 55
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.591,
       "step": 60
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.19002115726470947,
+      "eval_runtime": 4.0628,
+      "eval_samples_per_second": 17.23,
+      "eval_steps_per_second": 0.738,
       "step": 60
     },
     {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.17195703089237213,
+      "eval_runtime": 4.0868,
+      "eval_samples_per_second": 17.128,
+      "eval_steps_per_second": 0.734,
+      "step": 65
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9142857142857143,
+      "eval_loss": 0.188080832362175,
+      "eval_runtime": 4.0578,
+      "eval_samples_per_second": 17.251,
+      "eval_steps_per_second": 0.739,
+      "step": 70
     },
     {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.1788831204175949,
+      "eval_runtime": 4.1273,
+      "eval_samples_per_second": 16.96,
+      "eval_steps_per_second": 0.727,
+      "step": 75
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.4609,
       "step": 80
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9142857142857143,
+      "eval_loss": 0.199941948056221,
+      "eval_runtime": 4.0992,
+      "eval_samples_per_second": 17.076,
+      "eval_steps_per_second": 0.732,
       "step": 80
     },
     {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.1491808146238327,
+      "eval_runtime": 4.1379,
+      "eval_samples_per_second": 16.917,
+      "eval_steps_per_second": 0.725,
+      "step": 85
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.1648150235414505,
+      "eval_runtime": 4.0523,
+      "eval_samples_per_second": 17.274,
+      "eval_steps_per_second": 0.74,
+      "step": 90
     },
     {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11947301775217056,
+      "eval_runtime": 4.0582,
+      "eval_samples_per_second": 17.249,
+      "eval_steps_per_second": 0.739,
+      "step": 95
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.3941,
       "step": 100
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.13950331509113312,
+      "eval_runtime": 4.1018,
+      "eval_samples_per_second": 17.066,
+      "eval_steps_per_second": 0.731,
       "step": 100
     },
     {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9285714285714286,
+      "eval_loss": 0.14757172763347626,
+      "eval_runtime": 4.0132,
+      "eval_samples_per_second": 17.443,
+      "eval_steps_per_second": 0.748,
+      "step": 105
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1113029271364212,
+      "eval_runtime": 4.0076,
+      "eval_samples_per_second": 17.467,
+      "eval_steps_per_second": 0.749,
+      "step": 110
     },
     {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13283702731132507,
+      "eval_runtime": 4.0346,
+      "eval_samples_per_second": 17.35,
+      "eval_steps_per_second": 0.744,
+      "step": 115
     },
     {
+      "epoch": 24.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.3475,
       "step": 120
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9714285714285714,
+      "eval_loss": 0.11924324184656143,
+      "eval_runtime": 4.026,
+      "eval_samples_per_second": 17.387,
+      "eval_steps_per_second": 0.745,
       "step": 120
     },
     {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11995943635702133,
+      "eval_runtime": 4.1096,
+      "eval_samples_per_second": 17.033,
+      "eval_steps_per_second": 0.73,
+      "step": 125
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9714285714285714,
+      "eval_loss": 0.1360194832086563,
+      "eval_runtime": 4.1596,
+      "eval_samples_per_second": 16.828,
+      "eval_steps_per_second": 0.721,
+      "step": 130
     },
     {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.14246320724487305,
+      "eval_runtime": 4.0478,
+      "eval_samples_per_second": 17.293,
+      "eval_steps_per_second": 0.741,
+      "step": 135
     },
     {
+      "epoch": 28.0,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.3542,
       "step": 140
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11028776317834854,
+      "eval_runtime": 4.0318,
+      "eval_samples_per_second": 17.362,
+      "eval_steps_per_second": 0.744,
       "step": 140
     },
     {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.12440218031406403,
+      "eval_runtime": 4.038,
+      "eval_samples_per_second": 17.335,
+      "eval_steps_per_second": 0.743,
+      "step": 145
     },
     {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11757094413042068,
+      "eval_runtime": 4.0522,
+      "eval_samples_per_second": 17.275,
+      "eval_steps_per_second": 0.74,
+      "step": 150
     },
     {
+      "epoch": 31.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.10275254398584366,
+      "eval_runtime": 4.073,
+      "eval_samples_per_second": 17.186,
+      "eval_steps_per_second": 0.737,
+      "step": 155
     },
     {
+      "epoch": 32.0,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.317,
       "step": 160
     },
     {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1084454134106636,
+      "eval_runtime": 4.0241,
+      "eval_samples_per_second": 17.395,
+      "eval_steps_per_second": 0.746,
       "step": 160
     },
     {
+      "epoch": 33.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12689971923828125,
+      "eval_runtime": 4.0167,
+      "eval_samples_per_second": 17.427,
+      "eval_steps_per_second": 0.747,
+      "step": 165
     },
     {
+      "epoch": 34.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.12951645255088806,
+      "eval_runtime": 4.1051,
+      "eval_samples_per_second": 17.052,
+      "eval_steps_per_second": 0.731,
+      "step": 170
     },
     {
+      "epoch": 35.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1245197132229805,
+      "eval_runtime": 4.0579,
+      "eval_samples_per_second": 17.251,
+      "eval_steps_per_second": 0.739,
+      "step": 175
     },
     {
+      "epoch": 36.0,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.2947,
       "step": 180
     },
     {
+      "epoch": 36.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.13154344260692596,
+      "eval_runtime": 4.0212,
+      "eval_samples_per_second": 17.408,
+      "eval_steps_per_second": 0.746,
       "step": 180
     },
     {
+      "epoch": 37.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13128569722175598,
+      "eval_runtime": 4.0731,
+      "eval_samples_per_second": 17.186,
+      "eval_steps_per_second": 0.737,
+      "step": 185
     },
     {
+      "epoch": 38.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.14208073914051056,
+      "eval_runtime": 4.0445,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 0.742,
+      "step": 190
     },
     {
+      "epoch": 39.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1440354883670807,
+      "eval_runtime": 4.02,
+      "eval_samples_per_second": 17.413,
+      "eval_steps_per_second": 0.746,
+      "step": 195
     },
     {
+      "epoch": 40.0,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3124,
+      "step": 200
     },
     {
+      "epoch": 40.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13390059769153595,
+      "eval_runtime": 4.0153,
+      "eval_samples_per_second": 17.433,
+      "eval_steps_per_second": 0.747,
       "step": 200
     },
     {
+      "epoch": 41.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.15533578395843506,
+      "eval_runtime": 4.0821,
+      "eval_samples_per_second": 17.148,
+      "eval_steps_per_second": 0.735,
+      "step": 205
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.1547066867351532,
+      "eval_runtime": 4.0957,
+      "eval_samples_per_second": 17.091,
+      "eval_steps_per_second": 0.732,
+      "step": 210
     },
     {
+      "epoch": 43.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13160941004753113,
+      "eval_runtime": 4.1174,
+      "eval_samples_per_second": 17.001,
+      "eval_steps_per_second": 0.729,
+      "step": 215
     },
     {
+      "epoch": 44.0,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.2843,
+      "step": 220
     },
     {
+      "epoch": 44.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12867721915245056,
+      "eval_runtime": 4.1356,
+      "eval_samples_per_second": 16.926,
+      "eval_steps_per_second": 0.725,
+      "step": 220
     },
     {
+      "epoch": 45.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13077586889266968,
+      "eval_runtime": 4.164,
+      "eval_samples_per_second": 16.811,
       "eval_steps_per_second": 0.72,
+      "step": 225
     },
     {
+      "epoch": 46.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1401166319847107,
+      "eval_runtime": 4.0319,
+      "eval_samples_per_second": 17.362,
+      "eval_steps_per_second": 0.744,
+      "step": 230
     },
     {
+      "epoch": 47.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11855422705411911,
+      "eval_runtime": 4.0342,
+      "eval_samples_per_second": 17.351,
+      "eval_steps_per_second": 0.744,
+      "step": 235
     },
     {
+      "epoch": 48.0,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.2655,
+      "step": 240
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.10567642003297806,
+      "eval_runtime": 4.0324,
+      "eval_samples_per_second": 17.359,
+      "eval_steps_per_second": 0.744,
+      "step": 240
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12025075405836105,
+      "eval_runtime": 4.0512,
+      "eval_samples_per_second": 17.279,
+      "eval_steps_per_second": 0.741,
+      "step": 245
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1373574286699295,
+      "eval_runtime": 4.0455,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 0.742,
+      "step": 250
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1361333578824997,
+      "eval_runtime": 4.0102,
+      "eval_samples_per_second": 17.455,
+      "eval_steps_per_second": 0.748,
+      "step": 255
+    },
+    {
+      "epoch": 52.0,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.26,
+      "step": 260
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11978749185800552,
+      "eval_runtime": 4.1202,
+      "eval_samples_per_second": 16.989,
       "eval_steps_per_second": 0.728,
+      "step": 260
     },
     {
+      "epoch": 53.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.11752226948738098,
+      "eval_runtime": 4.0691,
+      "eval_samples_per_second": 17.203,
+      "eval_steps_per_second": 0.737,
+      "step": 265
     },
     {
+      "epoch": 54.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13132056593894958,
+      "eval_runtime": 4.068,
+      "eval_samples_per_second": 17.207,
+      "eval_steps_per_second": 0.737,
+      "step": 270
     },
     {
+      "epoch": 55.0,
+      "eval_accuracy": 0.9428571428571428,
+      "eval_loss": 0.13983343541622162,
+      "eval_runtime": 4.0628,
+      "eval_samples_per_second": 17.229,
+      "eval_steps_per_second": 0.738,
+      "step": 275
     },
     {
+      "epoch": 56.0,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.2601,
+      "step": 280
     },
     {
+      "epoch": 56.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.13535180687904358,
+      "eval_runtime": 4.003,
+      "eval_samples_per_second": 17.487,
+      "eval_steps_per_second": 0.749,
+      "step": 280
     },
     {
+      "epoch": 57.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.1271456480026245,
+      "eval_runtime": 4.0903,
+      "eval_samples_per_second": 17.113,
+      "eval_steps_per_second": 0.733,
+      "step": 285
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12419404834508896,
+      "eval_runtime": 3.995,
+      "eval_samples_per_second": 17.522,
+      "eval_steps_per_second": 0.751,
+      "step": 290
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12333472073078156,
+      "eval_runtime": 4.144,
+      "eval_samples_per_second": 16.892,
+      "eval_steps_per_second": 0.724,
+      "step": 295
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 0.0,
+      "loss": 0.2562,
+      "step": 300
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.9571428571428572,
+      "eval_loss": 0.12345683574676514,
+      "eval_runtime": 4.0756,
+      "eval_samples_per_second": 17.176,
+      "eval_steps_per_second": 0.736,
+      "step": 300
+    },
+    {
+      "epoch": 60.0,
+      "step": 300,
+      "total_flos": 9.381960833056358e+17,
+      "train_loss": 0.48240819613138836,
+      "train_runtime": 5472.4354,
+      "train_samples_per_second": 6.896,
+      "train_steps_per_second": 0.055
     }
   ],
+  "max_steps": 300,
   "num_train_epochs": 60,
+  "total_flos": 9.381960833056358e+17,
   "trial_name": null,
   "trial_params": null
 }