End of training

Browse files

Files changed (5) hide show

all_results.json +10 -10
eval_results.json +6 -6
runs/Jan05_13-26-49_78b464702e4c/events.out.tfevents.1672929710.78b464702e4c.573.2 +3 -0
train_results.json +5 -5
trainer_state.json +393 -393

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 59.89,
-    "eval_accuracy": 0.96875,
-    "eval_loss": 0.18353550136089325,
-    "eval_runtime": 4.1792,
-    "eval_samples_per_second": 15.314,
-    "eval_steps_per_second": 0.479,
-    "total_flos": 8.516851567051162e+17,
-    "train_loss": 0.5424989521503448,
-    "train_runtime": 4233.7913,
-    "train_samples_per_second": 8.106,
     "train_steps_per_second": 0.057
 }

 {
+    "epoch": 59.84,
+    "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.1295621246099472,
+    "eval_runtime": 4.3947,
+    "eval_samples_per_second": 14.791,
+    "eval_steps_per_second": 0.683,
+    "total_flos": 8.648855308501955e+17,
+    "train_loss": 0.577343902985255,
+    "train_runtime": 4213.9216,
+    "train_samples_per_second": 8.273,
     "train_steps_per_second": 0.057
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.89,
-    "eval_accuracy": 0.96875,
-    "eval_loss": 0.18353550136089325,
-    "eval_runtime": 4.1792,
-    "eval_samples_per_second": 15.314,
-    "eval_steps_per_second": 0.479
 }

 {
+    "epoch": 59.84,
+    "eval_accuracy": 0.9846153846153847,
+    "eval_loss": 0.1295621246099472,
+    "eval_runtime": 4.3947,
+    "eval_samples_per_second": 14.791,
+    "eval_steps_per_second": 0.683
 }

runs/Jan05_13-26-49_78b464702e4c/events.out.tfevents.1672929710.78b464702e4c.573.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf84a9cee06528ecf79659bde56b701c98d8e8a6a52cf3659e0abcbe033c4b70
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 59.89,
-    "total_flos": 8.516851567051162e+17,
-    "train_loss": 0.5424989521503448,
-    "train_runtime": 4233.7913,
-    "train_samples_per_second": 8.106,
     "train_steps_per_second": 0.057
 }

 {
+    "epoch": 59.84,
+    "total_flos": 8.648855308501955e+17,
+    "train_loss": 0.577343902985255,
+    "train_runtime": 4213.9216,
+    "train_samples_per_second": 8.273,
     "train_steps_per_second": 0.057
 }

trainer_state.json CHANGED Viewed

@@ -1,637 +1,637 @@
 {
-  "best_metric": 0.96875,
-  "best_model_checkpoint": "delivery_truck_classification/checkpoint-52",
-  "epoch": 59.888888888888886,
   "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.89,
-      "eval_accuracy": 0.15625,
-      "eval_loss": 2.007406234741211,
-      "eval_runtime": 4.1284,
-      "eval_samples_per_second": 15.502,
-      "eval_steps_per_second": 0.484,
       "step": 4
     },
     {
-      "epoch": 1.89,
-      "eval_accuracy": 0.25,
-      "eval_loss": 1.8895925283432007,
-      "eval_runtime": 4.9483,
-      "eval_samples_per_second": 12.934,
-      "eval_steps_per_second": 0.404,
       "step": 8
     },
     {
-      "epoch": 2.89,
-      "eval_accuracy": 0.40625,
-      "eval_loss": 1.7421282529830933,
-      "eval_runtime": 4.1039,
-      "eval_samples_per_second": 15.595,
-      "eval_steps_per_second": 0.487,
       "step": 12
     },
     {
-      "epoch": 3.89,
-      "eval_accuracy": 0.4375,
-      "eval_loss": 1.5891958475112915,
-      "eval_runtime": 4.5489,
-      "eval_samples_per_second": 14.069,
-      "eval_steps_per_second": 0.44,
       "step": 16
     },
     {
-      "epoch": 4.89,
       "learning_rate": 4.166666666666667e-05,
-      "loss": 1.973,
       "step": 20
     },
     {
-      "epoch": 4.89,
-      "eval_accuracy": 0.609375,
-      "eval_loss": 1.362261176109314,
-      "eval_runtime": 4.1743,
-      "eval_samples_per_second": 15.332,
-      "eval_steps_per_second": 0.479,
       "step": 20
     },
     {
-      "epoch": 5.89,
-      "eval_accuracy": 0.609375,
-      "eval_loss": 1.1093113422393799,
-      "eval_runtime": 4.4702,
-      "eval_samples_per_second": 14.317,
-      "eval_steps_per_second": 0.447,
       "step": 24
     },
     {
-      "epoch": 6.89,
-      "eval_accuracy": 0.78125,
-      "eval_loss": 0.7900974154472351,
-      "eval_runtime": 4.1973,
-      "eval_samples_per_second": 15.248,
-      "eval_steps_per_second": 0.476,
       "step": 28
     },
     {
-      "epoch": 7.89,
-      "eval_accuracy": 0.84375,
-      "eval_loss": 0.5773038268089294,
-      "eval_runtime": 4.6009,
-      "eval_samples_per_second": 13.91,
-      "eval_steps_per_second": 0.435,
       "step": 32
     },
     {
-      "epoch": 8.89,
-      "eval_accuracy": 0.890625,
-      "eval_loss": 0.38568082451820374,
-      "eval_runtime": 4.1614,
-      "eval_samples_per_second": 15.379,
-      "eval_steps_per_second": 0.481,
       "step": 36
     },
     {
-      "epoch": 9.89,
       "learning_rate": 4.62962962962963e-05,
-      "loss": 1.0433,
       "step": 40
     },
     {
-      "epoch": 9.89,
-      "eval_accuracy": 0.90625,
-      "eval_loss": 0.32543647289276123,
-      "eval_runtime": 4.5756,
-      "eval_samples_per_second": 13.987,
-      "eval_steps_per_second": 0.437,
       "step": 40
     },
     {
-      "epoch": 10.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.2461281269788742,
-      "eval_runtime": 4.2012,
-      "eval_samples_per_second": 15.234,
-      "eval_steps_per_second": 0.476,
       "step": 44
     },
     {
-      "epoch": 11.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.2339743673801422,
-      "eval_runtime": 4.5321,
-      "eval_samples_per_second": 14.121,
-      "eval_steps_per_second": 0.441,
       "step": 48
     },
     {
-      "epoch": 12.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.18353550136089325,
-      "eval_runtime": 4.3055,
-      "eval_samples_per_second": 14.865,
-      "eval_steps_per_second": 0.465,
       "step": 52
     },
     {
-      "epoch": 13.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.17793762683868408,
-      "eval_runtime": 4.4643,
-      "eval_samples_per_second": 14.336,
-      "eval_steps_per_second": 0.448,
       "step": 56
     },
     {
-      "epoch": 14.89,
       "learning_rate": 4.166666666666667e-05,
-      "loss": 0.5842,
       "step": 60
     },
     {
-      "epoch": 14.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.15445110201835632,
-      "eval_runtime": 4.1434,
-      "eval_samples_per_second": 15.446,
-      "eval_steps_per_second": 0.483,
       "step": 60
     },
     {
-      "epoch": 15.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.14869830012321472,
-      "eval_runtime": 4.5456,
-      "eval_samples_per_second": 14.08,
-      "eval_steps_per_second": 0.44,
       "step": 64
     },
     {
-      "epoch": 16.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.19956862926483154,
-      "eval_runtime": 4.0021,
-      "eval_samples_per_second": 15.992,
-      "eval_steps_per_second": 0.5,
       "step": 68
     },
     {
-      "epoch": 17.89,
-      "eval_accuracy": 0.90625,
-      "eval_loss": 0.1619431972503662,
-      "eval_runtime": 4.478,
-      "eval_samples_per_second": 14.292,
-      "eval_steps_per_second": 0.447,
       "step": 72
     },
     {
-      "epoch": 18.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.13495692610740662,
-      "eval_runtime": 4.1244,
-      "eval_samples_per_second": 15.517,
-      "eval_steps_per_second": 0.485,
       "step": 76
     },
     {
-      "epoch": 19.89,
       "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.4616,
       "step": 80
     },
     {
-      "epoch": 19.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.17057114839553833,
-      "eval_runtime": 4.5586,
-      "eval_samples_per_second": 14.039,
-      "eval_steps_per_second": 0.439,
       "step": 80
     },
     {
-      "epoch": 20.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.15793055295944214,
-      "eval_runtime": 4.126,
-      "eval_samples_per_second": 15.511,
-      "eval_steps_per_second": 0.485,
       "step": 84
     },
     {
-      "epoch": 21.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.16296246647834778,
-      "eval_runtime": 4.5173,
-      "eval_samples_per_second": 14.168,
-      "eval_steps_per_second": 0.443,
       "step": 88
     },
     {
-      "epoch": 22.89,
-      "eval_accuracy": 0.90625,
-      "eval_loss": 0.20802505314350128,
-      "eval_runtime": 4.0833,
-      "eval_samples_per_second": 15.674,
-      "eval_steps_per_second": 0.49,
       "step": 92
     },
     {
-      "epoch": 23.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.14634451270103455,
-      "eval_runtime": 4.6059,
-      "eval_samples_per_second": 13.895,
-      "eval_steps_per_second": 0.434,
       "step": 96
     },
     {
-      "epoch": 24.89,
       "learning_rate": 3.240740740740741e-05,
-      "loss": 0.3898,
       "step": 100
     },
     {
-      "epoch": 24.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.11846979707479477,
-      "eval_runtime": 4.1451,
-      "eval_samples_per_second": 15.44,
-      "eval_steps_per_second": 0.483,
       "step": 100
     },
     {
-      "epoch": 25.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.14448919892311096,
-      "eval_runtime": 4.4782,
-      "eval_samples_per_second": 14.291,
-      "eval_steps_per_second": 0.447,
       "step": 104
     },
     {
-      "epoch": 26.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.20514565706253052,
-      "eval_runtime": 4.0807,
-      "eval_samples_per_second": 15.683,
-      "eval_steps_per_second": 0.49,
       "step": 108
     },
     {
-      "epoch": 27.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.19281229376792908,
-      "eval_runtime": 4.457,
-      "eval_samples_per_second": 14.36,
-      "eval_steps_per_second": 0.449,
       "step": 112
     },
     {
-      "epoch": 28.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.13649864494800568,
-      "eval_runtime": 4.038,
-      "eval_samples_per_second": 15.849,
-      "eval_steps_per_second": 0.495,
       "step": 116
     },
     {
-      "epoch": 29.89,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.3511,
       "step": 120
     },
     {
-      "epoch": 29.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.10572843253612518,
-      "eval_runtime": 4.5443,
-      "eval_samples_per_second": 14.084,
-      "eval_steps_per_second": 0.44,
       "step": 120
     },
     {
-      "epoch": 30.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.10910199582576752,
-      "eval_runtime": 4.2535,
-      "eval_samples_per_second": 15.046,
-      "eval_steps_per_second": 0.47,
       "step": 124
     },
     {
-      "epoch": 31.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.1893911063671112,
-      "eval_runtime": 4.6955,
-      "eval_samples_per_second": 13.63,
-      "eval_steps_per_second": 0.426,
       "step": 128
     },
     {
-      "epoch": 32.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.12075338512659073,
-      "eval_runtime": 4.1214,
-      "eval_samples_per_second": 15.529,
-      "eval_steps_per_second": 0.485,
       "step": 132
     },
     {
-      "epoch": 33.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.11010686308145523,
-      "eval_runtime": 4.5267,
-      "eval_samples_per_second": 14.138,
-      "eval_steps_per_second": 0.442,
       "step": 136
     },
     {
-      "epoch": 34.89,
       "learning_rate": 2.314814814814815e-05,
-      "loss": 0.3286,
       "step": 140
     },
     {
-      "epoch": 34.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.14093339443206787,
-      "eval_runtime": 4.119,
-      "eval_samples_per_second": 15.538,
-      "eval_steps_per_second": 0.486,
       "step": 140
     },
     {
-      "epoch": 35.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.18304279446601868,
-      "eval_runtime": 4.4932,
-      "eval_samples_per_second": 14.244,
-      "eval_steps_per_second": 0.445,
       "step": 144
     },
     {
-      "epoch": 36.89,
-      "eval_accuracy": 0.921875,
-      "eval_loss": 0.1518746018409729,
-      "eval_runtime": 4.1186,
-      "eval_samples_per_second": 15.539,
-      "eval_steps_per_second": 0.486,
       "step": 148
     },
     {
-      "epoch": 37.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.10309180617332458,
-      "eval_runtime": 4.5179,
-      "eval_samples_per_second": 14.166,
-      "eval_steps_per_second": 0.443,
       "step": 152
     },
     {
-      "epoch": 38.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09621511399745941,
-      "eval_runtime": 4.2076,
-      "eval_samples_per_second": 15.211,
-      "eval_steps_per_second": 0.475,
       "step": 156
     },
     {
-      "epoch": 39.89,
       "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.3095,
       "step": 160
     },
     {
-      "epoch": 39.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09031268954277039,
-      "eval_runtime": 4.5982,
-      "eval_samples_per_second": 13.919,
-      "eval_steps_per_second": 0.435,
       "step": 160
     },
     {
-      "epoch": 40.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.08859497308731079,
-      "eval_runtime": 4.1937,
-      "eval_samples_per_second": 15.261,
-      "eval_steps_per_second": 0.477,
       "step": 164
     },
     {
-      "epoch": 41.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.10331027209758759,
-      "eval_runtime": 4.5829,
-      "eval_samples_per_second": 13.965,
-      "eval_steps_per_second": 0.436,
       "step": 168
     },
     {
-      "epoch": 42.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.11172451823949814,
-      "eval_runtime": 4.2291,
-      "eval_samples_per_second": 15.133,
-      "eval_steps_per_second": 0.473,
       "step": 172
     },
     {
-      "epoch": 43.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.11921519041061401,
-      "eval_runtime": 4.595,
-      "eval_samples_per_second": 13.928,
-      "eval_steps_per_second": 0.435,
       "step": 176
     },
     {
-      "epoch": 44.89,
       "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3056,
       "step": 180
     },
     {
-      "epoch": 44.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.09840899705886841,
-      "eval_runtime": 4.2775,
-      "eval_samples_per_second": 14.962,
-      "eval_steps_per_second": 0.468,
       "step": 180
     },
     {
-      "epoch": 45.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.08203314244747162,
-      "eval_runtime": 4.5543,
-      "eval_samples_per_second": 14.053,
-      "eval_steps_per_second": 0.439,
       "step": 184
     },
     {
-      "epoch": 46.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.08574767410755157,
-      "eval_runtime": 4.1553,
-      "eval_samples_per_second": 15.402,
-      "eval_steps_per_second": 0.481,
       "step": 188
     },
     {
-      "epoch": 47.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.10580457001924515,
-      "eval_runtime": 4.6204,
-      "eval_samples_per_second": 13.852,
-      "eval_steps_per_second": 0.433,
       "step": 192
     },
     {
-      "epoch": 48.89,
-      "eval_accuracy": 0.9375,
-      "eval_loss": 0.11630271375179291,
-      "eval_runtime": 4.1519,
-      "eval_samples_per_second": 15.415,
-      "eval_steps_per_second": 0.482,
       "step": 196
     },
     {
-      "epoch": 49.89,
       "learning_rate": 9.259259259259259e-06,
-      "loss": 0.255,
       "step": 200
     },
     {
-      "epoch": 49.89,
-      "eval_accuracy": 0.953125,
-      "eval_loss": 0.11214150488376617,
-      "eval_runtime": 4.4888,
-      "eval_samples_per_second": 14.258,
-      "eval_steps_per_second": 0.446,
       "step": 200
     },
     {
-      "epoch": 50.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.10038581490516663,
-      "eval_runtime": 4.1624,
-      "eval_samples_per_second": 15.376,
-      "eval_steps_per_second": 0.48,
       "step": 204
     },
     {
-      "epoch": 51.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09537401050329208,
-      "eval_runtime": 4.5154,
-      "eval_samples_per_second": 14.174,
-      "eval_steps_per_second": 0.443,
       "step": 208
     },
     {
-      "epoch": 52.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.0925481989979744,
-      "eval_runtime": 4.141,
-      "eval_samples_per_second": 15.455,
-      "eval_steps_per_second": 0.483,
       "step": 212
     },
     {
-      "epoch": 53.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.08920943737030029,
-      "eval_runtime": 4.5736,
-      "eval_samples_per_second": 13.993,
-      "eval_steps_per_second": 0.437,
       "step": 216
     },
     {
-      "epoch": 54.89,
       "learning_rate": 4.6296296296296296e-06,
-      "loss": 0.2494,
       "step": 220
     },
     {
-      "epoch": 54.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.08926128596067429,
-      "eval_runtime": 4.0979,
-      "eval_samples_per_second": 15.618,
-      "eval_steps_per_second": 0.488,
       "step": 220
     },
     {
-      "epoch": 55.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.0900685042142868,
-      "eval_runtime": 4.5713,
-      "eval_samples_per_second": 14.001,
-      "eval_steps_per_second": 0.438,
       "step": 224
     },
     {
-      "epoch": 56.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.08957040309906006,
-      "eval_runtime": 4.2031,
-      "eval_samples_per_second": 15.227,
-      "eval_steps_per_second": 0.476,
       "step": 228
     },
     {
-      "epoch": 57.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09029233455657959,
-      "eval_runtime": 4.5507,
-      "eval_samples_per_second": 14.064,
-      "eval_steps_per_second": 0.439,
       "step": 232
     },
     {
-      "epoch": 58.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09133943915367126,
-      "eval_runtime": 4.5211,
-      "eval_samples_per_second": 14.156,
-      "eval_steps_per_second": 0.442,
       "step": 236
     },
     {
-      "epoch": 59.89,
       "learning_rate": 0.0,
-      "loss": 0.2588,
       "step": 240
     },
     {
-      "epoch": 59.89,
-      "eval_accuracy": 0.96875,
-      "eval_loss": 0.09184324741363525,
-      "eval_runtime": 4.5891,
-      "eval_samples_per_second": 13.946,
-      "eval_steps_per_second": 0.436,
       "step": 240
     },
     {
-      "epoch": 59.89,
       "step": 240,
-      "total_flos": 8.516851567051162e+17,
-      "train_loss": 0.5424989521503448,
-      "train_runtime": 4233.7913,
-      "train_samples_per_second": 8.106,
       "train_steps_per_second": 0.057
     }
   ],
   "max_steps": 240,
   "num_train_epochs": 60,
-  "total_flos": 8.516851567051162e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9846153846153847,
+  "best_model_checkpoint": "delivery_truck_classification/checkpoint-104",
+  "epoch": 59.8421052631579,
   "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.84,
+      "eval_accuracy": 0.3230769230769231,
+      "eval_loss": 1.819914698600769,
+      "eval_runtime": 4.4893,
+      "eval_samples_per_second": 14.479,
+      "eval_steps_per_second": 0.668,
       "step": 4
     },
     {
+      "epoch": 1.84,
+      "eval_accuracy": 0.4153846153846154,
+      "eval_loss": 1.7274595499038696,
+      "eval_runtime": 5.1038,
+      "eval_samples_per_second": 12.736,
+      "eval_steps_per_second": 0.588,
       "step": 8
     },
     {
+      "epoch": 2.84,
+      "eval_accuracy": 0.46153846153846156,
+      "eval_loss": 1.628129005432129,
+      "eval_runtime": 4.4017,
+      "eval_samples_per_second": 14.767,
+      "eval_steps_per_second": 0.682,
       "step": 12
     },
     {
+      "epoch": 3.84,
+      "eval_accuracy": 0.46153846153846156,
+      "eval_loss": 1.5271515846252441,
+      "eval_runtime": 4.7528,
+      "eval_samples_per_second": 13.676,
+      "eval_steps_per_second": 0.631,
       "step": 16
     },
     {
+      "epoch": 4.84,
       "learning_rate": 4.166666666666667e-05,
+      "loss": 1.9537,
       "step": 20
     },
     {
+      "epoch": 4.84,
+      "eval_accuracy": 0.5076923076923077,
+      "eval_loss": 1.3667770624160767,
+      "eval_runtime": 4.3866,
+      "eval_samples_per_second": 14.818,
+      "eval_steps_per_second": 0.684,
       "step": 20
     },
     {
+      "epoch": 5.84,
+      "eval_accuracy": 0.6,
+      "eval_loss": 1.0963521003723145,
+      "eval_runtime": 4.7064,
+      "eval_samples_per_second": 13.811,
+      "eval_steps_per_second": 0.637,
       "step": 24
     },
     {
+      "epoch": 6.84,
+      "eval_accuracy": 0.7846153846153846,
+      "eval_loss": 0.7691364884376526,
+      "eval_runtime": 4.2153,
+      "eval_samples_per_second": 15.42,
+      "eval_steps_per_second": 0.712,
       "step": 28
     },
     {
+      "epoch": 7.84,
+      "eval_accuracy": 0.8307692307692308,
+      "eval_loss": 0.6369762420654297,
+      "eval_runtime": 4.7258,
+      "eval_samples_per_second": 13.754,
+      "eval_steps_per_second": 0.635,
       "step": 32
     },
     {
+      "epoch": 8.84,
+      "eval_accuracy": 0.9076923076923077,
+      "eval_loss": 0.4328678548336029,
+      "eval_runtime": 4.7157,
+      "eval_samples_per_second": 13.784,
+      "eval_steps_per_second": 0.636,
       "step": 36
     },
     {
+      "epoch": 9.84,
       "learning_rate": 4.62962962962963e-05,
+      "loss": 1.0682,
       "step": 40
     },
     {
+      "epoch": 9.84,
+      "eval_accuracy": 0.9076923076923077,
+      "eval_loss": 0.3517535626888275,
+      "eval_runtime": 4.7127,
+      "eval_samples_per_second": 13.792,
+      "eval_steps_per_second": 0.637,
       "step": 40
     },
     {
+      "epoch": 10.84,
+      "eval_accuracy": 0.8923076923076924,
+      "eval_loss": 0.3229323625564575,
+      "eval_runtime": 4.2434,
+      "eval_samples_per_second": 15.318,
+      "eval_steps_per_second": 0.707,
       "step": 44
     },
     {
+      "epoch": 11.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.2324085831642151,
+      "eval_runtime": 4.734,
+      "eval_samples_per_second": 13.731,
+      "eval_steps_per_second": 0.634,
       "step": 48
     },
     {
+      "epoch": 12.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.23686641454696655,
+      "eval_runtime": 4.3354,
+      "eval_samples_per_second": 14.993,
+      "eval_steps_per_second": 0.692,
       "step": 52
     },
     {
+      "epoch": 13.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.21190524101257324,
+      "eval_runtime": 4.793,
+      "eval_samples_per_second": 13.561,
+      "eval_steps_per_second": 0.626,
       "step": 56
     },
     {
+      "epoch": 14.84,
       "learning_rate": 4.166666666666667e-05,
+      "loss": 0.6335,
       "step": 60
     },
     {
+      "epoch": 14.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.18046662211418152,
+      "eval_runtime": 4.2602,
+      "eval_samples_per_second": 15.257,
+      "eval_steps_per_second": 0.704,
       "step": 60
     },
     {
+      "epoch": 15.84,
+      "eval_accuracy": 0.9076923076923077,
+      "eval_loss": 0.21350829303264618,
+      "eval_runtime": 4.7427,
+      "eval_samples_per_second": 13.705,
+      "eval_steps_per_second": 0.633,
       "step": 64
     },
     {
+      "epoch": 16.84,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.1889328807592392,
+      "eval_runtime": 4.2616,
+      "eval_samples_per_second": 15.253,
+      "eval_steps_per_second": 0.704,
       "step": 68
     },
     {
+      "epoch": 17.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.16009008884429932,
+      "eval_runtime": 4.7629,
+      "eval_samples_per_second": 13.647,
+      "eval_steps_per_second": 0.63,
       "step": 72
     },
     {
+      "epoch": 18.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.14124387502670288,
+      "eval_runtime": 4.3251,
+      "eval_samples_per_second": 15.029,
+      "eval_steps_per_second": 0.694,
       "step": 76
     },
     {
+      "epoch": 19.84,
       "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.5133,
       "step": 80
     },
     {
+      "epoch": 19.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.14968368411064148,
+      "eval_runtime": 4.7085,
+      "eval_samples_per_second": 13.805,
+      "eval_steps_per_second": 0.637,
       "step": 80
     },
     {
+      "epoch": 20.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.15449711680412292,
+      "eval_runtime": 4.2803,
+      "eval_samples_per_second": 15.186,
+      "eval_steps_per_second": 0.701,
       "step": 84
     },
     {
+      "epoch": 21.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.12975920736789703,
+      "eval_runtime": 6.2107,
+      "eval_samples_per_second": 10.466,
+      "eval_steps_per_second": 0.483,
       "step": 88
     },
     {
+      "epoch": 22.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.14153267443180084,
+      "eval_runtime": 4.2538,
+      "eval_samples_per_second": 15.28,
+      "eval_steps_per_second": 0.705,
       "step": 92
     },
     {
+      "epoch": 23.84,
+      "eval_accuracy": 0.9230769230769231,
+      "eval_loss": 0.16845214366912842,
+      "eval_runtime": 4.6805,
+      "eval_samples_per_second": 13.888,
+      "eval_steps_per_second": 0.641,
       "step": 96
     },
     {
+      "epoch": 24.84,
       "learning_rate": 3.240740740740741e-05,
+      "loss": 0.4383,
       "step": 100
     },
     {
+      "epoch": 24.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.13808518648147583,
+      "eval_runtime": 4.2829,
+      "eval_samples_per_second": 15.177,
+      "eval_steps_per_second": 0.7,
       "step": 100
     },
     {
+      "epoch": 25.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.1295621246099472,
+      "eval_runtime": 4.717,
+      "eval_samples_per_second": 13.78,
+      "eval_steps_per_second": 0.636,
       "step": 104
     },
     {
+      "epoch": 26.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.1106828972697258,
+      "eval_runtime": 4.4246,
+      "eval_samples_per_second": 14.691,
+      "eval_steps_per_second": 0.678,
       "step": 108
     },
     {
+      "epoch": 27.84,
+      "eval_accuracy": 0.9384615384615385,
+      "eval_loss": 0.12369797378778458,
+      "eval_runtime": 4.7653,
+      "eval_samples_per_second": 13.64,
+      "eval_steps_per_second": 0.63,
       "step": 112
     },
     {
+      "epoch": 28.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.1366400122642517,
+      "eval_runtime": 4.3203,
+      "eval_samples_per_second": 15.045,
+      "eval_steps_per_second": 0.694,
       "step": 116
     },
     {
+      "epoch": 29.84,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4149,
       "step": 120
     },
     {
+      "epoch": 29.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.13494354486465454,
+      "eval_runtime": 4.6686,
+      "eval_samples_per_second": 13.923,
+      "eval_steps_per_second": 0.643,
       "step": 120
     },
     {
+      "epoch": 30.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.10458508133888245,
+      "eval_runtime": 4.2843,
+      "eval_samples_per_second": 15.172,
+      "eval_steps_per_second": 0.7,
       "step": 124
     },
     {
+      "epoch": 31.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.0881725624203682,
+      "eval_runtime": 4.7053,
+      "eval_samples_per_second": 13.814,
+      "eval_steps_per_second": 0.638,
       "step": 128
     },
     {
+      "epoch": 32.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.10219049453735352,
+      "eval_runtime": 4.3211,
+      "eval_samples_per_second": 15.042,
+      "eval_steps_per_second": 0.694,
       "step": 132
     },
     {
+      "epoch": 33.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.12066025286912918,
+      "eval_runtime": 4.8023,
+      "eval_samples_per_second": 13.535,
+      "eval_steps_per_second": 0.625,
       "step": 136
     },
     {
+      "epoch": 34.84,
       "learning_rate": 2.314814814814815e-05,
+      "loss": 0.3657,
       "step": 140
     },
     {
+      "epoch": 34.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.11678420007228851,
+      "eval_runtime": 4.4027,
+      "eval_samples_per_second": 14.764,
+      "eval_steps_per_second": 0.681,
       "step": 140
     },
     {
+      "epoch": 35.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.09219826757907867,
+      "eval_runtime": 6.9593,
+      "eval_samples_per_second": 9.34,
+      "eval_steps_per_second": 0.431,
       "step": 144
     },
     {
+      "epoch": 36.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.09314019978046417,
+      "eval_runtime": 4.3,
+      "eval_samples_per_second": 15.116,
+      "eval_steps_per_second": 0.698,
       "step": 148
     },
     {
+      "epoch": 37.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.10055378824472427,
+      "eval_runtime": 4.7227,
+      "eval_samples_per_second": 13.763,
+      "eval_steps_per_second": 0.635,
       "step": 152
     },
     {
+      "epoch": 38.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.09866410493850708,
+      "eval_runtime": 4.3725,
+      "eval_samples_per_second": 14.866,
+      "eval_steps_per_second": 0.686,
       "step": 156
     },
     {
+      "epoch": 39.84,
       "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3294,
       "step": 160
     },
     {
+      "epoch": 39.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.11275947839021683,
+      "eval_runtime": 4.6903,
+      "eval_samples_per_second": 13.858,
+      "eval_steps_per_second": 0.64,
       "step": 160
     },
     {
+      "epoch": 40.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.11520560085773468,
+      "eval_runtime": 4.3303,
+      "eval_samples_per_second": 15.01,
+      "eval_steps_per_second": 0.693,
       "step": 164
     },
     {
+      "epoch": 41.84,
+      "eval_accuracy": 0.9538461538461539,
+      "eval_loss": 0.09974207729101181,
+      "eval_runtime": 4.7259,
+      "eval_samples_per_second": 13.754,
+      "eval_steps_per_second": 0.635,
       "step": 168
     },
     {
+      "epoch": 42.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.09684933722019196,
+      "eval_runtime": 4.3525,
+      "eval_samples_per_second": 14.934,
+      "eval_steps_per_second": 0.689,
       "step": 172
     },
     {
+      "epoch": 43.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08187751471996307,
+      "eval_runtime": 4.6538,
+      "eval_samples_per_second": 13.967,
+      "eval_steps_per_second": 0.645,
       "step": 176
     },
     {
+      "epoch": 44.84,
       "learning_rate": 1.388888888888889e-05,
+      "loss": 0.3198,
       "step": 180
     },
     {
+      "epoch": 44.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.07292691618204117,
+      "eval_runtime": 4.3483,
+      "eval_samples_per_second": 14.948,
+      "eval_steps_per_second": 0.69,
       "step": 180
     },
     {
+      "epoch": 45.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.07438476383686066,
+      "eval_runtime": 4.8323,
+      "eval_samples_per_second": 13.451,
+      "eval_steps_per_second": 0.621,
       "step": 184
     },
     {
+      "epoch": 46.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.09510225057601929,
+      "eval_runtime": 4.3498,
+      "eval_samples_per_second": 14.943,
+      "eval_steps_per_second": 0.69,
       "step": 188
     },
     {
+      "epoch": 47.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.09657642990350723,
+      "eval_runtime": 4.7293,
+      "eval_samples_per_second": 13.744,
+      "eval_steps_per_second": 0.634,
       "step": 192
     },
     {
+      "epoch": 48.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08329986035823822,
+      "eval_runtime": 4.2989,
+      "eval_samples_per_second": 15.12,
+      "eval_steps_per_second": 0.698,
       "step": 196
     },
     {
+      "epoch": 49.84,
       "learning_rate": 9.259259259259259e-06,
+      "loss": 0.2936,
       "step": 200
     },
     {
+      "epoch": 49.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.06941184401512146,
+      "eval_runtime": 4.7066,
+      "eval_samples_per_second": 13.811,
+      "eval_steps_per_second": 0.637,
       "step": 200
     },
     {
+      "epoch": 50.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.06908843666315079,
+      "eval_runtime": 4.3338,
+      "eval_samples_per_second": 14.999,
+      "eval_steps_per_second": 0.692,
       "step": 204
     },
     {
+      "epoch": 51.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.0735919326543808,
+      "eval_runtime": 4.7155,
+      "eval_samples_per_second": 13.784,
+      "eval_steps_per_second": 0.636,
       "step": 208
     },
     {
+      "epoch": 52.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.08048100024461746,
+      "eval_runtime": 4.337,
+      "eval_samples_per_second": 14.987,
+      "eval_steps_per_second": 0.692,
       "step": 212
     },
     {
+      "epoch": 53.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08007017523050308,
+      "eval_runtime": 4.765,
+      "eval_samples_per_second": 13.641,
+      "eval_steps_per_second": 0.63,
       "step": 216
     },
     {
+      "epoch": 54.84,
       "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.3127,
       "step": 220
     },
     {
+      "epoch": 54.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.0826273187994957,
+      "eval_runtime": 4.2934,
+      "eval_samples_per_second": 15.139,
+      "eval_steps_per_second": 0.699,
       "step": 220
     },
     {
+      "epoch": 55.84,
+      "eval_accuracy": 0.9692307692307692,
+      "eval_loss": 0.08565446734428406,
+      "eval_runtime": 4.7099,
+      "eval_samples_per_second": 13.801,
+      "eval_steps_per_second": 0.637,
       "step": 224
     },
     {
+      "epoch": 56.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.0864274650812149,
+      "eval_runtime": 4.246,
+      "eval_samples_per_second": 15.309,
+      "eval_steps_per_second": 0.707,
       "step": 228
     },
     {
+      "epoch": 57.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08776658028364182,
+      "eval_runtime": 4.758,
+      "eval_samples_per_second": 13.661,
+      "eval_steps_per_second": 0.631,
       "step": 232
     },
     {
+      "epoch": 58.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08772400766611099,
+      "eval_runtime": 4.2874,
+      "eval_samples_per_second": 15.161,
+      "eval_steps_per_second": 0.7,
       "step": 236
     },
     {
+      "epoch": 59.84,
       "learning_rate": 0.0,
+      "loss": 0.285,
       "step": 240
     },
     {
+      "epoch": 59.84,
+      "eval_accuracy": 0.9846153846153847,
+      "eval_loss": 0.08735792338848114,
+      "eval_runtime": 4.7501,
+      "eval_samples_per_second": 13.684,
+      "eval_steps_per_second": 0.632,
       "step": 240
     },
     {
+      "epoch": 59.84,
       "step": 240,
+      "total_flos": 8.648855308501955e+17,
+      "train_loss": 0.577343902985255,
+      "train_runtime": 4213.9216,
+      "train_samples_per_second": 8.273,
       "train_steps_per_second": 0.057
     }
   ],
   "max_steps": 240,
   "num_train_epochs": 60,
+  "total_flos": 8.648855308501955e+17,
   "trial_name": null,
   "trial_params": null
 }