End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +9 -9
eval_results.json +5 -5
runs/Feb01_19-16-14_b2db6ba6b423/events.out.tfevents.1706815248.b2db6ba6b423.3854.1 +3 -0
train_results.json +4 -4
trainer_state.json +215 -215

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6518
-- Accuracy: 0.7890
 ## Model description

 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6423
+- Accuracy: 0.8165
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 36.13,
-    "eval_accuracy": 0.7522935779816514,
-    "eval_loss": 0.7007379531860352,
-    "eval_runtime": 0.4794,
-    "eval_samples_per_second": 227.386,
-    "eval_steps_per_second": 8.344,
     "total_flos": 9.686412043576934e+16,
-    "train_loss": 0.878055340903146,
-    "train_runtime": 251.6613,
-    "train_samples_per_second": 155.447,
-    "train_steps_per_second": 1.113
 }

 {
     "epoch": 36.13,
+    "eval_accuracy": 0.8165137614678899,
+    "eval_loss": 0.6422722935676575,
+    "eval_runtime": 0.6417,
+    "eval_samples_per_second": 169.866,
+    "eval_steps_per_second": 6.234,
     "total_flos": 9.686412043576934e+16,
+    "train_loss": 0.8966831156185695,
+    "train_runtime": 256.9851,
+    "train_samples_per_second": 152.227,
+    "train_steps_per_second": 1.09
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 36.13,
-    "eval_accuracy": 0.7522935779816514,
-    "eval_loss": 0.7007379531860352,
-    "eval_runtime": 0.4794,
-    "eval_samples_per_second": 227.386,
-    "eval_steps_per_second": 8.344
 }

 {
     "epoch": 36.13,
+    "eval_accuracy": 0.8165137614678899,
+    "eval_loss": 0.6422722935676575,
+    "eval_runtime": 0.6417,
+    "eval_samples_per_second": 169.866,
+    "eval_steps_per_second": 6.234
 }

runs/Feb01_19-16-14_b2db6ba6b423/events.out.tfevents.1706815248.b2db6ba6b423.3854.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e3e5b9f999bf8a5daf24051f68adfbe47da2a1f3c2cf2ba8c778853b2e31bc9
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 36.13,
     "total_flos": 9.686412043576934e+16,
-    "train_loss": 0.878055340903146,
-    "train_runtime": 251.6613,
-    "train_samples_per_second": 155.447,
-    "train_steps_per_second": 1.113
 }

 {
     "epoch": 36.13,
     "total_flos": 9.686412043576934e+16,
+    "train_loss": 0.8966831156185695,
+    "train_runtime": 256.9851,
+    "train_samples_per_second": 152.227,
+    "train_steps_per_second": 1.09
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.7522935779816514,
-  "best_model_checkpoint": "swiftformer-xs-dmae-va-U-40/checkpoint-224",
   "epoch": 36.12903225806452,
   "eval_steps": 500,
   "global_step": 280,
@@ -10,513 +10,513 @@
   "log_history": [
     {
       "epoch": 0.9,
-      "eval_accuracy": 0.29357798165137616,
-      "eval_loss": 1.3578405380249023,
-      "eval_runtime": 0.4941,
-      "eval_samples_per_second": 220.605,
-      "eval_steps_per_second": 8.096,
       "step": 7
     },
     {
       "epoch": 1.29,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 1.3702,
       "step": 10
     },
     {
       "epoch": 1.94,
-      "eval_accuracy": 0.29357798165137616,
-      "eval_loss": 1.3703261613845825,
-      "eval_runtime": 0.5833,
-      "eval_samples_per_second": 186.883,
-      "eval_steps_per_second": 6.858,
       "step": 15
     },
     {
       "epoch": 2.58,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 1.3497,
       "step": 20
     },
     {
       "epoch": 2.97,
-      "eval_accuracy": 0.3394495412844037,
-      "eval_loss": 1.3361120223999023,
-      "eval_runtime": 0.4226,
-      "eval_samples_per_second": 257.899,
-      "eval_steps_per_second": 9.464,
       "step": 23
     },
     {
       "epoch": 3.87,
       "learning_rate": 4.960317460317461e-05,
-      "loss": 1.3004,
       "step": 30
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.3669724770642202,
-      "eval_loss": 1.2852015495300293,
-      "eval_runtime": 0.4154,
-      "eval_samples_per_second": 262.426,
-      "eval_steps_per_second": 9.63,
       "step": 31
     },
     {
       "epoch": 4.9,
-      "eval_accuracy": 0.43119266055045874,
-      "eval_loss": 1.231681227684021,
-      "eval_runtime": 0.4157,
-      "eval_samples_per_second": 262.204,
-      "eval_steps_per_second": 9.622,
       "step": 38
     },
     {
       "epoch": 5.16,
       "learning_rate": 4.761904761904762e-05,
-      "loss": 1.2248,
       "step": 40
     },
     {
       "epoch": 5.94,
-      "eval_accuracy": 0.45871559633027525,
-      "eval_loss": 1.1785550117492676,
-      "eval_runtime": 0.4211,
-      "eval_samples_per_second": 258.867,
-      "eval_steps_per_second": 9.5,
       "step": 46
     },
     {
       "epoch": 6.45,
       "learning_rate": 4.563492063492064e-05,
-      "loss": 1.1485,
       "step": 50
     },
     {
       "epoch": 6.97,
-      "eval_accuracy": 0.5045871559633027,
-      "eval_loss": 1.123984694480896,
-      "eval_runtime": 0.4143,
-      "eval_samples_per_second": 263.124,
-      "eval_steps_per_second": 9.656,
       "step": 54
     },
     {
       "epoch": 7.74,
       "learning_rate": 4.3650793650793655e-05,
-      "loss": 1.0759,
       "step": 60
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5504587155963303,
-      "eval_loss": 1.0727368593215942,
-      "eval_runtime": 0.4109,
-      "eval_samples_per_second": 265.292,
-      "eval_steps_per_second": 9.735,
       "step": 62
     },
     {
       "epoch": 8.9,
-      "eval_accuracy": 0.5596330275229358,
-      "eval_loss": 1.0403714179992676,
-      "eval_runtime": 0.5431,
-      "eval_samples_per_second": 200.69,
-      "eval_steps_per_second": 7.365,
       "step": 69
     },
     {
       "epoch": 9.03,
       "learning_rate": 4.166666666666667e-05,
-      "loss": 1.0244,
       "step": 70
     },
     {
       "epoch": 9.94,
-      "eval_accuracy": 0.6238532110091743,
-      "eval_loss": 0.974201500415802,
-      "eval_runtime": 0.4104,
-      "eval_samples_per_second": 265.623,
-      "eval_steps_per_second": 9.748,
       "step": 77
     },
     {
       "epoch": 10.32,
       "learning_rate": 3.968253968253968e-05,
-      "loss": 0.9782,
       "step": 80
     },
     {
       "epoch": 10.97,
-      "eval_accuracy": 0.6422018348623854,
-      "eval_loss": 0.9374117851257324,
-      "eval_runtime": 0.6713,
-      "eval_samples_per_second": 162.361,
-      "eval_steps_per_second": 5.958,
       "step": 85
     },
     {
       "epoch": 11.61,
       "learning_rate": 3.76984126984127e-05,
-      "loss": 0.9359,
       "step": 90
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6788990825688074,
-      "eval_loss": 0.9196614027023315,
-      "eval_runtime": 0.4175,
-      "eval_samples_per_second": 261.061,
-      "eval_steps_per_second": 9.58,
       "step": 93
     },
     {
       "epoch": 12.9,
       "learning_rate": 3.571428571428572e-05,
-      "loss": 0.9051,
       "step": 100
     },
     {
       "epoch": 12.9,
-      "eval_accuracy": 0.6880733944954128,
-      "eval_loss": 0.8753331899642944,
-      "eval_runtime": 0.41,
-      "eval_samples_per_second": 265.867,
-      "eval_steps_per_second": 9.757,
       "step": 100
     },
     {
       "epoch": 13.94,
-      "eval_accuracy": 0.6972477064220184,
-      "eval_loss": 0.8679403066635132,
-      "eval_runtime": 0.4077,
-      "eval_samples_per_second": 267.322,
-      "eval_steps_per_second": 9.81,
       "step": 108
     },
     {
       "epoch": 14.19,
       "learning_rate": 3.3730158730158734e-05,
-      "loss": 0.8652,
       "step": 110
     },
     {
       "epoch": 14.97,
       "eval_accuracy": 0.7155963302752294,
-      "eval_loss": 0.8316473364830017,
-      "eval_runtime": 0.4256,
-      "eval_samples_per_second": 256.117,
-      "eval_steps_per_second": 9.399,
       "step": 116
     },
     {
       "epoch": 15.48,
       "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.8336,
       "step": 120
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.6972477064220184,
-      "eval_loss": 0.8222222924232483,
-      "eval_runtime": 0.4301,
-      "eval_samples_per_second": 253.434,
-      "eval_steps_per_second": 9.3,
       "step": 124
     },
     {
       "epoch": 16.77,
       "learning_rate": 2.9761904761904762e-05,
-      "loss": 0.8177,
       "step": 130
     },
     {
       "epoch": 16.9,
       "eval_accuracy": 0.6972477064220184,
-      "eval_loss": 0.8177938461303711,
-      "eval_runtime": 0.4098,
-      "eval_samples_per_second": 266.011,
-      "eval_steps_per_second": 9.762,
       "step": 131
     },
     {
       "epoch": 17.94,
       "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.7817714810371399,
-      "eval_runtime": 0.5687,
-      "eval_samples_per_second": 191.682,
-      "eval_steps_per_second": 7.034,
       "step": 139
     },
     {
       "epoch": 18.06,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.8077,
       "step": 140
     },
     {
       "epoch": 18.97,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.7627159357070923,
-      "eval_runtime": 0.4134,
-      "eval_samples_per_second": 263.676,
-      "eval_steps_per_second": 9.676,
       "step": 147
     },
     {
       "epoch": 19.35,
       "learning_rate": 2.5793650793650796e-05,
-      "loss": 0.7796,
       "step": 150
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.7478492259979248,
-      "eval_runtime": 0.4144,
-      "eval_samples_per_second": 263.034,
-      "eval_steps_per_second": 9.653,
       "step": 155
     },
     {
       "epoch": 20.65,
       "learning_rate": 2.380952380952381e-05,
-      "loss": 0.7673,
       "step": 160
     },
     {
       "epoch": 20.9,
       "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.7414626479148865,
-      "eval_runtime": 0.408,
-      "eval_samples_per_second": 267.182,
-      "eval_steps_per_second": 9.805,
       "step": 162
     },
     {
       "epoch": 21.94,
       "learning_rate": 2.1825396825396827e-05,
-      "loss": 0.7445,
       "step": 170
     },
     {
       "epoch": 21.94,
-      "eval_accuracy": 0.7155963302752294,
-      "eval_loss": 0.7413556575775146,
-      "eval_runtime": 0.4043,
-      "eval_samples_per_second": 269.576,
-      "eval_steps_per_second": 9.893,
       "step": 170
     },
     {
       "epoch": 22.97,
-      "eval_accuracy": 0.7155963302752294,
-      "eval_loss": 0.7375438809394836,
-      "eval_runtime": 0.4062,
-      "eval_samples_per_second": 268.371,
-      "eval_steps_per_second": 9.848,
       "step": 178
     },
     {
       "epoch": 23.23,
       "learning_rate": 1.984126984126984e-05,
-      "loss": 0.7413,
       "step": 180
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.7155963302752294,
-      "eval_loss": 0.7353999018669128,
-      "eval_runtime": 0.4171,
-      "eval_samples_per_second": 261.311,
-      "eval_steps_per_second": 9.589,
       "step": 186
     },
     {
       "epoch": 24.52,
       "learning_rate": 1.785714285714286e-05,
-      "loss": 0.739,
       "step": 190
     },
     {
       "epoch": 24.9,
-      "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.71100252866745,
-      "eval_runtime": 0.4123,
-      "eval_samples_per_second": 264.367,
-      "eval_steps_per_second": 9.702,
       "step": 193
     },
     {
       "epoch": 25.81,
       "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.6992,
       "step": 200
     },
     {
       "epoch": 25.94,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.7120506763458252,
-      "eval_runtime": 0.4281,
-      "eval_samples_per_second": 254.6,
-      "eval_steps_per_second": 9.343,
       "step": 201
     },
     {
       "epoch": 26.97,
-      "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.7044178247451782,
-      "eval_runtime": 0.5666,
-      "eval_samples_per_second": 192.368,
-      "eval_steps_per_second": 7.059,
       "step": 209
     },
     {
       "epoch": 27.1,
       "learning_rate": 1.388888888888889e-05,
-      "loss": 0.7111,
       "step": 210
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.6947001218795776,
-      "eval_runtime": 0.4105,
-      "eval_samples_per_second": 265.532,
-      "eval_steps_per_second": 9.744,
       "step": 217
     },
     {
       "epoch": 28.39,
       "learning_rate": 1.1904761904761905e-05,
-      "loss": 0.7013,
       "step": 220
     },
     {
       "epoch": 28.9,
-      "eval_accuracy": 0.7522935779816514,
-      "eval_loss": 0.7007379531860352,
-      "eval_runtime": 0.4106,
-      "eval_samples_per_second": 265.441,
-      "eval_steps_per_second": 9.741,
       "step": 224
     },
     {
       "epoch": 29.68,
       "learning_rate": 9.92063492063492e-06,
-      "loss": 0.712,
       "step": 230
     },
     {
       "epoch": 29.94,
-      "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.6792589426040649,
-      "eval_runtime": 0.4139,
-      "eval_samples_per_second": 263.354,
-      "eval_steps_per_second": 9.664,
       "step": 232
     },
     {
       "epoch": 30.97,
       "learning_rate": 7.936507936507936e-06,
-      "loss": 0.671,
       "step": 240
     },
     {
       "epoch": 30.97,
-      "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.6808269619941711,
-      "eval_runtime": 0.408,
-      "eval_samples_per_second": 267.189,
-      "eval_steps_per_second": 9.805,
       "step": 240
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.6820599436759949,
-      "eval_runtime": 0.4244,
-      "eval_samples_per_second": 256.807,
-      "eval_steps_per_second": 9.424,
       "step": 248
     },
     {
       "epoch": 32.26,
       "learning_rate": 5.9523809523809525e-06,
-      "loss": 0.6862,
       "step": 250
     },
     {
       "epoch": 32.9,
-      "eval_accuracy": 0.7339449541284404,
-      "eval_loss": 0.6705361008644104,
-      "eval_runtime": 0.4159,
-      "eval_samples_per_second": 262.074,
-      "eval_steps_per_second": 9.617,
       "step": 255
     },
     {
       "epoch": 33.55,
       "learning_rate": 3.968253968253968e-06,
-      "loss": 0.6606,
       "step": 260
     },
     {
       "epoch": 33.94,
-      "eval_accuracy": 0.7431192660550459,
-      "eval_loss": 0.6783888339996338,
-      "eval_runtime": 0.4197,
-      "eval_samples_per_second": 259.739,
-      "eval_steps_per_second": 9.532,
       "step": 263
     },
     {
       "epoch": 34.84,
       "learning_rate": 1.984126984126984e-06,
-      "loss": 0.6667,
       "step": 270
     },
     {
       "epoch": 34.97,
-      "eval_accuracy": 0.7522935779816514,
-      "eval_loss": 0.6764441132545471,
-      "eval_runtime": 0.4166,
-      "eval_samples_per_second": 261.642,
-      "eval_steps_per_second": 9.602,
       "step": 271
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.7522935779816514,
-      "eval_loss": 0.6716886758804321,
-      "eval_runtime": 0.5848,
-      "eval_samples_per_second": 186.395,
-      "eval_steps_per_second": 6.84,
       "step": 279
     },
     {
       "epoch": 36.13,
       "learning_rate": 0.0,
-      "loss": 0.6687,
       "step": 280
     },
     {
       "epoch": 36.13,
-      "eval_accuracy": 0.7522935779816514,
-      "eval_loss": 0.6736045479774475,
-      "eval_runtime": 0.4181,
-      "eval_samples_per_second": 260.729,
-      "eval_steps_per_second": 9.568,
       "step": 280
     },
     {
       "epoch": 36.13,
       "step": 280,
       "total_flos": 9.686412043576934e+16,
-      "train_loss": 0.878055340903146,
-      "train_runtime": 251.6613,
-      "train_samples_per_second": 155.447,
-      "train_steps_per_second": 1.113
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.8165137614678899,
+  "best_model_checkpoint": "swiftformer-xs-dmae-va-U-40/checkpoint-232",
   "epoch": 36.12903225806452,
   "eval_steps": 500,
   "global_step": 280,
   "log_history": [
     {
       "epoch": 0.9,
+      "eval_accuracy": 0.3211009174311927,
+      "eval_loss": 1.3882640600204468,
+      "eval_runtime": 0.5018,
+      "eval_samples_per_second": 217.232,
+      "eval_steps_per_second": 7.972,
       "step": 7
     },
     {
       "epoch": 1.29,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 1.4011,
       "step": 10
     },
     {
       "epoch": 1.94,
+      "eval_accuracy": 0.3577981651376147,
+      "eval_loss": 1.3383492231369019,
+      "eval_runtime": 0.5683,
+      "eval_samples_per_second": 191.814,
+      "eval_steps_per_second": 7.039,
       "step": 15
     },
     {
       "epoch": 2.58,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 1.3646,
       "step": 20
     },
     {
       "epoch": 2.97,
+      "eval_accuracy": 0.44036697247706424,
+      "eval_loss": 1.280238151550293,
+      "eval_runtime": 0.4561,
+      "eval_samples_per_second": 238.958,
+      "eval_steps_per_second": 8.769,
       "step": 23
     },
     {
       "epoch": 3.87,
       "learning_rate": 4.960317460317461e-05,
+      "loss": 1.315,
       "step": 30
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.44954128440366975,
+      "eval_loss": 1.2193504571914673,
+      "eval_runtime": 0.8508,
+      "eval_samples_per_second": 128.117,
+      "eval_steps_per_second": 4.702,
       "step": 31
     },
     {
       "epoch": 4.9,
+      "eval_accuracy": 0.5229357798165137,
+      "eval_loss": 1.1717596054077148,
+      "eval_runtime": 0.4255,
+      "eval_samples_per_second": 256.17,
+      "eval_steps_per_second": 9.401,
       "step": 38
     },
     {
       "epoch": 5.16,
       "learning_rate": 4.761904761904762e-05,
+      "loss": 1.2634,
       "step": 40
     },
     {
       "epoch": 5.94,
+      "eval_accuracy": 0.5045871559633027,
+      "eval_loss": 1.127877950668335,
+      "eval_runtime": 0.4475,
+      "eval_samples_per_second": 243.601,
+      "eval_steps_per_second": 8.939,
       "step": 46
     },
     {
       "epoch": 6.45,
       "learning_rate": 4.563492063492064e-05,
+      "loss": 1.1949,
       "step": 50
     },
     {
       "epoch": 6.97,
+      "eval_accuracy": 0.5871559633027523,
+      "eval_loss": 1.0761113166809082,
+      "eval_runtime": 0.5058,
+      "eval_samples_per_second": 215.497,
+      "eval_steps_per_second": 7.908,
       "step": 54
     },
     {
       "epoch": 7.74,
       "learning_rate": 4.3650793650793655e-05,
+      "loss": 1.1136,
       "step": 60
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6330275229357798,
+      "eval_loss": 1.0223767757415771,
+      "eval_runtime": 0.4226,
+      "eval_samples_per_second": 257.914,
+      "eval_steps_per_second": 9.465,
       "step": 62
     },
     {
       "epoch": 8.9,
+      "eval_accuracy": 0.6238532110091743,
+      "eval_loss": 0.9975973963737488,
+      "eval_runtime": 0.556,
+      "eval_samples_per_second": 196.055,
+      "eval_steps_per_second": 7.195,
       "step": 69
     },
     {
       "epoch": 9.03,
       "learning_rate": 4.166666666666667e-05,
+      "loss": 1.0824,
       "step": 70
     },
     {
       "epoch": 9.94,
+      "eval_accuracy": 0.6605504587155964,
+      "eval_loss": 0.9517724514007568,
+      "eval_runtime": 0.4569,
+      "eval_samples_per_second": 238.566,
+      "eval_steps_per_second": 8.755,
       "step": 77
     },
     {
       "epoch": 10.32,
       "learning_rate": 3.968253968253968e-05,
+      "loss": 1.0212,
       "step": 80
     },
     {
       "epoch": 10.97,
+      "eval_accuracy": 0.6697247706422018,
+      "eval_loss": 0.9116750359535217,
+      "eval_runtime": 0.4487,
+      "eval_samples_per_second": 242.931,
+      "eval_steps_per_second": 8.915,
       "step": 85
     },
     {
       "epoch": 11.61,
       "learning_rate": 3.76984126984127e-05,
+      "loss": 0.9566,
       "step": 90
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.6880733944954128,
+      "eval_loss": 0.8973050117492676,
+      "eval_runtime": 0.448,
+      "eval_samples_per_second": 243.303,
+      "eval_steps_per_second": 8.929,
       "step": 93
     },
     {
       "epoch": 12.9,
       "learning_rate": 3.571428571428572e-05,
+      "loss": 0.935,
       "step": 100
     },
     {
       "epoch": 12.9,
+      "eval_accuracy": 0.7064220183486238,
+      "eval_loss": 0.8704947233200073,
+      "eval_runtime": 0.4696,
+      "eval_samples_per_second": 232.132,
+      "eval_steps_per_second": 8.519,
       "step": 100
     },
     {
       "epoch": 13.94,
+      "eval_accuracy": 0.7155963302752294,
+      "eval_loss": 0.8559499382972717,
+      "eval_runtime": 0.5932,
+      "eval_samples_per_second": 183.74,
+      "eval_steps_per_second": 6.743,
       "step": 108
     },
     {
       "epoch": 14.19,
       "learning_rate": 3.3730158730158734e-05,
+      "loss": 0.8826,
       "step": 110
     },
     {
       "epoch": 14.97,
       "eval_accuracy": 0.7155963302752294,
+      "eval_loss": 0.8371049165725708,
+      "eval_runtime": 0.4298,
+      "eval_samples_per_second": 253.624,
+      "eval_steps_per_second": 9.307,
       "step": 116
     },
     {
       "epoch": 15.48,
       "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.8688,
       "step": 120
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.7155963302752294,
+      "eval_loss": 0.8251588940620422,
+      "eval_runtime": 0.4656,
+      "eval_samples_per_second": 234.09,
+      "eval_steps_per_second": 8.59,
       "step": 124
     },
     {
       "epoch": 16.77,
       "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.8436,
       "step": 130
     },
     {
       "epoch": 16.9,
       "eval_accuracy": 0.6972477064220184,
+      "eval_loss": 0.8211333155632019,
+      "eval_runtime": 0.4255,
+      "eval_samples_per_second": 256.176,
+      "eval_steps_per_second": 9.401,
       "step": 131
     },
     {
       "epoch": 17.94,
       "eval_accuracy": 0.7339449541284404,
+      "eval_loss": 0.8039615750312805,
+      "eval_runtime": 0.4375,
+      "eval_samples_per_second": 249.151,
+      "eval_steps_per_second": 9.143,
       "step": 139
     },
     {
       "epoch": 18.06,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.8155,
       "step": 140
     },
     {
       "epoch": 18.97,
+      "eval_accuracy": 0.7431192660550459,
+      "eval_loss": 0.7625071406364441,
+      "eval_runtime": 0.435,
+      "eval_samples_per_second": 250.55,
+      "eval_steps_per_second": 9.195,
       "step": 147
     },
     {
       "epoch": 19.35,
       "learning_rate": 2.5793650793650796e-05,
+      "loss": 0.7831,
       "step": 150
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.7431192660550459,
+      "eval_loss": 0.7451765537261963,
+      "eval_runtime": 0.4363,
+      "eval_samples_per_second": 249.828,
+      "eval_steps_per_second": 9.168,
       "step": 155
     },
     {
       "epoch": 20.65,
       "learning_rate": 2.380952380952381e-05,
+      "loss": 0.7826,
       "step": 160
     },
     {
       "epoch": 20.9,
       "eval_accuracy": 0.7431192660550459,
+      "eval_loss": 0.7278565764427185,
+      "eval_runtime": 0.5078,
+      "eval_samples_per_second": 214.643,
+      "eval_steps_per_second": 7.877,
       "step": 162
     },
     {
       "epoch": 21.94,
       "learning_rate": 2.1825396825396827e-05,
+      "loss": 0.7499,
       "step": 170
     },
     {
       "epoch": 21.94,
+      "eval_accuracy": 0.7431192660550459,
+      "eval_loss": 0.714833676815033,
+      "eval_runtime": 0.4399,
+      "eval_samples_per_second": 247.796,
+      "eval_steps_per_second": 9.093,
       "step": 170
     },
     {
       "epoch": 22.97,
+      "eval_accuracy": 0.7522935779816514,
+      "eval_loss": 0.7061465382575989,
+      "eval_runtime": 0.5513,
+      "eval_samples_per_second": 197.698,
+      "eval_steps_per_second": 7.255,
       "step": 178
     },
     {
       "epoch": 23.23,
       "learning_rate": 1.984126984126984e-05,
+      "loss": 0.7539,
       "step": 180
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.7522935779816514,
+      "eval_loss": 0.7026045918464661,
+      "eval_runtime": 0.4348,
+      "eval_samples_per_second": 250.669,
+      "eval_steps_per_second": 9.199,
       "step": 186
     },
     {
       "epoch": 24.52,
       "learning_rate": 1.785714285714286e-05,
+      "loss": 0.7453,
       "step": 190
     },
     {
       "epoch": 24.9,
+      "eval_accuracy": 0.7889908256880734,
+      "eval_loss": 0.6818734407424927,
+      "eval_runtime": 0.4308,
+      "eval_samples_per_second": 253.004,
+      "eval_steps_per_second": 9.285,
       "step": 193
     },
     {
       "epoch": 25.81,
       "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.7174,
       "step": 200
     },
     {
       "epoch": 25.94,
+      "eval_accuracy": 0.7706422018348624,
+      "eval_loss": 0.6837214231491089,
+      "eval_runtime": 0.4357,
+      "eval_samples_per_second": 250.193,
+      "eval_steps_per_second": 9.181,
       "step": 201
     },
     {
       "epoch": 26.97,
+      "eval_accuracy": 0.7798165137614679,
+      "eval_loss": 0.6743292212486267,
+      "eval_runtime": 0.4526,
+      "eval_samples_per_second": 240.854,
+      "eval_steps_per_second": 8.839,
       "step": 209
     },
     {
       "epoch": 27.1,
       "learning_rate": 1.388888888888889e-05,
+      "loss": 0.7083,
       "step": 210
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.7798165137614679,
+      "eval_loss": 0.6706274151802063,
+      "eval_runtime": 0.4549,
+      "eval_samples_per_second": 239.637,
+      "eval_steps_per_second": 8.794,
       "step": 217
     },
     {
       "epoch": 28.39,
       "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.6813,
       "step": 220
     },
     {
       "epoch": 28.9,
+      "eval_accuracy": 0.8073394495412844,
+      "eval_loss": 0.6643755435943604,
+      "eval_runtime": 0.4318,
+      "eval_samples_per_second": 252.45,
+      "eval_steps_per_second": 9.264,
       "step": 224
     },
     {
       "epoch": 29.68,
       "learning_rate": 9.92063492063492e-06,
+      "loss": 0.7107,
       "step": 230
     },
     {
       "epoch": 29.94,
+      "eval_accuracy": 0.8165137614678899,
+      "eval_loss": 0.6422722935676575,
+      "eval_runtime": 0.5633,
+      "eval_samples_per_second": 193.507,
+      "eval_steps_per_second": 7.101,
       "step": 232
     },
     {
       "epoch": 30.97,
       "learning_rate": 7.936507936507936e-06,
+      "loss": 0.6912,
       "step": 240
     },
     {
       "epoch": 30.97,
+      "eval_accuracy": 0.7889908256880734,
+      "eval_loss": 0.6418679356575012,
+      "eval_runtime": 0.4378,
+      "eval_samples_per_second": 248.984,
+      "eval_steps_per_second": 9.137,
       "step": 240
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.7889908256880734,
+      "eval_loss": 0.6465409994125366,
+      "eval_runtime": 0.4513,
+      "eval_samples_per_second": 241.531,
+      "eval_steps_per_second": 8.864,
       "step": 248
     },
     {
       "epoch": 32.26,
       "learning_rate": 5.9523809523809525e-06,
+      "loss": 0.7031,
       "step": 250
     },
     {
       "epoch": 32.9,
+      "eval_accuracy": 0.8073394495412844,
+      "eval_loss": 0.6346263289451599,
+      "eval_runtime": 0.4298,
+      "eval_samples_per_second": 253.596,
+      "eval_steps_per_second": 9.306,
       "step": 255
     },
     {
       "epoch": 33.55,
       "learning_rate": 3.968253968253968e-06,
+      "loss": 0.6647,
       "step": 260
     },
     {
       "epoch": 33.94,
+      "eval_accuracy": 0.8073394495412844,
+      "eval_loss": 0.6346942186355591,
+      "eval_runtime": 0.4204,
+      "eval_samples_per_second": 259.297,
+      "eval_steps_per_second": 9.515,
       "step": 263
     },
     {
       "epoch": 34.84,
       "learning_rate": 1.984126984126984e-06,
+      "loss": 0.6799,
       "step": 270
     },
     {
       "epoch": 34.97,
+      "eval_accuracy": 0.7981651376146789,
+      "eval_loss": 0.6475719213485718,
+      "eval_runtime": 0.5807,
+      "eval_samples_per_second": 187.701,
+      "eval_steps_per_second": 6.888,
       "step": 271
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.7981651376146789,
+      "eval_loss": 0.6428852081298828,
+      "eval_runtime": 0.4339,
+      "eval_samples_per_second": 251.222,
+      "eval_steps_per_second": 9.219,
       "step": 279
     },
     {
       "epoch": 36.13,
       "learning_rate": 0.0,
+      "loss": 0.6774,
       "step": 280
     },
     {
       "epoch": 36.13,
+      "eval_accuracy": 0.7889908256880734,
+      "eval_loss": 0.6517751812934875,
+      "eval_runtime": 0.4506,
+      "eval_samples_per_second": 241.9,
+      "eval_steps_per_second": 8.877,
       "step": 280
     },
     {
       "epoch": 36.13,
       "step": 280,
       "total_flos": 9.686412043576934e+16,
+      "train_loss": 0.8966831156185695,
+      "train_runtime": 256.9851,
+      "train_samples_per_second": 152.227,
+      "train_steps_per_second": 1.09
     }
   ],
   "logging_steps": 10,