End of training

Browse files

Files changed (6) hide show

README.md +5 -3
all_results.json +10 -10
eval_results.json +6 -6
runs/Jan17_21-31-37_c6ad14a30b7d/events.out.tfevents.1705530566.c6ad14a30b7d.8359.1 +3 -0
train_results.json +5 -5
trainer_state.json +1072 -7

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -22,7 +24,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7461538461538462
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +34,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6263
-- Accuracy: 0.7462
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 datasets:
 - imagefolder
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7769230769230769
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6098
+- Accuracy: 0.7769
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 120.0,
-    "eval_accuracy": 0.5846153846153846,
-    "eval_loss": 2.5402629375457764,
-    "eval_runtime": 2.5184,
-    "eval_samples_per_second": 51.619,
-    "eval_steps_per_second": 0.794,
-    "train_loss": 0.3072653747740246,
-    "train_runtime": 892.0889,
-    "train_samples_per_second": 69.948,
-    "train_steps_per_second": 0.942
 }

 {
+    "epoch": 200.0,
+    "eval_accuracy": 0.7769230769230769,
+    "eval_loss": 1.6097954511642456,
+    "eval_runtime": 2.2046,
+    "eval_samples_per_second": 58.968,
+    "eval_steps_per_second": 0.907,
+    "train_loss": 0.39147548845836094,
+    "train_runtime": 3403.5317,
+    "train_samples_per_second": 30.556,
+    "train_steps_per_second": 0.411
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 120.0,
-    "eval_accuracy": 0.5846153846153846,
-    "eval_loss": 2.5402629375457764,
-    "eval_runtime": 2.5184,
-    "eval_samples_per_second": 51.619,
-    "eval_steps_per_second": 0.794
 }

 {
+    "epoch": 200.0,
+    "eval_accuracy": 0.7769230769230769,
+    "eval_loss": 1.6097954511642456,
+    "eval_runtime": 2.2046,
+    "eval_samples_per_second": 58.968,
+    "eval_steps_per_second": 0.907
 }

runs/Jan17_21-31-37_c6ad14a30b7d/events.out.tfevents.1705530566.c6ad14a30b7d.8359.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03fcbbac7e99b1668601ea3ba58c311f35f655bf205c25b24d0c175be83d9550
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 120.0,
-    "train_loss": 0.3072653747740246,
-    "train_runtime": 892.0889,
-    "train_samples_per_second": 69.948,
-    "train_steps_per_second": 0.942
 }

 {
+    "epoch": 200.0,
+    "train_loss": 0.39147548845836094,
+    "train_runtime": 3403.5317,
+    "train_samples_per_second": 30.556,
+    "train_steps_per_second": 0.411
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.5402629375457764,
-  "best_model_checkpoint": "./drive/MyDrive/repositories/torch_example_image-classification/outputs_letter3/checkpoint-840",
-  "epoch": 120.0,
   "eval_steps": 500,
-  "global_step": 840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1609,14 +1609,1079 @@
       "train_runtime": 892.0889,
       "train_samples_per_second": 69.948,
       "train_steps_per_second": 0.942
     }
   ],
   "logging_steps": 10,
-  "max_steps": 840,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 120,
   "save_steps": 500,
-  "total_flos": 4.837667104869581e+18,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6097954511642456,
+  "best_model_checkpoint": "./outputs_letter3/checkpoint-1386",
+  "epoch": 200.0,
   "eval_steps": 500,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 892.0889,
       "train_samples_per_second": 69.948,
       "train_steps_per_second": 0.942
+    },
+    {
+      "epoch": 121.0,
+      "eval_accuracy": 0.6692307692307692,
+      "eval_loss": 2.35441255569458,
+      "eval_runtime": 2.1277,
+      "eval_samples_per_second": 61.098,
+      "eval_steps_per_second": 0.94,
+      "step": 847
+    },
+    {
+      "epoch": 121.43,
+      "learning_rate": 1.985714285714286e-05,
+      "loss": 1.4504,
+      "step": 850
+    },
+    {
+      "epoch": 122.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.3751370906829834,
+      "eval_runtime": 2.1033,
+      "eval_samples_per_second": 61.809,
+      "eval_steps_per_second": 0.951,
+      "step": 854
+    },
+    {
+      "epoch": 122.86,
+      "learning_rate": 1.9714285714285718e-05,
+      "loss": 1.3963,
+      "step": 860
+    },
+    {
+      "epoch": 123.0,
+      "eval_accuracy": 0.6538461538461539,
+      "eval_loss": 2.3588593006134033,
+      "eval_runtime": 2.0842,
+      "eval_samples_per_second": 62.373,
+      "eval_steps_per_second": 0.96,
+      "step": 861
+    },
+    {
+      "epoch": 124.0,
+      "eval_accuracy": 0.6538461538461539,
+      "eval_loss": 2.353787899017334,
+      "eval_runtime": 2.1043,
+      "eval_samples_per_second": 61.78,
+      "eval_steps_per_second": 0.95,
+      "step": 868
+    },
+    {
+      "epoch": 124.29,
+      "learning_rate": 1.9571428571428572e-05,
+      "loss": 1.4087,
+      "step": 870
+    },
+    {
+      "epoch": 125.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.326305627822876,
+      "eval_runtime": 2.1627,
+      "eval_samples_per_second": 60.11,
+      "eval_steps_per_second": 0.925,
+      "step": 875
+    },
+    {
+      "epoch": 125.71,
+      "learning_rate": 1.942857142857143e-05,
+      "loss": 1.3564,
+      "step": 880
+    },
+    {
+      "epoch": 126.0,
+      "eval_accuracy": 0.6230769230769231,
+      "eval_loss": 2.3176610469818115,
+      "eval_runtime": 2.2283,
+      "eval_samples_per_second": 58.34,
+      "eval_steps_per_second": 0.898,
+      "step": 882
+    },
+    {
+      "epoch": 127.0,
+      "eval_accuracy": 0.6615384615384615,
+      "eval_loss": 2.263662099838257,
+      "eval_runtime": 2.1946,
+      "eval_samples_per_second": 59.236,
+      "eval_steps_per_second": 0.911,
+      "step": 889
+    },
+    {
+      "epoch": 127.14,
+      "learning_rate": 1.928571428571429e-05,
+      "loss": 1.373,
+      "step": 890
+    },
+    {
+      "epoch": 128.0,
+      "eval_accuracy": 0.6538461538461539,
+      "eval_loss": 2.2609002590179443,
+      "eval_runtime": 2.3121,
+      "eval_samples_per_second": 56.225,
+      "eval_steps_per_second": 0.865,
+      "step": 896
+    },
+    {
+      "epoch": 128.57,
+      "learning_rate": 1.9142857142857146e-05,
+      "loss": 1.346,
+      "step": 900
+    },
+    {
+      "epoch": 129.0,
+      "eval_accuracy": 0.6538461538461539,
+      "eval_loss": 2.259404182434082,
+      "eval_runtime": 2.1822,
+      "eval_samples_per_second": 59.572,
+      "eval_steps_per_second": 0.916,
+      "step": 903
+    },
+    {
+      "epoch": 130.0,
+      "learning_rate": 1.9e-05,
+      "loss": 1.3307,
+      "step": 910
+    },
+    {
+      "epoch": 130.0,
+      "eval_accuracy": 0.6538461538461539,
+      "eval_loss": 2.2564494609832764,
+      "eval_runtime": 2.3375,
+      "eval_samples_per_second": 55.615,
+      "eval_steps_per_second": 0.856,
+      "step": 910
+    },
+    {
+      "epoch": 131.0,
+      "eval_accuracy": 0.6307692307692307,
+      "eval_loss": 2.2525382041931152,
+      "eval_runtime": 2.2827,
+      "eval_samples_per_second": 56.95,
+      "eval_steps_per_second": 0.876,
+      "step": 917
+    },
+    {
+      "epoch": 131.43,
+      "learning_rate": 1.885714285714286e-05,
+      "loss": 1.3124,
+      "step": 920
+    },
+    {
+      "epoch": 132.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.218500852584839,
+      "eval_runtime": 2.2212,
+      "eval_samples_per_second": 58.526,
+      "eval_steps_per_second": 0.9,
+      "step": 924
+    },
+    {
+      "epoch": 132.86,
+      "learning_rate": 1.8714285714285717e-05,
+      "loss": 1.2848,
+      "step": 930
+    },
+    {
+      "epoch": 133.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.2194907665252686,
+      "eval_runtime": 2.3384,
+      "eval_samples_per_second": 55.594,
+      "eval_steps_per_second": 0.855,
+      "step": 931
+    },
+    {
+      "epoch": 134.0,
+      "eval_accuracy": 0.6307692307692307,
+      "eval_loss": 2.204814910888672,
+      "eval_runtime": 2.2103,
+      "eval_samples_per_second": 58.814,
+      "eval_steps_per_second": 0.905,
+      "step": 938
+    },
+    {
+      "epoch": 134.29,
+      "learning_rate": 1.8571428571428575e-05,
+      "loss": 1.256,
+      "step": 940
+    },
+    {
+      "epoch": 135.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.193894624710083,
+      "eval_runtime": 2.2027,
+      "eval_samples_per_second": 59.018,
+      "eval_steps_per_second": 0.908,
+      "step": 945
+    },
+    {
+      "epoch": 135.71,
+      "learning_rate": 1.842857142857143e-05,
+      "loss": 1.24,
+      "step": 950
+    },
+    {
+      "epoch": 136.0,
+      "eval_accuracy": 0.6461538461538462,
+      "eval_loss": 2.1721882820129395,
+      "eval_runtime": 2.3539,
+      "eval_samples_per_second": 55.226,
+      "eval_steps_per_second": 0.85,
+      "step": 952
+    },
+    {
+      "epoch": 137.0,
+      "eval_accuracy": 0.6846153846153846,
+      "eval_loss": 2.1497113704681396,
+      "eval_runtime": 2.1949,
+      "eval_samples_per_second": 59.23,
+      "eval_steps_per_second": 0.911,
+      "step": 959
+    },
+    {
+      "epoch": 137.14,
+      "learning_rate": 1.8285714285714288e-05,
+      "loss": 1.2318,
+      "step": 960
+    },
+    {
+      "epoch": 138.0,
+      "eval_accuracy": 0.6846153846153846,
+      "eval_loss": 2.1332032680511475,
+      "eval_runtime": 2.2346,
+      "eval_samples_per_second": 58.176,
+      "eval_steps_per_second": 0.895,
+      "step": 966
+    },
+    {
+      "epoch": 138.57,
+      "learning_rate": 1.8142857142857146e-05,
+      "loss": 1.1905,
+      "step": 970
+    },
+    {
+      "epoch": 139.0,
+      "eval_accuracy": 0.6923076923076923,
+      "eval_loss": 2.133913278579712,
+      "eval_runtime": 2.1776,
+      "eval_samples_per_second": 59.698,
+      "eval_steps_per_second": 0.918,
+      "step": 973
+    },
+    {
+      "epoch": 140.0,
+      "learning_rate": 1.8e-05,
+      "loss": 1.186,
+      "step": 980
+    },
+    {
+      "epoch": 140.0,
+      "eval_accuracy": 0.6692307692307692,
+      "eval_loss": 2.1346120834350586,
+      "eval_runtime": 2.3208,
+      "eval_samples_per_second": 56.016,
+      "eval_steps_per_second": 0.862,
+      "step": 980
+    },
+    {
+      "epoch": 141.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 2.092773914337158,
+      "eval_runtime": 2.3738,
+      "eval_samples_per_second": 54.764,
+      "eval_steps_per_second": 0.843,
+      "step": 987
+    },
+    {
+      "epoch": 141.43,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 1.1759,
+      "step": 990
+    },
+    {
+      "epoch": 142.0,
+      "eval_accuracy": 0.6846153846153846,
+      "eval_loss": 2.1067099571228027,
+      "eval_runtime": 2.356,
+      "eval_samples_per_second": 55.178,
+      "eval_steps_per_second": 0.849,
+      "step": 994
+    },
+    {
+      "epoch": 142.86,
+      "learning_rate": 1.7714285714285717e-05,
+      "loss": 1.132,
+      "step": 1000
+    },
+    {
+      "epoch": 143.0,
+      "eval_accuracy": 0.6692307692307692,
+      "eval_loss": 2.091548442840576,
+      "eval_runtime": 2.3185,
+      "eval_samples_per_second": 56.07,
+      "eval_steps_per_second": 0.863,
+      "step": 1001
+    },
+    {
+      "epoch": 144.0,
+      "eval_accuracy": 0.676923076923077,
+      "eval_loss": 2.0903213024139404,
+      "eval_runtime": 2.1804,
+      "eval_samples_per_second": 59.622,
+      "eval_steps_per_second": 0.917,
+      "step": 1008
+    },
+    {
+      "epoch": 144.29,
+      "learning_rate": 1.757142857142857e-05,
+      "loss": 1.1206,
+      "step": 1010
+    },
+    {
+      "epoch": 145.0,
+      "eval_accuracy": 0.676923076923077,
+      "eval_loss": 2.1074228286743164,
+      "eval_runtime": 2.3685,
+      "eval_samples_per_second": 54.887,
+      "eval_steps_per_second": 0.844,
+      "step": 1015
+    },
+    {
+      "epoch": 145.71,
+      "learning_rate": 1.742857142857143e-05,
+      "loss": 1.1096,
+      "step": 1020
+    },
+    {
+      "epoch": 146.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 2.0536632537841797,
+      "eval_runtime": 2.5866,
+      "eval_samples_per_second": 50.259,
+      "eval_steps_per_second": 0.773,
+      "step": 1022
+    },
+    {
+      "epoch": 147.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 2.061009407043457,
+      "eval_runtime": 2.3206,
+      "eval_samples_per_second": 56.021,
+      "eval_steps_per_second": 0.862,
+      "step": 1029
+    },
+    {
+      "epoch": 147.14,
+      "learning_rate": 1.7285714285714287e-05,
+      "loss": 1.0814,
+      "step": 1030
+    },
+    {
+      "epoch": 148.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 2.0476534366607666,
+      "eval_runtime": 2.1912,
+      "eval_samples_per_second": 59.33,
+      "eval_steps_per_second": 0.913,
+      "step": 1036
+    },
+    {
+      "epoch": 148.57,
+      "learning_rate": 1.7142857142857142e-05,
+      "loss": 1.0756,
+      "step": 1040
+    },
+    {
+      "epoch": 149.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 2.0184433460235596,
+      "eval_runtime": 2.2139,
+      "eval_samples_per_second": 58.72,
+      "eval_steps_per_second": 0.903,
+      "step": 1043
+    },
+    {
+      "epoch": 150.0,
+      "learning_rate": 1.7e-05,
+      "loss": 1.0638,
+      "step": 1050
+    },
+    {
+      "epoch": 150.0,
+      "eval_accuracy": 0.6923076923076923,
+      "eval_loss": 2.0189385414123535,
+      "eval_runtime": 3.1458,
+      "eval_samples_per_second": 41.325,
+      "eval_steps_per_second": 0.636,
+      "step": 1050
+    },
+    {
+      "epoch": 151.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 2.01568865776062,
+      "eval_runtime": 2.3668,
+      "eval_samples_per_second": 54.926,
+      "eval_steps_per_second": 0.845,
+      "step": 1057
+    },
+    {
+      "epoch": 151.43,
+      "learning_rate": 1.6857142857142858e-05,
+      "loss": 1.0343,
+      "step": 1060
+    },
+    {
+      "epoch": 152.0,
+      "eval_accuracy": 0.6923076923076923,
+      "eval_loss": 1.9978599548339844,
+      "eval_runtime": 2.3546,
+      "eval_samples_per_second": 55.211,
+      "eval_steps_per_second": 0.849,
+      "step": 1064
+    },
+    {
+      "epoch": 152.86,
+      "learning_rate": 1.6714285714285716e-05,
+      "loss": 1.0187,
+      "step": 1070
+    },
+    {
+      "epoch": 153.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.9824119806289673,
+      "eval_runtime": 2.2036,
+      "eval_samples_per_second": 58.995,
+      "eval_steps_per_second": 0.908,
+      "step": 1071
+    },
+    {
+      "epoch": 154.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 1.968167781829834,
+      "eval_runtime": 2.422,
+      "eval_samples_per_second": 53.675,
+      "eval_steps_per_second": 0.826,
+      "step": 1078
+    },
+    {
+      "epoch": 154.29,
+      "learning_rate": 1.6571428571428574e-05,
+      "loss": 0.9993,
+      "step": 1080
+    },
+    {
+      "epoch": 155.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.9394822120666504,
+      "eval_runtime": 2.3562,
+      "eval_samples_per_second": 55.175,
+      "eval_steps_per_second": 0.849,
+      "step": 1085
+    },
+    {
+      "epoch": 155.71,
+      "learning_rate": 1.642857142857143e-05,
+      "loss": 1.0029,
+      "step": 1090
+    },
+    {
+      "epoch": 156.0,
+      "eval_accuracy": 0.7153846153846154,
+      "eval_loss": 1.920530080795288,
+      "eval_runtime": 2.3989,
+      "eval_samples_per_second": 54.191,
+      "eval_steps_per_second": 0.834,
+      "step": 1092
+    },
+    {
+      "epoch": 157.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 1.906773567199707,
+      "eval_runtime": 2.3766,
+      "eval_samples_per_second": 54.699,
+      "eval_steps_per_second": 0.842,
+      "step": 1099
+    },
+    {
+      "epoch": 157.14,
+      "learning_rate": 1.6285714285714287e-05,
+      "loss": 0.9703,
+      "step": 1100
+    },
+    {
+      "epoch": 158.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.899588704109192,
+      "eval_runtime": 2.3516,
+      "eval_samples_per_second": 55.282,
+      "eval_steps_per_second": 0.85,
+      "step": 1106
+    },
+    {
+      "epoch": 158.57,
+      "learning_rate": 1.6142857142857145e-05,
+      "loss": 0.9532,
+      "step": 1110
+    },
+    {
+      "epoch": 159.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 1.8944636583328247,
+      "eval_runtime": 2.2108,
+      "eval_samples_per_second": 58.803,
+      "eval_steps_per_second": 0.905,
+      "step": 1113
+    },
+    {
+      "epoch": 160.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.9526,
+      "step": 1120
+    },
+    {
+      "epoch": 160.0,
+      "eval_accuracy": 0.7307692307692307,
+      "eval_loss": 1.8939263820648193,
+      "eval_runtime": 2.2202,
+      "eval_samples_per_second": 58.553,
+      "eval_steps_per_second": 0.901,
+      "step": 1120
+    },
+    {
+      "epoch": 161.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.8937941789627075,
+      "eval_runtime": 2.3259,
+      "eval_samples_per_second": 55.892,
+      "eval_steps_per_second": 0.86,
+      "step": 1127
+    },
+    {
+      "epoch": 161.43,
+      "learning_rate": 1.5857142857142857e-05,
+      "loss": 0.9365,
+      "step": 1130
+    },
+    {
+      "epoch": 162.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.8544682264328003,
+      "eval_runtime": 2.1829,
+      "eval_samples_per_second": 59.554,
+      "eval_steps_per_second": 0.916,
+      "step": 1134
+    },
+    {
+      "epoch": 162.86,
+      "learning_rate": 1.5714285714285715e-05,
+      "loss": 0.9301,
+      "step": 1140
+    },
+    {
+      "epoch": 163.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.860898733139038,
+      "eval_runtime": 2.2861,
+      "eval_samples_per_second": 56.864,
+      "eval_steps_per_second": 0.875,
+      "step": 1141
+    },
+    {
+      "epoch": 164.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.8540517091751099,
+      "eval_runtime": 2.2092,
+      "eval_samples_per_second": 58.844,
+      "eval_steps_per_second": 0.905,
+      "step": 1148
+    },
+    {
+      "epoch": 164.29,
+      "learning_rate": 1.5571428571428573e-05,
+      "loss": 0.8856,
+      "step": 1150
+    },
+    {
+      "epoch": 165.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 1.884601354598999,
+      "eval_runtime": 2.2447,
+      "eval_samples_per_second": 57.915,
+      "eval_steps_per_second": 0.891,
+      "step": 1155
+    },
+    {
+      "epoch": 165.71,
+      "learning_rate": 1.542857142857143e-05,
+      "loss": 0.8801,
+      "step": 1160
+    },
+    {
+      "epoch": 166.0,
+      "eval_accuracy": 0.7076923076923077,
+      "eval_loss": 1.867126226425171,
+      "eval_runtime": 2.2028,
+      "eval_samples_per_second": 59.017,
+      "eval_steps_per_second": 0.908,
+      "step": 1162
+    },
+    {
+      "epoch": 167.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.8465133905410767,
+      "eval_runtime": 2.3398,
+      "eval_samples_per_second": 55.559,
+      "eval_steps_per_second": 0.855,
+      "step": 1169
+    },
+    {
+      "epoch": 167.14,
+      "learning_rate": 1.5285714285714286e-05,
+      "loss": 0.8898,
+      "step": 1170
+    },
+    {
+      "epoch": 168.0,
+      "eval_accuracy": 0.7230769230769231,
+      "eval_loss": 1.8428664207458496,
+      "eval_runtime": 2.1983,
+      "eval_samples_per_second": 59.138,
+      "eval_steps_per_second": 0.91,
+      "step": 1176
+    },
+    {
+      "epoch": 168.57,
+      "learning_rate": 1.5142857142857144e-05,
+      "loss": 0.8729,
+      "step": 1180
+    },
+    {
+      "epoch": 169.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.832564115524292,
+      "eval_runtime": 2.357,
+      "eval_samples_per_second": 55.155,
+      "eval_steps_per_second": 0.849,
+      "step": 1183
+    },
+    {
+      "epoch": 170.0,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.8632,
+      "step": 1190
+    },
+    {
+      "epoch": 170.0,
+      "eval_accuracy": 0.7461538461538462,
+      "eval_loss": 1.810370683670044,
+      "eval_runtime": 2.4307,
+      "eval_samples_per_second": 53.483,
+      "eval_steps_per_second": 0.823,
+      "step": 1190
+    },
+    {
+      "epoch": 171.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.8017692565917969,
+      "eval_runtime": 2.2052,
+      "eval_samples_per_second": 58.951,
+      "eval_steps_per_second": 0.907,
+      "step": 1197
+    },
+    {
+      "epoch": 171.43,
+      "learning_rate": 1.4857142857142858e-05,
+      "loss": 0.8423,
+      "step": 1200
+    },
+    {
+      "epoch": 172.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.7875727415084839,
+      "eval_runtime": 2.3658,
+      "eval_samples_per_second": 54.949,
+      "eval_steps_per_second": 0.845,
+      "step": 1204
+    },
+    {
+      "epoch": 172.86,
+      "learning_rate": 1.4714285714285716e-05,
+      "loss": 0.828,
+      "step": 1210
+    },
+    {
+      "epoch": 173.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.787375569343567,
+      "eval_runtime": 2.2488,
+      "eval_samples_per_second": 57.808,
+      "eval_steps_per_second": 0.889,
+      "step": 1211
+    },
+    {
+      "epoch": 174.0,
+      "eval_accuracy": 0.7692307692307693,
+      "eval_loss": 1.7785577774047852,
+      "eval_runtime": 2.3295,
+      "eval_samples_per_second": 55.807,
+      "eval_steps_per_second": 0.859,
+      "step": 1218
+    },
+    {
+      "epoch": 174.29,
+      "learning_rate": 1.4571428571428573e-05,
+      "loss": 0.8063,
+      "step": 1220
+    },
+    {
+      "epoch": 175.0,
+      "eval_accuracy": 0.7461538461538462,
+      "eval_loss": 1.7820396423339844,
+      "eval_runtime": 2.2553,
+      "eval_samples_per_second": 57.642,
+      "eval_steps_per_second": 0.887,
+      "step": 1225
+    },
+    {
+      "epoch": 175.71,
+      "learning_rate": 1.4428571428571429e-05,
+      "loss": 0.8084,
+      "step": 1230
+    },
+    {
+      "epoch": 176.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.800405502319336,
+      "eval_runtime": 2.303,
+      "eval_samples_per_second": 56.447,
+      "eval_steps_per_second": 0.868,
+      "step": 1232
+    },
+    {
+      "epoch": 177.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.787461757659912,
+      "eval_runtime": 2.2538,
+      "eval_samples_per_second": 57.679,
+      "eval_steps_per_second": 0.887,
+      "step": 1239
+    },
+    {
+      "epoch": 177.14,
+      "learning_rate": 1.4285714285714287e-05,
+      "loss": 0.7948,
+      "step": 1240
+    },
+    {
+      "epoch": 178.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.7639268636703491,
+      "eval_runtime": 2.3516,
+      "eval_samples_per_second": 55.281,
+      "eval_steps_per_second": 0.85,
+      "step": 1246
+    },
+    {
+      "epoch": 178.57,
+      "learning_rate": 1.4142857142857145e-05,
+      "loss": 0.7687,
+      "step": 1250
+    },
+    {
+      "epoch": 179.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.7797616720199585,
+      "eval_runtime": 2.2016,
+      "eval_samples_per_second": 59.047,
+      "eval_steps_per_second": 0.908,
+      "step": 1253
+    },
+    {
+      "epoch": 180.0,
+      "learning_rate": 1.4e-05,
+      "loss": 0.7598,
+      "step": 1260
+    },
+    {
+      "epoch": 180.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.7775954008102417,
+      "eval_runtime": 2.2652,
+      "eval_samples_per_second": 57.389,
+      "eval_steps_per_second": 0.883,
+      "step": 1260
+    },
+    {
+      "epoch": 181.0,
+      "eval_accuracy": 0.7384615384615385,
+      "eval_loss": 1.7582831382751465,
+      "eval_runtime": 2.3301,
+      "eval_samples_per_second": 55.792,
+      "eval_steps_per_second": 0.858,
+      "step": 1267
+    },
+    {
+      "epoch": 181.43,
+      "learning_rate": 1.3857142857142858e-05,
+      "loss": 0.7622,
+      "step": 1270
+    },
+    {
+      "epoch": 182.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.7546014785766602,
+      "eval_runtime": 2.3427,
+      "eval_samples_per_second": 55.493,
+      "eval_steps_per_second": 0.854,
+      "step": 1274
+    },
+    {
+      "epoch": 182.86,
+      "learning_rate": 1.3714285714285716e-05,
+      "loss": 0.754,
+      "step": 1280
+    },
+    {
+      "epoch": 183.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.7243136167526245,
+      "eval_runtime": 2.2386,
+      "eval_samples_per_second": 58.071,
+      "eval_steps_per_second": 0.893,
+      "step": 1281
+    },
+    {
+      "epoch": 184.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.7218064069747925,
+      "eval_runtime": 2.3487,
+      "eval_samples_per_second": 55.35,
+      "eval_steps_per_second": 0.852,
+      "step": 1288
+    },
+    {
+      "epoch": 184.29,
+      "learning_rate": 1.3571428571428574e-05,
+      "loss": 0.7397,
+      "step": 1290
+    },
+    {
+      "epoch": 185.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.6983821392059326,
+      "eval_runtime": 2.2077,
+      "eval_samples_per_second": 58.886,
+      "eval_steps_per_second": 0.906,
+      "step": 1295
+    },
+    {
+      "epoch": 185.71,
+      "learning_rate": 1.3428571428571429e-05,
+      "loss": 0.7171,
+      "step": 1300
+    },
+    {
+      "epoch": 186.0,
+      "eval_accuracy": 0.7461538461538462,
+      "eval_loss": 1.6678060293197632,
+      "eval_runtime": 2.3645,
+      "eval_samples_per_second": 54.98,
+      "eval_steps_per_second": 0.846,
+      "step": 1302
+    },
+    {
+      "epoch": 187.0,
+      "eval_accuracy": 0.7692307692307693,
+      "eval_loss": 1.6591731309890747,
+      "eval_runtime": 2.3411,
+      "eval_samples_per_second": 55.529,
+      "eval_steps_per_second": 0.854,
+      "step": 1309
+    },
+    {
+      "epoch": 187.14,
+      "learning_rate": 1.3285714285714287e-05,
+      "loss": 0.7351,
+      "step": 1310
+    },
+    {
+      "epoch": 188.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.67545747756958,
+      "eval_runtime": 2.2255,
+      "eval_samples_per_second": 58.414,
+      "eval_steps_per_second": 0.899,
+      "step": 1316
+    },
+    {
+      "epoch": 188.57,
+      "learning_rate": 1.3142857142857145e-05,
+      "loss": 0.717,
+      "step": 1320
+    },
+    {
+      "epoch": 189.0,
+      "eval_accuracy": 0.7846153846153846,
+      "eval_loss": 1.6684316396713257,
+      "eval_runtime": 2.2461,
+      "eval_samples_per_second": 57.879,
+      "eval_steps_per_second": 0.89,
+      "step": 1323
+    },
+    {
+      "epoch": 190.0,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.703,
+      "step": 1330
+    },
+    {
+      "epoch": 190.0,
+      "eval_accuracy": 0.7692307692307693,
+      "eval_loss": 1.6624796390533447,
+      "eval_runtime": 2.3197,
+      "eval_samples_per_second": 56.043,
+      "eval_steps_per_second": 0.862,
+      "step": 1330
+    },
+    {
+      "epoch": 191.0,
+      "eval_accuracy": 0.7769230769230769,
+      "eval_loss": 1.6624727249145508,
+      "eval_runtime": 2.2578,
+      "eval_samples_per_second": 57.577,
+      "eval_steps_per_second": 0.886,
+      "step": 1337
+    },
+    {
+      "epoch": 191.43,
+      "learning_rate": 1.2857142857142859e-05,
+      "loss": 0.7036,
+      "step": 1340
+    },
+    {
+      "epoch": 192.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.6422407627105713,
+      "eval_runtime": 2.4009,
+      "eval_samples_per_second": 54.146,
+      "eval_steps_per_second": 0.833,
+      "step": 1344
+    },
+    {
+      "epoch": 192.86,
+      "learning_rate": 1.2714285714285715e-05,
+      "loss": 0.698,
+      "step": 1350
+    },
+    {
+      "epoch": 193.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.6632704734802246,
+      "eval_runtime": 2.2565,
+      "eval_samples_per_second": 57.612,
+      "eval_steps_per_second": 0.886,
+      "step": 1351
+    },
+    {
+      "epoch": 194.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.663210153579712,
+      "eval_runtime": 2.3463,
+      "eval_samples_per_second": 55.406,
+      "eval_steps_per_second": 0.852,
+      "step": 1358
+    },
+    {
+      "epoch": 194.29,
+      "learning_rate": 1.2571428571428572e-05,
+      "loss": 0.7002,
+      "step": 1360
+    },
+    {
+      "epoch": 195.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.6452277898788452,
+      "eval_runtime": 2.2223,
+      "eval_samples_per_second": 58.497,
+      "eval_steps_per_second": 0.9,
+      "step": 1365
+    },
+    {
+      "epoch": 195.71,
+      "learning_rate": 1.242857142857143e-05,
+      "loss": 0.6662,
+      "step": 1370
+    },
+    {
+      "epoch": 196.0,
+      "eval_accuracy": 0.7615384615384615,
+      "eval_loss": 1.6403251886367798,
+      "eval_runtime": 2.3447,
+      "eval_samples_per_second": 55.444,
+      "eval_steps_per_second": 0.853,
+      "step": 1372
+    },
+    {
+      "epoch": 197.0,
+      "eval_accuracy": 0.7538461538461538,
+      "eval_loss": 1.627591848373413,
+      "eval_runtime": 2.3495,
+      "eval_samples_per_second": 55.332,
+      "eval_steps_per_second": 0.851,
+      "step": 1379
+    },
+    {
+      "epoch": 197.14,
+      "learning_rate": 1.2285714285714288e-05,
+      "loss": 0.6771,
+      "step": 1380
+    },
+    {
+      "epoch": 198.0,
+      "eval_accuracy": 0.7769230769230769,
+      "eval_loss": 1.6097954511642456,
+      "eval_runtime": 2.2213,
+      "eval_samples_per_second": 58.524,
+      "eval_steps_per_second": 0.9,
+      "step": 1386
+    },
+    {
+      "epoch": 198.57,
+      "learning_rate": 1.2142857142857142e-05,
+      "loss": 0.6588,
+      "step": 1390
+    },
+    {
+      "epoch": 199.0,
+      "eval_accuracy": 0.7692307692307693,
+      "eval_loss": 1.622355580329895,
+      "eval_runtime": 2.2376,
+      "eval_samples_per_second": 58.098,
+      "eval_steps_per_second": 0.894,
+      "step": 1393
+    },
+    {
+      "epoch": 200.0,
+      "learning_rate": 1.2e-05,
+      "loss": 0.6549,
+      "step": 1400
+    },
+    {
+      "epoch": 200.0,
+      "eval_accuracy": 0.7461538461538462,
+      "eval_loss": 1.6263408660888672,
+      "eval_runtime": 2.3312,
+      "eval_samples_per_second": 55.765,
+      "eval_steps_per_second": 0.858,
+      "step": 1400
+    },
+    {
+      "epoch": 200.0,
+      "step": 1400,
+      "total_flos": 8.062778508115968e+18,
+      "train_loss": 0.39147548845836094,
+      "train_runtime": 3403.5317,
+      "train_samples_per_second": 30.556,
+      "train_steps_per_second": 0.411
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1400,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 200,
   "save_steps": 500,
+  "total_flos": 8.062778508115968e+18,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null