End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +12 -0
eval_results.json +8 -0
runs/Dec19_00-25-43_b6c43624a1ee/events.out.tfevents.1702946597.b6c43624a1ee.6546.1 +3 -0
train_results.json +7 -0
trainer_state.json +1182 -0

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -32,7 +34,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0185
 - Accuracy: 1.0
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 datasets:
 - imagefolder
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0186
 - Accuracy: 1.0
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 120.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.0186475720256567,
+    "eval_runtime": 6.0071,
+    "eval_samples_per_second": 1.498,
+    "eval_steps_per_second": 0.166,
+    "train_loss": 0.07813952726622422,
+    "train_runtime": 1030.5859,
+    "train_samples_per_second": 5.938,
+    "train_steps_per_second": 0.116
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 120.0,
+    "eval_accuracy": 1.0,
+    "eval_loss": 0.0186475720256567,
+    "eval_runtime": 6.0071,
+    "eval_samples_per_second": 1.498,
+    "eval_steps_per_second": 0.166
+}

runs/Dec19_00-25-43_b6c43624a1ee/events.out.tfevents.1702946597.b6c43624a1ee.6546.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e74b338be4e2e5598d48702393dc2043e0619b2ab84bdb59d6f6493836580c3
+size 405

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 120.0,
+    "train_loss": 0.07813952726622422,
+    "train_runtime": 1030.5859,
+    "train_samples_per_second": 5.938,
+    "train_steps_per_second": 0.116
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1182 @@

+{
+  "best_metric": 0.018274879083037376,
+  "best_model_checkpoint": "./drive/MyDrive/repositories/torch_example_image-classification/outputs3/checkpoint-115",
+  "epoch": 120.0,
+  "eval_steps": 500,
+  "global_step": 120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.5751205682754517,
+      "eval_runtime": 6.6033,
+      "eval_samples_per_second": 1.363,
+      "eval_steps_per_second": 0.151,
+      "step": 1
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.508073091506958,
+      "eval_runtime": 0.1375,
+      "eval_samples_per_second": 65.474,
+      "eval_steps_per_second": 7.275,
+      "step": 2
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.46539825201034546,
+      "eval_runtime": 0.1277,
+      "eval_samples_per_second": 70.471,
+      "eval_steps_per_second": 7.83,
+      "step": 3
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.4014008939266205,
+      "eval_runtime": 0.1365,
+      "eval_samples_per_second": 65.949,
+      "eval_steps_per_second": 7.328,
+      "step": 4
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.3691883683204651,
+      "eval_runtime": 0.1452,
+      "eval_samples_per_second": 62.003,
+      "eval_steps_per_second": 6.889,
+      "step": 5
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.33271580934524536,
+      "eval_runtime": 0.1543,
+      "eval_samples_per_second": 58.338,
+      "eval_steps_per_second": 6.482,
+      "step": 6
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.29366230964660645,
+      "eval_runtime": 0.1402,
+      "eval_samples_per_second": 64.178,
+      "eval_steps_per_second": 7.131,
+      "step": 7
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.27746275067329407,
+      "eval_runtime": 0.1482,
+      "eval_samples_per_second": 60.711,
+      "eval_steps_per_second": 6.746,
+      "step": 8
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.23346243798732758,
+      "eval_runtime": 0.1319,
+      "eval_samples_per_second": 68.21,
+      "eval_steps_per_second": 7.579,
+      "step": 9
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.4432,
+      "step": 10
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.2092142403125763,
+      "eval_runtime": 0.1641,
+      "eval_samples_per_second": 54.858,
+      "eval_steps_per_second": 6.095,
+      "step": 10
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.20070181787014008,
+      "eval_runtime": 0.1365,
+      "eval_samples_per_second": 65.913,
+      "eval_steps_per_second": 7.324,
+      "step": 11
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.16740131378173828,
+      "eval_runtime": 0.1357,
+      "eval_samples_per_second": 66.338,
+      "eval_steps_per_second": 7.371,
+      "step": 12
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.1546010971069336,
+      "eval_runtime": 0.1323,
+      "eval_samples_per_second": 68.042,
+      "eval_steps_per_second": 7.56,
+      "step": 13
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.13928303122520447,
+      "eval_runtime": 0.1256,
+      "eval_samples_per_second": 71.669,
+      "eval_steps_per_second": 7.963,
+      "step": 14
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.12973126769065857,
+      "eval_runtime": 0.1598,
+      "eval_samples_per_second": 56.334,
+      "eval_steps_per_second": 6.259,
+      "step": 15
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.12185994535684586,
+      "eval_runtime": 0.129,
+      "eval_samples_per_second": 69.791,
+      "eval_steps_per_second": 7.755,
+      "step": 16
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.10901562124490738,
+      "eval_runtime": 0.1351,
+      "eval_samples_per_second": 66.632,
+      "eval_steps_per_second": 7.404,
+      "step": 17
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.10118965059518814,
+      "eval_runtime": 0.1339,
+      "eval_samples_per_second": 67.193,
+      "eval_steps_per_second": 7.466,
+      "step": 18
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.09813226014375687,
+      "eval_runtime": 0.1408,
+      "eval_samples_per_second": 63.926,
+      "eval_steps_per_second": 7.103,
+      "step": 19
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.1696,
+      "step": 20
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.08743412792682648,
+      "eval_runtime": 0.1305,
+      "eval_samples_per_second": 68.95,
+      "eval_steps_per_second": 7.661,
+      "step": 20
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.08119351416826248,
+      "eval_runtime": 0.1384,
+      "eval_samples_per_second": 65.021,
+      "eval_steps_per_second": 7.225,
+      "step": 21
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.07503622770309448,
+      "eval_runtime": 0.1377,
+      "eval_samples_per_second": 65.382,
+      "eval_steps_per_second": 7.265,
+      "step": 22
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.07538507133722305,
+      "eval_runtime": 0.1454,
+      "eval_samples_per_second": 61.884,
+      "eval_steps_per_second": 6.876,
+      "step": 23
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.06934237480163574,
+      "eval_runtime": 0.1277,
+      "eval_samples_per_second": 70.459,
+      "eval_steps_per_second": 7.829,
+      "step": 24
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.06419406086206436,
+      "eval_runtime": 0.1298,
+      "eval_samples_per_second": 69.338,
+      "eval_steps_per_second": 7.704,
+      "step": 25
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.06099466606974602,
+      "eval_runtime": 0.1313,
+      "eval_samples_per_second": 68.527,
+      "eval_steps_per_second": 7.614,
+      "step": 26
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.058600153774023056,
+      "eval_runtime": 2.7473,
+      "eval_samples_per_second": 3.276,
+      "eval_steps_per_second": 0.364,
+      "step": 27
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.05692301690578461,
+      "eval_runtime": 0.1269,
+      "eval_samples_per_second": 70.898,
+      "eval_steps_per_second": 7.878,
+      "step": 28
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.05317116528749466,
+      "eval_runtime": 0.1357,
+      "eval_samples_per_second": 66.346,
+      "eval_steps_per_second": 7.372,
+      "step": 29
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.0792,
+      "step": 30
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0506051704287529,
+      "eval_runtime": 0.1381,
+      "eval_samples_per_second": 65.164,
+      "eval_steps_per_second": 7.24,
+      "step": 30
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.049507126212120056,
+      "eval_runtime": 0.1288,
+      "eval_samples_per_second": 69.852,
+      "eval_steps_per_second": 7.761,
+      "step": 31
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.047622185200452805,
+      "eval_runtime": 0.1335,
+      "eval_samples_per_second": 67.403,
+      "eval_steps_per_second": 7.489,
+      "step": 32
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.04570432007312775,
+      "eval_runtime": 0.1542,
+      "eval_samples_per_second": 58.363,
+      "eval_steps_per_second": 6.485,
+      "step": 33
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.04416535794734955,
+      "eval_runtime": 0.1278,
+      "eval_samples_per_second": 70.446,
+      "eval_steps_per_second": 7.827,
+      "step": 34
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.041947636753320694,
+      "eval_runtime": 0.1271,
+      "eval_samples_per_second": 70.804,
+      "eval_steps_per_second": 7.867,
+      "step": 35
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.04041131213307381,
+      "eval_runtime": 0.1382,
+      "eval_samples_per_second": 65.106,
+      "eval_steps_per_second": 7.234,
+      "step": 36
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03958812355995178,
+      "eval_runtime": 0.149,
+      "eval_samples_per_second": 60.405,
+      "eval_steps_per_second": 6.712,
+      "step": 37
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0383819043636322,
+      "eval_runtime": 0.1281,
+      "eval_samples_per_second": 70.282,
+      "eval_steps_per_second": 7.809,
+      "step": 38
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03773792088031769,
+      "eval_runtime": 0.1297,
+      "eval_samples_per_second": 69.409,
+      "eval_steps_per_second": 7.712,
+      "step": 39
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.049,
+      "step": 40
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03664920851588249,
+      "eval_runtime": 0.1332,
+      "eval_samples_per_second": 67.583,
+      "eval_steps_per_second": 7.509,
+      "step": 40
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03701655566692352,
+      "eval_runtime": 0.1399,
+      "eval_samples_per_second": 64.34,
+      "eval_steps_per_second": 7.149,
+      "step": 41
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03389488160610199,
+      "eval_runtime": 0.1394,
+      "eval_samples_per_second": 64.543,
+      "eval_steps_per_second": 7.171,
+      "step": 42
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03304838761687279,
+      "eval_runtime": 0.1264,
+      "eval_samples_per_second": 71.198,
+      "eval_steps_per_second": 7.911,
+      "step": 43
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03438062593340874,
+      "eval_runtime": 0.1325,
+      "eval_samples_per_second": 67.899,
+      "eval_steps_per_second": 7.544,
+      "step": 44
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.032368406653404236,
+      "eval_runtime": 0.1314,
+      "eval_samples_per_second": 68.518,
+      "eval_steps_per_second": 7.613,
+      "step": 45
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.03226124122738838,
+      "eval_runtime": 0.1386,
+      "eval_samples_per_second": 64.933,
+      "eval_steps_per_second": 7.215,
+      "step": 46
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.031140118837356567,
+      "eval_runtime": 0.1386,
+      "eval_samples_per_second": 64.914,
+      "eval_steps_per_second": 7.213,
+      "step": 47
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.030753135681152344,
+      "eval_runtime": 0.1285,
+      "eval_samples_per_second": 70.06,
+      "eval_steps_per_second": 7.784,
+      "step": 48
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.029377290979027748,
+      "eval_runtime": 0.134,
+      "eval_samples_per_second": 67.146,
+      "eval_steps_per_second": 7.461,
+      "step": 49
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 1.1666666666666668e-05,
+      "loss": 0.0359,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02965053915977478,
+      "eval_runtime": 0.1451,
+      "eval_samples_per_second": 62.041,
+      "eval_steps_per_second": 6.893,
+      "step": 50
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02891460806131363,
+      "eval_runtime": 0.1394,
+      "eval_samples_per_second": 64.561,
+      "eval_steps_per_second": 7.173,
+      "step": 51
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.028457429260015488,
+      "eval_runtime": 0.1579,
+      "eval_samples_per_second": 56.996,
+      "eval_steps_per_second": 6.333,
+      "step": 52
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.027989288792014122,
+      "eval_runtime": 2.6177,
+      "eval_samples_per_second": 3.438,
+      "eval_steps_per_second": 0.382,
+      "step": 53
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02697157859802246,
+      "eval_runtime": 0.1341,
+      "eval_samples_per_second": 67.138,
+      "eval_steps_per_second": 7.46,
+      "step": 54
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.026479896157979965,
+      "eval_runtime": 0.138,
+      "eval_samples_per_second": 65.23,
+      "eval_steps_per_second": 7.248,
+      "step": 55
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02658195048570633,
+      "eval_runtime": 0.1301,
+      "eval_samples_per_second": 69.158,
+      "eval_steps_per_second": 7.684,
+      "step": 56
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.026072878390550613,
+      "eval_runtime": 0.137,
+      "eval_samples_per_second": 65.67,
+      "eval_steps_per_second": 7.297,
+      "step": 57
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.026831289753317833,
+      "eval_runtime": 0.1385,
+      "eval_samples_per_second": 64.98,
+      "eval_steps_per_second": 7.22,
+      "step": 58
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.025475598871707916,
+      "eval_runtime": 0.1444,
+      "eval_samples_per_second": 62.335,
+      "eval_steps_per_second": 6.926,
+      "step": 59
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 1e-05,
+      "loss": 0.0293,
+      "step": 60
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0254827793687582,
+      "eval_runtime": 0.1362,
+      "eval_samples_per_second": 66.058,
+      "eval_steps_per_second": 7.34,
+      "step": 60
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02456030063331127,
+      "eval_runtime": 0.1455,
+      "eval_samples_per_second": 61.856,
+      "eval_steps_per_second": 6.873,
+      "step": 61
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.025619812309741974,
+      "eval_runtime": 0.14,
+      "eval_samples_per_second": 64.308,
+      "eval_steps_per_second": 7.145,
+      "step": 62
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.024687545374035835,
+      "eval_runtime": 0.1341,
+      "eval_samples_per_second": 67.136,
+      "eval_steps_per_second": 7.46,
+      "step": 63
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02405836433172226,
+      "eval_runtime": 0.1463,
+      "eval_samples_per_second": 61.502,
+      "eval_steps_per_second": 6.834,
+      "step": 64
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02410367876291275,
+      "eval_runtime": 0.1336,
+      "eval_samples_per_second": 67.368,
+      "eval_steps_per_second": 7.485,
+      "step": 65
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02341434732079506,
+      "eval_runtime": 0.1326,
+      "eval_samples_per_second": 67.862,
+      "eval_steps_per_second": 7.54,
+      "step": 66
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.023647040128707886,
+      "eval_runtime": 0.1325,
+      "eval_samples_per_second": 67.902,
+      "eval_steps_per_second": 7.545,
+      "step": 67
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02281663753092289,
+      "eval_runtime": 0.1334,
+      "eval_samples_per_second": 67.464,
+      "eval_steps_per_second": 7.496,
+      "step": 68
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.023257458582520485,
+      "eval_runtime": 0.1308,
+      "eval_samples_per_second": 68.813,
+      "eval_steps_per_second": 7.646,
+      "step": 69
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0256,
+      "step": 70
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.022747112438082695,
+      "eval_runtime": 0.1352,
+      "eval_samples_per_second": 66.563,
+      "eval_steps_per_second": 7.396,
+      "step": 70
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.022654477506875992,
+      "eval_runtime": 0.138,
+      "eval_samples_per_second": 65.228,
+      "eval_steps_per_second": 7.248,
+      "step": 71
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.022984912618994713,
+      "eval_runtime": 0.1431,
+      "eval_samples_per_second": 62.899,
+      "eval_steps_per_second": 6.989,
+      "step": 72
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.022151878103613853,
+      "eval_runtime": 0.137,
+      "eval_samples_per_second": 65.705,
+      "eval_steps_per_second": 7.301,
+      "step": 73
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.022022059187293053,
+      "eval_runtime": 0.1274,
+      "eval_samples_per_second": 70.646,
+      "eval_steps_per_second": 7.85,
+      "step": 74
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02206052653491497,
+      "eval_runtime": 0.1313,
+      "eval_samples_per_second": 68.558,
+      "eval_steps_per_second": 7.618,
+      "step": 75
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.021884923800826073,
+      "eval_runtime": 0.1275,
+      "eval_samples_per_second": 70.602,
+      "eval_steps_per_second": 7.845,
+      "step": 76
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.021523766219615936,
+      "eval_runtime": 0.1281,
+      "eval_samples_per_second": 70.269,
+      "eval_steps_per_second": 7.808,
+      "step": 77
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02103014849126339,
+      "eval_runtime": 0.1284,
+      "eval_samples_per_second": 70.078,
+      "eval_steps_per_second": 7.786,
+      "step": 78
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020907729864120483,
+      "eval_runtime": 0.1402,
+      "eval_samples_per_second": 64.198,
+      "eval_steps_per_second": 7.133,
+      "step": 79
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0234,
+      "step": 80
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.021248452365398407,
+      "eval_runtime": 0.138,
+      "eval_samples_per_second": 65.201,
+      "eval_steps_per_second": 7.245,
+      "step": 80
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02118901163339615,
+      "eval_runtime": 1.9564,
+      "eval_samples_per_second": 4.6,
+      "eval_steps_per_second": 0.511,
+      "step": 81
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020638220012187958,
+      "eval_runtime": 0.1298,
+      "eval_samples_per_second": 69.343,
+      "eval_steps_per_second": 7.705,
+      "step": 82
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.0210101418197155,
+      "eval_runtime": 0.1332,
+      "eval_samples_per_second": 67.563,
+      "eval_steps_per_second": 7.507,
+      "step": 83
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020395496860146523,
+      "eval_runtime": 0.1435,
+      "eval_samples_per_second": 62.705,
+      "eval_steps_per_second": 6.967,
+      "step": 84
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02046314626932144,
+      "eval_runtime": 0.1272,
+      "eval_samples_per_second": 70.782,
+      "eval_steps_per_second": 7.865,
+      "step": 85
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020390955731272697,
+      "eval_runtime": 0.131,
+      "eval_samples_per_second": 68.683,
+      "eval_steps_per_second": 7.631,
+      "step": 86
+    },
+    {
+      "epoch": 87.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02033914439380169,
+      "eval_runtime": 0.1316,
+      "eval_samples_per_second": 68.365,
+      "eval_steps_per_second": 7.596,
+      "step": 87
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.02000078745186329,
+      "eval_runtime": 0.1264,
+      "eval_samples_per_second": 71.187,
+      "eval_steps_per_second": 7.91,
+      "step": 88
+    },
+    {
+      "epoch": 89.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.020298130810260773,
+      "eval_runtime": 0.1425,
+      "eval_samples_per_second": 63.148,
+      "eval_steps_per_second": 7.016,
+      "step": 89
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 5e-06,
+      "loss": 0.0218,
+      "step": 90
+    },
+    {
+      "epoch": 90.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01956954225897789,
+      "eval_runtime": 0.1265,
+      "eval_samples_per_second": 71.16,
+      "eval_steps_per_second": 7.907,
+      "step": 90
+    },
+    {
+      "epoch": 91.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01989126391708851,
+      "eval_runtime": 0.1281,
+      "eval_samples_per_second": 70.264,
+      "eval_steps_per_second": 7.807,
+      "step": 91
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019824812188744545,
+      "eval_runtime": 0.138,
+      "eval_samples_per_second": 65.198,
+      "eval_steps_per_second": 7.244,
+      "step": 92
+    },
+    {
+      "epoch": 93.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019585557281970978,
+      "eval_runtime": 0.1356,
+      "eval_samples_per_second": 66.353,
+      "eval_steps_per_second": 7.373,
+      "step": 93
+    },
+    {
+      "epoch": 94.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019477464258670807,
+      "eval_runtime": 6.0159,
+      "eval_samples_per_second": 1.496,
+      "eval_steps_per_second": 0.166,
+      "step": 94
+    },
+    {
+      "epoch": 95.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019807875156402588,
+      "eval_runtime": 0.1312,
+      "eval_samples_per_second": 68.571,
+      "eval_steps_per_second": 7.619,
+      "step": 95
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019691793248057365,
+      "eval_runtime": 0.1276,
+      "eval_samples_per_second": 70.51,
+      "eval_steps_per_second": 7.834,
+      "step": 96
+    },
+    {
+      "epoch": 97.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01933690346777439,
+      "eval_runtime": 0.1347,
+      "eval_samples_per_second": 66.808,
+      "eval_steps_per_second": 7.423,
+      "step": 97
+    },
+    {
+      "epoch": 98.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019513830542564392,
+      "eval_runtime": 0.1261,
+      "eval_samples_per_second": 71.367,
+      "eval_steps_per_second": 7.93,
+      "step": 98
+    },
+    {
+      "epoch": 99.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019352566450834274,
+      "eval_runtime": 0.1395,
+      "eval_samples_per_second": 64.504,
+      "eval_steps_per_second": 7.167,
+      "step": 99
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0208,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01923985406756401,
+      "eval_runtime": 5.8953,
+      "eval_samples_per_second": 1.527,
+      "eval_steps_per_second": 0.17,
+      "step": 100
+    },
+    {
+      "epoch": 101.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01895654946565628,
+      "eval_runtime": 6.9547,
+      "eval_samples_per_second": 1.294,
+      "eval_steps_per_second": 0.144,
+      "step": 101
+    },
+    {
+      "epoch": 102.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018784379586577415,
+      "eval_runtime": 0.153,
+      "eval_samples_per_second": 58.805,
+      "eval_steps_per_second": 6.534,
+      "step": 102
+    },
+    {
+      "epoch": 103.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019066665321588516,
+      "eval_runtime": 0.1378,
+      "eval_samples_per_second": 65.292,
+      "eval_steps_per_second": 7.255,
+      "step": 103
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01931922882795334,
+      "eval_runtime": 0.1359,
+      "eval_samples_per_second": 66.226,
+      "eval_steps_per_second": 7.358,
+      "step": 104
+    },
+    {
+      "epoch": 105.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.019273685291409492,
+      "eval_runtime": 0.1487,
+      "eval_samples_per_second": 60.506,
+      "eval_steps_per_second": 6.723,
+      "step": 105
+    },
+    {
+      "epoch": 106.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018980564549565315,
+      "eval_runtime": 0.1426,
+      "eval_samples_per_second": 63.122,
+      "eval_steps_per_second": 7.014,
+      "step": 106
+    },
+    {
+      "epoch": 107.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01911451853811741,
+      "eval_runtime": 5.4956,
+      "eval_samples_per_second": 1.638,
+      "eval_steps_per_second": 0.182,
+      "step": 107
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018641483038663864,
+      "eval_runtime": 0.156,
+      "eval_samples_per_second": 57.704,
+      "eval_steps_per_second": 6.412,
+      "step": 108
+    },
+    {
+      "epoch": 109.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018821991980075836,
+      "eval_runtime": 0.191,
+      "eval_samples_per_second": 47.114,
+      "eval_steps_per_second": 5.235,
+      "step": 109
+    },
+    {
+      "epoch": 110.0,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.0202,
+      "step": 110
+    },
+    {
+      "epoch": 110.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018715376034379005,
+      "eval_runtime": 5.378,
+      "eval_samples_per_second": 1.673,
+      "eval_steps_per_second": 0.186,
+      "step": 110
+    },
+    {
+      "epoch": 111.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01905597560107708,
+      "eval_runtime": 0.1393,
+      "eval_samples_per_second": 64.614,
+      "eval_steps_per_second": 7.179,
+      "step": 111
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01877736486494541,
+      "eval_runtime": 0.1478,
+      "eval_samples_per_second": 60.896,
+      "eval_steps_per_second": 6.766,
+      "step": 112
+    },
+    {
+      "epoch": 113.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01854606531560421,
+      "eval_runtime": 5.9004,
+      "eval_samples_per_second": 1.525,
+      "eval_steps_per_second": 0.169,
+      "step": 113
+    },
+    {
+      "epoch": 114.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018782339990139008,
+      "eval_runtime": 0.141,
+      "eval_samples_per_second": 63.82,
+      "eval_steps_per_second": 7.091,
+      "step": 114
+    },
+    {
+      "epoch": 115.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018274879083037376,
+      "eval_runtime": 6.7975,
+      "eval_samples_per_second": 1.324,
+      "eval_steps_per_second": 0.147,
+      "step": 115
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018706435337662697,
+      "eval_runtime": 0.1365,
+      "eval_samples_per_second": 65.941,
+      "eval_steps_per_second": 7.327,
+      "step": 116
+    },
+    {
+      "epoch": 117.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018547622486948967,
+      "eval_runtime": 2.2842,
+      "eval_samples_per_second": 3.94,
+      "eval_steps_per_second": 0.438,
+      "step": 117
+    },
+    {
+      "epoch": 118.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018446724861860275,
+      "eval_runtime": 6.0918,
+      "eval_samples_per_second": 1.477,
+      "eval_steps_per_second": 0.164,
+      "step": 118
+    },
+    {
+      "epoch": 119.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.018762176856398582,
+      "eval_runtime": 0.1343,
+      "eval_samples_per_second": 67.039,
+      "eval_steps_per_second": 7.449,
+      "step": 119
+    },
+    {
+      "epoch": 120.0,
+      "learning_rate": 0.0,
+      "loss": 0.0197,
+      "step": 120
+    },
+    {
+      "epoch": 120.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 0.01847647689282894,
+      "eval_runtime": 0.1403,
+      "eval_samples_per_second": 64.13,
+      "eval_steps_per_second": 7.126,
+      "step": 120
+    },
+    {
+      "epoch": 120.0,
+      "step": 120,
+      "total_flos": 4.7425097644130304e+17,
+      "train_loss": 0.07813952726622422,
+      "train_runtime": 1030.5859,
+      "train_samples_per_second": 5.938,
+      "train_steps_per_second": 0.116
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 120,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 120,
+  "save_steps": 500,
+  "total_flos": 4.7425097644130304e+17,
+  "train_batch_size": 200,
+  "trial_name": null,
+  "trial_params": null
+}