End of training

Browse files

Files changed (5) hide show

all_results.json +8 -8
eval_results.json +4 -4
runs/Jul19_17-28-19_amy-2-gpu/events.out.tfevents.1689788636.amy-2-gpu.120738.1 +3 -0
train_results.json +4 -4
trainer_state.json +244 -244

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 50.0,
-    "eval_loss": 6388.02587890625,
-    "eval_runtime": 0.6211,
-    "eval_samples_per_second": 12.88,
-    "eval_steps_per_second": 1.61,
-    "train_loss": 6294.72984375,
-    "train_runtime": 782.6675,
-    "train_samples_per_second": 2.044,
-    "train_steps_per_second": 0.256
 }

 {
     "epoch": 50.0,
+    "eval_loss": 6389.54150390625,
+    "eval_runtime": 0.6156,
+    "eval_samples_per_second": 12.995,
+    "eval_steps_per_second": 1.624,
+    "train_loss": 6297.2521484375,
+    "train_runtime": 886.6987,
+    "train_samples_per_second": 1.804,
+    "train_steps_per_second": 0.226
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 50.0,
-    "eval_loss": 6388.02587890625,
-    "eval_runtime": 0.6211,
-    "eval_samples_per_second": 12.88,
-    "eval_steps_per_second": 1.61
 }

 {
     "epoch": 50.0,
+    "eval_loss": 6389.54150390625,
+    "eval_runtime": 0.6156,
+    "eval_samples_per_second": 12.995,
+    "eval_steps_per_second": 1.624
 }

runs/Jul19_17-28-19_amy-2-gpu/events.out.tfevents.1689788636.amy-2-gpu.120738.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbbf2919705552b063a6f28794f159e7208c216e0922f537c09b680bc435487c
+size 359

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 50.0,
-    "train_loss": 6294.72984375,
-    "train_runtime": 782.6675,
-    "train_samples_per_second": 2.044,
-    "train_steps_per_second": 0.256
 }

 {
     "epoch": 50.0,
+    "train_loss": 6297.2521484375,
+    "train_runtime": 886.6987,
+    "train_samples_per_second": 1.804,
+    "train_steps_per_second": 0.226
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 6388.02587890625,
-  "best_model_checkpoint": "./coco_outputs/checkpoint-148",
   "epoch": 50.0,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -9,532 +9,532 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 6397.626953125,
-      "eval_runtime": 0.5268,
-      "eval_samples_per_second": 15.187,
-      "eval_steps_per_second": 1.898,
       "step": 4
     },
     {
       "epoch": 2.0,
-      "eval_loss": 6396.95263671875,
-      "eval_runtime": 0.5209,
-      "eval_samples_per_second": 15.358,
-      "eval_steps_per_second": 1.92,
       "step": 8
     },
     {
       "epoch": 2.5,
-      "learning_rate": 4.75e-05,
-      "loss": 6175.4402,
       "step": 10
     },
     {
       "epoch": 3.0,
-      "eval_loss": 6396.91357421875,
-      "eval_runtime": 0.5052,
-      "eval_samples_per_second": 15.836,
-      "eval_steps_per_second": 1.98,
       "step": 12
     },
     {
       "epoch": 4.0,
-      "eval_loss": 6396.29931640625,
-      "eval_runtime": 0.527,
-      "eval_samples_per_second": 15.181,
-      "eval_steps_per_second": 1.898,
       "step": 16
     },
     {
       "epoch": 5.0,
-      "learning_rate": 4.5e-05,
-      "loss": 6291.4262,
       "step": 20
     },
     {
       "epoch": 5.0,
-      "eval_loss": 6395.5556640625,
-      "eval_runtime": 0.5357,
-      "eval_samples_per_second": 14.934,
-      "eval_steps_per_second": 1.867,
       "step": 20
     },
     {
       "epoch": 6.0,
-      "eval_loss": 6394.595703125,
-      "eval_runtime": 0.5351,
-      "eval_samples_per_second": 14.951,
-      "eval_steps_per_second": 1.869,
       "step": 24
     },
     {
       "epoch": 7.0,
-      "eval_loss": 6393.72900390625,
-      "eval_runtime": 0.5361,
-      "eval_samples_per_second": 14.922,
-      "eval_steps_per_second": 1.865,
       "step": 28
     },
     {
       "epoch": 7.5,
-      "learning_rate": 4.25e-05,
-      "loss": 6228.9867,
       "step": 30
     },
     {
       "epoch": 8.0,
-      "eval_loss": 6393.19140625,
-      "eval_runtime": 0.5377,
-      "eval_samples_per_second": 14.879,
-      "eval_steps_per_second": 1.86,
       "step": 32
     },
     {
       "epoch": 9.0,
-      "eval_loss": 6392.28369140625,
-      "eval_runtime": 0.6156,
-      "eval_samples_per_second": 12.995,
-      "eval_steps_per_second": 1.624,
       "step": 36
     },
     {
       "epoch": 10.0,
-      "learning_rate": 4e-05,
-      "loss": 6087.3184,
       "step": 40
     },
     {
       "epoch": 10.0,
-      "eval_loss": 6391.6708984375,
-      "eval_runtime": 0.5319,
-      "eval_samples_per_second": 15.04,
-      "eval_steps_per_second": 1.88,
       "step": 40
     },
     {
       "epoch": 11.0,
-      "eval_loss": 6390.72705078125,
-      "eval_runtime": 0.5435,
-      "eval_samples_per_second": 14.719,
-      "eval_steps_per_second": 1.84,
       "step": 44
     },
     {
       "epoch": 12.0,
-      "eval_loss": 6389.6669921875,
-      "eval_runtime": 0.5411,
-      "eval_samples_per_second": 14.785,
-      "eval_steps_per_second": 1.848,
       "step": 48
     },
     {
       "epoch": 12.5,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 6263.3945,
       "step": 50
     },
     {
       "epoch": 13.0,
-      "eval_loss": 6389.49072265625,
-      "eval_runtime": 0.5174,
-      "eval_samples_per_second": 15.462,
-      "eval_steps_per_second": 1.933,
       "step": 52
     },
     {
       "epoch": 14.0,
-      "eval_loss": 6388.85400390625,
-      "eval_runtime": 0.5481,
-      "eval_samples_per_second": 14.597,
-      "eval_steps_per_second": 1.825,
       "step": 56
     },
     {
       "epoch": 15.0,
-      "learning_rate": 3.5e-05,
-      "loss": 6378.8203,
       "step": 60
     },
     {
       "epoch": 15.0,
-      "eval_loss": 6388.69775390625,
-      "eval_runtime": 0.5244,
-      "eval_samples_per_second": 15.255,
-      "eval_steps_per_second": 1.907,
       "step": 60
     },
     {
       "epoch": 16.0,
-      "eval_loss": 6388.6611328125,
-      "eval_runtime": 0.5266,
-      "eval_samples_per_second": 15.193,
-      "eval_steps_per_second": 1.899,
       "step": 64
     },
     {
       "epoch": 17.0,
-      "eval_loss": 6388.54296875,
-      "eval_runtime": 0.5529,
-      "eval_samples_per_second": 14.47,
       "eval_steps_per_second": 1.809,
       "step": 68
     },
     {
       "epoch": 17.5,
-      "learning_rate": 3.2500000000000004e-05,
-      "loss": 6319.1008,
       "step": 70
     },
     {
       "epoch": 18.0,
-      "eval_loss": 6388.421875,
-      "eval_runtime": 0.5476,
-      "eval_samples_per_second": 14.609,
-      "eval_steps_per_second": 1.826,
       "step": 72
     },
     {
       "epoch": 19.0,
-      "eval_loss": 6388.505859375,
-      "eval_runtime": 0.5589,
-      "eval_samples_per_second": 14.314,
-      "eval_steps_per_second": 1.789,
       "step": 76
     },
     {
       "epoch": 20.0,
-      "learning_rate": 3e-05,
-      "loss": 6258.6707,
       "step": 80
     },
     {
       "epoch": 20.0,
-      "eval_loss": 6388.39501953125,
-      "eval_runtime": 0.5558,
-      "eval_samples_per_second": 14.393,
-      "eval_steps_per_second": 1.799,
       "step": 80
     },
     {
       "epoch": 21.0,
-      "eval_loss": 6388.30419921875,
-      "eval_runtime": 0.6087,
-      "eval_samples_per_second": 13.142,
-      "eval_steps_per_second": 1.643,
       "step": 84
     },
     {
       "epoch": 22.0,
-      "eval_loss": 6388.27880859375,
-      "eval_runtime": 0.5565,
-      "eval_samples_per_second": 14.376,
-      "eval_steps_per_second": 1.797,
       "step": 88
     },
     {
       "epoch": 22.5,
-      "learning_rate": 2.7500000000000004e-05,
-      "loss": 6290.5227,
       "step": 90
     },
     {
       "epoch": 23.0,
-      "eval_loss": 6388.27001953125,
-      "eval_runtime": 0.5542,
-      "eval_samples_per_second": 14.435,
-      "eval_steps_per_second": 1.804,
       "step": 92
     },
     {
       "epoch": 24.0,
-      "eval_loss": 6388.3994140625,
-      "eval_runtime": 0.5489,
-      "eval_samples_per_second": 14.573,
-      "eval_steps_per_second": 1.822,
       "step": 96
     },
     {
       "epoch": 25.0,
-      "learning_rate": 2.5e-05,
-      "loss": 6450.2746,
       "step": 100
     },
     {
       "epoch": 25.0,
-      "eval_loss": 6388.41796875,
-      "eval_runtime": 0.5566,
-      "eval_samples_per_second": 14.372,
-      "eval_steps_per_second": 1.797,
       "step": 100
     },
     {
       "epoch": 26.0,
-      "eval_loss": 6388.23291015625,
-      "eval_runtime": 0.5471,
-      "eval_samples_per_second": 14.622,
-      "eval_steps_per_second": 1.828,
       "step": 104
     },
     {
       "epoch": 27.0,
-      "eval_loss": 6388.30615234375,
-      "eval_runtime": 0.5404,
-      "eval_samples_per_second": 14.803,
-      "eval_steps_per_second": 1.85,
       "step": 108
     },
     {
       "epoch": 27.5,
-      "learning_rate": 2.25e-05,
-      "loss": 6321.6988,
       "step": 110
     },
     {
       "epoch": 28.0,
-      "eval_loss": 6388.2568359375,
-      "eval_runtime": 0.5645,
-      "eval_samples_per_second": 14.172,
-      "eval_steps_per_second": 1.772,
       "step": 112
     },
     {
       "epoch": 29.0,
-      "eval_loss": 6388.13330078125,
-      "eval_runtime": 0.5582,
-      "eval_samples_per_second": 14.333,
-      "eval_steps_per_second": 1.792,
       "step": 116
     },
     {
       "epoch": 30.0,
-      "learning_rate": 2e-05,
-      "loss": 6468.3922,
       "step": 120
     },
     {
       "epoch": 30.0,
-      "eval_loss": 6388.166015625,
-      "eval_runtime": 0.5512,
-      "eval_samples_per_second": 14.515,
-      "eval_steps_per_second": 1.814,
       "step": 120
     },
     {
       "epoch": 31.0,
-      "eval_loss": 6388.15283203125,
-      "eval_runtime": 0.5777,
-      "eval_samples_per_second": 13.848,
-      "eval_steps_per_second": 1.731,
       "step": 124
     },
     {
       "epoch": 32.0,
-      "eval_loss": 6388.12109375,
-      "eval_runtime": 0.5552,
-      "eval_samples_per_second": 14.408,
-      "eval_steps_per_second": 1.801,
       "step": 128
     },
     {
       "epoch": 32.5,
-      "learning_rate": 1.75e-05,
-      "loss": 6305.5602,
       "step": 130
     },
     {
       "epoch": 33.0,
-      "eval_loss": 6388.09716796875,
-      "eval_runtime": 0.5442,
-      "eval_samples_per_second": 14.7,
-      "eval_steps_per_second": 1.838,
       "step": 132
     },
     {
       "epoch": 34.0,
-      "eval_loss": 6388.07763671875,
-      "eval_runtime": 0.5513,
-      "eval_samples_per_second": 14.511,
-      "eval_steps_per_second": 1.814,
       "step": 136
     },
     {
       "epoch": 35.0,
-      "learning_rate": 1.5e-05,
-      "loss": 6349.5672,
       "step": 140
     },
     {
       "epoch": 35.0,
-      "eval_loss": 6388.04931640625,
-      "eval_runtime": 0.5426,
-      "eval_samples_per_second": 14.744,
-      "eval_steps_per_second": 1.843,
       "step": 140
     },
     {
       "epoch": 36.0,
-      "eval_loss": 6388.03173828125,
-      "eval_runtime": 0.5452,
-      "eval_samples_per_second": 14.674,
-      "eval_steps_per_second": 1.834,
       "step": 144
     },
     {
       "epoch": 37.0,
-      "eval_loss": 6388.02587890625,
-      "eval_runtime": 0.5716,
-      "eval_samples_per_second": 13.996,
-      "eval_steps_per_second": 1.75,
       "step": 148
     },
     {
       "epoch": 37.5,
-      "learning_rate": 1.25e-05,
-      "loss": 6244.9891,
       "step": 150
     },
     {
       "epoch": 38.0,
-      "eval_loss": 6388.037109375,
-      "eval_runtime": 0.5397,
-      "eval_samples_per_second": 14.822,
-      "eval_steps_per_second": 1.853,
       "step": 152
     },
     {
       "epoch": 39.0,
-      "eval_loss": 6388.02734375,
-      "eval_runtime": 0.5505,
-      "eval_samples_per_second": 14.532,
-      "eval_steps_per_second": 1.817,
       "step": 156
     },
     {
       "epoch": 40.0,
-      "learning_rate": 1e-05,
-      "loss": 6383.7191,
       "step": 160
     },
     {
       "epoch": 40.0,
-      "eval_loss": 6388.146484375,
-      "eval_runtime": 0.537,
-      "eval_samples_per_second": 14.898,
-      "eval_steps_per_second": 1.862,
       "step": 160
     },
     {
       "epoch": 41.0,
-      "eval_loss": 6388.25048828125,
-      "eval_runtime": 0.5406,
-      "eval_samples_per_second": 14.797,
-      "eval_steps_per_second": 1.85,
       "step": 164
     },
     {
       "epoch": 42.0,
-      "eval_loss": 6388.1259765625,
-      "eval_runtime": 0.5956,
-      "eval_samples_per_second": 13.433,
-      "eval_steps_per_second": 1.679,
       "step": 168
     },
     {
       "epoch": 42.5,
-      "learning_rate": 7.5e-06,
-      "loss": 6260.3203,
       "step": 170
     },
     {
       "epoch": 43.0,
-      "eval_loss": 6388.0517578125,
-      "eval_runtime": 0.557,
-      "eval_samples_per_second": 14.363,
-      "eval_steps_per_second": 1.795,
       "step": 172
     },
     {
       "epoch": 44.0,
-      "eval_loss": 6388.0322265625,
-      "eval_runtime": 0.5537,
-      "eval_samples_per_second": 14.447,
-      "eval_steps_per_second": 1.806,
       "step": 176
     },
     {
       "epoch": 45.0,
-      "learning_rate": 5e-06,
-      "loss": 6254.6055,
       "step": 180
     },
     {
       "epoch": 45.0,
-      "eval_loss": 6388.0625,
-      "eval_runtime": 0.5885,
-      "eval_samples_per_second": 13.595,
-      "eval_steps_per_second": 1.699,
       "step": 180
     },
     {
       "epoch": 46.0,
-      "eval_loss": 6388.06884765625,
-      "eval_runtime": 0.5716,
-      "eval_samples_per_second": 13.995,
-      "eval_steps_per_second": 1.749,
       "step": 184
     },
     {
       "epoch": 47.0,
-      "eval_loss": 6388.06005859375,
-      "eval_runtime": 0.5704,
-      "eval_samples_per_second": 14.026,
-      "eval_steps_per_second": 1.753,
       "step": 188
     },
     {
       "epoch": 47.5,
-      "learning_rate": 2.5e-06,
-      "loss": 6351.991,
       "step": 190
     },
     {
       "epoch": 48.0,
-      "eval_loss": 6388.08251953125,
-      "eval_runtime": 0.5514,
-      "eval_samples_per_second": 14.507,
-      "eval_steps_per_second": 1.813,
       "step": 192
     },
     {
       "epoch": 49.0,
-      "eval_loss": 6388.09375,
-      "eval_runtime": 0.5515,
-      "eval_samples_per_second": 14.506,
-      "eval_steps_per_second": 1.813,
       "step": 196
     },
     {
       "epoch": 50.0,
       "learning_rate": 0.0,
-      "loss": 6209.7984,
       "step": 200
     },
     {
       "epoch": 50.0,
-      "eval_loss": 6388.09228515625,
-      "eval_runtime": 0.566,
-      "eval_samples_per_second": 14.135,
-      "eval_steps_per_second": 1.767,
       "step": 200
     },
     {
       "epoch": 50.0,
       "step": 200,
       "total_flos": 7.65002115072e+17,
-      "train_loss": 6294.72984375,
-      "train_runtime": 782.6675,
-      "train_samples_per_second": 2.044,
-      "train_steps_per_second": 0.256
     }
   ],
   "max_steps": 200,

 {
+  "best_metric": 6389.54150390625,
+  "best_model_checkpoint": "./coco_outputs/checkpoint-196",
   "epoch": 50.0,
   "global_step": 200,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_loss": 6398.52734375,
+      "eval_runtime": 0.5289,
+      "eval_samples_per_second": 15.126,
+      "eval_steps_per_second": 1.891,
       "step": 4
     },
     {
       "epoch": 2.0,
+      "eval_loss": 6397.9267578125,
+      "eval_runtime": 0.5329,
+      "eval_samples_per_second": 15.013,
+      "eval_steps_per_second": 1.877,
       "step": 8
     },
     {
       "epoch": 2.5,
+      "learning_rate": 1.9e-05,
+      "loss": 6175.8695,
       "step": 10
     },
     {
       "epoch": 3.0,
+      "eval_loss": 6397.248046875,
+      "eval_runtime": 0.5325,
+      "eval_samples_per_second": 15.023,
+      "eval_steps_per_second": 1.878,
       "step": 12
     },
     {
       "epoch": 4.0,
+      "eval_loss": 6396.56494140625,
+      "eval_runtime": 0.5866,
+      "eval_samples_per_second": 13.638,
+      "eval_steps_per_second": 1.705,
       "step": 16
     },
     {
       "epoch": 5.0,
+      "learning_rate": 1.8e-05,
+      "loss": 6292.1676,
       "step": 20
     },
     {
       "epoch": 5.0,
+      "eval_loss": 6396.06689453125,
+      "eval_runtime": 0.5343,
+      "eval_samples_per_second": 14.974,
+      "eval_steps_per_second": 1.872,
       "step": 20
     },
     {
       "epoch": 6.0,
+      "eval_loss": 6395.65966796875,
+      "eval_runtime": 0.5271,
+      "eval_samples_per_second": 15.178,
+      "eval_steps_per_second": 1.897,
       "step": 24
     },
     {
       "epoch": 7.0,
+      "eval_loss": 6395.27392578125,
+      "eval_runtime": 0.5241,
+      "eval_samples_per_second": 15.264,
+      "eval_steps_per_second": 1.908,
       "step": 28
     },
     {
       "epoch": 7.5,
+      "learning_rate": 1.7e-05,
+      "loss": 6230.1191,
       "step": 30
     },
     {
       "epoch": 8.0,
+      "eval_loss": 6394.890625,
+      "eval_runtime": 0.5365,
+      "eval_samples_per_second": 14.911,
+      "eval_steps_per_second": 1.864,
       "step": 32
     },
     {
       "epoch": 9.0,
+      "eval_loss": 6394.66796875,
+      "eval_runtime": 0.5263,
+      "eval_samples_per_second": 15.201,
+      "eval_steps_per_second": 1.9,
       "step": 36
     },
     {
       "epoch": 10.0,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 6089.0629,
       "step": 40
     },
     {
       "epoch": 10.0,
+      "eval_loss": 6394.51513671875,
+      "eval_runtime": 0.5595,
+      "eval_samples_per_second": 14.298,
+      "eval_steps_per_second": 1.787,
       "step": 40
     },
     {
       "epoch": 11.0,
+      "eval_loss": 6394.369140625,
+      "eval_runtime": 0.5347,
+      "eval_samples_per_second": 14.961,
+      "eval_steps_per_second": 1.87,
       "step": 44
     },
     {
       "epoch": 12.0,
+      "eval_loss": 6394.39306640625,
+      "eval_runtime": 0.6066,
+      "eval_samples_per_second": 13.188,
+      "eval_steps_per_second": 1.648,
       "step": 48
     },
     {
       "epoch": 12.5,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 6266.6961,
       "step": 50
     },
     {
       "epoch": 13.0,
+      "eval_loss": 6394.3232421875,
+      "eval_runtime": 0.5315,
+      "eval_samples_per_second": 15.053,
+      "eval_steps_per_second": 1.882,
       "step": 52
     },
     {
       "epoch": 14.0,
+      "eval_loss": 6394.1572265625,
+      "eval_runtime": 0.5445,
+      "eval_samples_per_second": 14.694,
+      "eval_steps_per_second": 1.837,
       "step": 56
     },
     {
       "epoch": 15.0,
+      "learning_rate": 1.4e-05,
+      "loss": 6383.0688,
       "step": 60
     },
     {
       "epoch": 15.0,
+      "eval_loss": 6394.15576171875,
+      "eval_runtime": 0.5377,
+      "eval_samples_per_second": 14.877,
+      "eval_steps_per_second": 1.86,
       "step": 60
     },
     {
       "epoch": 16.0,
+      "eval_loss": 6393.953125,
+      "eval_runtime": 0.5413,
+      "eval_samples_per_second": 14.779,
+      "eval_steps_per_second": 1.847,
       "step": 64
     },
     {
       "epoch": 17.0,
+      "eval_loss": 6393.77197265625,
+      "eval_runtime": 0.5527,
+      "eval_samples_per_second": 14.475,
       "eval_steps_per_second": 1.809,
       "step": 68
     },
     {
       "epoch": 17.5,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 6323.732,
       "step": 70
     },
     {
       "epoch": 18.0,
+      "eval_loss": 6393.60498046875,
+      "eval_runtime": 0.5502,
+      "eval_samples_per_second": 14.54,
+      "eval_steps_per_second": 1.817,
       "step": 72
     },
     {
       "epoch": 19.0,
+      "eval_loss": 6393.5107421875,
+      "eval_runtime": 0.5415,
+      "eval_samples_per_second": 14.774,
+      "eval_steps_per_second": 1.847,
       "step": 76
     },
     {
       "epoch": 20.0,
+      "learning_rate": 1.2e-05,
+      "loss": 6262.8367,
       "step": 80
     },
     {
       "epoch": 20.0,
+      "eval_loss": 6393.23046875,
+      "eval_runtime": 0.5438,
+      "eval_samples_per_second": 14.71,
+      "eval_steps_per_second": 1.839,
       "step": 80
     },
     {
       "epoch": 21.0,
+      "eval_loss": 6393.0869140625,
+      "eval_runtime": 0.5423,
+      "eval_samples_per_second": 14.753,
+      "eval_steps_per_second": 1.844,
       "step": 84
     },
     {
       "epoch": 22.0,
+      "eval_loss": 6392.791015625,
+      "eval_runtime": 0.5523,
+      "eval_samples_per_second": 14.486,
+      "eval_steps_per_second": 1.811,
       "step": 88
     },
     {
       "epoch": 22.5,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 6294.5953,
       "step": 90
     },
     {
       "epoch": 23.0,
+      "eval_loss": 6392.60791015625,
+      "eval_runtime": 0.5553,
+      "eval_samples_per_second": 14.407,
+      "eval_steps_per_second": 1.801,
       "step": 92
     },
     {
       "epoch": 24.0,
+      "eval_loss": 6392.46337890625,
+      "eval_runtime": 0.542,
+      "eval_samples_per_second": 14.759,
+      "eval_steps_per_second": 1.845,
       "step": 96
     },
     {
       "epoch": 25.0,
+      "learning_rate": 1e-05,
+      "loss": 6454.1902,
       "step": 100
     },
     {
       "epoch": 25.0,
+      "eval_loss": 6392.30859375,
+      "eval_runtime": 0.5462,
+      "eval_samples_per_second": 14.647,
+      "eval_steps_per_second": 1.831,
       "step": 100
     },
     {
       "epoch": 26.0,
+      "eval_loss": 6392.1982421875,
+      "eval_runtime": 0.5465,
+      "eval_samples_per_second": 14.64,
+      "eval_steps_per_second": 1.83,
       "step": 104
     },
     {
       "epoch": 27.0,
+      "eval_loss": 6391.966796875,
+      "eval_runtime": 0.5565,
+      "eval_samples_per_second": 14.375,
+      "eval_steps_per_second": 1.797,
       "step": 108
     },
     {
       "epoch": 27.5,
+      "learning_rate": 9e-06,
+      "loss": 6325.2328,
       "step": 110
     },
     {
       "epoch": 28.0,
+      "eval_loss": 6391.6533203125,
+      "eval_runtime": 0.5394,
+      "eval_samples_per_second": 14.833,
+      "eval_steps_per_second": 1.854,
       "step": 112
     },
     {
       "epoch": 29.0,
+      "eval_loss": 6391.34814453125,
+      "eval_runtime": 0.5379,
+      "eval_samples_per_second": 14.872,
+      "eval_steps_per_second": 1.859,
       "step": 116
     },
     {
       "epoch": 30.0,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 6471.3637,
       "step": 120
     },
     {
       "epoch": 30.0,
+      "eval_loss": 6391.04736328125,
+      "eval_runtime": 0.5998,
+      "eval_samples_per_second": 13.338,
+      "eval_steps_per_second": 1.667,
       "step": 120
     },
     {
       "epoch": 31.0,
+      "eval_loss": 6390.94091796875,
+      "eval_runtime": 0.5467,
+      "eval_samples_per_second": 14.632,
+      "eval_steps_per_second": 1.829,
       "step": 124
     },
     {
       "epoch": 32.0,
+      "eval_loss": 6390.81982421875,
+      "eval_runtime": 0.5421,
+      "eval_samples_per_second": 14.759,
+      "eval_steps_per_second": 1.845,
       "step": 128
     },
     {
       "epoch": 32.5,
+      "learning_rate": 7e-06,
+      "loss": 6308.2656,
       "step": 130
     },
     {
       "epoch": 33.0,
+      "eval_loss": 6390.673828125,
+      "eval_runtime": 0.5411,
+      "eval_samples_per_second": 14.785,
+      "eval_steps_per_second": 1.848,
       "step": 132
     },
     {
       "epoch": 34.0,
+      "eval_loss": 6390.6689453125,
+      "eval_runtime": 0.5495,
+      "eval_samples_per_second": 14.56,
+      "eval_steps_per_second": 1.82,
       "step": 136
     },
     {
       "epoch": 35.0,
+      "learning_rate": 6e-06,
+      "loss": 6352.0371,
       "step": 140
     },
     {
       "epoch": 35.0,
+      "eval_loss": 6390.62451171875,
+      "eval_runtime": 0.5561,
+      "eval_samples_per_second": 14.385,
+      "eval_steps_per_second": 1.798,
       "step": 140
     },
     {
       "epoch": 36.0,
+      "eval_loss": 6390.5791015625,
+      "eval_runtime": 0.5601,
+      "eval_samples_per_second": 14.282,
+      "eval_steps_per_second": 1.785,
       "step": 144
     },
     {
       "epoch": 37.0,
+      "eval_loss": 6390.419921875,
+      "eval_runtime": 0.5447,
+      "eval_samples_per_second": 14.686,
+      "eval_steps_per_second": 1.836,
       "step": 148
     },
     {
       "epoch": 37.5,
+      "learning_rate": 5e-06,
+      "loss": 6247.1492,
       "step": 150
     },
     {
       "epoch": 38.0,
+      "eval_loss": 6390.23046875,
+      "eval_runtime": 0.5405,
+      "eval_samples_per_second": 14.8,
+      "eval_steps_per_second": 1.85,
       "step": 152
     },
     {
       "epoch": 39.0,
+      "eval_loss": 6390.07763671875,
+      "eval_runtime": 0.5527,
+      "eval_samples_per_second": 14.473,
+      "eval_steps_per_second": 1.809,
       "step": 156
     },
     {
       "epoch": 40.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 6385.748,
       "step": 160
     },
     {
       "epoch": 40.0,
+      "eval_loss": 6389.9873046875,
+      "eval_runtime": 0.5425,
+      "eval_samples_per_second": 14.746,
+      "eval_steps_per_second": 1.843,
       "step": 160
     },
     {
       "epoch": 41.0,
+      "eval_loss": 6389.91845703125,
+      "eval_runtime": 0.5483,
+      "eval_samples_per_second": 14.591,
+      "eval_steps_per_second": 1.824,
       "step": 164
     },
     {
       "epoch": 42.0,
+      "eval_loss": 6389.828125,
+      "eval_runtime": 0.5625,
+      "eval_samples_per_second": 14.221,
+      "eval_steps_per_second": 1.778,
       "step": 168
     },
     {
       "epoch": 42.5,
+      "learning_rate": 3e-06,
+      "loss": 6262.0703,
       "step": 170
     },
     {
       "epoch": 43.0,
+      "eval_loss": 6389.75,
+      "eval_runtime": 0.5518,
+      "eval_samples_per_second": 14.498,
+      "eval_steps_per_second": 1.812,
       "step": 172
     },
     {
       "epoch": 44.0,
+      "eval_loss": 6389.67919921875,
+      "eval_runtime": 0.5455,
+      "eval_samples_per_second": 14.666,
+      "eval_steps_per_second": 1.833,
       "step": 176
     },
     {
       "epoch": 45.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 6256.2105,
       "step": 180
     },
     {
       "epoch": 45.0,
+      "eval_loss": 6389.6376953125,
+      "eval_runtime": 0.5593,
+      "eval_samples_per_second": 14.304,
+      "eval_steps_per_second": 1.788,
       "step": 180
     },
     {
       "epoch": 46.0,
+      "eval_loss": 6389.6201171875,
+      "eval_runtime": 0.555,
+      "eval_samples_per_second": 14.413,
+      "eval_steps_per_second": 1.802,
       "step": 184
     },
     {
       "epoch": 47.0,
+      "eval_loss": 6389.57275390625,
+      "eval_runtime": 0.5436,
+      "eval_samples_per_second": 14.718,
+      "eval_steps_per_second": 1.84,
       "step": 188
     },
     {
       "epoch": 47.5,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 6353.4496,
       "step": 190
     },
     {
       "epoch": 48.0,
+      "eval_loss": 6389.5517578125,
+      "eval_runtime": 0.55,
+      "eval_samples_per_second": 14.545,
+      "eval_steps_per_second": 1.818,
       "step": 192
     },
     {
       "epoch": 49.0,
+      "eval_loss": 6389.54150390625,
+      "eval_runtime": 0.5412,
+      "eval_samples_per_second": 14.782,
+      "eval_steps_per_second": 1.848,
       "step": 196
     },
     {
       "epoch": 50.0,
       "learning_rate": 0.0,
+      "loss": 6211.1777,
       "step": 200
     },
     {
       "epoch": 50.0,
+      "eval_loss": 6389.552734375,
+      "eval_runtime": 0.5488,
+      "eval_samples_per_second": 14.577,
+      "eval_steps_per_second": 1.822,
       "step": 200
     },
     {
       "epoch": 50.0,
       "step": 200,
       "total_flos": 7.65002115072e+17,
+      "train_loss": 6297.2521484375,
+      "train_runtime": 886.6987,
+      "train_samples_per_second": 1.804,
+      "train_steps_per_second": 0.226
     }
   ],
   "max_steps": 200,