marinone94
/

xls-r-300m-sv-robust

@@ -1,14 +1,14 @@
 {
-    "epoch": 50.0,
-    "eval_loss": 0.2201116979122162,
-    "eval_runtime": 130.7896,
-    "eval_samples": 4620,
-    "eval_samples_per_second": 35.324,
-    "eval_steps_per_second": 4.419,
-    "eval_wer": 0.17781313100409962,
-    "train_loss": 1.4085150359397711,
-    "train_runtime": 29405.2698,
-    "train_samples": 11030,
-    "train_samples_per_second": 18.755,
-    "train_steps_per_second": 0.585
 }

 {
+    "epoch": 2.0,
+    "eval_loss": Infinity,
+    "eval_runtime": 1256.035,
+    "eval_samples": 26618,
+    "eval_samples_per_second": 21.192,
+    "eval_steps_per_second": 0.662,
+    "eval_wer": 1.0,
+    "train_loss": 3.6355768978691203,
+    "train_runtime": 71670.0084,
+    "train_samples": 239774,
+    "train_samples_per_second": 6.691,
+    "train_steps_per_second": 0.052
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 50.0,
-    "eval_loss": 0.2201116979122162,
-    "eval_runtime": 130.7896,
-    "eval_samples": 4620,
-    "eval_samples_per_second": 35.324,
-    "eval_steps_per_second": 4.419,
-    "eval_wer": 0.17781313100409962
 }

 {
+    "epoch": 2.0,
+    "eval_loss": Infinity,
+    "eval_runtime": 1256.035,
+    "eval_samples": 26618,
+    "eval_samples_per_second": 21.192,
+    "eval_steps_per_second": 0.662,
+    "eval_wer": 1.0
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "train_loss": 1.4085150359397711,
-    "train_runtime": 29405.2698,
-    "train_samples": 11030,
-    "train_samples_per_second": 18.755,
-    "train_steps_per_second": 0.585
 }

 {
+    "epoch": 2.0,
+    "train_loss": 3.6355768978691203,
+    "train_runtime": 71670.0084,
+    "train_samples": 239774,
+    "train_samples_per_second": 6.691,
+    "train_steps_per_second": 0.052
 }

trainer_state.json CHANGED Viewed

@@ -1,1363 +1,1480 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 49.99782451051487,
-  "global_step": 17200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.29,
-      "learning_rate": 3.6375e-06,
-      "loss": 12.958,
       "step": 100
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 7.35e-06,
-      "loss": 10.9696,
       "step": 200
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 1.1099999999999999e-05,
-      "loss": 4.9039,
       "step": 300
     },
     {
-      "epoch": 1.16,
-      "learning_rate": 1.485e-05,
-      "loss": 3.4263,
-      "step": 400
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 1.8599999999999998e-05,
-      "loss": 3.1522,
-      "step": 500
     },
     {
-      "epoch": 1.45,
-      "eval_loss": 3.128952741622925,
-      "eval_runtime": 133.9857,
-      "eval_samples_per_second": 34.481,
-      "eval_steps_per_second": 4.314,
       "eval_wer": 1.0,
-      "step": 500
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 2.2349999999999998e-05,
-      "loss": 3.0702,
-      "step": 600
     },
     {
-      "epoch": 2.03,
-      "learning_rate": 2.6099999999999997e-05,
-      "loss": 3.0589,
-      "step": 700
     },
     {
-      "epoch": 2.32,
-      "learning_rate": 2.985e-05,
-      "loss": 3.0223,
-      "step": 800
     },
     {
-      "epoch": 2.61,
-      "learning_rate": 3.36e-05,
-      "loss": 3.0021,
-      "step": 900
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 3.735e-05,
-      "loss": 2.9576,
-      "step": 1000
     },
     {
-      "epoch": 2.91,
-      "eval_loss": 2.963273763656616,
-      "eval_runtime": 130.7049,
-      "eval_samples_per_second": 35.347,
-      "eval_steps_per_second": 4.422,
       "eval_wer": 1.0,
-      "step": 1000
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 4.11e-05,
-      "loss": 2.9499,
-      "step": 1100
     },
     {
-      "epoch": 3.49,
-      "learning_rate": 4.484999999999999e-05,
-      "loss": 2.8923,
-      "step": 1200
     },
     {
-      "epoch": 3.78,
-      "learning_rate": 4.8599999999999995e-05,
-      "loss": 2.7406,
-      "step": 1300
     },
     {
-      "epoch": 4.07,
-      "learning_rate": 5.234999999999999e-05,
-      "loss": 2.3473,
-      "step": 1400
     },
     {
-      "epoch": 4.36,
-      "learning_rate": 5.6099999999999995e-05,
-      "loss": 1.9853,
-      "step": 1500
     },
     {
-      "epoch": 4.36,
-      "eval_loss": 0.8902471661567688,
-      "eval_runtime": 128.9711,
-      "eval_samples_per_second": 35.822,
-      "eval_steps_per_second": 4.482,
-      "eval_wer": 0.6104448387688919,
-      "step": 1500
     },
     {
-      "epoch": 4.65,
-      "learning_rate": 5.985e-05,
-      "loss": 1.8166,
-      "step": 1600
     },
     {
-      "epoch": 4.94,
-      "learning_rate": 6.359999999999999e-05,
-      "loss": 1.7352,
-      "step": 1700
     },
     {
-      "epoch": 5.23,
-      "learning_rate": 6.735e-05,
-      "loss": 1.6603,
-      "step": 1800
     },
     {
-      "epoch": 5.52,
-      "learning_rate": 7.11e-05,
-      "loss": 1.6183,
-      "step": 1900
     },
     {
-      "epoch": 5.81,
-      "learning_rate": 7.484999999999999e-05,
-      "loss": 1.5867,
-      "step": 2000
     },
     {
-      "epoch": 5.81,
-      "eval_loss": 0.47926634550094604,
-      "eval_runtime": 128.7387,
-      "eval_samples_per_second": 35.887,
-      "eval_steps_per_second": 4.49,
-      "eval_wer": 0.36639539864162024,
-      "step": 2000
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 7.452631578947368e-05,
-      "loss": 1.539,
-      "step": 2100
     },
     {
-      "epoch": 6.39,
-      "learning_rate": 7.40328947368421e-05,
-      "loss": 1.4847,
-      "step": 2200
     },
     {
-      "epoch": 6.68,
-      "learning_rate": 7.353947368421052e-05,
-      "loss": 1.4785,
-      "step": 2300
     },
     {
-      "epoch": 6.97,
-      "learning_rate": 7.304605263157895e-05,
-      "loss": 1.4361,
-      "step": 2400
     },
     {
-      "epoch": 7.27,
-      "learning_rate": 7.255263157894736e-05,
-      "loss": 1.4608,
-      "step": 2500
     },
     {
-      "epoch": 7.27,
-      "eval_loss": 0.38162761926651,
-      "eval_runtime": 130.0928,
-      "eval_samples_per_second": 35.513,
-      "eval_steps_per_second": 4.443,
-      "eval_wer": 0.3094903016582023,
-      "step": 2500
     },
     {
-      "epoch": 7.56,
-      "learning_rate": 7.205921052631578e-05,
-      "loss": 1.4239,
-      "step": 2600
     },
     {
-      "epoch": 7.85,
-      "learning_rate": 7.15657894736842e-05,
-      "loss": 1.3778,
-      "step": 2700
     },
     {
-      "epoch": 8.14,
-      "learning_rate": 7.107236842105262e-05,
-      "loss": 1.414,
-      "step": 2800
     },
     {
-      "epoch": 8.43,
-      "learning_rate": 7.057894736842104e-05,
-      "loss": 1.3957,
-      "step": 2900
     },
     {
-      "epoch": 8.72,
-      "learning_rate": 7.008552631578947e-05,
-      "loss": 1.3496,
-      "step": 3000
     },
     {
-      "epoch": 8.72,
-      "eval_loss": 0.34154650568962097,
-      "eval_runtime": 129.9374,
-      "eval_samples_per_second": 35.556,
-      "eval_steps_per_second": 4.448,
-      "eval_wer": 0.27825368659364863,
-      "step": 3000
     },
     {
-      "epoch": 9.01,
-      "learning_rate": 6.959210526315788e-05,
-      "loss": 1.3661,
-      "step": 3100
     },
     {
-      "epoch": 9.3,
-      "learning_rate": 6.909868421052631e-05,
-      "loss": 1.3144,
-      "step": 3200
     },
     {
-      "epoch": 9.59,
-      "learning_rate": 6.860526315789474e-05,
-      "loss": 1.3253,
-      "step": 3300
     },
     {
-      "epoch": 9.88,
-      "learning_rate": 6.811184210526315e-05,
-      "loss": 1.3247,
-      "step": 3400
     },
     {
-      "epoch": 10.17,
-      "learning_rate": 6.761842105263158e-05,
-      "loss": 1.3058,
-      "step": 3500
     },
     {
-      "epoch": 10.17,
-      "eval_loss": 0.307181179523468,
-      "eval_runtime": 133.008,
-      "eval_samples_per_second": 34.735,
-      "eval_steps_per_second": 4.346,
-      "eval_wer": 0.2519121336351955,
-      "step": 3500
     },
     {
-      "epoch": 10.46,
-      "learning_rate": 6.712499999999999e-05,
-      "loss": 1.2943,
-      "step": 3600
     },
     {
-      "epoch": 10.75,
-      "learning_rate": 6.663157894736842e-05,
-      "loss": 1.2986,
-      "step": 3700
     },
     {
-      "epoch": 11.05,
-      "learning_rate": 6.613815789473683e-05,
-      "loss": 1.3045,
-      "step": 3800
     },
     {
-      "epoch": 11.34,
-      "learning_rate": 6.564473684210526e-05,
-      "loss": 1.281,
-      "step": 3900
     },
     {
-      "epoch": 11.63,
-      "learning_rate": 6.515131578947369e-05,
-      "loss": 1.2533,
-      "step": 4000
     },
     {
-      "epoch": 11.63,
-      "eval_loss": 0.2877204418182373,
-      "eval_runtime": 130.1763,
-      "eval_samples_per_second": 35.49,
-      "eval_steps_per_second": 4.44,
-      "eval_wer": 0.23814477146178792,
-      "step": 4000
     },
     {
-      "epoch": 11.92,
-      "learning_rate": 6.46578947368421e-05,
-      "loss": 1.268,
-      "step": 4100
     },
     {
-      "epoch": 12.21,
-      "learning_rate": 6.416447368421053e-05,
-      "loss": 1.2522,
-      "step": 4200
     },
     {
-      "epoch": 12.5,
-      "learning_rate": 6.367105263157894e-05,
-      "loss": 1.2473,
-      "step": 4300
     },
     {
-      "epoch": 12.79,
-      "learning_rate": 6.317763157894737e-05,
-      "loss": 1.2416,
-      "step": 4400
     },
     {
-      "epoch": 13.08,
-      "learning_rate": 6.268421052631578e-05,
-      "loss": 1.2535,
-      "step": 4500
     },
     {
-      "epoch": 13.08,
-      "eval_loss": 0.27913230657577515,
-      "eval_runtime": 130.449,
-      "eval_samples_per_second": 35.416,
-      "eval_steps_per_second": 4.431,
-      "eval_wer": 0.23202594382916233,
-      "step": 4500
     },
     {
-      "epoch": 13.37,
-      "learning_rate": 6.21907894736842e-05,
-      "loss": 1.2196,
-      "step": 4600
     },
     {
-      "epoch": 13.66,
-      "learning_rate": 6.169736842105262e-05,
-      "loss": 1.2203,
-      "step": 4700
     },
     {
-      "epoch": 13.95,
-      "learning_rate": 6.120394736842105e-05,
-      "loss": 1.2238,
-      "step": 4800
     },
     {
-      "epoch": 14.24,
-      "learning_rate": 6.0710526315789474e-05,
-      "loss": 1.2226,
-      "step": 4900
     },
     {
-      "epoch": 14.53,
-      "learning_rate": 6.021710526315789e-05,
-      "loss": 1.2273,
-      "step": 5000
     },
     {
-      "epoch": 14.53,
-      "eval_loss": 0.27258577942848206,
-      "eval_runtime": 129.7722,
-      "eval_samples_per_second": 35.601,
-      "eval_steps_per_second": 4.454,
-      "eval_wer": 0.22823227069693447,
-      "step": 5000
     },
     {
-      "epoch": 14.82,
-      "learning_rate": 5.972368421052631e-05,
-      "loss": 1.2016,
-      "step": 5100
     },
     {
-      "epoch": 15.12,
-      "learning_rate": 5.9230263157894734e-05,
-      "loss": 1.2156,
-      "step": 5200
     },
     {
-      "epoch": 15.41,
-      "learning_rate": 5.873684210526315e-05,
-      "loss": 1.2005,
-      "step": 5300
     },
     {
-      "epoch": 15.7,
-      "learning_rate": 5.8243421052631574e-05,
-      "loss": 1.187,
-      "step": 5400
     },
     {
-      "epoch": 15.99,
-      "learning_rate": 5.7749999999999994e-05,
-      "loss": 1.2083,
-      "step": 5500
     },
     {
-      "epoch": 15.99,
-      "eval_loss": 0.26375535130500793,
-      "eval_runtime": 128.7955,
-      "eval_samples_per_second": 35.871,
-      "eval_steps_per_second": 4.488,
-      "eval_wer": 0.22119561891941503,
-      "step": 5500
     },
     {
-      "epoch": 16.28,
-      "learning_rate": 5.725657894736842e-05,
-      "loss": 1.1987,
-      "step": 5600
     },
     {
-      "epoch": 16.57,
-      "learning_rate": 5.6763157894736834e-05,
-      "loss": 1.1832,
-      "step": 5700
     },
     {
-      "epoch": 16.86,
-      "learning_rate": 5.626973684210526e-05,
-      "loss": 1.142,
-      "step": 5800
     },
     {
-      "epoch": 17.15,
-      "learning_rate": 5.577631578947368e-05,
-      "loss": 1.1863,
-      "step": 5900
     },
     {
-      "epoch": 17.44,
-      "learning_rate": 5.52828947368421e-05,
-      "loss": 1.1606,
-      "step": 6000
     },
     {
-      "epoch": 17.44,
-      "eval_loss": 0.253081351518631,
-      "eval_runtime": 130.3816,
-      "eval_samples_per_second": 35.434,
-      "eval_steps_per_second": 4.433,
-      "eval_wer": 0.21740194578718716,
-      "step": 6000
     },
     {
-      "epoch": 17.73,
-      "learning_rate": 5.478947368421052e-05,
-      "loss": 1.154,
-      "step": 6100
     },
     {
-      "epoch": 18.02,
-      "learning_rate": 5.429605263157895e-05,
-      "loss": 1.1842,
-      "step": 6200
     },
     {
-      "epoch": 18.31,
-      "learning_rate": 5.380263157894736e-05,
-      "loss": 1.1603,
-      "step": 6300
     },
     {
-      "epoch": 18.6,
-      "learning_rate": 5.330921052631578e-05,
-      "loss": 1.1692,
-      "step": 6400
     },
     {
-      "epoch": 18.89,
-      "learning_rate": 5.281578947368421e-05,
-      "loss": 1.1545,
-      "step": 6500
     },
     {
-      "epoch": 18.89,
-      "eval_loss": 0.2468416541814804,
-      "eval_runtime": 130.515,
-      "eval_samples_per_second": 35.398,
-      "eval_steps_per_second": 4.429,
-      "eval_wer": 0.2108548002202778,
-      "step": 6500
     },
     {
-      "epoch": 19.19,
-      "learning_rate": 5.232236842105262e-05,
-      "loss": 1.1389,
-      "step": 6600
     },
     {
-      "epoch": 19.48,
-      "learning_rate": 5.182894736842105e-05,
-      "loss": 1.1635,
-      "step": 6700
     },
     {
-      "epoch": 19.77,
-      "learning_rate": 5.133552631578947e-05,
-      "loss": 1.1547,
-      "step": 6800
     },
     {
-      "epoch": 20.06,
-      "learning_rate": 5.084210526315789e-05,
-      "loss": 1.1323,
-      "step": 6900
     },
     {
-      "epoch": 20.35,
-      "learning_rate": 5.034868421052631e-05,
-      "loss": 1.1344,
-      "step": 7000
     },
     {
-      "epoch": 20.35,
-      "eval_loss": 0.2494264841079712,
-      "eval_runtime": 131.1616,
-      "eval_samples_per_second": 35.224,
-      "eval_steps_per_second": 4.407,
-      "eval_wer": 0.20504191396928348,
-      "step": 7000
     },
     {
-      "epoch": 20.64,
-      "learning_rate": 4.9855263157894736e-05,
-      "loss": 1.1423,
-      "step": 7100
     },
     {
-      "epoch": 20.93,
-      "learning_rate": 4.936184210526315e-05,
-      "loss": 1.1264,
-      "step": 7200
     },
     {
-      "epoch": 21.22,
-      "learning_rate": 4.886842105263158e-05,
-      "loss": 1.1362,
-      "step": 7300
     },
     {
-      "epoch": 21.51,
-      "learning_rate": 4.8375e-05,
-      "loss": 1.1156,
-      "step": 7400
     },
     {
-      "epoch": 21.8,
-      "learning_rate": 4.7881578947368424e-05,
-      "loss": 1.1173,
-      "step": 7500
     },
     {
-      "epoch": 21.8,
-      "eval_loss": 0.24467654526233673,
-      "eval_runtime": 161.8558,
-      "eval_samples_per_second": 28.544,
-      "eval_steps_per_second": 3.571,
-      "eval_wer": 0.19800526219176406,
-      "step": 7500
     },
     {
-      "epoch": 22.09,
-      "learning_rate": 4.739309210526315e-05,
-      "loss": 1.1319,
-      "step": 7600
     },
     {
-      "epoch": 22.38,
-      "learning_rate": 4.690460526315789e-05,
-      "loss": 1.1065,
-      "step": 7700
     },
     {
-      "epoch": 22.67,
-      "learning_rate": 4.641118421052631e-05,
-      "loss": 1.1189,
-      "step": 7800
     },
     {
-      "epoch": 22.96,
-      "learning_rate": 4.5917763157894736e-05,
-      "loss": 1.1204,
-      "step": 7900
     },
     {
-      "epoch": 23.26,
-      "learning_rate": 4.542434210526315e-05,
-      "loss": 1.1081,
-      "step": 8000
     },
     {
-      "epoch": 23.26,
-      "eval_loss": 0.24276763200759888,
-      "eval_runtime": 130.7165,
-      "eval_samples_per_second": 35.344,
-      "eval_steps_per_second": 4.422,
-      "eval_wer": 0.19977972220522547,
-      "step": 8000
     },
     {
-      "epoch": 23.55,
-      "learning_rate": 4.4930921052631576e-05,
-      "loss": 1.1097,
-      "step": 8100
     },
     {
-      "epoch": 23.84,
-      "learning_rate": 4.4437499999999996e-05,
-      "loss": 1.0912,
-      "step": 8200
     },
     {
-      "epoch": 24.13,
-      "learning_rate": 4.3944078947368416e-05,
-      "loss": 1.1305,
-      "step": 8300
     },
     {
-      "epoch": 24.42,
-      "learning_rate": 4.3450657894736836e-05,
-      "loss": 1.1219,
-      "step": 8400
     },
     {
-      "epoch": 24.71,
-      "learning_rate": 4.295723684210526e-05,
-      "loss": 1.1023,
-      "step": 8500
     },
     {
-      "epoch": 24.71,
-      "eval_loss": 0.23292256891727448,
-      "eval_runtime": 133.1697,
-      "eval_samples_per_second": 34.693,
-      "eval_steps_per_second": 4.34,
-      "eval_wer": 0.19512941320443003,
-      "step": 8500
     },
     {
-      "epoch": 25.0,
-      "learning_rate": 4.2463815789473676e-05,
-      "loss": 1.1049,
-      "step": 8600
     },
     {
-      "epoch": 25.29,
-      "learning_rate": 4.19703947368421e-05,
-      "loss": 1.1194,
-      "step": 8700
     },
     {
-      "epoch": 25.58,
-      "learning_rate": 4.1476973684210523e-05,
-      "loss": 1.1028,
-      "step": 8800
     },
     {
-      "epoch": 25.87,
-      "learning_rate": 4.098355263157895e-05,
-      "loss": 1.0614,
-      "step": 8900
     },
     {
-      "epoch": 26.16,
-      "learning_rate": 4.0490131578947364e-05,
-      "loss": 1.0923,
-      "step": 9000
     },
     {
-      "epoch": 26.16,
-      "eval_loss": 0.23875781893730164,
-      "eval_runtime": 132.625,
-      "eval_samples_per_second": 34.835,
-      "eval_steps_per_second": 4.358,
-      "eval_wer": 0.19616961390197638,
-      "step": 9000
     },
     {
-      "epoch": 26.45,
-      "learning_rate": 3.9996710526315784e-05,
-      "loss": 1.0789,
-      "step": 9100
     },
     {
-      "epoch": 26.74,
-      "learning_rate": 3.950328947368421e-05,
-      "loss": 1.0844,
-      "step": 9200
     },
     {
-      "epoch": 27.03,
-      "learning_rate": 3.9009868421052624e-05,
-      "loss": 1.0961,
-      "step": 9300
     },
     {
-      "epoch": 27.32,
-      "learning_rate": 3.851644736842105e-05,
-      "loss": 1.0691,
-      "step": 9400
     },
     {
-      "epoch": 27.61,
-      "learning_rate": 3.802302631578947e-05,
-      "loss": 1.0798,
-      "step": 9500
     },
     {
-      "epoch": 27.61,
-      "eval_loss": 0.23633554577827454,
-      "eval_runtime": 130.4004,
-      "eval_samples_per_second": 35.429,
-      "eval_steps_per_second": 4.433,
-      "eval_wer": 0.19442574802667809,
-      "step": 9500
     },
     {
-      "epoch": 27.91,
-      "learning_rate": 3.752960526315789e-05,
-      "loss": 1.0609,
-      "step": 9600
     },
     {
-      "epoch": 28.2,
-      "learning_rate": 3.703618421052631e-05,
-      "loss": 1.0779,
-      "step": 9700
     },
     {
-      "epoch": 28.49,
-      "learning_rate": 3.654276315789473e-05,
-      "loss": 1.0693,
-      "step": 9800
     },
     {
-      "epoch": 28.78,
-      "learning_rate": 3.604934210526316e-05,
-      "loss": 1.0786,
-      "step": 9900
     },
     {
-      "epoch": 29.07,
-      "learning_rate": 3.5560855263157894e-05,
-      "loss": 1.0769,
-      "step": 10000
     },
     {
-      "epoch": 29.07,
-      "eval_loss": 0.23424996435642242,
-      "eval_runtime": 129.7477,
-      "eval_samples_per_second": 35.608,
-      "eval_steps_per_second": 4.455,
-      "eval_wer": 0.19130514593403905,
-      "step": 10000
     },
     {
-      "epoch": 29.36,
-      "learning_rate": 3.5067434210526314e-05,
-      "loss": 1.0655,
-      "step": 10100
     },
     {
-      "epoch": 29.65,
-      "learning_rate": 3.4574013157894734e-05,
-      "loss": 1.0618,
-      "step": 10200
     },
     {
-      "epoch": 29.94,
-      "learning_rate": 3.4080592105263154e-05,
-      "loss": 1.071,
-      "step": 10300
     },
     {
-      "epoch": 30.23,
-      "learning_rate": 3.3587171052631575e-05,
-      "loss": 1.0618,
-      "step": 10400
     },
     {
-      "epoch": 30.52,
-      "learning_rate": 3.3093749999999995e-05,
-      "loss": 1.0672,
-      "step": 10500
     },
     {
-      "epoch": 30.52,
-      "eval_loss": 0.22497320175170898,
-      "eval_runtime": 129.3889,
-      "eval_samples_per_second": 35.706,
-      "eval_steps_per_second": 4.467,
-      "eval_wer": 0.18745028452548493,
-      "step": 10500
     },
     {
-      "epoch": 30.81,
-      "learning_rate": 3.260032894736842e-05,
-      "loss": 1.0642,
-      "step": 10600
     },
     {
-      "epoch": 31.1,
-      "learning_rate": 3.210690789473684e-05,
-      "loss": 1.0567,
-      "step": 10700
     },
     {
-      "epoch": 31.39,
-      "learning_rate": 3.161348684210526e-05,
-      "loss": 1.0566,
-      "step": 10800
     },
     {
-      "epoch": 31.68,
-      "learning_rate": 3.112006578947368e-05,
-      "loss": 1.0553,
-      "step": 10900
     },
     {
-      "epoch": 31.97,
-      "learning_rate": 3.06266447368421e-05,
-      "loss": 1.0735,
-      "step": 11000
     },
     {
-      "epoch": 31.97,
-      "eval_loss": 0.23052582144737244,
-      "eval_runtime": 130.8716,
-      "eval_samples_per_second": 35.302,
-      "eval_steps_per_second": 4.417,
-      "eval_wer": 0.18741969038732179,
-      "step": 11000
     },
     {
-      "epoch": 32.27,
-      "learning_rate": 3.0133223684210525e-05,
-      "loss": 1.0583,
-      "step": 11100
     },
     {
-      "epoch": 32.56,
-      "learning_rate": 2.9639802631578946e-05,
-      "loss": 1.0502,
-      "step": 11200
     },
     {
-      "epoch": 32.85,
-      "learning_rate": 2.9146381578947366e-05,
-      "loss": 1.0529,
-      "step": 11300
     },
     {
-      "epoch": 33.14,
-      "learning_rate": 2.865296052631579e-05,
-      "loss": 1.0436,
-      "step": 11400
     },
     {
-      "epoch": 33.43,
-      "learning_rate": 2.8159539473684206e-05,
-      "loss": 1.0628,
-      "step": 11500
     },
     {
-      "epoch": 33.43,
-      "eval_loss": 0.22911641001701355,
-      "eval_runtime": 129.7033,
-      "eval_samples_per_second": 35.62,
-      "eval_steps_per_second": 4.456,
-      "eval_wer": 0.18509453588692407,
-      "step": 11500
     },
     {
-      "epoch": 33.72,
-      "learning_rate": 2.7666118421052626e-05,
-      "loss": 1.0228,
-      "step": 11600
     },
     {
-      "epoch": 34.01,
-      "learning_rate": 2.717269736842105e-05,
-      "loss": 1.0556,
-      "step": 11700
     },
     {
-      "epoch": 34.3,
-      "learning_rate": 2.667927631578947e-05,
-      "loss": 1.0616,
-      "step": 11800
     },
     {
-      "epoch": 34.59,
-      "learning_rate": 2.6185855263157893e-05,
-      "loss": 1.0397,
-      "step": 11900
     },
     {
-      "epoch": 34.88,
-      "learning_rate": 2.5692434210526313e-05,
-      "loss": 1.0451,
-      "step": 12000
     },
     {
-      "epoch": 34.88,
-      "eval_loss": 0.22632543742656708,
-      "eval_runtime": 130.5561,
-      "eval_samples_per_second": 35.387,
-      "eval_steps_per_second": 4.427,
-      "eval_wer": 0.18558404209753412,
-      "step": 12000
     },
     {
-      "epoch": 35.17,
-      "learning_rate": 2.5199013157894733e-05,
-      "loss": 1.0387,
-      "step": 12100
     },
     {
-      "epoch": 35.46,
-      "learning_rate": 2.4705592105263157e-05,
-      "loss": 1.043,
-      "step": 12200
     },
     {
-      "epoch": 35.75,
-      "learning_rate": 2.4212171052631577e-05,
-      "loss": 1.019,
-      "step": 12300
     },
     {
-      "epoch": 36.05,
-      "learning_rate": 2.3718749999999997e-05,
-      "loss": 1.052,
-      "step": 12400
     },
     {
-      "epoch": 36.34,
-      "learning_rate": 2.322532894736842e-05,
-      "loss": 1.0299,
-      "step": 12500
     },
     {
-      "epoch": 36.34,
-      "eval_loss": 0.22569817304611206,
-      "eval_runtime": 131.0957,
-      "eval_samples_per_second": 35.241,
-      "eval_steps_per_second": 4.409,
-      "eval_wer": 0.1833812641497889,
-      "step": 12500
     },
     {
-      "epoch": 36.63,
-      "learning_rate": 2.273190789473684e-05,
-      "loss": 1.0492,
-      "step": 12600
     },
     {
-      "epoch": 36.92,
-      "learning_rate": 2.2238486842105264e-05,
-      "loss": 1.0405,
-      "step": 12700
     },
     {
-      "epoch": 37.21,
-      "learning_rate": 2.174506578947368e-05,
-      "loss": 1.0405,
-      "step": 12800
     },
     {
-      "epoch": 37.5,
-      "learning_rate": 2.12516447368421e-05,
-      "loss": 1.0186,
-      "step": 12900
     },
     {
-      "epoch": 37.79,
-      "learning_rate": 2.076315789473684e-05,
-      "loss": 1.0368,
-      "step": 13000
     },
     {
-      "epoch": 37.79,
-      "eval_loss": 0.2230287492275238,
-      "eval_runtime": 141.6123,
-      "eval_samples_per_second": 32.624,
-      "eval_steps_per_second": 4.082,
-      "eval_wer": 0.1808419506822493,
-      "step": 13000
     },
     {
-      "epoch": 38.08,
-      "learning_rate": 2.026973684210526e-05,
-      "loss": 1.0346,
-      "step": 13100
     },
     {
-      "epoch": 38.37,
-      "learning_rate": 1.9776315789473684e-05,
-      "loss": 1.0348,
-      "step": 13200
     },
     {
-      "epoch": 38.66,
-      "learning_rate": 1.9282894736842104e-05,
-      "loss": 1.016,
-      "step": 13300
     },
     {
-      "epoch": 38.95,
-      "learning_rate": 1.8789473684210528e-05,
-      "loss": 1.047,
-      "step": 13400
     },
     {
-      "epoch": 39.24,
-      "learning_rate": 1.8296052631578948e-05,
-      "loss": 1.0322,
-      "step": 13500
     },
     {
-      "epoch": 39.24,
-      "eval_loss": 0.22309929132461548,
-      "eval_runtime": 135.3243,
-      "eval_samples_per_second": 34.14,
-      "eval_steps_per_second": 4.271,
-      "eval_wer": 0.18332007587346263,
-      "step": 13500
     },
     {
-      "epoch": 39.53,
-      "learning_rate": 1.7802631578947368e-05,
-      "loss": 1.0091,
-      "step": 13600
     },
     {
-      "epoch": 39.82,
-      "learning_rate": 1.7309210526315788e-05,
-      "loss": 1.0311,
-      "step": 13700
     },
     {
-      "epoch": 40.12,
-      "learning_rate": 1.6815789473684208e-05,
-      "loss": 1.0436,
-      "step": 13800
     },
     {
-      "epoch": 40.41,
-      "learning_rate": 1.632236842105263e-05,
-      "loss": 1.0089,
-      "step": 13900
     },
     {
-      "epoch": 40.7,
-      "learning_rate": 1.582894736842105e-05,
-      "loss": 1.0451,
-      "step": 14000
     },
     {
-      "epoch": 40.7,
-      "eval_loss": 0.2196696549654007,
-      "eval_runtime": 131.6599,
-      "eval_samples_per_second": 35.09,
-      "eval_steps_per_second": 4.39,
-      "eval_wer": 0.18172918068898,
-      "step": 14000
     },
     {
-      "epoch": 40.99,
-      "learning_rate": 1.5335526315789472e-05,
-      "loss": 1.0268,
-      "step": 14100
     },
     {
-      "epoch": 41.28,
-      "learning_rate": 1.4842105263157894e-05,
-      "loss": 1.0357,
-      "step": 14200
     },
     {
-      "epoch": 41.57,
-      "learning_rate": 1.4348684210526315e-05,
-      "loss": 1.0211,
-      "step": 14300
     },
     {
-      "epoch": 41.86,
-      "learning_rate": 1.3855263157894737e-05,
-      "loss": 0.9896,
-      "step": 14400
     },
     {
-      "epoch": 42.15,
-      "learning_rate": 1.3361842105263156e-05,
-      "loss": 1.0304,
-      "step": 14500
     },
     {
-      "epoch": 42.15,
-      "eval_loss": 0.22407057881355286,
-      "eval_runtime": 130.69,
-      "eval_samples_per_second": 35.351,
-      "eval_steps_per_second": 4.423,
-      "eval_wer": 0.18127026861653306,
-      "step": 14500
     },
     {
-      "epoch": 42.44,
-      "learning_rate": 1.2868421052631577e-05,
-      "loss": 1.0092,
-      "step": 14600
     },
     {
-      "epoch": 42.73,
-      "learning_rate": 1.2375e-05,
-      "loss": 0.9983,
-      "step": 14700
     },
     {
-      "epoch": 43.02,
-      "learning_rate": 1.188157894736842e-05,
-      "loss": 1.0297,
-      "step": 14800
     },
     {
-      "epoch": 43.31,
-      "learning_rate": 1.1388157894736841e-05,
-      "loss": 1.0079,
-      "step": 14900
     },
     {
-      "epoch": 43.6,
-      "learning_rate": 1.0894736842105263e-05,
-      "loss": 1.0102,
-      "step": 15000
     },
     {
-      "epoch": 43.6,
-      "eval_loss": 0.22326770424842834,
-      "eval_runtime": 129.9475,
-      "eval_samples_per_second": 35.553,
-      "eval_steps_per_second": 4.448,
-      "eval_wer": 0.17949580860307165,
-      "step": 15000
     },
     {
-      "epoch": 43.89,
-      "learning_rate": 1.0401315789473685e-05,
-      "loss": 1.0303,
-      "step": 15100
     },
     {
-      "epoch": 44.19,
-      "learning_rate": 9.912828947368419e-06,
-      "loss": 1.0099,
-      "step": 15200
     },
     {
-      "epoch": 44.48,
-      "learning_rate": 9.41940789473684e-06,
-      "loss": 1.0098,
-      "step": 15300
     },
     {
-      "epoch": 44.77,
-      "learning_rate": 8.925986842105263e-06,
-      "loss": 1.0068,
-      "step": 15400
     },
     {
-      "epoch": 45.06,
-      "learning_rate": 8.432565789473683e-06,
-      "loss": 1.0135,
-      "step": 15500
     },
     {
-      "epoch": 45.06,
-      "eval_loss": 0.2199595868587494,
-      "eval_runtime": 129.6997,
-      "eval_samples_per_second": 35.621,
-      "eval_steps_per_second": 4.456,
-      "eval_wer": 0.1794346203267454,
-      "step": 15500
     },
     {
-      "epoch": 45.35,
-      "learning_rate": 7.939144736842104e-06,
-      "loss": 1.0279,
-      "step": 15600
     },
     {
-      "epoch": 45.64,
-      "learning_rate": 7.4457236842105255e-06,
-      "loss": 1.0116,
-      "step": 15700
     },
     {
-      "epoch": 45.93,
-      "learning_rate": 6.952302631578946e-06,
-      "loss": 1.0106,
-      "step": 15800
     },
     {
-      "epoch": 46.22,
-      "learning_rate": 6.458881578947368e-06,
-      "loss": 1.0132,
-      "step": 15900
     },
     {
-      "epoch": 46.51,
-      "learning_rate": 5.965460526315788e-06,
-      "loss": 1.014,
-      "step": 16000
     },
     {
-      "epoch": 46.51,
-      "eval_loss": 0.22073601186275482,
-      "eval_runtime": 130.9629,
-      "eval_samples_per_second": 35.277,
-      "eval_steps_per_second": 4.413,
-      "eval_wer": 0.177904913418589,
-      "step": 16000
     },
     {
-      "epoch": 46.8,
-      "learning_rate": 5.47203947368421e-06,
-      "loss": 1.0231,
-      "step": 16100
     },
     {
-      "epoch": 47.09,
-      "learning_rate": 4.978618421052631e-06,
-      "loss": 1.0161,
-      "step": 16200
     },
     {
-      "epoch": 47.38,
-      "learning_rate": 4.485197368421052e-06,
-      "loss": 0.9842,
-      "step": 16300
     },
     {
-      "epoch": 47.67,
-      "learning_rate": 3.991776315789474e-06,
-      "loss": 0.9901,
-      "step": 16400
     },
     {
-      "epoch": 47.96,
-      "learning_rate": 3.498355263157895e-06,
-      "loss": 1.0071,
-      "step": 16500
     },
     {
-      "epoch": 47.96,
-      "eval_loss": 0.2204526960849762,
-      "eval_runtime": 130.0967,
-      "eval_samples_per_second": 35.512,
-      "eval_steps_per_second": 4.443,
-      "eval_wer": 0.1783638254910359,
-      "step": 16500
     },
     {
-      "epoch": 48.26,
-      "learning_rate": 3.0049342105263154e-06,
-      "loss": 1.0114,
-      "step": 16600
     },
     {
-      "epoch": 48.55,
-      "learning_rate": 2.5115131578947363e-06,
-      "loss": 1.0035,
-      "step": 16700
     },
     {
-      "epoch": 48.84,
-      "learning_rate": 2.0180921052631577e-06,
-      "loss": 1.0091,
-      "step": 16800
     },
     {
-      "epoch": 49.13,
-      "learning_rate": 1.524671052631579e-06,
-      "loss": 1.0022,
-      "step": 16900
     },
     {
-      "epoch": 49.42,
-      "learning_rate": 1.0312499999999999e-06,
-      "loss": 0.9729,
-      "step": 17000
     },
     {
-      "epoch": 49.42,
-      "eval_loss": 0.22042310237884521,
-      "eval_runtime": 130.006,
-      "eval_samples_per_second": 35.537,
-      "eval_steps_per_second": 4.446,
-      "eval_wer": 0.17766016031328397,
-      "step": 17000
     },
     {
-      "epoch": 49.71,
-      "learning_rate": 5.378289473684209e-07,
-      "loss": 1.0161,
-      "step": 17100
     },
     {
-      "epoch": 50.0,
-      "learning_rate": 4.9342105263157887e-08,
-      "loss": 1.0062,
-      "step": 17200
     },
     {
-      "epoch": 50.0,
-      "step": 17200,
-      "total_flos": 5.074861809449127e+19,
-      "train_loss": 1.4085150359397711,
-      "train_runtime": 29405.2698,
-      "train_samples_per_second": 18.755,
-      "train_steps_per_second": 0.585
     }
   ],
-  "max_steps": 17200,
-  "num_train_epochs": 50,
-  "total_flos": 5.074861809449127e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9998665421059656,
+  "global_step": 3746,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 10.6012,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 3.651,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00059,
+      "loss": 3.3911,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0007491827839825661,
+      "loss": 3.0481,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0007453010078997548,
+      "loss": 3.4039,
       "step": 100
     },
     {
+      "epoch": 0.05,
+      "eval_loss": Infinity,
+      "eval_runtime": 1260.1628,
+      "eval_samples_per_second": 21.123,
+      "eval_steps_per_second": 0.66,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0007412149278125851,
+      "loss": 3.0553,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0007371288477254155,
+      "loss": 3.2191,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0007332470716426042,
+      "loss": 3.4094,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0007291609915554345,
+      "loss": 3.0607,
+      "step": 180
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0007252792154726233,
+      "loss": 3.4396,
       "step": 200
     },
     {
+      "epoch": 0.11,
+      "eval_loss": Infinity,
+      "eval_runtime": 1235.1686,
+      "eval_samples_per_second": 21.55,
+      "eval_steps_per_second": 0.674,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0007211931353854536,
+      "loss": 3.1198,
+      "step": 220
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0007171070552982838,
+      "loss": 3.1801,
+      "step": 240
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0007132252792154726,
+      "loss": 3.3954,
+      "step": 260
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.000709139199128303,
+      "loss": 3.0566,
+      "step": 280
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0007052574230454917,
+      "loss": 3.483,
       "step": 300
     },
     {
+      "epoch": 0.16,
+      "eval_loss": Infinity,
+      "eval_runtime": 1262.2253,
+      "eval_samples_per_second": 21.088,
+      "eval_steps_per_second": 0.659,
+      "eval_wer": 1.0,
+      "step": 300
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 0.000701171342958322,
+      "loss": 3.1616,
+      "step": 320
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 0.0006970852628711522,
+      "loss": 3.2017,
+      "step": 340
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0006932034867883411,
+      "loss": 3.4474,
+      "step": 360
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0006891174067011714,
+      "loss": 3.0656,
+      "step": 380
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0006852356306183601,
+      "loss": 3.5014,
+      "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": Infinity,
+      "eval_runtime": 1255.7751,
+      "eval_samples_per_second": 21.196,
+      "eval_steps_per_second": 0.663,
       "eval_wer": 1.0,
+      "step": 400
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 0.0006811495505311904,
+      "loss": 3.1757,
+      "step": 420
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 0.0006770634704440206,
+      "loss": 3.2038,
+      "step": 440
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 0.0006731816943612095,
+      "loss": 3.4072,
+      "step": 460
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 0.0006690956142740398,
+      "loss": 3.0498,
+      "step": 480
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 0.00066500953418687,
+      "loss": 3.331,
+      "step": 500
     },
     {
+      "epoch": 0.27,
+      "eval_loss": Infinity,
+      "eval_runtime": 1239.2922,
+      "eval_samples_per_second": 21.478,
+      "eval_steps_per_second": 0.671,
       "eval_wer": 1.0,
+      "step": 500
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 0.0006609234540997004,
+      "loss": 3.0833,
+      "step": 520
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 0.0006568373740125306,
+      "loss": 3.1989,
+      "step": 540
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 0.0006531599019340779,
+      "loss": 3.5001,
+      "step": 560
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.0006490738218469082,
+      "loss": 3.0685,
+      "step": 580
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.000645192045764097,
+      "loss": 3.4809,
+      "step": 600
     },
     {
+      "epoch": 0.32,
+      "eval_loss": Infinity,
+      "eval_runtime": 1232.3119,
+      "eval_samples_per_second": 21.6,
+      "eval_steps_per_second": 0.675,
+      "eval_wer": 1.0,
+      "step": 600
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 0.0006411059656769273,
+      "loss": 3.1877,
+      "step": 620
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 0.0006370198855897576,
+      "loss": 3.2365,
+      "step": 640
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 0.0006333424135113049,
+      "loss": 3.67,
+      "step": 660
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 0.0006292563334241351,
+      "loss": 3.086,
+      "step": 680
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 0.0006253745573413239,
+      "loss": 3.4678,
+      "step": 700
     },
     {
+      "epoch": 0.37,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.8236,
+      "eval_samples_per_second": 21.521,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 700
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 0.0006212884772541542,
+      "loss": 3.2344,
+      "step": 720
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.0006172023971669845,
+      "loss": 3.2507,
+      "step": 740
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 0.0006131163170798147,
+      "loss": 3.4283,
+      "step": 760
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 0.0006090302369926451,
+      "loss": 3.0802,
+      "step": 780
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 0.0006051484609098339,
+      "loss": 3.4596,
+      "step": 800
     },
     {
+      "epoch": 0.43,
+      "eval_loss": Infinity,
+      "eval_runtime": 1233.785,
+      "eval_samples_per_second": 21.574,
+      "eval_steps_per_second": 0.674,
+      "eval_wer": 1.0,
+      "step": 800
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 0.0006010623808226641,
+      "loss": 3.2227,
+      "step": 820
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 0.0005969763007354945,
+      "loss": 3.2357,
+      "step": 840
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 0.0005930945246526832,
+      "loss": 3.5563,
+      "step": 860
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 0.0005890084445655135,
+      "loss": 3.0845,
+      "step": 880
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.0005851266684827023,
+      "loss": 3.4644,
+      "step": 900
     },
     {
+      "epoch": 0.48,
+      "eval_loss": Infinity,
+      "eval_runtime": 1235.1488,
+      "eval_samples_per_second": 21.55,
+      "eval_steps_per_second": 0.674,
+      "eval_wer": 1.0,
+      "step": 900
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 0.0005810405883955325,
+      "loss": 3.2092,
+      "step": 920
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 0.0005769545083083629,
+      "loss": 3.2157,
+      "step": 940
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 0.0005730727322255517,
+      "loss": 3.4679,
+      "step": 960
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 0.0005689866521383819,
+      "loss": 3.0662,
+      "step": 980
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 0.0005651048760555707,
+      "loss": 3.4671,
+      "step": 1000
     },
     {
+      "epoch": 0.53,
+      "eval_loss": Infinity,
+      "eval_runtime": 1241.2249,
+      "eval_samples_per_second": 21.445,
+      "eval_steps_per_second": 0.67,
+      "eval_wer": 1.0,
+      "step": 1000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 0.0005610187959684009,
+      "loss": 3.2428,
+      "step": 1020
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.0005569327158812314,
+      "loss": 3.2165,
+      "step": 1040
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 0.0005530509397984201,
+      "loss": 3.5106,
+      "step": 1060
     },
     {
+      "epoch": 0.58,
+      "learning_rate": 0.0005489648597112503,
+      "loss": 3.1137,
+      "step": 1080
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 0.0005452873876327976,
+      "loss": 3.6005,
+      "step": 1100
     },
     {
+      "epoch": 0.59,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.2955,
+      "eval_samples_per_second": 21.53,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 1100
     },
     {
+      "epoch": 0.6,
+      "learning_rate": 0.0005412013075456279,
+      "loss": 3.2702,
+      "step": 1120
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 0.0005371152274584582,
+      "loss": 3.6768,
+      "step": 1140
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 0.000533233451375647,
+      "loss": 3.6313,
+      "step": 1160
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 0.0005291473712884773,
+      "loss": 3.2456,
+      "step": 1180
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 0.000525265595205666,
+      "loss": 3.9182,
+      "step": 1200
     },
     {
+      "epoch": 0.64,
+      "eval_loss": Infinity,
+      "eval_runtime": 1229.4316,
+      "eval_samples_per_second": 21.651,
+      "eval_steps_per_second": 0.677,
+      "eval_wer": 1.0,
+      "step": 1200
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 0.0005211795151184963,
+      "loss": 3.3805,
+      "step": 1220
     },
     {
+      "epoch": 0.66,
+      "learning_rate": 0.0005170934350313267,
+      "loss": 3.4687,
+      "step": 1240
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 0.000513007354944157,
+      "loss": 3.4473,
+      "step": 1260
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 0.0005089212748569872,
+      "loss": 3.2232,
+      "step": 1280
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 0.000505039498774176,
+      "loss": 3.6466,
+      "step": 1300
     },
     {
+      "epoch": 0.69,
+      "eval_loss": Infinity,
+      "eval_runtime": 1237.3739,
+      "eval_samples_per_second": 21.512,
+      "eval_steps_per_second": 0.672,
+      "eval_wer": 1.0,
+      "step": 1300
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 0.0005009534186870062,
+      "loss": 3.3496,
+      "step": 1320
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.0004968673385998365,
+      "loss": 3.3918,
+      "step": 1340
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.0004927812585126669,
+      "loss": 3.3232,
+      "step": 1360
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 0.0004886951784254972,
+      "loss": 3.288,
+      "step": 1380
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 0.00048481340234268587,
+      "loss": 3.6932,
+      "step": 1400
     },
     {
+      "epoch": 0.75,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.694,
+      "eval_samples_per_second": 21.524,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 1400
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 0.00048072732225551624,
+      "loss": 3.5411,
+      "step": 1420
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 0.0004766412421683465,
+      "loss": 3.5658,
+      "step": 1440
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 0.00047275946608553524,
+      "loss": 3.7666,
+      "step": 1460
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 0.0004686733859983656,
+      "loss": 3.7564,
+      "step": 1480
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 0.00046479160991555436,
+      "loss": 3.7939,
+      "step": 1500
     },
     {
+      "epoch": 0.8,
+      "eval_loss": Infinity,
+      "eval_runtime": 1235.7295,
+      "eval_samples_per_second": 21.54,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 1500
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00046070552982838467,
+      "loss": 3.7471,
+      "step": 1520
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 0.00045661944974121493,
+      "loss": 3.7457,
+      "step": 1540
     },
     {
+      "epoch": 0.83,
+      "learning_rate": 0.0004527376736584037,
+      "loss": 3.798,
+      "step": 1560
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 0.00044865159357123405,
+      "loss": 3.7611,
+      "step": 1580
     },
     {
+      "epoch": 0.85,
+      "learning_rate": 0.0004447698174884228,
+      "loss": 3.9284,
+      "step": 1600
     },
     {
+      "epoch": 0.85,
+      "eval_loss": Infinity,
+      "eval_runtime": 1251.8158,
+      "eval_samples_per_second": 21.264,
+      "eval_steps_per_second": 0.665,
+      "eval_wer": 1.0,
+      "step": 1600
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 0.0004406837374012531,
+      "loss": 3.7416,
+      "step": 1620
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 0.00043659765731408337,
+      "loss": 3.7416,
+      "step": 1640
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.0004327158812312721,
+      "loss": 3.8024,
+      "step": 1660
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 0.0004286298011441025,
+      "loss": 3.7578,
+      "step": 1680
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 0.0004247480250612912,
+      "loss": 3.7859,
+      "step": 1700
     },
     {
+      "epoch": 0.91,
+      "eval_loss": Infinity,
+      "eval_runtime": 1235.734,
+      "eval_samples_per_second": 21.54,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 1700
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 0.0004206619449741215,
+      "loss": 3.7427,
+      "step": 1720
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 0.0004165758648869518,
+      "loss": 3.751,
+      "step": 1740
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.00041248978479978206,
+      "loss": 3.6701,
+      "step": 1760
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 0.0004084037047126123,
+      "loss": 3.7613,
+      "step": 1780
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 0.00040472623263415966,
+      "loss": 3.9363,
+      "step": 1800
     },
     {
+      "epoch": 0.96,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.9158,
+      "eval_samples_per_second": 21.52,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 1800
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 0.0004006401525469899,
+      "loss": 3.7464,
+      "step": 1820
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 0.00039655407245982023,
+      "loss": 3.7414,
+      "step": 1840
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 0.000392672296377009,
+      "loss": 3.8036,
+      "step": 1860
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 0.00038879052029419783,
+      "loss": 3.8768,
+      "step": 1880
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 0.0003847044402070281,
+      "loss": 3.7573,
+      "step": 1900
     },
     {
+      "epoch": 1.01,
+      "eval_loss": Infinity,
+      "eval_runtime": 1232.3535,
+      "eval_samples_per_second": 21.599,
+      "eval_steps_per_second": 0.675,
+      "eval_wer": 1.0,
+      "step": 1900
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 0.00038061836011985835,
+      "loss": 3.6959,
+      "step": 1920
     },
     {
+      "epoch": 1.04,
+      "learning_rate": 0.00037653228003268867,
+      "loss": 3.7313,
+      "step": 1940
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 0.00037244619994551893,
+      "loss": 3.7676,
+      "step": 1960
     },
     {
+      "epoch": 1.06,
+      "learning_rate": 0.0003685644238627077,
+      "loss": 3.7872,
+      "step": 1980
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 0.000364478343775538,
+      "loss": 3.7553,
+      "step": 2000
     },
     {
+      "epoch": 1.07,
+      "eval_loss": Infinity,
+      "eval_runtime": 1239.2247,
+      "eval_samples_per_second": 21.48,
+      "eval_steps_per_second": 0.671,
+      "eval_wer": 1.0,
+      "step": 2000
     },
     {
+      "epoch": 1.08,
+      "learning_rate": 0.0003603922636883683,
+      "loss": 3.694,
+      "step": 2020
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 0.0003565104876055571,
+      "loss": 3.8389,
+      "step": 2040
     },
     {
+      "epoch": 1.1,
+      "learning_rate": 0.00035242440751838736,
+      "loss": 3.7573,
+      "step": 2060
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 0.0003483383274312177,
+      "loss": 3.6641,
+      "step": 2080
     },
     {
+      "epoch": 1.12,
+      "learning_rate": 0.00034425224734404794,
+      "loss": 3.7606,
+      "step": 2100
     },
     {
+      "epoch": 1.12,
+      "eval_loss": Infinity,
+      "eval_runtime": 1237.7997,
+      "eval_samples_per_second": 21.504,
+      "eval_steps_per_second": 0.672,
+      "eval_wer": 1.0,
+      "step": 2100
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00034016616725687825,
+      "loss": 3.6827,
+      "step": 2120
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 0.000336284391174067,
+      "loss": 3.8375,
+      "step": 2140
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 0.0003321983110868973,
+      "loss": 3.7527,
+      "step": 2160
     },
     {
+      "epoch": 1.16,
+      "learning_rate": 0.0003283165350040861,
+      "loss": 3.7881,
+      "step": 2180
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 0.0003242304549169164,
+      "loss": 3.7514,
+      "step": 2200
     },
     {
+      "epoch": 1.17,
+      "eval_loss": Infinity,
+      "eval_runtime": 1237.076,
+      "eval_samples_per_second": 21.517,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 2200
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 0.0003201443748297467,
+      "loss": 3.6727,
+      "step": 2220
     },
     {
+      "epoch": 1.2,
+      "learning_rate": 0.00031626259874693543,
+      "loss": 3.8424,
+      "step": 2240
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 0.00031217651865976574,
+      "loss": 3.7594,
+      "step": 2260
     },
     {
+      "epoch": 1.22,
+      "learning_rate": 0.00030829474257695454,
+      "loss": 3.7862,
+      "step": 2280
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 0.0003042086624897848,
+      "loss": 3.7472,
+      "step": 2300
     },
     {
+      "epoch": 1.23,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.6319,
+      "eval_samples_per_second": 21.525,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 2300
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 0.0003001225824026151,
+      "loss": 3.6956,
+      "step": 2320
     },
     {
+      "epoch": 1.25,
+      "learning_rate": 0.0002960365023154454,
+      "loss": 3.7248,
+      "step": 2340
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 0.0002919504222282757,
+      "loss": 3.7531,
+      "step": 2360
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 0.0002882729501498229,
+      "loss": 3.9245,
+      "step": 2380
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 0.00028418687006265324,
+      "loss": 3.7478,
+      "step": 2400
     },
     {
+      "epoch": 1.28,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.7725,
+      "eval_samples_per_second": 21.522,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 2400
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 0.00028010078997548355,
+      "loss": 3.6826,
+      "step": 2420
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 0.0002760147098883138,
+      "loss": 3.7236,
+      "step": 2440
     },
     {
+      "epoch": 1.31,
+      "learning_rate": 0.00027192862980114413,
+      "loss": 3.7609,
+      "step": 2460
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 0.00026804685371833287,
+      "loss": 3.7846,
+      "step": 2480
     },
     {
+      "epoch": 1.33,
+      "learning_rate": 0.0002639607736311632,
+      "loss": 3.7496,
+      "step": 2500
     },
     {
+      "epoch": 1.33,
+      "eval_loss": Infinity,
+      "eval_runtime": 1233.5496,
+      "eval_samples_per_second": 21.578,
+      "eval_steps_per_second": 0.674,
+      "eval_wer": 1.0,
+      "step": 2500
     },
     {
+      "epoch": 1.35,
+      "learning_rate": 0.00025987469354399345,
+      "loss": 3.6785,
+      "step": 2520
     },
     {
+      "epoch": 1.36,
+      "learning_rate": 0.00025578861345682376,
+      "loss": 3.7212,
+      "step": 2540
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.0002517025333696541,
+      "loss": 3.7637,
+      "step": 2560
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 0.00024761645328248434,
+      "loss": 3.6513,
+      "step": 2580
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 0.00024353037319531465,
+      "loss": 3.7513,
+      "step": 2600
     },
     {
+      "epoch": 1.39,
+      "eval_loss": Infinity,
+      "eval_runtime": 1231.8132,
+      "eval_samples_per_second": 21.609,
+      "eval_steps_per_second": 0.675,
+      "eval_wer": 1.0,
+      "step": 2600
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 0.00023944429310814494,
+      "loss": 3.6818,
+      "step": 2620
     },
     {
+      "epoch": 1.41,
+      "learning_rate": 0.00023556251702533368,
+      "loss": 3.8417,
+      "step": 2640
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 0.000231476436938164,
+      "loss": 3.7639,
+      "step": 2660
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 0.00022759466085535277,
+      "loss": 3.7842,
+      "step": 2680
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 0.00022350858076818309,
+      "loss": 3.7497,
+      "step": 2700
     },
     {
+      "epoch": 1.44,
+      "eval_loss": Infinity,
+      "eval_runtime": 1234.8437,
+      "eval_samples_per_second": 21.556,
+      "eval_steps_per_second": 0.674,
+      "eval_wer": 1.0,
+      "step": 2700
     },
     {
+      "epoch": 1.45,
+      "learning_rate": 0.00021942250068101335,
+      "loss": 3.6795,
+      "step": 2720
     },
     {
+      "epoch": 1.46,
+      "learning_rate": 0.00021554072459820212,
+      "loss": 3.8421,
+      "step": 2740
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 0.00021145464451103243,
+      "loss": 3.7614,
+      "step": 2760
     },
     {
+      "epoch": 1.48,
+      "learning_rate": 0.0002075728684282212,
+      "loss": 3.9259,
+      "step": 2780
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 0.00020348678834105147,
+      "loss": 3.7539,
+      "step": 2800
     },
     {
+      "epoch": 1.49,
+      "eval_loss": Infinity,
+      "eval_runtime": 1240.1103,
+      "eval_samples_per_second": 21.464,
+      "eval_steps_per_second": 0.671,
+      "eval_wer": 1.0,
+      "step": 2800
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 0.00019940070825388178,
+      "loss": 3.6889,
+      "step": 2820
     },
     {
+      "epoch": 1.52,
+      "learning_rate": 0.00019551893217107055,
+      "loss": 3.843,
+      "step": 2840
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 0.00019143285208390087,
+      "loss": 3.7666,
+      "step": 2860
     },
     {
+      "epoch": 1.54,
+      "learning_rate": 0.00018755107600108964,
+      "loss": 3.786,
+      "step": 2880
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 0.0001834649959139199,
+      "loss": 3.7581,
+      "step": 2900
     },
     {
+      "epoch": 1.55,
+      "eval_loss": Infinity,
+      "eval_runtime": 1231.1699,
+      "eval_samples_per_second": 21.62,
+      "eval_steps_per_second": 0.676,
+      "eval_wer": 1.0,
+      "step": 2900
     },
     {
+      "epoch": 1.56,
+      "learning_rate": 0.00017937891582675021,
+      "loss": 3.672,
+      "step": 2920
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 0.00017549713974393899,
+      "loss": 3.8539,
+      "step": 2940
     },
     {
+      "epoch": 1.58,
+      "learning_rate": 0.00017141105965676927,
+      "loss": 3.7652,
+      "step": 2960
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 0.00016752928357395807,
+      "loss": 3.7825,
+      "step": 2980
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 0.00016344320348678833,
+      "loss": 3.7572,
+      "step": 3000
     },
     {
+      "epoch": 1.6,
+      "eval_loss": Infinity,
+      "eval_runtime": 1241.8499,
+      "eval_samples_per_second": 21.434,
+      "eval_steps_per_second": 0.67,
+      "eval_wer": 1.0,
+      "step": 3000
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 0.00015935712339961862,
+      "loss": 3.6906,
+      "step": 3020
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 0.00015547534731680742,
+      "loss": 3.845,
+      "step": 3040
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 0.0001513892672296377,
+      "loss": 3.763,
+      "step": 3060
     },
     {
+      "epoch": 1.64,
+      "learning_rate": 0.00014750749114682648,
+      "loss": 3.779,
+      "step": 3080
     },
     {
+      "epoch": 1.66,
+      "learning_rate": 0.0001434214110596568,
+      "loss": 3.7589,
+      "step": 3100
     },
     {
+      "epoch": 1.66,
+      "eval_loss": Infinity,
+      "eval_runtime": 1236.916,
+      "eval_samples_per_second": 21.52,
+      "eval_steps_per_second": 0.673,
+      "eval_wer": 1.0,
+      "step": 3100
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 0.00013933533097248705,
+      "loss": 3.6948,
+      "step": 3120
     },
     {
+      "epoch": 1.68,
+      "learning_rate": 0.00013524925088531734,
+      "loss": 3.7211,
+      "step": 3140
     },
     {
+      "epoch": 1.69,
+      "learning_rate": 0.00013116317079814763,
+      "loss": 3.7588,
+      "step": 3160
     },
     {
+      "epoch": 1.7,
+      "learning_rate": 0.00012728139471533643,
+      "loss": 3.7898,
+      "step": 3180
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 0.00012319531462816672,
+      "loss": 3.7592,
+      "step": 3200
     },
     {
+      "epoch": 1.71,
+      "eval_loss": Infinity,
+      "eval_runtime": 1232.1567,
+      "eval_samples_per_second": 21.603,
+      "eval_steps_per_second": 0.675,
+      "eval_wer": 1.0,
+      "step": 3200
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 0.000119109234540997,
+      "loss": 3.688,
+      "step": 3220
     },
     {
+      "epoch": 1.73,
+      "learning_rate": 0.00011522745845818579,
+      "loss": 3.8419,
+      "step": 3240
     },
     {
+      "epoch": 1.74,
+      "learning_rate": 0.00011114137837101608,
+      "loss": 3.7578,
+      "step": 3260
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 0.00010705529828384636,
+      "loss": 3.6534,
+      "step": 3280
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 0.00010296921819667667,
+      "loss": 3.7531,
+      "step": 3300
     },
     {
+      "epoch": 1.76,
+      "eval_loss": Infinity,
+      "eval_runtime": 1237.4955,
+      "eval_samples_per_second": 21.51,
+      "eval_steps_per_second": 0.672,
+      "eval_wer": 1.0,
+      "step": 3300
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 9.888313810950695e-05,
+      "loss": 3.691,
+      "step": 3320
     },
     {
+      "epoch": 1.78,
+      "learning_rate": 9.500136202669572e-05,
+      "loss": 3.8424,
+      "step": 3340
     },
     {
+      "epoch": 1.79,
+      "learning_rate": 9.091528193952601e-05,
+      "loss": 3.7698,
+      "step": 3360
     },
     {
+      "epoch": 1.8,
+      "learning_rate": 8.70335058567148e-05,
+      "loss": 3.7836,
+      "step": 3380
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 8.294742576954509e-05,
+      "loss": 3.7567,
+      "step": 3400
     },
     {
+      "epoch": 1.82,
+      "eval_loss": Infinity,
+      "eval_runtime": 1242.7888,
+      "eval_samples_per_second": 21.418,
+      "eval_steps_per_second": 0.669,
+      "eval_wer": 1.0,
+      "step": 3400
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 7.886134568237537e-05,
+      "loss": 3.6741,
+      "step": 3420
     },
     {
+      "epoch": 1.84,
+      "learning_rate": 7.497956959956416e-05,
+      "loss": 3.8442,
+      "step": 3440
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 7.089348951239445e-05,
+      "loss": 3.7663,
+      "step": 3460
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 6.701171342958322e-05,
+      "loss": 3.7789,
+      "step": 3480
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 6.292563334241352e-05,
+      "loss": 3.7613,
+      "step": 3500
     },
     {
+      "epoch": 1.87,
+      "eval_loss": Infinity,
+      "eval_runtime": 1244.1733,
+      "eval_samples_per_second": 21.394,
+      "eval_steps_per_second": 0.669,
+      "eval_wer": 1.0,
+      "step": 3500
     },
     {
+      "epoch": 1.88,
+      "learning_rate": 5.88395532552438e-05,
+      "loss": 3.6884,
+      "step": 3520
     },
     {
+      "epoch": 1.89,
+      "learning_rate": 5.4957777172432585e-05,
+      "loss": 3.8268,
+      "step": 3540
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 5.0871697085262866e-05,
+      "loss": 3.7517,
+      "step": 3560
     },
     {
+      "epoch": 1.91,
+      "learning_rate": 4.6989921002451645e-05,
+      "loss": 3.7802,
+      "step": 3580
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 4.290384091528194e-05,
+      "loss": 3.7516,
+      "step": 3600
     },
     {
+      "epoch": 1.92,
+      "eval_loss": Infinity,
+      "eval_runtime": 1253.9236,
+      "eval_samples_per_second": 21.228,
+      "eval_steps_per_second": 0.664,
+      "eval_wer": 1.0,
+      "step": 3600
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 3.8817760828112234e-05,
+      "loss": 3.6719,
+      "step": 3620
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 3.4935984745301006e-05,
+      "loss": 3.8471,
+      "step": 3640
     },
     {
+      "epoch": 1.95,
+      "learning_rate": 3.08499046581313e-05,
+      "loss": 3.7568,
+      "step": 3660
     },
     {
+      "epoch": 1.96,
+      "learning_rate": 2.6968128575320075e-05,
+      "loss": 3.7887,
+      "step": 3680
     },
     {
+      "epoch": 1.98,
+      "learning_rate": 2.2882048488150366e-05,
+      "loss": 3.7581,
+      "step": 3700
     },
     {
+      "epoch": 1.98,
+      "eval_loss": Infinity,
+      "eval_runtime": 1242.0033,
+      "eval_samples_per_second": 21.432,
+      "eval_steps_per_second": 0.67,
+      "eval_wer": 1.0,
+      "step": 3700
     },
     {
+      "epoch": 1.99,
+      "learning_rate": 1.879596840098066e-05,
+      "loss": 3.6785,
+      "step": 3720
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 1.4914192318169436e-05,
+      "loss": 3.8524,
+      "step": 3740
     },
     {
+      "epoch": 2.0,
+      "step": 3746,
+      "total_flos": 7.191358836520801e+19,
+      "train_loss": 3.6355768978691203,
+      "train_runtime": 71670.0084,
+      "train_samples_per_second": 6.691,
+      "train_steps_per_second": 0.052
     }
   ],
+  "max_steps": 3746,
+  "num_train_epochs": 2,
+  "total_flos": 7.191358836520801e+19,
   "trial_name": null,
   "trial_params": null
 }