HarrisDePerceptron
/

xls-r-300m-ur-cv7

@@ -1,14 +1,14 @@
 {
-    "epoch": 500.0,
-    "eval_loss": 1.7564287185668945,
-    "eval_runtime": 6.7205,
     "eval_samples": 142,
-    "eval_samples_per_second": 21.129,
-    "eval_steps_per_second": 2.678,
     "eval_wer": 0.7201394943330427,
-    "train_loss": 0.7251964689095814,
-    "train_runtime": 16734.3269,
     "train_samples": 378,
-    "train_samples_per_second": 11.294,
-    "train_steps_per_second": 0.717
 }

 {
+    "epoch": 200.0,
+    "eval_loss": 1.2923693656921387,
+    "eval_runtime": 6.9675,
     "eval_samples": 142,
+    "eval_samples_per_second": 20.38,
+    "eval_steps_per_second": 2.583,
     "eval_wer": 0.7201394943330427,
+    "train_loss": 1.2620406293869018,
+    "train_runtime": 6643.3653,
     "train_samples": 378,
+    "train_samples_per_second": 11.38,
+    "train_steps_per_second": 0.723
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 500.0,
-    "eval_loss": 1.7564287185668945,
-    "eval_runtime": 6.7205,
     "eval_samples": 142,
-    "eval_samples_per_second": 21.129,
-    "eval_steps_per_second": 2.678,
     "eval_wer": 0.7201394943330427
 }

 {
+    "epoch": 200.0,
+    "eval_loss": 1.2923693656921387,
+    "eval_runtime": 6.9675,
     "eval_samples": 142,
+    "eval_samples_per_second": 20.38,
+    "eval_steps_per_second": 2.583,
     "eval_wer": 0.7201394943330427
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 500.0,
-    "train_loss": 0.7251964689095814,
-    "train_runtime": 16734.3269,
     "train_samples": 378,
-    "train_samples_per_second": 11.294,
-    "train_steps_per_second": 0.717
 }

 {
+    "epoch": 200.0,
+    "train_loss": 1.2620406293869018,
+    "train_runtime": 6643.3653,
     "train_samples": 378,
+    "train_samples_per_second": 11.38,
+    "train_steps_per_second": 0.723
 }

trainer_state.json CHANGED Viewed

@@ -1,1825 +1,745 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 500.0,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 4.17,
-      "learning_rate": 7.35e-06,
-      "loss": 18.5133,
       "step": 100
     },
     {
       "epoch": 4.17,
-      "eval_loss": 12.037576675415039,
-      "eval_runtime": 6.8573,
-      "eval_samples_per_second": 20.708,
-      "eval_steps_per_second": 2.625,
       "eval_wer": 1.0,
       "step": 100
     },
     {
       "epoch": 8.33,
-      "learning_rate": 1.485e-05,
-      "loss": 7.9152,
       "step": 200
     },
     {
       "epoch": 8.33,
-      "eval_loss": 6.240577220916748,
-      "eval_runtime": 6.2762,
-      "eval_samples_per_second": 22.625,
-      "eval_steps_per_second": 2.868,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 12.5,
-      "learning_rate": 2.2349999999999998e-05,
-      "loss": 5.363,
       "step": 300
     },
     {
       "epoch": 12.5,
-      "eval_loss": 4.664888858795166,
-      "eval_runtime": 7.3621,
-      "eval_samples_per_second": 19.288,
-      "eval_steps_per_second": 2.445,
       "eval_wer": 1.0,
       "step": 300
     },
     {
       "epoch": 16.67,
-      "learning_rate": 2.985e-05,
-      "loss": 4.05,
       "step": 400
     },
     {
       "epoch": 16.67,
-      "eval_loss": 3.5798044204711914,
-      "eval_runtime": 6.7794,
-      "eval_samples_per_second": 20.946,
-      "eval_steps_per_second": 2.655,
-      "eval_wer": 1.0,
       "step": 400
     },
     {
       "epoch": 20.83,
-      "learning_rate": 3.735e-05,
-      "loss": 3.3467,
       "step": 500
     },
     {
       "epoch": 20.83,
-      "eval_loss": 3.1930062770843506,
-      "eval_runtime": 7.0411,
-      "eval_samples_per_second": 20.167,
-      "eval_steps_per_second": 2.556,
-      "eval_wer": 1.0,
       "step": 500
     },
     {
       "epoch": 25.0,
-      "learning_rate": 4.484999999999999e-05,
-      "loss": 3.1638,
       "step": 600
     },
     {
       "epoch": 25.0,
-      "eval_loss": 3.098419666290283,
-      "eval_runtime": 6.9505,
-      "eval_samples_per_second": 20.43,
-      "eval_steps_per_second": 2.59,
-      "eval_wer": 1.0,
       "step": 600
     },
     {
       "epoch": 29.17,
-      "learning_rate": 5.234999999999999e-05,
-      "loss": 3.043,
       "step": 700
     },
     {
       "epoch": 29.17,
-      "eval_loss": 2.970651865005493,
-      "eval_runtime": 6.7343,
-      "eval_samples_per_second": 21.086,
-      "eval_steps_per_second": 2.673,
-      "eval_wer": 0.998256320836966,
       "step": 700
     },
     {
       "epoch": 33.33,
-      "learning_rate": 5.985e-05,
-      "loss": 2.9566,
       "step": 800
     },
     {
       "epoch": 33.33,
-      "eval_loss": 2.9295754432678223,
-      "eval_runtime": 6.7892,
-      "eval_samples_per_second": 20.916,
-      "eval_steps_per_second": 2.651,
-      "eval_wer": 1.0,
       "step": 800
     },
     {
       "epoch": 37.5,
-      "learning_rate": 6.735e-05,
-      "loss": 2.8994,
       "step": 900
     },
     {
       "epoch": 37.5,
-      "eval_loss": 2.8289785385131836,
-      "eval_runtime": 6.3572,
-      "eval_samples_per_second": 22.337,
-      "eval_steps_per_second": 2.831,
-      "eval_wer": 0.998256320836966,
       "step": 900
     },
     {
       "epoch": 41.67,
-      "learning_rate": 7.484999999999999e-05,
-      "loss": 2.6469,
       "step": 1000
     },
     {
       "epoch": 41.67,
-      "eval_loss": 2.244255781173706,
-      "eval_runtime": 7.0587,
-      "eval_samples_per_second": 20.117,
-      "eval_steps_per_second": 2.55,
-      "eval_wer": 0.976460331299041,
       "step": 1000
     },
     {
       "epoch": 45.83,
-      "learning_rate": 7.433181818181818e-05,
-      "loss": 2.1557,
       "step": 1100
     },
     {
       "epoch": 45.83,
-      "eval_loss": 1.5079460144042969,
-      "eval_runtime": 6.593,
-      "eval_samples_per_second": 21.538,
-      "eval_steps_per_second": 2.73,
-      "eval_wer": 0.8204010462074979,
       "step": 1100
     },
     {
       "epoch": 50.0,
-      "learning_rate": 7.364999999999999e-05,
-      "loss": 1.7524,
       "step": 1200
     },
     {
       "epoch": 50.0,
-      "eval_loss": 1.2472423315048218,
-      "eval_runtime": 6.884,
-      "eval_samples_per_second": 20.628,
-      "eval_steps_per_second": 2.615,
-      "eval_wer": 0.7593722755013078,
       "step": 1200
     },
     {
       "epoch": 54.17,
-      "learning_rate": 7.296818181818182e-05,
-      "loss": 1.54,
       "step": 1300
     },
     {
       "epoch": 54.17,
-      "eval_loss": 1.1611692905426025,
-      "eval_runtime": 6.7498,
-      "eval_samples_per_second": 21.038,
-      "eval_steps_per_second": 2.667,
-      "eval_wer": 0.7096774193548387,
       "step": 1300
     },
     {
       "epoch": 58.33,
-      "learning_rate": 7.228636363636363e-05,
-      "loss": 1.3985,
       "step": 1400
     },
     {
       "epoch": 58.33,
-      "eval_loss": 1.1158100366592407,
-      "eval_runtime": 6.9751,
-      "eval_samples_per_second": 20.358,
-      "eval_steps_per_second": 2.581,
-      "eval_wer": 0.7358326068003488,
       "step": 1400
     },
     {
       "epoch": 62.5,
-      "learning_rate": 7.160454545454545e-05,
-      "loss": 1.2869,
       "step": 1500
     },
     {
       "epoch": 62.5,
-      "eval_loss": 1.0453699827194214,
-      "eval_runtime": 6.542,
-      "eval_samples_per_second": 21.706,
-      "eval_steps_per_second": 2.751,
-      "eval_wer": 0.6931124673060157,
       "step": 1500
     },
     {
       "epoch": 66.67,
-      "learning_rate": 7.092272727272727e-05,
-      "loss": 1.1952,
       "step": 1600
     },
     {
       "epoch": 66.67,
-      "eval_loss": 1.0130492448806763,
-      "eval_runtime": 7.0228,
-      "eval_samples_per_second": 20.22,
-      "eval_steps_per_second": 2.563,
-      "eval_wer": 0.6852659110723627,
       "step": 1600
     },
     {
       "epoch": 70.83,
-      "learning_rate": 7.024090909090908e-05,
-      "loss": 1.1022,
       "step": 1700
     },
     {
       "epoch": 70.83,
-      "eval_loss": 1.017554521560669,
-      "eval_runtime": 6.8272,
-      "eval_samples_per_second": 20.799,
-      "eval_steps_per_second": 2.637,
-      "eval_wer": 0.6965998256320837,
       "step": 1700
     },
     {
       "epoch": 75.0,
-      "learning_rate": 6.95590909090909e-05,
-      "loss": 1.0346,
       "step": 1800
     },
     {
       "epoch": 75.0,
-      "eval_loss": 1.0053126811981201,
-      "eval_runtime": 6.9741,
-      "eval_samples_per_second": 20.361,
-      "eval_steps_per_second": 2.581,
-      "eval_wer": 0.6817785527462947,
       "step": 1800
     },
     {
       "epoch": 79.17,
-      "learning_rate": 6.887727272727272e-05,
-      "loss": 0.9707,
       "step": 1900
     },
     {
       "epoch": 79.17,
-      "eval_loss": 1.022377610206604,
-      "eval_runtime": 7.0064,
-      "eval_samples_per_second": 20.267,
-      "eval_steps_per_second": 2.569,
-      "eval_wer": 0.6713164777680907,
       "step": 1900
     },
     {
       "epoch": 83.33,
-      "learning_rate": 6.819545454545453e-05,
-      "loss": 0.917,
       "step": 2000
     },
     {
       "epoch": 83.33,
-      "eval_loss": 1.0382641553878784,
-      "eval_runtime": 6.7309,
-      "eval_samples_per_second": 21.097,
-      "eval_steps_per_second": 2.674,
-      "eval_wer": 0.6530078465562337,
       "step": 2000
     },
     {
       "epoch": 87.5,
-      "learning_rate": 6.751363636363636e-05,
-      "loss": 0.8574,
       "step": 2100
     },
     {
       "epoch": 87.5,
-      "eval_loss": 1.0632084608078003,
-      "eval_runtime": 7.3312,
-      "eval_samples_per_second": 19.369,
-      "eval_steps_per_second": 2.455,
-      "eval_wer": 0.6756756756756757,
       "step": 2100
     },
     {
       "epoch": 91.67,
-      "learning_rate": 6.683181818181818e-05,
-      "loss": 0.8021,
       "step": 2200
     },
     {
       "epoch": 91.67,
-      "eval_loss": 1.012629747390747,
-      "eval_runtime": 6.9334,
-      "eval_samples_per_second": 20.481,
-      "eval_steps_per_second": 2.596,
-      "eval_wer": 0.6442894507410637,
       "step": 2200
     },
     {
       "epoch": 95.83,
-      "learning_rate": 6.615e-05,
-      "loss": 0.7563,
       "step": 2300
     },
     {
       "epoch": 95.83,
-      "eval_loss": 1.0677976608276367,
-      "eval_runtime": 7.0411,
-      "eval_samples_per_second": 20.167,
-      "eval_steps_per_second": 2.556,
-      "eval_wer": 0.6713164777680907,
       "step": 2300
     },
     {
       "epoch": 100.0,
-      "learning_rate": 6.546818181818181e-05,
-      "loss": 0.709,
       "step": 2400
     },
     {
       "epoch": 100.0,
-      "eval_loss": 1.0755900144577026,
-      "eval_runtime": 6.7348,
-      "eval_samples_per_second": 21.085,
-      "eval_steps_per_second": 2.673,
-      "eval_wer": 0.6756756756756757,
       "step": 2400
     },
     {
       "epoch": 104.17,
-      "learning_rate": 6.478636363636363e-05,
-      "loss": 0.6775,
       "step": 2500
     },
     {
       "epoch": 104.17,
-      "eval_loss": 1.03966224193573,
-      "eval_runtime": 6.7793,
-      "eval_samples_per_second": 20.946,
-      "eval_steps_per_second": 2.655,
-      "eval_wer": 0.6913687881429816,
       "step": 2500
     },
     {
       "epoch": 108.33,
-      "learning_rate": 6.410454545454546e-05,
-      "loss": 0.6325,
       "step": 2600
     },
     {
       "epoch": 108.33,
-      "eval_loss": 1.055609107017517,
-      "eval_runtime": 6.9878,
-      "eval_samples_per_second": 20.321,
-      "eval_steps_per_second": 2.576,
-      "eval_wer": 0.6512641673931997,
       "step": 2600
     },
     {
       "epoch": 112.5,
-      "learning_rate": 6.342272727272726e-05,
-      "loss": 0.617,
       "step": 2700
     },
     {
       "epoch": 112.5,
-      "eval_loss": 1.1218976974487305,
-      "eval_runtime": 6.8023,
-      "eval_samples_per_second": 20.875,
-      "eval_steps_per_second": 2.646,
-      "eval_wer": 0.6922406277244987,
       "step": 2700
     },
     {
       "epoch": 116.67,
-      "learning_rate": 6.274090909090909e-05,
-      "loss": 0.5801,
       "step": 2800
     },
     {
       "epoch": 116.67,
-      "eval_loss": 1.112548589706421,
-      "eval_runtime": 6.7506,
-      "eval_samples_per_second": 21.035,
-      "eval_steps_per_second": 2.666,
-      "eval_wer": 0.6870095902353966,
       "step": 2800
     },
     {
       "epoch": 120.83,
-      "learning_rate": 6.205909090909091e-05,
-      "loss": 0.5367,
       "step": 2900
     },
     {
       "epoch": 120.83,
-      "eval_loss": 1.1397372484207153,
-      "eval_runtime": 6.876,
-      "eval_samples_per_second": 20.652,
-      "eval_steps_per_second": 2.618,
-      "eval_wer": 0.6564952048823016,
       "step": 2900
     },
     {
       "epoch": 125.0,
-      "learning_rate": 6.137727272727272e-05,
-      "loss": 0.5132,
       "step": 3000
     },
     {
       "epoch": 125.0,
-      "eval_loss": 1.1678012609481812,
-      "eval_runtime": 6.8221,
-      "eval_samples_per_second": 20.815,
-      "eval_steps_per_second": 2.638,
-      "eval_wer": 0.7000871839581517,
       "step": 3000
     },
     {
       "epoch": 129.17,
-      "learning_rate": 6.069545454545454e-05,
-      "loss": 0.4948,
       "step": 3100
     },
     {
       "epoch": 129.17,
-      "eval_loss": 1.1275851726531982,
-      "eval_runtime": 6.9051,
-      "eval_samples_per_second": 20.564,
-      "eval_steps_per_second": 2.607,
-      "eval_wer": 0.6643417611159547,
       "step": 3100
     },
     {
       "epoch": 133.33,
-      "learning_rate": 6.001363636363636e-05,
-      "loss": 0.457,
       "step": 3200
     },
     {
       "epoch": 133.33,
-      "eval_loss": 1.1464685201644897,
-      "eval_runtime": 6.6513,
-      "eval_samples_per_second": 21.349,
-      "eval_steps_per_second": 2.706,
-      "eval_wer": 0.6791630340017437,
       "step": 3200
     },
     {
       "epoch": 137.5,
-      "learning_rate": 5.933181818181817e-05,
-      "loss": 0.4538,
       "step": 3300
     },
     {
       "epoch": 137.5,
-      "eval_loss": 1.143470287322998,
-      "eval_runtime": 5.4611,
-      "eval_samples_per_second": 26.002,
-      "eval_steps_per_second": 3.296,
-      "eval_wer": 0.6809067131647777,
       "step": 3300
     },
     {
       "epoch": 141.67,
-      "learning_rate": 5.8649999999999996e-05,
-      "loss": 0.4227,
       "step": 3400
     },
     {
       "epoch": 141.67,
-      "eval_loss": 1.1456971168518066,
-      "eval_runtime": 6.7115,
-      "eval_samples_per_second": 21.158,
-      "eval_steps_per_second": 2.682,
-      "eval_wer": 0.6599825632083697,
       "step": 3400
     },
     {
       "epoch": 145.83,
-      "learning_rate": 5.796818181818181e-05,
-      "loss": 0.4083,
       "step": 3500
     },
     {
       "epoch": 145.83,
-      "eval_loss": 1.179282307624817,
-      "eval_runtime": 7.0949,
-      "eval_samples_per_second": 20.014,
-      "eval_steps_per_second": 2.537,
-      "eval_wer": 0.6652136006974717,
       "step": 3500
     },
     {
       "epoch": 150.0,
-      "learning_rate": 5.7286363636363635e-05,
-      "loss": 0.3965,
       "step": 3600
     },
     {
       "epoch": 150.0,
-      "eval_loss": 1.2435046434402466,
-      "eval_runtime": 7.0689,
-      "eval_samples_per_second": 20.088,
-      "eval_steps_per_second": 2.546,
-      "eval_wer": 0.6878814298169137,
       "step": 3600
     },
     {
       "epoch": 154.17,
-      "learning_rate": 5.6604545454545445e-05,
-      "loss": 0.382,
       "step": 3700
     },
     {
       "epoch": 154.17,
-      "eval_loss": 1.2228599786758423,
-      "eval_runtime": 7.0115,
-      "eval_samples_per_second": 20.252,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.6826503923278117,
       "step": 3700
     },
     {
       "epoch": 158.33,
-      "learning_rate": 5.592272727272727e-05,
-      "loss": 0.3452,
       "step": 3800
     },
     {
       "epoch": 158.33,
-      "eval_loss": 1.229727029800415,
-      "eval_runtime": 6.7478,
-      "eval_samples_per_second": 21.044,
-      "eval_steps_per_second": 2.668,
-      "eval_wer": 0.6878814298169137,
       "step": 3800
     },
     {
       "epoch": 162.5,
-      "learning_rate": 5.5240909090909085e-05,
-      "loss": 0.3434,
       "step": 3900
     },
     {
       "epoch": 162.5,
-      "eval_loss": 1.2349668741226196,
-      "eval_runtime": 7.0134,
-      "eval_samples_per_second": 20.247,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.6887532693984307,
       "step": 3900
     },
     {
       "epoch": 166.67,
-      "learning_rate": 5.455909090909091e-05,
-      "loss": 0.3276,
       "step": 4000
     },
     {
       "epoch": 166.67,
-      "eval_loss": 1.2186285257339478,
-      "eval_runtime": 6.7562,
-      "eval_samples_per_second": 21.018,
-      "eval_steps_per_second": 2.664,
-      "eval_wer": 0.6922406277244987,
       "step": 4000
     },
     {
       "epoch": 170.83,
-      "learning_rate": 5.387727272727272e-05,
-      "loss": 0.3052,
       "step": 4100
     },
     {
       "epoch": 170.83,
-      "eval_loss": 1.233783483505249,
-      "eval_runtime": 6.5925,
-      "eval_samples_per_second": 21.54,
-      "eval_steps_per_second": 2.73,
-      "eval_wer": 0.6870095902353966,
       "step": 4100
     },
     {
       "epoch": 175.0,
-      "learning_rate": 5.319545454545454e-05,
-      "loss": 0.3025,
       "step": 4200
     },
     {
       "epoch": 175.0,
-      "eval_loss": 1.272440791130066,
-      "eval_runtime": 6.8253,
-      "eval_samples_per_second": 20.805,
-      "eval_steps_per_second": 2.637,
-      "eval_wer": 0.7079337401918047,
       "step": 4200
     },
     {
       "epoch": 179.17,
-      "learning_rate": 5.251363636363636e-05,
-      "loss": 0.2916,
       "step": 4300
     },
     {
       "epoch": 179.17,
-      "eval_loss": 1.2757943868637085,
-      "eval_runtime": 6.6107,
-      "eval_samples_per_second": 21.48,
-      "eval_steps_per_second": 2.723,
-      "eval_wer": 0.6974716652136007,
       "step": 4300
     },
     {
       "epoch": 183.33,
-      "learning_rate": 5.183181818181818e-05,
-      "loss": 0.2709,
       "step": 4400
     },
     {
       "epoch": 183.33,
-      "eval_loss": 1.2726093530654907,
-      "eval_runtime": 6.7657,
-      "eval_samples_per_second": 20.988,
-      "eval_steps_per_second": 2.66,
-      "eval_wer": 0.6748038360941587,
       "step": 4400
     },
     {
       "epoch": 187.5,
-      "learning_rate": 5.1149999999999996e-05,
-      "loss": 0.2707,
       "step": 4500
     },
     {
       "epoch": 187.5,
-      "eval_loss": 1.264315128326416,
-      "eval_runtime": 6.6322,
-      "eval_samples_per_second": 21.411,
-      "eval_steps_per_second": 2.714,
-      "eval_wer": 0.6957279860505667,
       "step": 4500
     },
     {
       "epoch": 191.67,
-      "learning_rate": 5.046818181818181e-05,
-      "loss": 0.262,
       "step": 4600
     },
     {
       "epoch": 191.67,
-      "eval_loss": 1.321448564529419,
-      "eval_runtime": 6.7016,
-      "eval_samples_per_second": 21.189,
-      "eval_steps_per_second": 2.686,
-      "eval_wer": 0.7131647776809067,
       "step": 4600
     },
     {
       "epoch": 195.83,
-      "learning_rate": 4.9786363636363636e-05,
-      "loss": 0.2453,
       "step": 4700
     },
     {
       "epoch": 195.83,
-      "eval_loss": 1.2952940464019775,
-      "eval_runtime": 6.8362,
-      "eval_samples_per_second": 20.772,
-      "eval_steps_per_second": 2.633,
-      "eval_wer": 0.6861377506538797,
       "step": 4700
     },
     {
       "epoch": 200.0,
-      "learning_rate": 4.910454545454545e-05,
-      "loss": 0.248,
       "step": 4800
     },
     {
       "epoch": 200.0,
-      "eval_loss": 1.362170696258545,
-      "eval_runtime": 6.5267,
-      "eval_samples_per_second": 21.757,
-      "eval_steps_per_second": 2.758,
-      "eval_wer": 0.6774193548387096,
-      "step": 4800
-    },
-    {
-      "epoch": 204.17,
-      "learning_rate": 4.842272727272727e-05,
-      "loss": 0.2325,
-      "step": 4900
-    },
-    {
-      "epoch": 204.17,
-      "eval_loss": 1.3594108819961548,
-      "eval_runtime": 6.7956,
-      "eval_samples_per_second": 20.896,
-      "eval_steps_per_second": 2.649,
-      "eval_wer": 0.6835222319093287,
-      "step": 4900
-    },
-    {
-      "epoch": 208.33,
-      "learning_rate": 4.7740909090909085e-05,
-      "loss": 0.2124,
-      "step": 5000
-    },
-    {
-      "epoch": 208.33,
-      "eval_loss": 1.3367135524749756,
-      "eval_runtime": 6.8257,
-      "eval_samples_per_second": 20.804,
-      "eval_steps_per_second": 2.637,
-      "eval_wer": 0.6652136006974717,
-      "step": 5000
-    },
-    {
-      "epoch": 212.5,
-      "learning_rate": 4.706590909090908e-05,
-      "loss": 0.2253,
-      "step": 5100
-    },
-    {
-      "epoch": 212.5,
-      "eval_loss": 1.415678858757019,
-      "eval_runtime": 6.8381,
-      "eval_samples_per_second": 20.766,
-      "eval_steps_per_second": 2.632,
-      "eval_wer": 0.6878814298169137,
-      "step": 5100
-    },
-    {
-      "epoch": 216.67,
-      "learning_rate": 4.6384090909090906e-05,
-      "loss": 0.2059,
-      "step": 5200
-    },
-    {
-      "epoch": 216.67,
-      "eval_loss": 1.4359543323516846,
-      "eval_runtime": 6.8901,
-      "eval_samples_per_second": 20.609,
-      "eval_steps_per_second": 2.612,
-      "eval_wer": 0.7131647776809067,
-      "step": 5200
-    },
-    {
-      "epoch": 220.83,
-      "learning_rate": 4.570227272727272e-05,
-      "loss": 0.1951,
-      "step": 5300
-    },
-    {
-      "epoch": 220.83,
-      "eval_loss": 1.4606153964996338,
-      "eval_runtime": 6.7349,
-      "eval_samples_per_second": 21.084,
-      "eval_steps_per_second": 2.673,
-      "eval_wer": 0.7157802964254577,
-      "step": 5300
-    },
-    {
-      "epoch": 225.0,
-      "learning_rate": 4.5020454545454545e-05,
-      "loss": 0.1861,
-      "step": 5400
-    },
-    {
-      "epoch": 225.0,
-      "eval_loss": 1.469545841217041,
-      "eval_runtime": 6.7814,
-      "eval_samples_per_second": 20.94,
-      "eval_steps_per_second": 2.654,
-      "eval_wer": 0.7018308631211857,
-      "step": 5400
-    },
-    {
-      "epoch": 229.17,
-      "learning_rate": 4.4338636363636355e-05,
-      "loss": 0.1916,
-      "step": 5500
-    },
-    {
-      "epoch": 229.17,
-      "eval_loss": 1.4031471014022827,
-      "eval_runtime": 6.9155,
-      "eval_samples_per_second": 20.534,
-      "eval_steps_per_second": 2.603,
-      "eval_wer": 0.6739319965126417,
-      "step": 5500
-    },
-    {
-      "epoch": 233.33,
-      "learning_rate": 4.365681818181818e-05,
-      "loss": 0.1822,
-      "step": 5600
-    },
-    {
-      "epoch": 233.33,
-      "eval_loss": 1.4425878524780273,
-      "eval_runtime": 6.658,
-      "eval_samples_per_second": 21.328,
-      "eval_steps_per_second": 2.704,
-      "eval_wer": 0.6870095902353966,
-      "step": 5600
-    },
-    {
-      "epoch": 237.5,
-      "learning_rate": 4.2974999999999994e-05,
-      "loss": 0.1684,
-      "step": 5700
-    },
-    {
-      "epoch": 237.5,
-      "eval_loss": 1.4068546295166016,
-      "eval_runtime": 5.8333,
-      "eval_samples_per_second": 24.343,
-      "eval_steps_per_second": 3.086,
-      "eval_wer": 0.7053182214472538,
-      "step": 5700
-    },
-    {
-      "epoch": 241.67,
-      "learning_rate": 4.229318181818182e-05,
-      "loss": 0.1719,
-      "step": 5800
-    },
-    {
-      "epoch": 241.67,
-      "eval_loss": 1.4765515327453613,
-      "eval_runtime": 6.853,
-      "eval_samples_per_second": 20.721,
-      "eval_steps_per_second": 2.627,
-      "eval_wer": 0.6965998256320837,
-      "step": 5800
-    },
-    {
-      "epoch": 245.83,
-      "learning_rate": 4.161136363636363e-05,
-      "loss": 0.1569,
-      "step": 5900
-    },
-    {
-      "epoch": 245.83,
-      "eval_loss": 1.4509494304656982,
-      "eval_runtime": 7.6508,
-      "eval_samples_per_second": 18.56,
-      "eval_steps_per_second": 2.353,
-      "eval_wer": 0.6931124673060157,
-      "step": 5900
-    },
-    {
-      "epoch": 250.0,
-      "learning_rate": 4.092954545454545e-05,
-      "loss": 0.159,
-      "step": 6000
-    },
-    {
-      "epoch": 250.0,
-      "eval_loss": 1.4466707706451416,
-      "eval_runtime": 6.8247,
-      "eval_samples_per_second": 20.807,
-      "eval_steps_per_second": 2.637,
-      "eval_wer": 0.7096774193548387,
-      "step": 6000
-    },
-    {
-      "epoch": 254.17,
-      "learning_rate": 4.0247727272727273e-05,
-      "loss": 0.1476,
-      "step": 6100
-    },
-    {
-      "epoch": 254.17,
-      "eval_loss": 1.4616789817810059,
-      "eval_runtime": 6.6822,
-      "eval_samples_per_second": 21.25,
-      "eval_steps_per_second": 2.694,
-      "eval_wer": 0.6870095902353966,
-      "step": 6100
-    },
-    {
-      "epoch": 258.33,
-      "learning_rate": 3.956590909090909e-05,
-      "loss": 0.1497,
-      "step": 6200
-    },
-    {
-      "epoch": 258.33,
-      "eval_loss": 1.4459782838821411,
-      "eval_runtime": 7.0114,
-      "eval_samples_per_second": 20.253,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.6843940714908456,
-      "step": 6200
-    },
-    {
-      "epoch": 262.5,
-      "learning_rate": 3.8884090909090906e-05,
-      "loss": 0.1446,
-      "step": 6300
-    },
-    {
-      "epoch": 262.5,
-      "eval_loss": 1.5556844472885132,
-      "eval_runtime": 6.9912,
-      "eval_samples_per_second": 20.311,
-      "eval_steps_per_second": 2.575,
-      "eval_wer": 0.7088055797733217,
-      "step": 6300
-    },
-    {
-      "epoch": 266.67,
-      "learning_rate": 3.820227272727272e-05,
-      "loss": 0.1389,
-      "step": 6400
-    },
-    {
-      "epoch": 266.67,
-      "eval_loss": 1.4885756969451904,
-      "eval_runtime": 6.5474,
-      "eval_samples_per_second": 21.688,
-      "eval_steps_per_second": 2.749,
-      "eval_wer": 0.7140366172624237,
-      "step": 6400
-    },
-    {
-      "epoch": 270.83,
-      "learning_rate": 3.7520454545454546e-05,
-      "loss": 0.1331,
-      "step": 6500
-    },
-    {
-      "epoch": 270.83,
-      "eval_loss": 1.5526471138000488,
-      "eval_runtime": 6.5806,
-      "eval_samples_per_second": 21.579,
-      "eval_steps_per_second": 2.735,
-      "eval_wer": 0.7061900610287707,
-      "step": 6500
-    },
-    {
-      "epoch": 275.0,
-      "learning_rate": 3.683863636363636e-05,
-      "loss": 0.1344,
-      "step": 6600
-    },
-    {
-      "epoch": 275.0,
-      "eval_loss": 1.5419210195541382,
-      "eval_runtime": 6.8756,
-      "eval_samples_per_second": 20.653,
-      "eval_steps_per_second": 2.618,
-      "eval_wer": 0.7027027027027027,
-      "step": 6600
-    },
-    {
-      "epoch": 279.17,
-      "learning_rate": 3.615681818181818e-05,
-      "loss": 0.1198,
-      "step": 6700
-    },
-    {
-      "epoch": 279.17,
-      "eval_loss": 1.564064383506775,
-      "eval_runtime": 6.7671,
-      "eval_samples_per_second": 20.984,
-      "eval_steps_per_second": 2.66,
-      "eval_wer": 0.7000871839581517,
-      "step": 6700
-    },
-    {
-      "epoch": 283.33,
-      "learning_rate": 3.5474999999999995e-05,
-      "loss": 0.1242,
-      "step": 6800
-    },
-    {
-      "epoch": 283.33,
-      "eval_loss": 1.5390304327011108,
-      "eval_runtime": 6.7114,
-      "eval_samples_per_second": 21.158,
-      "eval_steps_per_second": 2.682,
-      "eval_wer": 0.7061900610287707,
-      "step": 6800
-    },
-    {
-      "epoch": 287.5,
-      "learning_rate": 3.479318181818181e-05,
-      "loss": 0.12,
-      "step": 6900
-    },
-    {
-      "epoch": 287.5,
-      "eval_loss": 1.540635585784912,
-      "eval_runtime": 6.7141,
-      "eval_samples_per_second": 21.149,
-      "eval_steps_per_second": 2.681,
-      "eval_wer": 0.7105492589363557,
-      "step": 6900
-    },
-    {
-      "epoch": 291.67,
-      "learning_rate": 3.4111363636363634e-05,
-      "loss": 0.1096,
-      "step": 7000
-    },
-    {
-      "epoch": 291.67,
-      "eval_loss": 1.5737296342849731,
-      "eval_runtime": 6.6657,
-      "eval_samples_per_second": 21.303,
-      "eval_steps_per_second": 2.7,
-      "eval_wer": 0.6974716652136007,
-      "step": 7000
-    },
-    {
-      "epoch": 295.83,
-      "learning_rate": 3.342954545454545e-05,
-      "loss": 0.113,
-      "step": 7100
-    },
-    {
-      "epoch": 295.83,
-      "eval_loss": 1.5494580268859863,
-      "eval_runtime": 6.8629,
-      "eval_samples_per_second": 20.691,
-      "eval_steps_per_second": 2.623,
-      "eval_wer": 0.7210113339145597,
-      "step": 7100
-    },
-    {
-      "epoch": 300.0,
-      "learning_rate": 3.2747727272727274e-05,
-      "loss": 0.108,
-      "step": 7200
-    },
-    {
-      "epoch": 300.0,
-      "eval_loss": 1.5374633073806763,
-      "eval_runtime": 7.1279,
-      "eval_samples_per_second": 19.922,
-      "eval_steps_per_second": 2.525,
-      "eval_wer": 0.6948561464690497,
-      "step": 7200
-    },
-    {
-      "epoch": 304.17,
-      "learning_rate": 3.207272727272727e-05,
-      "loss": 0.1072,
-      "step": 7300
-    },
-    {
-      "epoch": 304.17,
-      "eval_loss": 1.5337363481521606,
-      "eval_runtime": 7.1049,
-      "eval_samples_per_second": 19.986,
-      "eval_steps_per_second": 2.533,
-      "eval_wer": 0.7009590235396687,
-      "step": 7300
-    },
-    {
-      "epoch": 308.33,
-      "learning_rate": 3.139090909090909e-05,
-      "loss": 0.0979,
-      "step": 7400
-    },
-    {
-      "epoch": 308.33,
-      "eval_loss": 1.5927180051803589,
-      "eval_runtime": 6.6123,
-      "eval_samples_per_second": 21.475,
-      "eval_steps_per_second": 2.722,
-      "eval_wer": 0.7061900610287707,
-      "step": 7400
-    },
-    {
-      "epoch": 312.5,
-      "learning_rate": 3.0709090909090904e-05,
-      "loss": 0.0983,
-      "step": 7500
-    },
-    {
-      "epoch": 312.5,
-      "eval_loss": 1.5882079601287842,
-      "eval_runtime": 6.7832,
-      "eval_samples_per_second": 20.934,
-      "eval_steps_per_second": 2.654,
-      "eval_wer": 0.6843940714908456,
-      "step": 7500
-    },
-    {
-      "epoch": 316.67,
-      "learning_rate": 3.0027272727272724e-05,
-      "loss": 0.0977,
-      "step": 7600
-    },
-    {
-      "epoch": 316.67,
-      "eval_loss": 1.6189255714416504,
-      "eval_runtime": 6.9471,
-      "eval_samples_per_second": 20.44,
-      "eval_steps_per_second": 2.591,
-      "eval_wer": 0.6957279860505667,
-      "step": 7600
-    },
-    {
-      "epoch": 320.83,
-      "learning_rate": 2.9352272727272724e-05,
-      "loss": 0.0947,
-      "step": 7700
-    },
-    {
-      "epoch": 320.83,
-      "eval_loss": 1.5098397731781006,
-      "eval_runtime": 6.6241,
-      "eval_samples_per_second": 21.437,
-      "eval_steps_per_second": 2.717,
-      "eval_wer": 0.6817785527462947,
-      "step": 7700
-    },
-    {
-      "epoch": 325.0,
-      "learning_rate": 2.867045454545454e-05,
-      "loss": 0.0996,
-      "step": 7800
-    },
-    {
-      "epoch": 325.0,
-      "eval_loss": 1.6268917322158813,
-      "eval_runtime": 6.6505,
-      "eval_samples_per_second": 21.352,
-      "eval_steps_per_second": 2.707,
-      "eval_wer": 0.7253705318221447,
-      "step": 7800
-    },
-    {
-      "epoch": 329.17,
-      "learning_rate": 2.798863636363636e-05,
-      "loss": 0.0846,
-      "step": 7900
-    },
-    {
-      "epoch": 329.17,
-      "eval_loss": 1.6366547346115112,
-      "eval_runtime": 6.9003,
-      "eval_samples_per_second": 20.579,
-      "eval_steps_per_second": 2.609,
-      "eval_wer": 0.7088055797733217,
-      "step": 7900
-    },
-    {
-      "epoch": 333.33,
-      "learning_rate": 2.7306818181818177e-05,
-      "loss": 0.0953,
-      "step": 8000
-    },
-    {
-      "epoch": 333.33,
-      "eval_loss": 1.5965033769607544,
-      "eval_runtime": 7.0137,
-      "eval_samples_per_second": 20.246,
-      "eval_steps_per_second": 2.566,
-      "eval_wer": 0.7122929380993898,
-      "step": 8000
-    },
-    {
-      "epoch": 337.5,
-      "learning_rate": 2.6624999999999997e-05,
-      "loss": 0.0906,
-      "step": 8100
-    },
-    {
-      "epoch": 337.5,
-      "eval_loss": 1.6095737218856812,
-      "eval_runtime": 6.5521,
-      "eval_samples_per_second": 21.672,
-      "eval_steps_per_second": 2.747,
-      "eval_wer": 0.7122929380993898,
-      "step": 8100
-    },
-    {
-      "epoch": 341.67,
-      "learning_rate": 2.5943181818181813e-05,
-      "loss": 0.093,
-      "step": 8200
-    },
-    {
-      "epoch": 341.67,
-      "eval_loss": 1.5953401327133179,
-      "eval_runtime": 6.9512,
-      "eval_samples_per_second": 20.428,
-      "eval_steps_per_second": 2.589,
-      "eval_wer": 0.6983435047951178,
-      "step": 8200
-    },
-    {
-      "epoch": 345.83,
-      "learning_rate": 2.5261363636363633e-05,
-      "loss": 0.0784,
-      "step": 8300
-    },
-    {
-      "epoch": 345.83,
-      "eval_loss": 1.5884095430374146,
-      "eval_runtime": 6.8928,
-      "eval_samples_per_second": 20.601,
-      "eval_steps_per_second": 2.611,
-      "eval_wer": 0.6913687881429816,
-      "step": 8300
-    },
-    {
-      "epoch": 350.0,
-      "learning_rate": 2.457954545454545e-05,
-      "loss": 0.0769,
-      "step": 8400
-    },
-    {
-      "epoch": 350.0,
-      "eval_loss": 1.5793629884719849,
-      "eval_runtime": 6.8179,
-      "eval_samples_per_second": 20.828,
-      "eval_steps_per_second": 2.64,
-      "eval_wer": 0.6870095902353966,
-      "step": 8400
-    },
-    {
-      "epoch": 354.17,
-      "learning_rate": 2.3897727272727272e-05,
-      "loss": 0.0782,
-      "step": 8500
-    },
-    {
-      "epoch": 354.17,
-      "eval_loss": 1.6580848693847656,
-      "eval_runtime": 6.9462,
-      "eval_samples_per_second": 20.443,
-      "eval_steps_per_second": 2.591,
-      "eval_wer": 0.6817785527462947,
-      "step": 8500
-    },
-    {
-      "epoch": 358.33,
-      "learning_rate": 2.3215909090909092e-05,
-      "loss": 0.0764,
-      "step": 8600
-    },
-    {
-      "epoch": 358.33,
-      "eval_loss": 1.6554986238479614,
-      "eval_runtime": 7.0359,
-      "eval_samples_per_second": 20.182,
-      "eval_steps_per_second": 2.558,
-      "eval_wer": 0.7088055797733217,
-      "step": 8600
-    },
-    {
-      "epoch": 362.5,
-      "learning_rate": 2.253409090909091e-05,
-      "loss": 0.073,
-      "step": 8700
-    },
-    {
-      "epoch": 362.5,
-      "eval_loss": 1.6465544700622559,
-      "eval_runtime": 6.8477,
-      "eval_samples_per_second": 20.737,
-      "eval_steps_per_second": 2.629,
-      "eval_wer": 0.6931124673060157,
-      "step": 8700
-    },
-    {
-      "epoch": 366.67,
-      "learning_rate": 2.1852272727272725e-05,
-      "loss": 0.0703,
-      "step": 8800
-    },
-    {
-      "epoch": 366.67,
-      "eval_loss": 1.6614816188812256,
-      "eval_runtime": 7.0115,
-      "eval_samples_per_second": 20.252,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.7114210985178727,
-      "step": 8800
-    },
-    {
-      "epoch": 370.83,
-      "learning_rate": 2.1170454545454545e-05,
-      "loss": 0.0707,
-      "step": 8900
-    },
-    {
-      "epoch": 370.83,
-      "eval_loss": 1.6742826700210571,
-      "eval_runtime": 6.7568,
-      "eval_samples_per_second": 21.016,
-      "eval_steps_per_second": 2.664,
-      "eval_wer": 0.7079337401918047,
-      "step": 8900
-    },
-    {
-      "epoch": 375.0,
-      "learning_rate": 2.048863636363636e-05,
-      "loss": 0.0647,
-      "step": 9000
-    },
-    {
-      "epoch": 375.0,
-      "eval_loss": 1.6451914310455322,
-      "eval_runtime": 6.781,
-      "eval_samples_per_second": 20.941,
-      "eval_steps_per_second": 2.654,
-      "eval_wer": 0.7166521360069747,
-      "step": 9000
-    },
-    {
-      "epoch": 379.17,
-      "learning_rate": 1.980681818181818e-05,
-      "loss": 0.0614,
-      "step": 9100
-    },
-    {
-      "epoch": 379.17,
-      "eval_loss": 1.7081646919250488,
-      "eval_runtime": 6.6825,
-      "eval_samples_per_second": 21.25,
-      "eval_steps_per_second": 2.694,
-      "eval_wer": 0.7122929380993898,
-      "step": 9100
-    },
-    {
-      "epoch": 383.33,
-      "learning_rate": 1.9124999999999997e-05,
-      "loss": 0.0646,
-      "step": 9200
-    },
-    {
-      "epoch": 383.33,
-      "eval_loss": 1.684810757637024,
-      "eval_runtime": 6.7457,
-      "eval_samples_per_second": 21.05,
-      "eval_steps_per_second": 2.668,
-      "eval_wer": 0.7183958151700087,
-      "step": 9200
-    },
-    {
-      "epoch": 387.5,
-      "learning_rate": 1.8443181818181817e-05,
-      "loss": 0.0648,
-      "step": 9300
-    },
-    {
-      "epoch": 387.5,
-      "eval_loss": 1.65809166431427,
-      "eval_runtime": 6.5015,
-      "eval_samples_per_second": 21.841,
-      "eval_steps_per_second": 2.769,
-      "eval_wer": 0.7088055797733217,
-      "step": 9300
-    },
-    {
-      "epoch": 391.67,
-      "learning_rate": 1.7761363636363633e-05,
-      "loss": 0.0625,
-      "step": 9400
-    },
-    {
-      "epoch": 391.67,
-      "eval_loss": 1.7315229177474976,
-      "eval_runtime": 7.2222,
-      "eval_samples_per_second": 19.662,
-      "eval_steps_per_second": 2.492,
-      "eval_wer": 0.7340889276373147,
-      "step": 9400
-    },
-    {
-      "epoch": 395.83,
-      "learning_rate": 1.7079545454545453e-05,
-      "loss": 0.0637,
-      "step": 9500
-    },
-    {
-      "epoch": 395.83,
-      "eval_loss": 1.683098316192627,
-      "eval_runtime": 6.8952,
-      "eval_samples_per_second": 20.594,
-      "eval_steps_per_second": 2.611,
-      "eval_wer": 0.7027027027027027,
-      "step": 9500
-    },
-    {
-      "epoch": 400.0,
-      "learning_rate": 1.639772727272727e-05,
-      "loss": 0.0558,
-      "step": 9600
-    },
-    {
-      "epoch": 400.0,
-      "eval_loss": 1.7159340381622314,
-      "eval_runtime": 6.6968,
-      "eval_samples_per_second": 21.204,
-      "eval_steps_per_second": 2.688,
-      "eval_wer": 0.7279860505666957,
-      "step": 9600
-    },
-    {
-      "epoch": 404.17,
-      "learning_rate": 1.571590909090909e-05,
-      "loss": 0.0563,
-      "step": 9700
-    },
-    {
-      "epoch": 404.17,
-      "eval_loss": 1.7474530935287476,
-      "eval_runtime": 6.7706,
-      "eval_samples_per_second": 20.973,
-      "eval_steps_per_second": 2.659,
-      "eval_wer": 0.7157802964254577,
-      "step": 9700
-    },
-    {
-      "epoch": 408.33,
-      "learning_rate": 1.5034090909090908e-05,
-      "loss": 0.0568,
-      "step": 9800
-    },
-    {
-      "epoch": 408.33,
-      "eval_loss": 1.6776412725448608,
-      "eval_runtime": 6.9524,
-      "eval_samples_per_second": 20.425,
-      "eval_steps_per_second": 2.589,
-      "eval_wer": 0.6992153443766347,
-      "step": 9800
-    },
-    {
-      "epoch": 412.5,
-      "learning_rate": 1.4352272727272727e-05,
-      "loss": 0.0574,
-      "step": 9900
-    },
-    {
-      "epoch": 412.5,
-      "eval_loss": 1.7150009870529175,
-      "eval_runtime": 6.8865,
-      "eval_samples_per_second": 20.62,
-      "eval_steps_per_second": 2.614,
-      "eval_wer": 0.6983435047951178,
-      "step": 9900
-    },
-    {
-      "epoch": 416.67,
-      "learning_rate": 1.3670454545454545e-05,
-      "loss": 0.0561,
-      "step": 10000
-    },
-    {
-      "epoch": 416.67,
-      "eval_loss": 1.7315118312835693,
-      "eval_runtime": 6.8566,
-      "eval_samples_per_second": 20.71,
-      "eval_steps_per_second": 2.625,
-      "eval_wer": 0.7140366172624237,
-      "step": 10000
-    },
-    {
-      "epoch": 420.83,
-      "learning_rate": 1.2988636363636363e-05,
-      "loss": 0.0494,
-      "step": 10100
-    },
-    {
-      "epoch": 420.83,
-      "eval_loss": 1.6868910789489746,
-      "eval_runtime": 6.9481,
-      "eval_samples_per_second": 20.437,
-      "eval_steps_per_second": 2.591,
-      "eval_wer": 0.7218831734960767,
-      "step": 10100
-    },
-    {
-      "epoch": 425.0,
-      "learning_rate": 1.2306818181818182e-05,
-      "loss": 0.0495,
-      "step": 10200
-    },
-    {
-      "epoch": 425.0,
-      "eval_loss": 1.749950885772705,
-      "eval_runtime": 6.8281,
-      "eval_samples_per_second": 20.796,
-      "eval_steps_per_second": 2.636,
-      "eval_wer": 0.7262423714036618,
-      "step": 10200
-    },
-    {
-      "epoch": 429.17,
-      "learning_rate": 1.1625e-05,
-      "loss": 0.0542,
-      "step": 10300
-    },
-    {
-      "epoch": 429.17,
-      "eval_loss": 1.7298214435577393,
-      "eval_runtime": 6.7073,
-      "eval_samples_per_second": 21.171,
-      "eval_steps_per_second": 2.684,
-      "eval_wer": 0.7271142109851787,
-      "step": 10300
-    },
-    {
-      "epoch": 433.33,
-      "learning_rate": 1.0943181818181818e-05,
-      "loss": 0.0509,
-      "step": 10400
-    },
-    {
-      "epoch": 433.33,
-      "eval_loss": 1.7334100008010864,
-      "eval_runtime": 6.7752,
-      "eval_samples_per_second": 20.959,
-      "eval_steps_per_second": 2.657,
-      "eval_wer": 0.7262423714036618,
-      "step": 10400
-    },
-    {
-      "epoch": 437.5,
-      "learning_rate": 1.0268181818181817e-05,
-      "loss": 0.046,
-      "step": 10500
-    },
-    {
-      "epoch": 437.5,
-      "eval_loss": 1.7047654390335083,
-      "eval_runtime": 6.3102,
-      "eval_samples_per_second": 22.503,
-      "eval_steps_per_second": 2.853,
-      "eval_wer": 0.7192676547515258,
-      "step": 10500
-    },
-    {
-      "epoch": 441.67,
-      "learning_rate": 9.586363636363636e-06,
-      "loss": 0.0423,
-      "step": 10600
-    },
-    {
-      "epoch": 441.67,
-      "eval_loss": 1.716819167137146,
-      "eval_runtime": 7.0132,
-      "eval_samples_per_second": 20.247,
-      "eval_steps_per_second": 2.567,
-      "eval_wer": 0.7192676547515258,
-      "step": 10600
-    },
-    {
-      "epoch": 445.83,
-      "learning_rate": 8.904545454545453e-06,
-      "loss": 0.0477,
-      "step": 10700
-    },
-    {
-      "epoch": 445.83,
-      "eval_loss": 1.7387615442276,
-      "eval_runtime": 6.7039,
-      "eval_samples_per_second": 21.182,
-      "eval_steps_per_second": 2.685,
-      "eval_wer": 0.7210113339145597,
-      "step": 10700
-    },
-    {
-      "epoch": 450.0,
-      "learning_rate": 8.222727272727273e-06,
-      "loss": 0.0436,
-      "step": 10800
-    },
-    {
-      "epoch": 450.0,
-      "eval_loss": 1.7278592586517334,
-      "eval_runtime": 6.9747,
-      "eval_samples_per_second": 20.359,
-      "eval_steps_per_second": 2.581,
-      "eval_wer": 0.7166521360069747,
-      "step": 10800
-    },
-    {
-      "epoch": 454.17,
-      "learning_rate": 7.540909090909091e-06,
-      "loss": 0.0466,
-      "step": 10900
-    },
-    {
-      "epoch": 454.17,
-      "eval_loss": 1.696805715560913,
-      "eval_runtime": 6.8023,
-      "eval_samples_per_second": 20.875,
-      "eval_steps_per_second": 2.646,
-      "eval_wer": 0.7053182214472538,
-      "step": 10900
-    },
-    {
-      "epoch": 458.33,
-      "learning_rate": 6.859090909090909e-06,
-      "loss": 0.0424,
-      "step": 11000
-    },
-    {
-      "epoch": 458.33,
-      "eval_loss": 1.7237237691879272,
-      "eval_runtime": 7.027,
-      "eval_samples_per_second": 20.208,
-      "eval_steps_per_second": 2.562,
-      "eval_wer": 0.7183958151700087,
-      "step": 11000
-    },
-    {
-      "epoch": 462.5,
-      "learning_rate": 6.177272727272727e-06,
-      "loss": 0.0447,
-      "step": 11100
-    },
-    {
-      "epoch": 462.5,
-      "eval_loss": 1.721848726272583,
-      "eval_runtime": 6.7393,
-      "eval_samples_per_second": 21.07,
-      "eval_steps_per_second": 2.671,
-      "eval_wer": 0.7183958151700087,
-      "step": 11100
-    },
-    {
-      "epoch": 466.67,
-      "learning_rate": 5.495454545454545e-06,
-      "loss": 0.0455,
-      "step": 11200
-    },
-    {
-      "epoch": 466.67,
-      "eval_loss": 1.7505738735198975,
-      "eval_runtime": 6.8936,
-      "eval_samples_per_second": 20.599,
-      "eval_steps_per_second": 2.611,
-      "eval_wer": 0.7218831734960767,
-      "step": 11200
-    },
-    {
-      "epoch": 470.83,
-      "learning_rate": 4.813636363636364e-06,
-      "loss": 0.0446,
-      "step": 11300
-    },
-    {
-      "epoch": 470.83,
-      "eval_loss": 1.7541626691818237,
-      "eval_runtime": 6.9153,
-      "eval_samples_per_second": 20.534,
-      "eval_steps_per_second": 2.603,
-      "eval_wer": 0.7279860505666957,
-      "step": 11300
-    },
-    {
-      "epoch": 475.0,
-      "learning_rate": 4.131818181818182e-06,
-      "loss": 0.043,
-      "step": 11400
-    },
-    {
-      "epoch": 475.0,
-      "eval_loss": 1.750115156173706,
-      "eval_runtime": 6.8671,
-      "eval_samples_per_second": 20.678,
-      "eval_steps_per_second": 2.621,
-      "eval_wer": 0.7201394943330427,
-      "step": 11400
-    },
-    {
-      "epoch": 479.17,
-      "learning_rate": 3.4499999999999996e-06,
-      "loss": 0.0397,
-      "step": 11500
-    },
-    {
-      "epoch": 479.17,
-      "eval_loss": 1.783726692199707,
-      "eval_runtime": 6.759,
-      "eval_samples_per_second": 21.009,
-      "eval_steps_per_second": 2.663,
-      "eval_wer": 0.7244986922406277,
-      "step": 11500
-    },
-    {
-      "epoch": 483.33,
-      "learning_rate": 2.768181818181818e-06,
-      "loss": 0.0402,
-      "step": 11600
-    },
-    {
-      "epoch": 483.33,
-      "eval_loss": 1.7762095928192139,
-      "eval_runtime": 6.8013,
-      "eval_samples_per_second": 20.878,
-      "eval_steps_per_second": 2.647,
-      "eval_wer": 0.7175239755884917,
-      "step": 11600
-    },
-    {
-      "epoch": 487.5,
-      "learning_rate": 2.086363636363636e-06,
-      "loss": 0.039,
-      "step": 11700
-    },
-    {
-      "epoch": 487.5,
-      "eval_loss": 1.7771002054214478,
-      "eval_runtime": 6.9246,
-      "eval_samples_per_second": 20.507,
-      "eval_steps_per_second": 2.599,
-      "eval_wer": 0.7262423714036618,
-      "step": 11700
-    },
-    {
-      "epoch": 491.67,
-      "learning_rate": 1.4045454545454545e-06,
-      "loss": 0.0402,
-      "step": 11800
-    },
-    {
-      "epoch": 491.67,
-      "eval_loss": 1.7563738822937012,
-      "eval_runtime": 7.1476,
-      "eval_samples_per_second": 19.867,
-      "eval_steps_per_second": 2.518,
-      "eval_wer": 0.7218831734960767,
-      "step": 11800
-    },
-    {
-      "epoch": 495.83,
-      "learning_rate": 7.227272727272726e-07,
-      "loss": 0.0368,
-      "step": 11900
-    },
-    {
-      "epoch": 495.83,
-      "eval_loss": 1.7552615404129028,
-      "eval_runtime": 6.927,
-      "eval_samples_per_second": 20.499,
-      "eval_steps_per_second": 2.599,
-      "eval_wer": 0.7192676547515258,
-      "step": 11900
-    },
-    {
-      "epoch": 500.0,
-      "learning_rate": 4.090909090909091e-08,
-      "loss": 0.0395,
-      "step": 12000
-    },
-    {
-      "epoch": 500.0,
-      "eval_loss": 1.7564287185668945,
-      "eval_runtime": 6.7877,
-      "eval_samples_per_second": 20.92,
-      "eval_steps_per_second": 2.652,
       "eval_wer": 0.7201394943330427,
-      "step": 12000
     },
     {
-      "epoch": 500.0,
-      "step": 12000,
-      "total_flos": 2.5005546169759453e+19,
-      "train_loss": 0.7251964689095814,
-      "train_runtime": 16734.3269,
-      "train_samples_per_second": 11.294,
-      "train_steps_per_second": 0.717
     }
   ],
-  "max_steps": 12000,
-  "num_train_epochs": 500,
-  "total_flos": 2.5005546169759453e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 200.0,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 4.17,
+      "learning_rate": 7.35e-05,
+      "loss": 11.2783,
       "step": 100
     },
     {
       "epoch": 4.17,
+      "eval_loss": 4.640867233276367,
+      "eval_runtime": 5.3814,
+      "eval_samples_per_second": 26.387,
+      "eval_steps_per_second": 3.345,
       "eval_wer": 1.0,
       "step": 100
     },
     {
       "epoch": 8.33,
+      "learning_rate": 7.343617021276595e-05,
+      "loss": 3.5578,
       "step": 200
     },
     {
       "epoch": 8.33,
+      "eval_loss": 3.164858341217041,
+      "eval_runtime": 5.2371,
+      "eval_samples_per_second": 27.114,
+      "eval_steps_per_second": 3.437,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 12.5,
+      "learning_rate": 7.184042553191488e-05,
+      "loss": 3.1279,
       "step": 300
     },
     {
       "epoch": 12.5,
+      "eval_loss": 3.0335276126861572,
+      "eval_runtime": 6.7986,
+      "eval_samples_per_second": 20.887,
+      "eval_steps_per_second": 2.648,
       "eval_wer": 1.0,
       "step": 300
     },
     {
       "epoch": 16.67,
+      "learning_rate": 7.024468085106383e-05,
+      "loss": 2.9944,
       "step": 400
     },
     {
       "epoch": 16.67,
+      "eval_loss": 2.952620267868042,
+      "eval_runtime": 7.0283,
+      "eval_samples_per_second": 20.204,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.998256320836966,
       "step": 400
     },
     {
       "epoch": 20.83,
+      "learning_rate": 6.864893617021276e-05,
+      "loss": 2.9275,
       "step": 500
     },
     {
       "epoch": 20.83,
+      "eval_loss": 2.929126501083374,
+      "eval_runtime": 6.972,
+      "eval_samples_per_second": 20.367,
+      "eval_steps_per_second": 2.582,
+      "eval_wer": 1.000871839581517,
       "step": 500
     },
     {
       "epoch": 25.0,
+      "learning_rate": 6.70531914893617e-05,
+      "loss": 2.8077,
       "step": 600
     },
     {
       "epoch": 25.0,
+      "eval_loss": 2.563281536102295,
+      "eval_runtime": 7.1264,
+      "eval_samples_per_second": 19.926,
+      "eval_steps_per_second": 2.526,
+      "eval_wer": 0.9895379250217959,
       "step": 600
     },
     {
       "epoch": 29.17,
+      "learning_rate": 6.545744680851063e-05,
+      "loss": 2.4438,
       "step": 700
     },
     {
       "epoch": 29.17,
+      "eval_loss": 1.904543399810791,
+      "eval_runtime": 6.7668,
+      "eval_samples_per_second": 20.985,
+      "eval_steps_per_second": 2.66,
+      "eval_wer": 0.95640802092415,
       "step": 700
     },
     {
       "epoch": 33.33,
+      "learning_rate": 6.386170212765957e-05,
+      "loss": 1.9659,
       "step": 800
     },
     {
       "epoch": 33.33,
+      "eval_loss": 1.4114454984664917,
+      "eval_runtime": 6.9861,
+      "eval_samples_per_second": 20.326,
+      "eval_steps_per_second": 2.577,
+      "eval_wer": 0.7959895379250218,
       "step": 800
     },
     {
       "epoch": 37.5,
+      "learning_rate": 6.226595744680851e-05,
+      "loss": 1.7092,
       "step": 900
     },
     {
       "epoch": 37.5,
+      "eval_loss": 1.2583694458007812,
+      "eval_runtime": 6.989,
+      "eval_samples_per_second": 20.318,
+      "eval_steps_per_second": 2.575,
+      "eval_wer": 0.7637314734088928,
       "step": 900
     },
     {
       "epoch": 41.67,
+      "learning_rate": 6.067021276595744e-05,
+      "loss": 1.517,
       "step": 1000
     },
     {
       "epoch": 41.67,
+      "eval_loss": 1.2040127515792847,
+      "eval_runtime": 5.4494,
+      "eval_samples_per_second": 26.058,
+      "eval_steps_per_second": 3.303,
+      "eval_wer": 0.7506538796861377,
       "step": 1000
     },
     {
       "epoch": 45.83,
+      "learning_rate": 5.907446808510638e-05,
+      "loss": 1.3966,
       "step": 1100
     },
     {
       "epoch": 45.83,
+      "eval_loss": 1.127307415008545,
+      "eval_runtime": 6.9676,
+      "eval_samples_per_second": 20.38,
+      "eval_steps_per_second": 2.583,
+      "eval_wer": 0.7462946817785527,
       "step": 1100
     },
     {
       "epoch": 50.0,
+      "learning_rate": 5.747872340425531e-05,
+      "loss": 1.3197,
       "step": 1200
     },
     {
       "epoch": 50.0,
+      "eval_loss": 1.10543692111969,
+      "eval_runtime": 6.7578,
+      "eval_samples_per_second": 21.013,
+      "eval_steps_per_second": 2.664,
+      "eval_wer": 0.6957279860505667,
       "step": 1200
     },
     {
       "epoch": 54.17,
+      "learning_rate": 5.588297872340425e-05,
+      "loss": 1.2476,
       "step": 1300
     },
     {
       "epoch": 54.17,
+      "eval_loss": 1.1034547090530396,
+      "eval_runtime": 6.9962,
+      "eval_samples_per_second": 20.297,
+      "eval_steps_per_second": 2.573,
+      "eval_wer": 0.7000871839581517,
       "step": 1300
     },
     {
       "epoch": 58.33,
+      "learning_rate": 5.428723404255319e-05,
+      "loss": 1.1796,
       "step": 1400
     },
     {
       "epoch": 58.33,
+      "eval_loss": 1.0890159606933594,
+      "eval_runtime": 6.8836,
+      "eval_samples_per_second": 20.629,
+      "eval_steps_per_second": 2.615,
+      "eval_wer": 0.7096774193548387,
       "step": 1400
     },
     {
       "epoch": 62.5,
+      "learning_rate": 5.269148936170212e-05,
+      "loss": 1.1237,
       "step": 1500
     },
     {
       "epoch": 62.5,
+      "eval_loss": 1.0882998704910278,
+      "eval_runtime": 7.0292,
+      "eval_samples_per_second": 20.202,
+      "eval_steps_per_second": 2.561,
+      "eval_wer": 0.7166521360069747,
       "step": 1500
     },
     {
       "epoch": 66.67,
+      "learning_rate": 5.109574468085105e-05,
+      "loss": 1.0777,
       "step": 1600
     },
     {
       "epoch": 66.67,
+      "eval_loss": 1.106709599494934,
+      "eval_runtime": 6.9652,
+      "eval_samples_per_second": 20.387,
+      "eval_steps_per_second": 2.584,
+      "eval_wer": 0.7218831734960767,
       "step": 1600
     },
     {
       "epoch": 70.83,
+      "learning_rate": 4.95e-05,
+      "loss": 1.0051,
       "step": 1700
     },
     {
       "epoch": 70.83,
+      "eval_loss": 1.111539363861084,
+      "eval_runtime": 5.3056,
+      "eval_samples_per_second": 26.764,
+      "eval_steps_per_second": 3.393,
+      "eval_wer": 0.7236268526591108,
       "step": 1700
     },
     {
       "epoch": 75.0,
+      "learning_rate": 4.7904255319148935e-05,
+      "loss": 0.9521,
       "step": 1800
     },
     {
       "epoch": 75.0,
+      "eval_loss": 1.0866659879684448,
+      "eval_runtime": 7.6166,
+      "eval_samples_per_second": 18.644,
+      "eval_steps_per_second": 2.363,
+      "eval_wer": 0.7131647776809067,
       "step": 1800
     },
     {
       "epoch": 79.17,
+      "learning_rate": 4.6308510638297865e-05,
+      "loss": 0.9147,
       "step": 1900
     },
     {
       "epoch": 79.17,
+      "eval_loss": 1.0851967334747314,
+      "eval_runtime": 6.7698,
+      "eval_samples_per_second": 20.975,
+      "eval_steps_per_second": 2.659,
+      "eval_wer": 0.7210113339145597,
       "step": 1900
     },
     {
       "epoch": 83.33,
+      "learning_rate": 4.471276595744681e-05,
+      "loss": 0.8798,
       "step": 2000
     },
     {
       "epoch": 83.33,
+      "eval_loss": 1.1411497592926025,
+      "eval_runtime": 6.711,
+      "eval_samples_per_second": 21.159,
+      "eval_steps_per_second": 2.682,
+      "eval_wer": 0.7096774193548387,
       "step": 2000
     },
     {
       "epoch": 87.5,
+      "learning_rate": 4.311702127659574e-05,
+      "loss": 0.8317,
       "step": 2100
     },
     {
       "epoch": 87.5,
+      "eval_loss": 1.1634019613265991,
+      "eval_runtime": 6.8272,
+      "eval_samples_per_second": 20.799,
+      "eval_steps_per_second": 2.637,
+      "eval_wer": 0.7018308631211857,
       "step": 2100
     },
     {
       "epoch": 91.67,
+      "learning_rate": 4.152127659574468e-05,
+      "loss": 0.7946,
       "step": 2200
     },
     {
       "epoch": 91.67,
+      "eval_loss": 1.1620630025863647,
+      "eval_runtime": 7.1289,
+      "eval_samples_per_second": 19.919,
+      "eval_steps_per_second": 2.525,
+      "eval_wer": 0.7201394943330427,
       "step": 2200
     },
     {
       "epoch": 95.83,
+      "learning_rate": 3.992553191489361e-05,
+      "loss": 0.7594,
       "step": 2300
     },
     {
       "epoch": 95.83,
+      "eval_loss": 1.1481679677963257,
+      "eval_runtime": 7.0324,
+      "eval_samples_per_second": 20.192,
+      "eval_steps_per_second": 2.56,
+      "eval_wer": 0.7035745422842197,
       "step": 2300
     },
     {
       "epoch": 100.0,
+      "learning_rate": 3.834574468085106e-05,
+      "loss": 0.729,
       "step": 2400
     },
     {
       "epoch": 100.0,
+      "eval_loss": 1.1493021249771118,
+      "eval_runtime": 6.9652,
+      "eval_samples_per_second": 20.387,
+      "eval_steps_per_second": 2.584,
+      "eval_wer": 0.7061900610287707,
       "step": 2400
     },
     {
       "epoch": 104.17,
+      "learning_rate": 3.675e-05,
+      "loss": 0.7055,
       "step": 2500
     },
     {
       "epoch": 104.17,
+      "eval_loss": 1.1725823879241943,
+      "eval_runtime": 7.0084,
+      "eval_samples_per_second": 20.261,
+      "eval_steps_per_second": 2.568,
+      "eval_wer": 0.6931124673060157,
       "step": 2500
     },
     {
       "epoch": 108.33,
+      "learning_rate": 3.5154255319148936e-05,
+      "loss": 0.6622,
       "step": 2600
     },
     {
       "epoch": 108.33,
+      "eval_loss": 1.1937670707702637,
+      "eval_runtime": 7.4493,
+      "eval_samples_per_second": 19.062,
+      "eval_steps_per_second": 2.416,
+      "eval_wer": 0.7000871839581517,
       "step": 2600
     },
     {
       "epoch": 112.5,
+      "learning_rate": 3.355851063829787e-05,
+      "loss": 0.6583,
       "step": 2700
     },
     {
       "epoch": 112.5,
+      "eval_loss": 1.1832083463668823,
+      "eval_runtime": 6.9743,
+      "eval_samples_per_second": 20.361,
+      "eval_steps_per_second": 2.581,
+      "eval_wer": 0.7149084568439407,
       "step": 2700
     },
     {
       "epoch": 116.67,
+      "learning_rate": 3.1962765957446805e-05,
+      "loss": 0.6299,
       "step": 2800
     },
     {
       "epoch": 116.67,
+      "eval_loss": 1.1996266841888428,
+      "eval_runtime": 7.2192,
+      "eval_samples_per_second": 19.67,
+      "eval_steps_per_second": 2.493,
+      "eval_wer": 0.7175239755884917,
       "step": 2800
     },
     {
       "epoch": 120.83,
+      "learning_rate": 3.036702127659574e-05,
+      "loss": 0.5903,
       "step": 2900
     },
     {
       "epoch": 120.83,
+      "eval_loss": 1.1986336708068848,
+      "eval_runtime": 7.2606,
+      "eval_samples_per_second": 19.558,
+      "eval_steps_per_second": 2.479,
+      "eval_wer": 0.7131647776809067,
       "step": 2900
     },
     {
       "epoch": 125.0,
+      "learning_rate": 2.877127659574468e-05,
+      "loss": 0.5816,
       "step": 3000
     },
     {
       "epoch": 125.0,
+      "eval_loss": 1.1909323930740356,
+      "eval_runtime": 6.9272,
+      "eval_samples_per_second": 20.499,
+      "eval_steps_per_second": 2.598,
+      "eval_wer": 0.7009590235396687,
       "step": 3000
     },
     {
       "epoch": 129.17,
+      "learning_rate": 2.7175531914893614e-05,
+      "loss": 0.5583,
       "step": 3100
     },
     {
       "epoch": 129.17,
+      "eval_loss": 1.207918405532837,
+      "eval_runtime": 6.9368,
+      "eval_samples_per_second": 20.471,
+      "eval_steps_per_second": 2.595,
+      "eval_wer": 0.6870095902353966,
       "step": 3100
     },
     {
       "epoch": 133.33,
+      "learning_rate": 2.5579787234042552e-05,
+      "loss": 0.5392,
       "step": 3200
     },
     {
       "epoch": 133.33,
+      "eval_loss": 1.2108745574951172,
+      "eval_runtime": 5.9814,
+      "eval_samples_per_second": 23.74,
+      "eval_steps_per_second": 3.009,
+      "eval_wer": 0.7227550130775937,
       "step": 3200
     },
     {
       "epoch": 137.5,
+      "learning_rate": 2.398404255319149e-05,
+      "loss": 0.5412,
       "step": 3300
     },
     {
       "epoch": 137.5,
+      "eval_loss": 1.235259771347046,
+      "eval_runtime": 6.7958,
+      "eval_samples_per_second": 20.895,
+      "eval_steps_per_second": 2.649,
+      "eval_wer": 0.7244986922406277,
       "step": 3300
     },
     {
       "epoch": 141.67,
+      "learning_rate": 2.2388297872340424e-05,
+      "loss": 0.5136,
       "step": 3400
     },
     {
       "epoch": 141.67,
+      "eval_loss": 1.2390460968017578,
+      "eval_runtime": 6.7486,
+      "eval_samples_per_second": 21.042,
+      "eval_steps_per_second": 2.667,
+      "eval_wer": 0.7253705318221447,
       "step": 3400
     },
     {
       "epoch": 145.83,
+      "learning_rate": 2.079255319148936e-05,
+      "loss": 0.5007,
       "step": 3500
     },
     {
       "epoch": 145.83,
+      "eval_loss": 1.227264165878296,
+      "eval_runtime": 6.7331,
+      "eval_samples_per_second": 21.09,
+      "eval_steps_per_second": 2.673,
+      "eval_wer": 0.7122929380993898,
       "step": 3500
     },
     {
       "epoch": 150.0,
+      "learning_rate": 1.9196808510638296e-05,
+      "loss": 0.4883,
       "step": 3600
     },
     {
       "epoch": 150.0,
+      "eval_loss": 1.2772815227508545,
+      "eval_runtime": 6.6223,
+      "eval_samples_per_second": 21.443,
+      "eval_steps_per_second": 2.718,
+      "eval_wer": 0.7288578901482128,
       "step": 3600
     },
     {
       "epoch": 154.17,
+      "learning_rate": 1.7601063829787233e-05,
+      "loss": 0.4835,
       "step": 3700
     },
     {
       "epoch": 154.17,
+      "eval_loss": 1.2677749395370483,
+      "eval_runtime": 6.8418,
+      "eval_samples_per_second": 20.755,
+      "eval_steps_per_second": 2.631,
+      "eval_wer": 0.7288578901482128,
       "step": 3700
     },
     {
       "epoch": 158.33,
+      "learning_rate": 1.600531914893617e-05,
+      "loss": 0.4568,
       "step": 3800
     },
     {
       "epoch": 158.33,
+      "eval_loss": 1.2592484951019287,
+      "eval_runtime": 6.8949,
+      "eval_samples_per_second": 20.595,
+      "eval_steps_per_second": 2.611,
+      "eval_wer": 0.7349607672188317,
       "step": 3800
     },
     {
       "epoch": 162.5,
+      "learning_rate": 1.4409574468085105e-05,
+      "loss": 0.4525,
       "step": 3900
     },
     {
       "epoch": 162.5,
+      "eval_loss": 1.270469069480896,
+      "eval_runtime": 5.5893,
+      "eval_samples_per_second": 25.406,
+      "eval_steps_per_second": 3.22,
+      "eval_wer": 0.7253705318221447,
       "step": 3900
     },
     {
       "epoch": 166.67,
+      "learning_rate": 1.2813829787234041e-05,
+      "loss": 0.4379,
       "step": 4000
     },
     {
       "epoch": 166.67,
+      "eval_loss": 1.2717314958572388,
+      "eval_runtime": 6.6834,
+      "eval_samples_per_second": 21.247,
+      "eval_steps_per_second": 2.693,
+      "eval_wer": 0.7306015693112468,
       "step": 4000
     },
     {
       "epoch": 170.83,
+      "learning_rate": 1.1218085106382979e-05,
+      "loss": 0.4198,
       "step": 4100
     },
     {
       "epoch": 170.83,
+      "eval_loss": 1.2617682218551636,
+      "eval_runtime": 7.1514,
+      "eval_samples_per_second": 19.856,
+      "eval_steps_per_second": 2.517,
+      "eval_wer": 0.7218831734960767,
       "step": 4100
     },
     {
       "epoch": 175.0,
+      "learning_rate": 9.622340425531914e-06,
+      "loss": 0.4216,
       "step": 4200
     },
     {
       "epoch": 175.0,
+      "eval_loss": 1.2908614873886108,
+      "eval_runtime": 7.5161,
+      "eval_samples_per_second": 18.893,
+      "eval_steps_per_second": 2.395,
+      "eval_wer": 0.7157802964254577,
       "step": 4200
     },
     {
       "epoch": 179.17,
+      "learning_rate": 8.02659574468085e-06,
+      "loss": 0.4305,
       "step": 4300
     },
     {
       "epoch": 179.17,
+      "eval_loss": 1.2808016538619995,
+      "eval_runtime": 7.0468,
+      "eval_samples_per_second": 20.151,
+      "eval_steps_per_second": 2.554,
+      "eval_wer": 0.7166521360069747,
       "step": 4300
     },
     {
       "epoch": 183.33,
+      "learning_rate": 6.446808510638297e-06,
+      "loss": 0.399,
       "step": 4400
     },
     {
       "epoch": 183.33,
+      "eval_loss": 1.2750086784362793,
+      "eval_runtime": 6.8372,
+      "eval_samples_per_second": 20.769,
+      "eval_steps_per_second": 2.633,
+      "eval_wer": 0.7192676547515258,
       "step": 4400
     },
     {
       "epoch": 187.5,
+      "learning_rate": 4.851063829787233e-06,
+      "loss": 0.3937,
       "step": 4500
     },
     {
       "epoch": 187.5,
+      "eval_loss": 1.271910309791565,
+      "eval_runtime": 7.0869,
+      "eval_samples_per_second": 20.037,
+      "eval_steps_per_second": 2.54,
+      "eval_wer": 0.7149084568439407,
       "step": 4500
     },
     {
       "epoch": 191.67,
+      "learning_rate": 3.25531914893617e-06,
+      "loss": 0.3905,
       "step": 4600
     },
     {
       "epoch": 191.67,
+      "eval_loss": 1.2815755605697632,
+      "eval_runtime": 5.4594,
+      "eval_samples_per_second": 26.01,
+      "eval_steps_per_second": 3.297,
+      "eval_wer": 0.7157802964254577,
       "step": 4600
     },
     {
       "epoch": 195.83,
+      "learning_rate": 1.6595744680851062e-06,
+      "loss": 0.3892,
       "step": 4700
     },
     {
       "epoch": 195.83,
+      "eval_loss": 1.295116901397705,
+      "eval_runtime": 7.0588,
+      "eval_samples_per_second": 20.117,
+      "eval_steps_per_second": 2.55,
+      "eval_wer": 0.7210113339145597,
       "step": 4700
     },
     {
       "epoch": 200.0,
+      "learning_rate": 6.382978723404255e-08,
+      "loss": 0.3932,
       "step": 4800
     },
     {
       "epoch": 200.0,
+      "eval_loss": 1.2923693656921387,
+      "eval_runtime": 7.179,
+      "eval_samples_per_second": 19.78,
+      "eval_steps_per_second": 2.507,
       "eval_wer": 0.7201394943330427,
+      "step": 4800
     },
     {
+      "epoch": 200.0,
+      "step": 4800,
+      "total_flos": 1.0000910465788367e+19,
+      "train_loss": 1.2620406293869018,
+      "train_runtime": 6643.3653,
+      "train_samples_per_second": 11.38,
+      "train_steps_per_second": 0.723
     }
   ],
+  "max_steps": 4800,
+  "num_train_epochs": 200,
+  "total_flos": 1.0000910465788367e+19,
   "trial_name": null,
   "trial_params": null
 }