diff --git "a/v3.0/trainer_state.json" "b/v3.0/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/v3.0/trainer_state.json"
@@ -0,0 +1,21541 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 25.0,
+  "global_step": 153725,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 13.0218,
+      "step": 100
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 12.945786476135254,
+      "eval_runtime": 7.9731,
+      "eval_samples_per_second": 12.542,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 4.4749,
+      "step": 200
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 3.8371927738189697,
+      "eval_runtime": 7.0147,
+      "eval_samples_per_second": 14.256,
+      "eval_wer": 1.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 3.1121,
+      "step": 300
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 3.498441457748413,
+      "eval_runtime": 8.8314,
+      "eval_samples_per_second": 11.323,
+      "eval_wer": 1.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 8e-05,
+      "loss": 3.0216,
+      "step": 400
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 3.28515625,
+      "eval_runtime": 7.5144,
+      "eval_samples_per_second": 13.308,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 2.9786,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 3.120776891708374,
+      "eval_runtime": 7.7151,
+      "eval_samples_per_second": 12.962,
+      "eval_wer": 1.0,
+      "step": 500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.993473649861316e-05,
+      "loss": 2.9376,
+      "step": 600
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.971864700317383,
+      "eval_runtime": 8.4632,
+      "eval_samples_per_second": 11.816,
+      "eval_wer": 1.0,
+      "step": 600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.986947299722631e-05,
+      "loss": 2.0802,
+      "step": 700
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 1.857584834098816,
+      "eval_runtime": 9.723,
+      "eval_samples_per_second": 10.285,
+      "eval_wer": 0.8855054811205847,
+      "step": 700
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.980420949583945e-05,
+      "loss": 1.0262,
+      "step": 800
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.1796859502792358,
+      "eval_runtime": 7.4195,
+      "eval_samples_per_second": 13.478,
+      "eval_wer": 0.6942752740560292,
+      "step": 800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.97389459944526e-05,
+      "loss": 0.7875,
+      "step": 900
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 1.219588041305542,
+      "eval_runtime": 9.0106,
+      "eval_samples_per_second": 11.098,
+      "eval_wer": 0.682095006090134,
+      "step": 900
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 9.967368249306576e-05,
+      "loss": 0.688,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.8769925832748413,
+      "eval_runtime": 8.365,
+      "eval_samples_per_second": 11.955,
+      "eval_wer": 0.6065773447015834,
+      "step": 1000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 9.96084189916789e-05,
+      "loss": 0.6377,
+      "step": 1100
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 0.7903584241867065,
+      "eval_runtime": 7.3855,
+      "eval_samples_per_second": 13.54,
+      "eval_wer": 0.5700365408038977,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 9.954315549029206e-05,
+      "loss": 0.5704,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.8232672214508057,
+      "eval_runtime": 7.6284,
+      "eval_samples_per_second": 13.109,
+      "eval_wer": 0.5651644336175395,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 9.947789198890522e-05,
+      "loss": 0.5187,
+      "step": 1300
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.7398794293403625,
+      "eval_runtime": 8.3859,
+      "eval_samples_per_second": 11.925,
+      "eval_wer": 0.5237515225334958,
+      "step": 1300
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.941262848751835e-05,
+      "loss": Infinity,
+      "step": 1400
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.6848248839378357,
+      "eval_runtime": 8.3309,
+      "eval_samples_per_second": 12.004,
+      "eval_wer": 0.5261875761266748,
+      "step": 1400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 9.934736498613151e-05,
+      "loss": NaN,
+      "step": 1500
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.712200403213501,
+      "eval_runtime": 8.7637,
+      "eval_samples_per_second": 11.411,
+      "eval_wer": 0.5408038976857491,
+      "step": 1500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 9.928210148474466e-05,
+      "loss": NaN,
+      "step": 1600
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.7104419469833374,
+      "eval_runtime": 8.8754,
+      "eval_samples_per_second": 11.267,
+      "eval_wer": 0.5371498172959805,
+      "step": 1600
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 9.921683798335781e-05,
+      "loss": NaN,
+      "step": 1700
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.6172800660133362,
+      "eval_runtime": 7.0857,
+      "eval_samples_per_second": 14.113,
+      "eval_wer": 0.5018270401948843,
+      "step": 1700
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 9.915157448197096e-05,
+      "loss": NaN,
+      "step": 1800
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.6506848335266113,
+      "eval_runtime": 7.7525,
+      "eval_samples_per_second": 12.899,
+      "eval_wer": 0.5006090133982948,
+      "step": 1800
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 9.908631098058412e-05,
+      "loss": NaN,
+      "step": 1900
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.6602973937988281,
+      "eval_runtime": 7.4177,
+      "eval_samples_per_second": 13.481,
+      "eval_wer": 0.5042630937880633,
+      "step": 1900
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 9.902104747919726e-05,
+      "loss": NaN,
+      "step": 2000
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.7591428160667419,
+      "eval_runtime": 8.4029,
+      "eval_samples_per_second": 11.901,
+      "eval_wer": 0.4981729598051157,
+      "step": 2000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 9.895578397781041e-05,
+      "loss": NaN,
+      "step": 2100
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.645115077495575,
+      "eval_runtime": 8.9522,
+      "eval_samples_per_second": 11.17,
+      "eval_wer": 0.47990255785627284,
+      "step": 2100
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 9.889052047642357e-05,
+      "loss": NaN,
+      "step": 2200
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.7210723757743835,
+      "eval_runtime": 8.4131,
+      "eval_samples_per_second": 11.886,
+      "eval_wer": 0.5152253349573691,
+      "step": 2200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 9.882525697503671e-05,
+      "loss": NaN,
+      "step": 2300
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.6183672547340393,
+      "eval_runtime": 8.3896,
+      "eval_samples_per_second": 11.92,
+      "eval_wer": 0.4725943970767357,
+      "step": 2300
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.875999347364987e-05,
+      "loss": NaN,
+      "step": 2400
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.6048241257667542,
+      "eval_runtime": 10.2676,
+      "eval_samples_per_second": 9.739,
+      "eval_wer": 0.464068209500609,
+      "step": 2400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 9.869472997226302e-05,
+      "loss": NaN,
+      "step": 2500
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.6044276356697083,
+      "eval_runtime": 8.3824,
+      "eval_samples_per_second": 11.93,
+      "eval_wer": 0.49573690621193667,
+      "step": 2500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 9.862946647087616e-05,
+      "loss": NaN,
+      "step": 2600
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6002959609031677,
+      "eval_runtime": 9.9471,
+      "eval_samples_per_second": 10.053,
+      "eval_wer": 0.4835566382460414,
+      "step": 2600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.856420296948932e-05,
+      "loss": NaN,
+      "step": 2700
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.5933263897895813,
+      "eval_runtime": 9.0583,
+      "eval_samples_per_second": 11.04,
+      "eval_wer": 0.4835566382460414,
+      "step": 2700
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 9.849893946810246e-05,
+      "loss": NaN,
+      "step": 2800
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.6014515161514282,
+      "eval_runtime": 8.0695,
+      "eval_samples_per_second": 12.392,
+      "eval_wer": 0.46650426309378806,
+      "step": 2800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 9.843367596671562e-05,
+      "loss": NaN,
+      "step": 2900
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.5901432037353516,
+      "eval_runtime": 6.798,
+      "eval_samples_per_second": 14.71,
+      "eval_wer": 0.4762484774665043,
+      "step": 2900
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.836841246532877e-05,
+      "loss": NaN,
+      "step": 3000
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.626334011554718,
+      "eval_runtime": 7.8972,
+      "eval_samples_per_second": 12.663,
+      "eval_wer": 0.5066991473812423,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 9.830314896394191e-05,
+      "loss": NaN,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.5547911524772644,
+      "eval_runtime": 9.1187,
+      "eval_samples_per_second": 10.966,
+      "eval_wer": 0.464068209500609,
+      "step": 3100
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 9.823788546255507e-05,
+      "loss": NaN,
+      "step": 3200
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.5864753127098083,
+      "eval_runtime": 8.1423,
+      "eval_samples_per_second": 12.282,
+      "eval_wer": 0.48112058465286234,
+      "step": 3200
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 9.817262196116822e-05,
+      "loss": NaN,
+      "step": 3300
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.573021650314331,
+      "eval_runtime": 7.0496,
+      "eval_samples_per_second": 14.185,
+      "eval_wer": 0.45554202192448234,
+      "step": 3300
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 9.810735845978138e-05,
+      "loss": NaN,
+      "step": 3400
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.5912113785743713,
+      "eval_runtime": 7.7808,
+      "eval_samples_per_second": 12.852,
+      "eval_wer": 0.4543239951278928,
+      "step": 3400
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 9.804209495839452e-05,
+      "loss": NaN,
+      "step": 3500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.5591552257537842,
+      "eval_runtime": 8.6018,
+      "eval_samples_per_second": 11.625,
+      "eval_wer": 0.4835566382460414,
+      "step": 3500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 9.797683145700768e-05,
+      "loss": NaN,
+      "step": 3600
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.5811930298805237,
+      "eval_runtime": 11.1558,
+      "eval_samples_per_second": 8.964,
+      "eval_wer": 0.47990255785627284,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 9.791156795562083e-05,
+      "loss": NaN,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.634550154209137,
+      "eval_runtime": 6.9892,
+      "eval_samples_per_second": 14.308,
+      "eval_wer": 0.464068209500609,
+      "step": 3700
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 9.784630445423397e-05,
+      "loss": NaN,
+      "step": 3800
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.6496349573135376,
+      "eval_runtime": 8.2428,
+      "eval_samples_per_second": 12.132,
+      "eval_wer": 0.4993909866017052,
+      "step": 3800
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 9.778104095284713e-05,
+      "loss": NaN,
+      "step": 3900
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.6067304611206055,
+      "eval_runtime": 7.9623,
+      "eval_samples_per_second": 12.559,
+      "eval_wer": 0.464068209500609,
+      "step": 3900
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 9.771577745146027e-05,
+      "loss": NaN,
+      "step": 4000
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.6350998878479004,
+      "eval_runtime": 7.586,
+      "eval_samples_per_second": 13.182,
+      "eval_wer": 0.47381242387332523,
+      "step": 4000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 9.765051395007343e-05,
+      "loss": NaN,
+      "step": 4100
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.54295814037323,
+      "eval_runtime": 8.9327,
+      "eval_samples_per_second": 11.195,
+      "eval_wer": 0.45554202192448234,
+      "step": 4100
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 9.758525044868658e-05,
+      "loss": NaN,
+      "step": 4200
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.6605328321456909,
+      "eval_runtime": 9.5705,
+      "eval_samples_per_second": 10.449,
+      "eval_wer": 0.46528623629719856,
+      "step": 4200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 9.751998694729972e-05,
+      "loss": NaN,
+      "step": 4300
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.580009937286377,
+      "eval_runtime": 10.5327,
+      "eval_samples_per_second": 9.494,
+      "eval_wer": 0.464068209500609,
+      "step": 4300
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 9.745472344591288e-05,
+      "loss": NaN,
+      "step": 4400
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.579453706741333,
+      "eval_runtime": 10.8819,
+      "eval_samples_per_second": 9.19,
+      "eval_wer": 0.46163215590742995,
+      "step": 4400
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 9.738945994452603e-05,
+      "loss": NaN,
+      "step": 4500
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 0.655251145362854,
+      "eval_runtime": 9.1533,
+      "eval_samples_per_second": 10.925,
+      "eval_wer": 0.4591961023142509,
+      "step": 4500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.732419644313919e-05,
+      "loss": NaN,
+      "step": 4600
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.5785291790962219,
+      "eval_runtime": 6.6729,
+      "eval_samples_per_second": 14.986,
+      "eval_wer": 0.44336175395858707,
+      "step": 4600
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 9.725893294175233e-05,
+      "loss": NaN,
+      "step": 4700
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.5562949776649475,
+      "eval_runtime": 12.0553,
+      "eval_samples_per_second": 8.295,
+      "eval_wer": 0.4762484774665043,
+      "step": 4700
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 9.719366944036548e-05,
+      "loss": NaN,
+      "step": 4800
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.6431012749671936,
+      "eval_runtime": 10.2668,
+      "eval_samples_per_second": 9.74,
+      "eval_wer": 0.46041412911084045,
+      "step": 4800
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 9.712840593897863e-05,
+      "loss": NaN,
+      "step": 4900
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.5410518050193787,
+      "eval_runtime": 7.7698,
+      "eval_samples_per_second": 12.87,
+      "eval_wer": 0.44336175395858707,
+      "step": 4900
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 9.706314243759178e-05,
+      "loss": NaN,
+      "step": 5000
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.5471655130386353,
+      "eval_runtime": 9.2576,
+      "eval_samples_per_second": 10.802,
+      "eval_wer": 0.4591961023142509,
+      "step": 5000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 9.699787893620494e-05,
+      "loss": NaN,
+      "step": 5100
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.5607233643531799,
+      "eval_runtime": 9.7403,
+      "eval_samples_per_second": 10.267,
+      "eval_wer": 0.4457978075517661,
+      "step": 5100
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 9.693261543481808e-05,
+      "loss": NaN,
+      "step": 5200
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.5090478658676147,
+      "eval_runtime": 7.6231,
+      "eval_samples_per_second": 13.118,
+      "eval_wer": 0.42509135200974424,
+      "step": 5200
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 9.686735193343124e-05,
+      "loss": NaN,
+      "step": 5300
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.5385191440582275,
+      "eval_runtime": 8.5521,
+      "eval_samples_per_second": 11.693,
+      "eval_wer": 0.44336175395858707,
+      "step": 5300
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 9.680208843204437e-05,
+      "loss": NaN,
+      "step": 5400
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5557727217674255,
+      "eval_runtime": 7.4167,
+      "eval_samples_per_second": 13.483,
+      "eval_wer": 0.4591961023142509,
+      "step": 5400
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 9.673682493065753e-05,
+      "loss": NaN,
+      "step": 5500
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.5240246653556824,
+      "eval_runtime": 8.9322,
+      "eval_samples_per_second": 11.195,
+      "eval_wer": 0.42630937880633374,
+      "step": 5500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 9.667156142927069e-05,
+      "loss": NaN,
+      "step": 5600
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.5305324792861938,
+      "eval_runtime": 6.8749,
+      "eval_samples_per_second": 14.546,
+      "eval_wer": 0.440925700365408,
+      "step": 5600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 9.660629792788384e-05,
+      "loss": NaN,
+      "step": 5700
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.4999062716960907,
+      "eval_runtime": 8.9284,
+      "eval_samples_per_second": 11.2,
+      "eval_wer": 0.43727161997563946,
+      "step": 5700
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 9.6541034426497e-05,
+      "loss": NaN,
+      "step": 5800
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.5356720089912415,
+      "eval_runtime": 7.3019,
+      "eval_samples_per_second": 13.695,
+      "eval_wer": 0.4299634591961023,
+      "step": 5800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 9.647577092511013e-05,
+      "loss": NaN,
+      "step": 5900
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.5162432193756104,
+      "eval_runtime": 7.7242,
+      "eval_samples_per_second": 12.946,
+      "eval_wer": 0.4177831912302071,
+      "step": 5900
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.641050742372329e-05,
+      "loss": NaN,
+      "step": 6000
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.541946291923523,
+      "eval_runtime": 8.7592,
+      "eval_samples_per_second": 11.417,
+      "eval_wer": 0.440925700365408,
+      "step": 6000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 9.634524392233643e-05,
+      "loss": NaN,
+      "step": 6100
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.5452945828437805,
+      "eval_runtime": 8.1867,
+      "eval_samples_per_second": 12.215,
+      "eval_wer": 0.44336175395858707,
+      "step": 6100
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 9.627998042094959e-05,
+      "loss": NaN,
+      "step": 6200
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.6135980486869812,
+      "eval_runtime": 8.1992,
+      "eval_samples_per_second": 12.196,
+      "eval_wer": 0.44336175395858707,
+      "step": 6200
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 9.621471691956275e-05,
+      "loss": NaN,
+      "step": 6300
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.5763392448425293,
+      "eval_runtime": 8.7786,
+      "eval_samples_per_second": 11.391,
+      "eval_wer": 0.4457978075517661,
+      "step": 6300
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 9.61494534181759e-05,
+      "loss": NaN,
+      "step": 6400
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5169751048088074,
+      "eval_runtime": 8.8344,
+      "eval_samples_per_second": 11.319,
+      "eval_wer": 0.44945188794153473,
+      "step": 6400
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 9.608418991678904e-05,
+      "loss": NaN,
+      "step": 6500
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 0.5410892367362976,
+      "eval_runtime": 8.9659,
+      "eval_samples_per_second": 11.153,
+      "eval_wer": 0.41291108404384896,
+      "step": 6500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 9.601892641540218e-05,
+      "loss": NaN,
+      "step": 6600
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.6024890542030334,
+      "eval_runtime": 9.0589,
+      "eval_samples_per_second": 11.039,
+      "eval_wer": 0.46650426309378806,
+      "step": 6600
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 9.595366291401534e-05,
+      "loss": NaN,
+      "step": 6700
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.5081002116203308,
+      "eval_runtime": 6.9031,
+      "eval_samples_per_second": 14.486,
+      "eval_wer": 0.4445797807551766,
+      "step": 6700
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 9.588839941262849e-05,
+      "loss": NaN,
+      "step": 6800
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.537754237651825,
+      "eval_runtime": 6.9434,
+      "eval_samples_per_second": 14.402,
+      "eval_wer": 0.44336175395858707,
+      "step": 6800
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 9.582313591124165e-05,
+      "loss": NaN,
+      "step": 6900
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5683107972145081,
+      "eval_runtime": 7.8602,
+      "eval_samples_per_second": 12.722,
+      "eval_wer": 0.4336175395858709,
+      "step": 6900
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 9.57578724098548e-05,
+      "loss": NaN,
+      "step": 7000
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.6018743515014648,
+      "eval_runtime": 7.5695,
+      "eval_samples_per_second": 13.211,
+      "eval_wer": 0.4348355663824604,
+      "step": 7000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 9.569260890846794e-05,
+      "loss": NaN,
+      "step": 7100
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.5463069677352905,
+      "eval_runtime": 8.1373,
+      "eval_samples_per_second": 12.289,
+      "eval_wer": 0.42752740560292324,
+      "step": 7100
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 9.56273454070811e-05,
+      "loss": NaN,
+      "step": 7200
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 0.5245855450630188,
+      "eval_runtime": 7.3379,
+      "eval_samples_per_second": 13.628,
+      "eval_wer": 0.42752740560292324,
+      "step": 7200
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 9.556208190569424e-05,
+      "loss": NaN,
+      "step": 7300
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.48042479157447815,
+      "eval_runtime": 6.6664,
+      "eval_samples_per_second": 15.001,
+      "eval_wer": 0.4336175395858709,
+      "step": 7300
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 9.54968184043074e-05,
+      "loss": NaN,
+      "step": 7400
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.4897633492946625,
+      "eval_runtime": 6.6761,
+      "eval_samples_per_second": 14.979,
+      "eval_wer": 0.4445797807551766,
+      "step": 7400
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 9.543155490292054e-05,
+      "loss": NaN,
+      "step": 7500
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 0.5400981903076172,
+      "eval_runtime": 7.744,
+      "eval_samples_per_second": 12.913,
+      "eval_wer": 0.4238733252131547,
+      "step": 7500
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 9.536629140153369e-05,
+      "loss": NaN,
+      "step": 7600
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.5461037158966064,
+      "eval_runtime": 7.6292,
+      "eval_samples_per_second": 13.108,
+      "eval_wer": 0.43118148599269185,
+      "step": 7600
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 9.530102790014685e-05,
+      "loss": NaN,
+      "step": 7700
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.4961685538291931,
+      "eval_runtime": 7.2783,
+      "eval_samples_per_second": 13.739,
+      "eval_wer": 0.4226552984165652,
+      "step": 7700
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 9.523576439875999e-05,
+      "loss": NaN,
+      "step": 7800
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.6107471585273743,
+      "eval_runtime": 8.6517,
+      "eval_samples_per_second": 11.558,
+      "eval_wer": 0.438489646772229,
+      "step": 7800
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 9.517050089737315e-05,
+      "loss": NaN,
+      "step": 7900
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5769979953765869,
+      "eval_runtime": 7.4406,
+      "eval_samples_per_second": 13.44,
+      "eval_wer": 0.43605359317904996,
+      "step": 7900
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 9.51052373959863e-05,
+      "loss": NaN,
+      "step": 8000
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.5004762411117554,
+      "eval_runtime": 8.9614,
+      "eval_samples_per_second": 11.159,
+      "eval_wer": 0.43239951278928135,
+      "step": 8000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 9.503997389459946e-05,
+      "loss": NaN,
+      "step": 8100
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.46339115500450134,
+      "eval_runtime": 7.2515,
+      "eval_samples_per_second": 13.79,
+      "eval_wer": 0.4104750304506699,
+      "step": 8100
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 9.49747103932126e-05,
+      "loss": NaN,
+      "step": 8200
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 0.5336301922798157,
+      "eval_runtime": 8.7749,
+      "eval_samples_per_second": 11.396,
+      "eval_wer": 0.44336175395858707,
+      "step": 8200
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 9.490944689182575e-05,
+      "loss": NaN,
+      "step": 8300
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.5296890139579773,
+      "eval_runtime": 8.6952,
+      "eval_samples_per_second": 11.501,
+      "eval_wer": 0.4238733252131547,
+      "step": 8300
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 9.48441833904389e-05,
+      "loss": NaN,
+      "step": 8400
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.5209415555000305,
+      "eval_runtime": 8.7658,
+      "eval_samples_per_second": 11.408,
+      "eval_wer": 0.4482338611449452,
+      "step": 8400
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 9.477891988905205e-05,
+      "loss": NaN,
+      "step": 8500
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 0.5313872694969177,
+      "eval_runtime": 8.6447,
+      "eval_samples_per_second": 11.568,
+      "eval_wer": 0.4287454323995128,
+      "step": 8500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 9.471365638766521e-05,
+      "loss": NaN,
+      "step": 8600
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.5957339406013489,
+      "eval_runtime": 9.3851,
+      "eval_samples_per_second": 10.655,
+      "eval_wer": 0.4445797807551766,
+      "step": 8600
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 9.464839288627835e-05,
+      "loss": NaN,
+      "step": 8700
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.4665583074092865,
+      "eval_runtime": 7.7597,
+      "eval_samples_per_second": 12.887,
+      "eval_wer": 0.4336175395858709,
+      "step": 8700
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 9.45831293848915e-05,
+      "loss": NaN,
+      "step": 8800
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.5392510890960693,
+      "eval_runtime": 8.1949,
+      "eval_samples_per_second": 12.203,
+      "eval_wer": 0.4336175395858709,
+      "step": 8800
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 9.451786588350466e-05,
+      "loss": NaN,
+      "step": 8900
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.5618553161621094,
+      "eval_runtime": 7.3195,
+      "eval_samples_per_second": 13.662,
+      "eval_wer": 0.4482338611449452,
+      "step": 8900
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 9.44526023821178e-05,
+      "loss": NaN,
+      "step": 9000
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.6219630837440491,
+      "eval_runtime": 7.7967,
+      "eval_samples_per_second": 12.826,
+      "eval_wer": 0.4713763702801462,
+      "step": 9000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 9.438733888073096e-05,
+      "loss": NaN,
+      "step": 9100
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.6084015369415283,
+      "eval_runtime": 8.535,
+      "eval_samples_per_second": 11.717,
+      "eval_wer": 0.4470158343483557,
+      "step": 9100
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 9.43220753793441e-05,
+      "loss": NaN,
+      "step": 9200
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.5832752585411072,
+      "eval_runtime": 8.3754,
+      "eval_samples_per_second": 11.94,
+      "eval_wer": 0.43727161997563946,
+      "step": 9200
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 9.425681187795725e-05,
+      "loss": NaN,
+      "step": 9300
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.5465306043624878,
+      "eval_runtime": 6.9903,
+      "eval_samples_per_second": 14.306,
+      "eval_wer": 0.43118148599269185,
+      "step": 9300
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 9.419154837657041e-05,
+      "loss": NaN,
+      "step": 9400
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 0.527911901473999,
+      "eval_runtime": 7.4382,
+      "eval_samples_per_second": 13.444,
+      "eval_wer": 0.4518879415347138,
+      "step": 9400
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 9.412628487518356e-05,
+      "loss": NaN,
+      "step": 9500
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.5745791792869568,
+      "eval_runtime": 9.6658,
+      "eval_samples_per_second": 10.346,
+      "eval_wer": 0.4238733252131547,
+      "step": 9500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 9.406102137379671e-05,
+      "loss": NaN,
+      "step": 9600
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.6281310319900513,
+      "eval_runtime": 10.5392,
+      "eval_samples_per_second": 9.488,
+      "eval_wer": 0.4531059683313033,
+      "step": 9600
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 9.399575787240986e-05,
+      "loss": NaN,
+      "step": 9700
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.5570322871208191,
+      "eval_runtime": 7.2179,
+      "eval_samples_per_second": 13.854,
+      "eval_wer": 0.44336175395858707,
+      "step": 9700
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 9.393049437102302e-05,
+      "loss": NaN,
+      "step": 9800
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.5097599625587463,
+      "eval_runtime": 8.5291,
+      "eval_samples_per_second": 11.725,
+      "eval_wer": 0.43605359317904996,
+      "step": 9800
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 9.386523086963615e-05,
+      "loss": NaN,
+      "step": 9900
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.5071770548820496,
+      "eval_runtime": 8.0326,
+      "eval_samples_per_second": 12.449,
+      "eval_wer": 0.4190012180267966,
+      "step": 9900
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.379996736824931e-05,
+      "loss": NaN,
+      "step": 10000
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.5283228158950806,
+      "eval_runtime": 7.0447,
+      "eval_samples_per_second": 14.195,
+      "eval_wer": 0.42752740560292324,
+      "step": 10000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.373470386686247e-05,
+      "loss": NaN,
+      "step": 10100
+    },
+    {
+      "epoch": 1.64,
+      "eval_loss": 0.6241239309310913,
+      "eval_runtime": 7.6906,
+      "eval_samples_per_second": 13.003,
+      "eval_wer": 0.45676004872107184,
+      "step": 10100
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.366944036547561e-05,
+      "loss": NaN,
+      "step": 10200
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.5286669731140137,
+      "eval_runtime": 7.6387,
+      "eval_samples_per_second": 13.091,
+      "eval_wer": 0.4445797807551766,
+      "step": 10200
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 9.360417686408877e-05,
+      "loss": NaN,
+      "step": 10300
+    },
+    {
+      "epoch": 1.68,
+      "eval_loss": 0.560374915599823,
+      "eval_runtime": 7.7761,
+      "eval_samples_per_second": 12.86,
+      "eval_wer": 0.4518879415347138,
+      "step": 10300
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 9.353891336270192e-05,
+      "loss": NaN,
+      "step": 10400
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 0.5197404623031616,
+      "eval_runtime": 7.8548,
+      "eval_samples_per_second": 12.731,
+      "eval_wer": 0.4445797807551766,
+      "step": 10400
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 9.347364986131506e-05,
+      "loss": NaN,
+      "step": 10500
+    },
+    {
+      "epoch": 1.71,
+      "eval_loss": 0.5106395483016968,
+      "eval_runtime": 8.6218,
+      "eval_samples_per_second": 11.598,
+      "eval_wer": 0.44214372716199757,
+      "step": 10500
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 9.34083863599282e-05,
+      "loss": NaN,
+      "step": 10600
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.5029647350311279,
+      "eval_runtime": 9.875,
+      "eval_samples_per_second": 10.127,
+      "eval_wer": 0.4445797807551766,
+      "step": 10600
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 9.334312285854136e-05,
+      "loss": NaN,
+      "step": 10700
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.5408429503440857,
+      "eval_runtime": 8.0516,
+      "eval_samples_per_second": 12.42,
+      "eval_wer": 0.4397076735688185,
+      "step": 10700
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 9.327785935715452e-05,
+      "loss": NaN,
+      "step": 10800
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.599218487739563,
+      "eval_runtime": 9.8313,
+      "eval_samples_per_second": 10.172,
+      "eval_wer": 0.43118148599269185,
+      "step": 10800
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 9.321259585576767e-05,
+      "loss": NaN,
+      "step": 10900
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.5169634819030762,
+      "eval_runtime": 7.002,
+      "eval_samples_per_second": 14.282,
+      "eval_wer": 0.4092570036540804,
+      "step": 10900
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 9.314733235438081e-05,
+      "loss": NaN,
+      "step": 11000
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.5207093954086304,
+      "eval_runtime": 7.4268,
+      "eval_samples_per_second": 13.465,
+      "eval_wer": 0.42752740560292324,
+      "step": 11000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 9.308206885299396e-05,
+      "loss": NaN,
+      "step": 11100
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.5467461347579956,
+      "eval_runtime": 7.8754,
+      "eval_samples_per_second": 12.698,
+      "eval_wer": 0.4226552984165652,
+      "step": 11100
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 9.301680535160712e-05,
+      "loss": NaN,
+      "step": 11200
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.49166274070739746,
+      "eval_runtime": 7.5148,
+      "eval_samples_per_second": 13.307,
+      "eval_wer": 0.4104750304506699,
+      "step": 11200
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 9.295154185022028e-05,
+      "loss": NaN,
+      "step": 11300
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.49259471893310547,
+      "eval_runtime": 8.1781,
+      "eval_samples_per_second": 12.228,
+      "eval_wer": 0.4336175395858709,
+      "step": 11300
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 9.288627834883342e-05,
+      "loss": NaN,
+      "step": 11400
+    },
+    {
+      "epoch": 1.85,
+      "eval_loss": 0.666587233543396,
+      "eval_runtime": 7.8835,
+      "eval_samples_per_second": 12.685,
+      "eval_wer": 0.43605359317904996,
+      "step": 11400
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 9.282101484744658e-05,
+      "loss": NaN,
+      "step": 11500
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.5402622222900391,
+      "eval_runtime": 7.727,
+      "eval_samples_per_second": 12.942,
+      "eval_wer": 0.42630937880633374,
+      "step": 11500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 9.275575134605971e-05,
+      "loss": NaN,
+      "step": 11600
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.5431535840034485,
+      "eval_runtime": 8.2898,
+      "eval_samples_per_second": 12.063,
+      "eval_wer": 0.4397076735688185,
+      "step": 11600
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 9.269048784467287e-05,
+      "loss": NaN,
+      "step": 11700
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.5058331489562988,
+      "eval_runtime": 7.6428,
+      "eval_samples_per_second": 13.084,
+      "eval_wer": 0.4190012180267966,
+      "step": 11700
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 9.262522434328602e-05,
+      "loss": NaN,
+      "step": 11800
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.5385850667953491,
+      "eval_runtime": 9.2261,
+      "eval_samples_per_second": 10.839,
+      "eval_wer": 0.4579780755176614,
+      "step": 11800
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 9.255996084189917e-05,
+      "loss": NaN,
+      "step": 11900
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.5211225748062134,
+      "eval_runtime": 8.2929,
+      "eval_samples_per_second": 12.058,
+      "eval_wer": 0.4470158343483557,
+      "step": 11900
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.249469734051233e-05,
+      "loss": NaN,
+      "step": 12000
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.44943609833717346,
+      "eval_runtime": 7.5,
+      "eval_samples_per_second": 13.333,
+      "eval_wer": 0.4287454323995128,
+      "step": 12000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 9.242943383912548e-05,
+      "loss": NaN,
+      "step": 12100
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.44961708784103394,
+      "eval_runtime": 8.559,
+      "eval_samples_per_second": 11.684,
+      "eval_wer": 0.4007308160779537,
+      "step": 12100
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 9.236417033773862e-05,
+      "loss": NaN,
+      "step": 12200
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.5775151252746582,
+      "eval_runtime": 8.2678,
+      "eval_samples_per_second": 12.095,
+      "eval_wer": 0.42630937880633374,
+      "step": 12200
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 9.229890683635177e-05,
+      "loss": NaN,
+      "step": 12300
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5101304054260254,
+      "eval_runtime": 9.5041,
+      "eval_samples_per_second": 10.522,
+      "eval_wer": 0.4470158343483557,
+      "step": 12300
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.223364333496493e-05,
+      "loss": NaN,
+      "step": 12400
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.5802700519561768,
+      "eval_runtime": 8.978,
+      "eval_samples_per_second": 11.138,
+      "eval_wer": 0.42021924482338613,
+      "step": 12400
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.216837983357807e-05,
+      "loss": NaN,
+      "step": 12500
+    },
+    {
+      "epoch": 2.03,
+      "eval_loss": 0.4817795157432556,
+      "eval_runtime": 8.6515,
+      "eval_samples_per_second": 11.559,
+      "eval_wer": 0.4177831912302071,
+      "step": 12500
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.210311633219123e-05,
+      "loss": NaN,
+      "step": 12600
+    },
+    {
+      "epoch": 2.05,
+      "eval_loss": 0.5166882276535034,
+      "eval_runtime": 9.9407,
+      "eval_samples_per_second": 10.06,
+      "eval_wer": 0.44214372716199757,
+      "step": 12600
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.203785283080438e-05,
+      "loss": NaN,
+      "step": 12700
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 0.49081742763519287,
+      "eval_runtime": 7.4879,
+      "eval_samples_per_second": 13.355,
+      "eval_wer": 0.42752740560292324,
+      "step": 12700
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.197258932941752e-05,
+      "loss": NaN,
+      "step": 12800
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.5209938287734985,
+      "eval_runtime": 9.1719,
+      "eval_samples_per_second": 10.903,
+      "eval_wer": 0.4457978075517661,
+      "step": 12800
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.190732582803068e-05,
+      "loss": NaN,
+      "step": 12900
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.4667002856731415,
+      "eval_runtime": 8.2262,
+      "eval_samples_per_second": 12.156,
+      "eval_wer": 0.4190012180267966,
+      "step": 12900
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.184206232664382e-05,
+      "loss": NaN,
+      "step": 13000
+    },
+    {
+      "epoch": 2.11,
+      "eval_loss": 0.44741660356521606,
+      "eval_runtime": 6.9715,
+      "eval_samples_per_second": 14.344,
+      "eval_wer": 0.42630937880633374,
+      "step": 13000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 9.177679882525698e-05,
+      "loss": NaN,
+      "step": 13100
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.45468372106552124,
+      "eval_runtime": 8.1778,
+      "eval_samples_per_second": 12.228,
+      "eval_wer": 0.4177831912302071,
+      "step": 13100
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 9.171153532387013e-05,
+      "loss": NaN,
+      "step": 13200
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.47137129306793213,
+      "eval_runtime": 9.2926,
+      "eval_samples_per_second": 10.761,
+      "eval_wer": 0.43605359317904996,
+      "step": 13200
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 9.164627182248327e-05,
+      "loss": NaN,
+      "step": 13300
+    },
+    {
+      "epoch": 2.16,
+      "eval_loss": 0.505387544631958,
+      "eval_runtime": 8.3638,
+      "eval_samples_per_second": 11.956,
+      "eval_wer": 0.415347137637028,
+      "step": 13300
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 9.158100832109643e-05,
+      "loss": NaN,
+      "step": 13400
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.4471493661403656,
+      "eval_runtime": 7.3344,
+      "eval_samples_per_second": 13.634,
+      "eval_wer": 0.4226552984165652,
+      "step": 13400
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 9.151574481970958e-05,
+      "loss": NaN,
+      "step": 13500
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.4644159972667694,
+      "eval_runtime": 9.2128,
+      "eval_samples_per_second": 10.854,
+      "eval_wer": 0.3995127892813642,
+      "step": 13500
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 9.145048131832274e-05,
+      "loss": NaN,
+      "step": 13600
+    },
+    {
+      "epoch": 2.21,
+      "eval_loss": 0.4804657995700836,
+      "eval_runtime": 7.5792,
+      "eval_samples_per_second": 13.194,
+      "eval_wer": 0.415347137637028,
+      "step": 13600
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 9.138521781693588e-05,
+      "loss": NaN,
+      "step": 13700
+    },
+    {
+      "epoch": 2.23,
+      "eval_loss": 0.5253716111183167,
+      "eval_runtime": 9.797,
+      "eval_samples_per_second": 10.207,
+      "eval_wer": 0.42752740560292324,
+      "step": 13700
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 9.131995431554904e-05,
+      "loss": NaN,
+      "step": 13800
+    },
+    {
+      "epoch": 2.24,
+      "eval_loss": 0.4461153745651245,
+      "eval_runtime": 8.0888,
+      "eval_samples_per_second": 12.363,
+      "eval_wer": 0.4177831912302071,
+      "step": 13800
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 9.125469081416219e-05,
+      "loss": NaN,
+      "step": 13900
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.5731090307235718,
+      "eval_runtime": 8.4905,
+      "eval_samples_per_second": 11.778,
+      "eval_wer": 0.43118148599269185,
+      "step": 13900
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 9.118942731277533e-05,
+      "loss": NaN,
+      "step": 14000
+    },
+    {
+      "epoch": 2.28,
+      "eval_loss": 0.5009161829948425,
+      "eval_runtime": 8.2825,
+      "eval_samples_per_second": 12.074,
+      "eval_wer": 0.42021924482338613,
+      "step": 14000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 9.112416381138849e-05,
+      "loss": NaN,
+      "step": 14100
+    },
+    {
+      "epoch": 2.29,
+      "eval_loss": 0.4805867075920105,
+      "eval_runtime": 8.9811,
+      "eval_samples_per_second": 11.134,
+      "eval_wer": 0.39707673568818513,
+      "step": 14100
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 9.105890031000163e-05,
+      "loss": NaN,
+      "step": 14200
+    },
+    {
+      "epoch": 2.31,
+      "eval_loss": 0.5124616026878357,
+      "eval_runtime": 7.2004,
+      "eval_samples_per_second": 13.888,
+      "eval_wer": 0.3982947624847747,
+      "step": 14200
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 9.099363680861479e-05,
+      "loss": NaN,
+      "step": 14300
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.45692193508148193,
+      "eval_runtime": 7.2681,
+      "eval_samples_per_second": 13.759,
+      "eval_wer": 0.4177831912302071,
+      "step": 14300
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 9.092837330722794e-05,
+      "loss": NaN,
+      "step": 14400
+    },
+    {
+      "epoch": 2.34,
+      "eval_loss": 0.44331681728363037,
+      "eval_runtime": 8.5939,
+      "eval_samples_per_second": 11.636,
+      "eval_wer": 0.4177831912302071,
+      "step": 14400
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 9.086310980584108e-05,
+      "loss": NaN,
+      "step": 14500
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.494161456823349,
+      "eval_runtime": 7.6191,
+      "eval_samples_per_second": 13.125,
+      "eval_wer": 0.4299634591961023,
+      "step": 14500
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 9.079784630445424e-05,
+      "loss": NaN,
+      "step": 14600
+    },
+    {
+      "epoch": 2.37,
+      "eval_loss": 0.5291484594345093,
+      "eval_runtime": 7.9069,
+      "eval_samples_per_second": 12.647,
+      "eval_wer": 0.4177831912302071,
+      "step": 14600
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 9.073258280306739e-05,
+      "loss": NaN,
+      "step": 14700
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 0.45012572407722473,
+      "eval_runtime": 9.4293,
+      "eval_samples_per_second": 10.605,
+      "eval_wer": 0.4056029232643118,
+      "step": 14700
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 9.066731930168055e-05,
+      "loss": NaN,
+      "step": 14800
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.44526755809783936,
+      "eval_runtime": 7.9253,
+      "eval_samples_per_second": 12.618,
+      "eval_wer": 0.42021924482338613,
+      "step": 14800
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 9.060205580029369e-05,
+      "loss": NaN,
+      "step": 14900
+    },
+    {
+      "epoch": 2.42,
+      "eval_loss": 0.4633622467517853,
+      "eval_runtime": 7.3284,
+      "eval_samples_per_second": 13.646,
+      "eval_wer": 0.42752740560292324,
+      "step": 14900
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 9.053679229890684e-05,
+      "loss": NaN,
+      "step": 15000
+    },
+    {
+      "epoch": 2.44,
+      "eval_loss": 0.45304596424102783,
+      "eval_runtime": 8.2189,
+      "eval_samples_per_second": 12.167,
+      "eval_wer": 0.4190012180267966,
+      "step": 15000
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 9.047152879752e-05,
+      "loss": NaN,
+      "step": 15100
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.563227653503418,
+      "eval_runtime": 7.3261,
+      "eval_samples_per_second": 13.65,
+      "eval_wer": 0.4238733252131547,
+      "step": 15100
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 9.040626529613314e-05,
+      "loss": NaN,
+      "step": 15200
+    },
+    {
+      "epoch": 2.47,
+      "eval_loss": 0.4682408273220062,
+      "eval_runtime": 9.085,
+      "eval_samples_per_second": 11.007,
+      "eval_wer": 0.43118148599269185,
+      "step": 15200
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 9.03410017947463e-05,
+      "loss": NaN,
+      "step": 15300
+    },
+    {
+      "epoch": 2.49,
+      "eval_loss": 0.4495187997817993,
+      "eval_runtime": 8.9075,
+      "eval_samples_per_second": 11.227,
+      "eval_wer": 0.4007308160779537,
+      "step": 15300
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 9.027573829335944e-05,
+      "loss": NaN,
+      "step": 15400
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.4402164816856384,
+      "eval_runtime": 10.3596,
+      "eval_samples_per_second": 9.653,
+      "eval_wer": 0.4092570036540804,
+      "step": 15400
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 9.02104747919726e-05,
+      "loss": NaN,
+      "step": 15500
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 0.45120611786842346,
+      "eval_runtime": 8.2246,
+      "eval_samples_per_second": 12.159,
+      "eval_wer": 0.40803897685749085,
+      "step": 15500
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 9.014521129058573e-05,
+      "loss": NaN,
+      "step": 15600
+    },
+    {
+      "epoch": 2.54,
+      "eval_loss": 0.44330108165740967,
+      "eval_runtime": 7.0996,
+      "eval_samples_per_second": 14.085,
+      "eval_wer": 0.4007308160779537,
+      "step": 15600
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 9.007994778919889e-05,
+      "loss": NaN,
+      "step": 15700
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.42252305150032043,
+      "eval_runtime": 7.1285,
+      "eval_samples_per_second": 14.028,
+      "eval_wer": 0.3934226552984166,
+      "step": 15700
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.001468428781205e-05,
+      "loss": NaN,
+      "step": 15800
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.4437943696975708,
+      "eval_runtime": 8.6965,
+      "eval_samples_per_second": 11.499,
+      "eval_wer": 0.41169305724725946,
+      "step": 15800
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 8.99494207864252e-05,
+      "loss": NaN,
+      "step": 15900
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 0.47090038657188416,
+      "eval_runtime": 7.2716,
+      "eval_samples_per_second": 13.752,
+      "eval_wer": 0.4056029232643118,
+      "step": 15900
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 8.988415728503836e-05,
+      "loss": NaN,
+      "step": 16000
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.45720386505126953,
+      "eval_runtime": 8.165,
+      "eval_samples_per_second": 12.247,
+      "eval_wer": 0.43118148599269185,
+      "step": 16000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 8.981889378365149e-05,
+      "loss": NaN,
+      "step": 16100
+    },
+    {
+      "epoch": 2.62,
+      "eval_loss": 0.4764085114002228,
+      "eval_runtime": 8.2382,
+      "eval_samples_per_second": 12.139,
+      "eval_wer": 0.4043848964677223,
+      "step": 16100
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 8.975363028226465e-05,
+      "loss": NaN,
+      "step": 16200
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.4751797020435333,
+      "eval_runtime": 9.3113,
+      "eval_samples_per_second": 10.74,
+      "eval_wer": 0.41412911084043846,
+      "step": 16200
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 8.968836678087779e-05,
+      "loss": NaN,
+      "step": 16300
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.44270026683807373,
+      "eval_runtime": 7.4624,
+      "eval_samples_per_second": 13.401,
+      "eval_wer": 0.40194884287454324,
+      "step": 16300
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 8.962310327949095e-05,
+      "loss": NaN,
+      "step": 16400
+    },
+    {
+      "epoch": 2.67,
+      "eval_loss": 0.4818960428237915,
+      "eval_runtime": 7.8783,
+      "eval_samples_per_second": 12.693,
+      "eval_wer": 0.43118148599269185,
+      "step": 16400
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 8.955783977810411e-05,
+      "loss": NaN,
+      "step": 16500
+    },
+    {
+      "epoch": 2.68,
+      "eval_loss": 0.4510990083217621,
+      "eval_runtime": 7.04,
+      "eval_samples_per_second": 14.205,
+      "eval_wer": 0.4043848964677223,
+      "step": 16500
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 8.949257627671725e-05,
+      "loss": NaN,
+      "step": 16600
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.4735144078731537,
+      "eval_runtime": 10.0014,
+      "eval_samples_per_second": 9.999,
+      "eval_wer": 0.3995127892813642,
+      "step": 16600
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 8.94273127753304e-05,
+      "loss": NaN,
+      "step": 16700
+    },
+    {
+      "epoch": 2.72,
+      "eval_loss": 0.4041927456855774,
+      "eval_runtime": 6.9626,
+      "eval_samples_per_second": 14.362,
+      "eval_wer": 0.40316686967113274,
+      "step": 16700
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 8.936204927394354e-05,
+      "loss": NaN,
+      "step": 16800
+    },
+    {
+      "epoch": 2.73,
+      "eval_loss": 0.4579096734523773,
+      "eval_runtime": 8.5814,
+      "eval_samples_per_second": 11.653,
+      "eval_wer": 0.42509135200974424,
+      "step": 16800
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 8.92967857725567e-05,
+      "loss": NaN,
+      "step": 16900
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 0.46610623598098755,
+      "eval_runtime": 7.2885,
+      "eval_samples_per_second": 13.72,
+      "eval_wer": 0.42143727161997563,
+      "step": 16900
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 8.923152227116985e-05,
+      "loss": NaN,
+      "step": 17000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.46158257126808167,
+      "eval_runtime": 9.1346,
+      "eval_samples_per_second": 10.947,
+      "eval_wer": 0.4177831912302071,
+      "step": 17000
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 8.9166258769783e-05,
+      "loss": NaN,
+      "step": 17100
+    },
+    {
+      "epoch": 2.78,
+      "eval_loss": 0.46586254239082336,
+      "eval_runtime": 8.0894,
+      "eval_samples_per_second": 12.362,
+      "eval_wer": 0.42509135200974424,
+      "step": 17100
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 8.910099526839616e-05,
+      "loss": NaN,
+      "step": 17200
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 0.42319783568382263,
+      "eval_runtime": 8.6611,
+      "eval_samples_per_second": 11.546,
+      "eval_wer": 0.4104750304506699,
+      "step": 17200
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 8.90357317670093e-05,
+      "loss": NaN,
+      "step": 17300
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.45863696932792664,
+      "eval_runtime": 8.0216,
+      "eval_samples_per_second": 12.466,
+      "eval_wer": 0.4092570036540804,
+      "step": 17300
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 8.897046826562245e-05,
+      "loss": NaN,
+      "step": 17400
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.52719646692276,
+      "eval_runtime": 7.6618,
+      "eval_samples_per_second": 13.052,
+      "eval_wer": 0.45066991473812423,
+      "step": 17400
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 8.89052047642356e-05,
+      "loss": NaN,
+      "step": 17500
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.4623071551322937,
+      "eval_runtime": 8.3826,
+      "eval_samples_per_second": 11.929,
+      "eval_wer": 0.4104750304506699,
+      "step": 17500
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 8.883994126284876e-05,
+      "loss": NaN,
+      "step": 17600
+    },
+    {
+      "epoch": 2.86,
+      "eval_loss": 0.47391974925994873,
+      "eval_runtime": 8.8856,
+      "eval_samples_per_second": 11.254,
+      "eval_wer": 0.4092570036540804,
+      "step": 17600
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 8.877467776146192e-05,
+      "loss": NaN,
+      "step": 17700
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.4068062901496887,
+      "eval_runtime": 7.4887,
+      "eval_samples_per_second": 13.353,
+      "eval_wer": 0.392204628501827,
+      "step": 17700
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 8.870941426007505e-05,
+      "loss": NaN,
+      "step": 17800
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.45875948667526245,
+      "eval_runtime": 8.0538,
+      "eval_samples_per_second": 12.416,
+      "eval_wer": 0.42509135200974424,
+      "step": 17800
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 8.864415075868821e-05,
+      "loss": NaN,
+      "step": 17900
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.5207622051239014,
+      "eval_runtime": 8.8428,
+      "eval_samples_per_second": 11.309,
+      "eval_wer": 0.3995127892813642,
+      "step": 17900
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 8.857888725730135e-05,
+      "loss": NaN,
+      "step": 18000
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.4633566737174988,
+      "eval_runtime": 7.2767,
+      "eval_samples_per_second": 13.743,
+      "eval_wer": 0.40803897685749085,
+      "step": 18000
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 8.851362375591451e-05,
+      "loss": NaN,
+      "step": 18100
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.4258524179458618,
+      "eval_runtime": 7.062,
+      "eval_samples_per_second": 14.16,
+      "eval_wer": 0.3848964677222899,
+      "step": 18100
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 8.844836025452766e-05,
+      "loss": NaN,
+      "step": 18200
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.42992159724235535,
+      "eval_runtime": 7.4964,
+      "eval_samples_per_second": 13.34,
+      "eval_wer": 0.4043848964677223,
+      "step": 18200
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 8.838309675314082e-05,
+      "loss": NaN,
+      "step": 18300
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.4557535946369171,
+      "eval_runtime": 8.3341,
+      "eval_samples_per_second": 11.999,
+      "eval_wer": 0.4177831912302071,
+      "step": 18300
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 8.831783325175396e-05,
+      "loss": NaN,
+      "step": 18400
+    },
+    {
+      "epoch": 2.99,
+      "eval_loss": 0.4576800465583801,
+      "eval_runtime": 7.8065,
+      "eval_samples_per_second": 12.81,
+      "eval_wer": 0.39707673568818513,
+      "step": 18400
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 8.82525697503671e-05,
+      "loss": NaN,
+      "step": 18500
+    },
+    {
+      "epoch": 3.01,
+      "eval_loss": 0.4770311713218689,
+      "eval_runtime": 8.6894,
+      "eval_samples_per_second": 11.508,
+      "eval_wer": 0.4007308160779537,
+      "step": 18500
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 8.818730624898026e-05,
+      "loss": NaN,
+      "step": 18600
+    },
+    {
+      "epoch": 3.02,
+      "eval_loss": 0.44065818190574646,
+      "eval_runtime": 9.5635,
+      "eval_samples_per_second": 10.456,
+      "eval_wer": 0.41169305724725946,
+      "step": 18600
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 8.812204274759341e-05,
+      "loss": NaN,
+      "step": 18700
+    },
+    {
+      "epoch": 3.04,
+      "eval_loss": 0.4866321086883545,
+      "eval_runtime": 7.252,
+      "eval_samples_per_second": 13.789,
+      "eval_wer": 0.42143727161997563,
+      "step": 18700
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 8.805677924620657e-05,
+      "loss": NaN,
+      "step": 18800
+    },
+    {
+      "epoch": 3.06,
+      "eval_loss": 0.4869626760482788,
+      "eval_runtime": 9.3184,
+      "eval_samples_per_second": 10.731,
+      "eval_wer": 0.415347137637028,
+      "step": 18800
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 8.799151574481971e-05,
+      "loss": NaN,
+      "step": 18900
+    },
+    {
+      "epoch": 3.07,
+      "eval_loss": 0.580832839012146,
+      "eval_runtime": 8.0833,
+      "eval_samples_per_second": 12.371,
+      "eval_wer": 0.40803897685749085,
+      "step": 18900
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 8.792625224343286e-05,
+      "loss": NaN,
+      "step": 19000
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.5339367389678955,
+      "eval_runtime": 8.6454,
+      "eval_samples_per_second": 11.567,
+      "eval_wer": 0.39707673568818513,
+      "step": 19000
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 8.786098874204602e-05,
+      "loss": NaN,
+      "step": 19100
+    },
+    {
+      "epoch": 3.11,
+      "eval_loss": 0.47444137930870056,
+      "eval_runtime": 8.4893,
+      "eval_samples_per_second": 11.78,
+      "eval_wer": 0.40682095006090135,
+      "step": 19100
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 8.779572524065916e-05,
+      "loss": NaN,
+      "step": 19200
+    },
+    {
+      "epoch": 3.12,
+      "eval_loss": 0.4808363616466522,
+      "eval_runtime": 8.229,
+      "eval_samples_per_second": 12.152,
+      "eval_wer": 0.42143727161997563,
+      "step": 19200
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 8.773046173927232e-05,
+      "loss": NaN,
+      "step": 19300
+    },
+    {
+      "epoch": 3.14,
+      "eval_loss": 0.5487423539161682,
+      "eval_runtime": 8.6936,
+      "eval_samples_per_second": 11.503,
+      "eval_wer": 0.4287454323995128,
+      "step": 19300
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 8.766519823788547e-05,
+      "loss": NaN,
+      "step": 19400
+    },
+    {
+      "epoch": 3.15,
+      "eval_loss": 0.5379164218902588,
+      "eval_runtime": 7.8502,
+      "eval_samples_per_second": 12.739,
+      "eval_wer": 0.4238733252131547,
+      "step": 19400
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 8.759993473649861e-05,
+      "loss": NaN,
+      "step": 19500
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.4747236669063568,
+      "eval_runtime": 6.9979,
+      "eval_samples_per_second": 14.29,
+      "eval_wer": 0.40316686967113274,
+      "step": 19500
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 8.753467123511177e-05,
+      "loss": NaN,
+      "step": 19600
+    },
+    {
+      "epoch": 3.19,
+      "eval_loss": 0.4517196714878082,
+      "eval_runtime": 6.8378,
+      "eval_samples_per_second": 14.624,
+      "eval_wer": 0.40194884287454324,
+      "step": 19600
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 8.746940773372492e-05,
+      "loss": NaN,
+      "step": 19700
+    },
+    {
+      "epoch": 3.2,
+      "eval_loss": 0.473175972700119,
+      "eval_runtime": 7.9557,
+      "eval_samples_per_second": 12.57,
+      "eval_wer": 0.3861144945188794,
+      "step": 19700
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 8.740414423233807e-05,
+      "loss": NaN,
+      "step": 19800
+    },
+    {
+      "epoch": 3.22,
+      "eval_loss": 0.4839608371257782,
+      "eval_runtime": 7.511,
+      "eval_samples_per_second": 13.314,
+      "eval_wer": 0.40194884287454324,
+      "step": 19800
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 8.733888073095122e-05,
+      "loss": NaN,
+      "step": 19900
+    },
+    {
+      "epoch": 3.24,
+      "eval_loss": 0.45369553565979004,
+      "eval_runtime": 7.3681,
+      "eval_samples_per_second": 13.572,
+      "eval_wer": 0.37758830694275275,
+      "step": 19900
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 8.727361722956438e-05,
+      "loss": NaN,
+      "step": 20000
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 0.44059714674949646,
+      "eval_runtime": 8.867,
+      "eval_samples_per_second": 11.278,
+      "eval_wer": 0.3861144945188794,
+      "step": 20000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 8.720835372817752e-05,
+      "loss": NaN,
+      "step": 20100
+    },
+    {
+      "epoch": 3.27,
+      "eval_loss": 0.4481971859931946,
+      "eval_runtime": 7.089,
+      "eval_samples_per_second": 14.106,
+      "eval_wer": 0.40194884287454324,
+      "step": 20100
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 8.714309022679067e-05,
+      "loss": NaN,
+      "step": 20200
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.49499496817588806,
+      "eval_runtime": 9.068,
+      "eval_samples_per_second": 11.028,
+      "eval_wer": 0.40194884287454324,
+      "step": 20200
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 8.707782672540383e-05,
+      "loss": NaN,
+      "step": 20300
+    },
+    {
+      "epoch": 3.3,
+      "eval_loss": 0.4684819281101227,
+      "eval_runtime": 8.8297,
+      "eval_samples_per_second": 11.325,
+      "eval_wer": 0.3946406820950061,
+      "step": 20300
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 8.701256322401697e-05,
+      "loss": NaN,
+      "step": 20400
+    },
+    {
+      "epoch": 3.32,
+      "eval_loss": 0.5416879057884216,
+      "eval_runtime": 8.4935,
+      "eval_samples_per_second": 11.774,
+      "eval_wer": 0.3982947624847747,
+      "step": 20400
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 8.694729972263013e-05,
+      "loss": NaN,
+      "step": 20500
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.49328354001045227,
+      "eval_runtime": 7.5212,
+      "eval_samples_per_second": 13.296,
+      "eval_wer": 0.39585870889159563,
+      "step": 20500
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 8.688203622124328e-05,
+      "loss": NaN,
+      "step": 20600
+    },
+    {
+      "epoch": 3.35,
+      "eval_loss": 0.48222553730010986,
+      "eval_runtime": 9.8089,
+      "eval_samples_per_second": 10.195,
+      "eval_wer": 0.4165651644336175,
+      "step": 20600
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 8.681677271985642e-05,
+      "loss": NaN,
+      "step": 20700
+    },
+    {
+      "epoch": 3.37,
+      "eval_loss": 0.4871315658092499,
+      "eval_runtime": 8.0731,
+      "eval_samples_per_second": 12.387,
+      "eval_wer": 0.4104750304506699,
+      "step": 20700
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 8.675150921846958e-05,
+      "loss": NaN,
+      "step": 20800
+    },
+    {
+      "epoch": 3.38,
+      "eval_loss": 0.4995521605014801,
+      "eval_runtime": 8.1255,
+      "eval_samples_per_second": 12.307,
+      "eval_wer": 0.42021924482338613,
+      "step": 20800
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 8.668624571708272e-05,
+      "loss": NaN,
+      "step": 20900
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.46075180172920227,
+      "eval_runtime": 7.3922,
+      "eval_samples_per_second": 13.528,
+      "eval_wer": 0.41412911084043846,
+      "step": 20900
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 8.662098221569588e-05,
+      "loss": NaN,
+      "step": 21000
+    },
+    {
+      "epoch": 3.42,
+      "eval_loss": 0.4704657793045044,
+      "eval_runtime": 8.87,
+      "eval_samples_per_second": 11.274,
+      "eval_wer": 0.40316686967113274,
+      "step": 21000
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 8.655571871430903e-05,
+      "loss": NaN,
+      "step": 21100
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.44366922974586487,
+      "eval_runtime": 8.0362,
+      "eval_samples_per_second": 12.444,
+      "eval_wer": 0.3982947624847747,
+      "step": 21100
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 8.649045521292217e-05,
+      "loss": NaN,
+      "step": 21200
+    },
+    {
+      "epoch": 3.45,
+      "eval_loss": 0.5748487710952759,
+      "eval_runtime": 8.4229,
+      "eval_samples_per_second": 11.872,
+      "eval_wer": 0.4226552984165652,
+      "step": 21200
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 8.642519171153532e-05,
+      "loss": NaN,
+      "step": 21300
+    },
+    {
+      "epoch": 3.46,
+      "eval_loss": 0.4763486385345459,
+      "eval_runtime": 7.3956,
+      "eval_samples_per_second": 13.522,
+      "eval_wer": 0.3800243605359318,
+      "step": 21300
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 8.635992821014848e-05,
+      "loss": NaN,
+      "step": 21400
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 0.45793360471725464,
+      "eval_runtime": 7.217,
+      "eval_samples_per_second": 13.856,
+      "eval_wer": 0.4104750304506699,
+      "step": 21400
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 8.629466470876164e-05,
+      "loss": NaN,
+      "step": 21500
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.4132789373397827,
+      "eval_runtime": 9.7025,
+      "eval_samples_per_second": 10.307,
+      "eval_wer": 0.4056029232643118,
+      "step": 21500
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 8.622940120737478e-05,
+      "loss": NaN,
+      "step": 21600
+    },
+    {
+      "epoch": 3.51,
+      "eval_loss": 0.4666365385055542,
+      "eval_runtime": 9.4541,
+      "eval_samples_per_second": 10.577,
+      "eval_wer": 0.40682095006090135,
+      "step": 21600
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 8.616413770598794e-05,
+      "loss": NaN,
+      "step": 21700
+    },
+    {
+      "epoch": 3.53,
+      "eval_loss": 0.43131592869758606,
+      "eval_runtime": 7.5373,
+      "eval_samples_per_second": 13.267,
+      "eval_wer": 0.37758830694275275,
+      "step": 21700
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 8.609887420460107e-05,
+      "loss": NaN,
+      "step": 21800
+    },
+    {
+      "epoch": 3.55,
+      "eval_loss": 0.4624130129814148,
+      "eval_runtime": 8.6512,
+      "eval_samples_per_second": 11.559,
+      "eval_wer": 0.3934226552984166,
+      "step": 21800
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 8.603361070321423e-05,
+      "loss": NaN,
+      "step": 21900
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.47029244899749756,
+      "eval_runtime": 7.0891,
+      "eval_samples_per_second": 14.106,
+      "eval_wer": 0.39707673568818513,
+      "step": 21900
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 8.596834720182738e-05,
+      "loss": NaN,
+      "step": 22000
+    },
+    {
+      "epoch": 3.58,
+      "eval_loss": 0.4115927219390869,
+      "eval_runtime": 7.9478,
+      "eval_samples_per_second": 12.582,
+      "eval_wer": 0.38855054811205847,
+      "step": 22000
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 8.590308370044053e-05,
+      "loss": NaN,
+      "step": 22100
+    },
+    {
+      "epoch": 3.59,
+      "eval_loss": 0.4755612313747406,
+      "eval_runtime": 8.2831,
+      "eval_samples_per_second": 12.073,
+      "eval_wer": 0.3848964677222899,
+      "step": 22100
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 8.583782019905369e-05,
+      "loss": NaN,
+      "step": 22200
+    },
+    {
+      "epoch": 3.61,
+      "eval_loss": 0.42175978422164917,
+      "eval_runtime": 10.3113,
+      "eval_samples_per_second": 9.698,
+      "eval_wer": 0.38855054811205847,
+      "step": 22200
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 8.577255669766684e-05,
+      "loss": NaN,
+      "step": 22300
+    },
+    {
+      "epoch": 3.63,
+      "eval_loss": 0.4504680633544922,
+      "eval_runtime": 8.4957,
+      "eval_samples_per_second": 11.771,
+      "eval_wer": 0.40316686967113274,
+      "step": 22300
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 8.570729319627998e-05,
+      "loss": NaN,
+      "step": 22400
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.4168296754360199,
+      "eval_runtime": 7.4037,
+      "eval_samples_per_second": 13.507,
+      "eval_wer": 0.40194884287454324,
+      "step": 22400
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 8.564202969489313e-05,
+      "loss": NaN,
+      "step": 22500
+    },
+    {
+      "epoch": 3.66,
+      "eval_loss": 0.3921906650066376,
+      "eval_runtime": 7.4162,
+      "eval_samples_per_second": 13.484,
+      "eval_wer": 0.37271619975639464,
+      "step": 22500
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 8.557676619350629e-05,
+      "loss": NaN,
+      "step": 22600
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 0.4271007478237152,
+      "eval_runtime": 8.8145,
+      "eval_samples_per_second": 11.345,
+      "eval_wer": 0.38855054811205847,
+      "step": 22600
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 8.551150269211943e-05,
+      "loss": NaN,
+      "step": 22700
+    },
+    {
+      "epoch": 3.69,
+      "eval_loss": 0.416711688041687,
+      "eval_runtime": 8.4178,
+      "eval_samples_per_second": 11.88,
+      "eval_wer": 0.40682095006090135,
+      "step": 22700
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 8.544623919073259e-05,
+      "loss": NaN,
+      "step": 22800
+    },
+    {
+      "epoch": 3.71,
+      "eval_loss": 0.42215126752853394,
+      "eval_runtime": 7.8605,
+      "eval_samples_per_second": 12.722,
+      "eval_wer": 0.392204628501827,
+      "step": 22800
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 8.538097568934574e-05,
+      "loss": NaN,
+      "step": 22900
+    },
+    {
+      "epoch": 3.72,
+      "eval_loss": 0.4496414065361023,
+      "eval_runtime": 7.9977,
+      "eval_samples_per_second": 12.504,
+      "eval_wer": 0.4177831912302071,
+      "step": 22900
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 8.531571218795888e-05,
+      "loss": NaN,
+      "step": 23000
+    },
+    {
+      "epoch": 3.74,
+      "eval_loss": 0.4615870714187622,
+      "eval_runtime": 8.1022,
+      "eval_samples_per_second": 12.342,
+      "eval_wer": 0.38855054811205847,
+      "step": 23000
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 8.525044868657204e-05,
+      "loss": NaN,
+      "step": 23100
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 0.4659249186515808,
+      "eval_runtime": 8.1138,
+      "eval_samples_per_second": 12.325,
+      "eval_wer": 0.4007308160779537,
+      "step": 23100
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 8.518518518518518e-05,
+      "loss": NaN,
+      "step": 23200
+    },
+    {
+      "epoch": 3.77,
+      "eval_loss": 0.45942869782447815,
+      "eval_runtime": 7.7263,
+      "eval_samples_per_second": 12.943,
+      "eval_wer": 0.36784409257003653,
+      "step": 23200
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 8.511992168379834e-05,
+      "loss": NaN,
+      "step": 23300
+    },
+    {
+      "epoch": 3.79,
+      "eval_loss": 0.4240889847278595,
+      "eval_runtime": 7.2849,
+      "eval_samples_per_second": 13.727,
+      "eval_wer": 0.37880633373934225,
+      "step": 23300
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 8.505465818241149e-05,
+      "loss": NaN,
+      "step": 23400
+    },
+    {
+      "epoch": 3.81,
+      "eval_loss": 0.4439373314380646,
+      "eval_runtime": 7.5713,
+      "eval_samples_per_second": 13.208,
+      "eval_wer": 0.39707673568818513,
+      "step": 23400
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 8.498939468102463e-05,
+      "loss": NaN,
+      "step": 23500
+    },
+    {
+      "epoch": 3.82,
+      "eval_loss": 0.4574301838874817,
+      "eval_runtime": 7.723,
+      "eval_samples_per_second": 12.948,
+      "eval_wer": 0.39707673568818513,
+      "step": 23500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 8.492413117963779e-05,
+      "loss": NaN,
+      "step": 23600
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 0.41990235447883606,
+      "eval_runtime": 7.2988,
+      "eval_samples_per_second": 13.701,
+      "eval_wer": 0.38246041412911086,
+      "step": 23600
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 8.485886767825094e-05,
+      "loss": NaN,
+      "step": 23700
+    },
+    {
+      "epoch": 3.85,
+      "eval_loss": 0.4570240080356598,
+      "eval_runtime": 9.4247,
+      "eval_samples_per_second": 10.61,
+      "eval_wer": 0.3934226552984166,
+      "step": 23700
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 8.47936041768641e-05,
+      "loss": NaN,
+      "step": 23800
+    },
+    {
+      "epoch": 3.87,
+      "eval_loss": 0.42279544472694397,
+      "eval_runtime": 7.429,
+      "eval_samples_per_second": 13.461,
+      "eval_wer": 0.37880633373934225,
+      "step": 23800
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 8.472834067547724e-05,
+      "loss": NaN,
+      "step": 23900
+    },
+    {
+      "epoch": 3.89,
+      "eval_loss": 0.4250124394893646,
+      "eval_runtime": 8.7078,
+      "eval_samples_per_second": 11.484,
+      "eval_wer": 0.39585870889159563,
+      "step": 23900
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 8.46630771740904e-05,
+      "loss": NaN,
+      "step": 24000
+    },
+    {
+      "epoch": 3.9,
+      "eval_loss": 0.48117172718048096,
+      "eval_runtime": 7.6756,
+      "eval_samples_per_second": 13.028,
+      "eval_wer": 0.40803897685749085,
+      "step": 24000
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 8.459781367270355e-05,
+      "loss": NaN,
+      "step": 24100
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.4824243485927582,
+      "eval_runtime": 9.2626,
+      "eval_samples_per_second": 10.796,
+      "eval_wer": 0.3812423873325213,
+      "step": 24100
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 8.453255017131669e-05,
+      "loss": NaN,
+      "step": 24200
+    },
+    {
+      "epoch": 3.94,
+      "eval_loss": 0.45317116379737854,
+      "eval_runtime": 7.8742,
+      "eval_samples_per_second": 12.7,
+      "eval_wer": 0.39585870889159563,
+      "step": 24200
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 8.446728666992985e-05,
+      "loss": NaN,
+      "step": 24300
+    },
+    {
+      "epoch": 3.95,
+      "eval_loss": 0.5323064923286438,
+      "eval_runtime": 7.1451,
+      "eval_samples_per_second": 13.996,
+      "eval_wer": 0.42509135200974424,
+      "step": 24300
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 8.4402023168543e-05,
+      "loss": NaN,
+      "step": 24400
+    },
+    {
+      "epoch": 3.97,
+      "eval_loss": 0.5017148852348328,
+      "eval_runtime": 8.2004,
+      "eval_samples_per_second": 12.194,
+      "eval_wer": 0.40803897685749085,
+      "step": 24400
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 8.433675966715615e-05,
+      "loss": NaN,
+      "step": 24500
+    },
+    {
+      "epoch": 3.98,
+      "eval_loss": 0.4483763873577118,
+      "eval_runtime": 7.3109,
+      "eval_samples_per_second": 13.678,
+      "eval_wer": 0.38246041412911086,
+      "step": 24500
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 8.42714961657693e-05,
+      "loss": NaN,
+      "step": 24600
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.4591113030910492,
+      "eval_runtime": 7.7451,
+      "eval_samples_per_second": 12.911,
+      "eval_wer": 0.3800243605359318,
+      "step": 24600
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 8.420623266438244e-05,
+      "loss": NaN,
+      "step": 24700
+    },
+    {
+      "epoch": 4.02,
+      "eval_loss": 0.45395427942276,
+      "eval_runtime": 7.718,
+      "eval_samples_per_second": 12.957,
+      "eval_wer": 0.3763702801461632,
+      "step": 24700
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 8.41409691629956e-05,
+      "loss": NaN,
+      "step": 24800
+    },
+    {
+      "epoch": 4.03,
+      "eval_loss": 0.5075406432151794,
+      "eval_runtime": 8.7905,
+      "eval_samples_per_second": 11.376,
+      "eval_wer": 0.40803897685749085,
+      "step": 24800
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 8.407570566160875e-05,
+      "loss": NaN,
+      "step": 24900
+    },
+    {
+      "epoch": 4.05,
+      "eval_loss": 0.5291510224342346,
+      "eval_runtime": 8.3479,
+      "eval_samples_per_second": 11.979,
+      "eval_wer": 0.4104750304506699,
+      "step": 24900
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 8.40104421602219e-05,
+      "loss": NaN,
+      "step": 25000
+    },
+    {
+      "epoch": 4.07,
+      "eval_loss": 0.4835575819015503,
+      "eval_runtime": 9.1852,
+      "eval_samples_per_second": 10.887,
+      "eval_wer": 0.3934226552984166,
+      "step": 25000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 8.394517865883505e-05,
+      "loss": NaN,
+      "step": 25100
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.4627467691898346,
+      "eval_runtime": 8.3255,
+      "eval_samples_per_second": 12.011,
+      "eval_wer": 0.40803897685749085,
+      "step": 25100
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 8.38799151574482e-05,
+      "loss": NaN,
+      "step": 25200
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 0.45444557070732117,
+      "eval_runtime": 7.7259,
+      "eval_samples_per_second": 12.943,
+      "eval_wer": 0.40316686967113274,
+      "step": 25200
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 8.381465165606135e-05,
+      "loss": NaN,
+      "step": 25300
+    },
+    {
+      "epoch": 4.11,
+      "eval_loss": 0.4336519241333008,
+      "eval_runtime": 7.905,
+      "eval_samples_per_second": 12.65,
+      "eval_wer": 0.3873325213154689,
+      "step": 25300
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 8.37493881546745e-05,
+      "loss": NaN,
+      "step": 25400
+    },
+    {
+      "epoch": 4.13,
+      "eval_loss": 0.44815555214881897,
+      "eval_runtime": 8.3801,
+      "eval_samples_per_second": 11.933,
+      "eval_wer": 0.4104750304506699,
+      "step": 25400
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 8.368412465328766e-05,
+      "loss": NaN,
+      "step": 25500
+    },
+    {
+      "epoch": 4.15,
+      "eval_loss": 0.45955729484558105,
+      "eval_runtime": 7.7863,
+      "eval_samples_per_second": 12.843,
+      "eval_wer": 0.38855054811205847,
+      "step": 25500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 8.36188611519008e-05,
+      "loss": NaN,
+      "step": 25600
+    },
+    {
+      "epoch": 4.16,
+      "eval_loss": 0.47062352299690247,
+      "eval_runtime": 9.5871,
+      "eval_samples_per_second": 10.431,
+      "eval_wer": 0.39707673568818513,
+      "step": 25600
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 8.355359765051396e-05,
+      "loss": NaN,
+      "step": 25700
+    },
+    {
+      "epoch": 4.18,
+      "eval_loss": 0.44303008913993835,
+      "eval_runtime": 8.2157,
+      "eval_samples_per_second": 12.172,
+      "eval_wer": 0.3995127892813642,
+      "step": 25700
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 8.348833414912711e-05,
+      "loss": NaN,
+      "step": 25800
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.527855396270752,
+      "eval_runtime": 8.507,
+      "eval_samples_per_second": 11.755,
+      "eval_wer": 0.4104750304506699,
+      "step": 25800
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 8.342307064774025e-05,
+      "loss": NaN,
+      "step": 25900
+    },
+    {
+      "epoch": 4.21,
+      "eval_loss": 0.4706363379955292,
+      "eval_runtime": 6.3997,
+      "eval_samples_per_second": 15.626,
+      "eval_wer": 0.4007308160779537,
+      "step": 25900
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 8.335780714635341e-05,
+      "loss": NaN,
+      "step": 26000
+    },
+    {
+      "epoch": 4.23,
+      "eval_loss": 0.46070727705955505,
+      "eval_runtime": 6.6071,
+      "eval_samples_per_second": 15.135,
+      "eval_wer": 0.37880633373934225,
+      "step": 26000
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 8.329254364496656e-05,
+      "loss": NaN,
+      "step": 26100
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.47955620288848877,
+      "eval_runtime": 8.053,
+      "eval_samples_per_second": 12.418,
+      "eval_wer": 0.3812423873325213,
+      "step": 26100
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 8.322728014357972e-05,
+      "loss": NaN,
+      "step": 26200
+    },
+    {
+      "epoch": 4.26,
+      "eval_loss": 0.4731149971485138,
+      "eval_runtime": 8.8267,
+      "eval_samples_per_second": 11.329,
+      "eval_wer": 0.40682095006090135,
+      "step": 26200
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 8.316201664219285e-05,
+      "loss": NaN,
+      "step": 26300
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 0.4844764471054077,
+      "eval_runtime": 7.374,
+      "eval_samples_per_second": 13.561,
+      "eval_wer": 0.39585870889159563,
+      "step": 26300
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 8.3096753140806e-05,
+      "loss": NaN,
+      "step": 26400
+    },
+    {
+      "epoch": 4.29,
+      "eval_loss": 0.4396247863769531,
+      "eval_runtime": 9.6514,
+      "eval_samples_per_second": 10.361,
+      "eval_wer": 0.3751522533495737,
+      "step": 26400
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 8.303148963941916e-05,
+      "loss": NaN,
+      "step": 26500
+    },
+    {
+      "epoch": 4.31,
+      "eval_loss": 0.4746050238609314,
+      "eval_runtime": 8.1321,
+      "eval_samples_per_second": 12.297,
+      "eval_wer": 0.38246041412911086,
+      "step": 26500
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 8.296622613803231e-05,
+      "loss": NaN,
+      "step": 26600
+    },
+    {
+      "epoch": 4.33,
+      "eval_loss": 0.4225209951400757,
+      "eval_runtime": 7.7046,
+      "eval_samples_per_second": 12.979,
+      "eval_wer": 0.3702801461632156,
+      "step": 26600
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 8.290096263664547e-05,
+      "loss": NaN,
+      "step": 26700
+    },
+    {
+      "epoch": 4.34,
+      "eval_loss": 0.46304523944854736,
+      "eval_runtime": 8.8314,
+      "eval_samples_per_second": 11.323,
+      "eval_wer": 0.40194884287454324,
+      "step": 26700
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 8.283569913525861e-05,
+      "loss": NaN,
+      "step": 26800
+    },
+    {
+      "epoch": 4.36,
+      "eval_loss": 0.45539891719818115,
+      "eval_runtime": 8.3892,
+      "eval_samples_per_second": 11.92,
+      "eval_wer": 0.3848964677222899,
+      "step": 26800
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 8.277043563387176e-05,
+      "loss": NaN,
+      "step": 26900
+    },
+    {
+      "epoch": 4.37,
+      "eval_loss": 0.4747115671634674,
+      "eval_runtime": 8.0532,
+      "eval_samples_per_second": 12.417,
+      "eval_wer": 0.3861144945188794,
+      "step": 26900
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 8.27051721324849e-05,
+      "loss": NaN,
+      "step": 27000
+    },
+    {
+      "epoch": 4.39,
+      "eval_loss": 0.4937517046928406,
+      "eval_runtime": 8.6063,
+      "eval_samples_per_second": 11.619,
+      "eval_wer": 0.3982947624847747,
+      "step": 27000
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 8.263990863109806e-05,
+      "loss": NaN,
+      "step": 27100
+    },
+    {
+      "epoch": 4.41,
+      "eval_loss": 0.5522226095199585,
+      "eval_runtime": 7.3096,
+      "eval_samples_per_second": 13.681,
+      "eval_wer": 0.38855054811205847,
+      "step": 27100
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 8.257464512971122e-05,
+      "loss": NaN,
+      "step": 27200
+    },
+    {
+      "epoch": 4.42,
+      "eval_loss": 0.48202434182167053,
+      "eval_runtime": 7.8854,
+      "eval_samples_per_second": 12.682,
+      "eval_wer": 0.4056029232643118,
+      "step": 27200
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 8.250938162832437e-05,
+      "loss": NaN,
+      "step": 27300
+    },
+    {
+      "epoch": 4.44,
+      "eval_loss": 0.4578789472579956,
+      "eval_runtime": 8.752,
+      "eval_samples_per_second": 11.426,
+      "eval_wer": 0.37393422655298414,
+      "step": 27300
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 8.244411812693752e-05,
+      "loss": NaN,
+      "step": 27400
+    },
+    {
+      "epoch": 4.46,
+      "eval_loss": 0.44214507937431335,
+      "eval_runtime": 10.4981,
+      "eval_samples_per_second": 9.526,
+      "eval_wer": 0.3946406820950061,
+      "step": 27400
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 8.237885462555066e-05,
+      "loss": NaN,
+      "step": 27500
+    },
+    {
+      "epoch": 4.47,
+      "eval_loss": 0.43562430143356323,
+      "eval_runtime": 7.8819,
+      "eval_samples_per_second": 12.687,
+      "eval_wer": 0.3848964677222899,
+      "step": 27500
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 8.231359112416381e-05,
+      "loss": NaN,
+      "step": 27600
+    },
+    {
+      "epoch": 4.49,
+      "eval_loss": 0.5293126106262207,
+      "eval_runtime": 9.3755,
+      "eval_samples_per_second": 10.666,
+      "eval_wer": 0.3982947624847747,
+      "step": 27600
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 8.224832762277696e-05,
+      "loss": NaN,
+      "step": 27700
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.4340215027332306,
+      "eval_runtime": 8.0204,
+      "eval_samples_per_second": 12.468,
+      "eval_wer": 0.38855054811205847,
+      "step": 27700
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 8.218306412139012e-05,
+      "loss": NaN,
+      "step": 27800
+    },
+    {
+      "epoch": 4.52,
+      "eval_loss": 0.4252225160598755,
+      "eval_runtime": 8.021,
+      "eval_samples_per_second": 12.467,
+      "eval_wer": 0.3763702801461632,
+      "step": 27800
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 8.211780062000328e-05,
+      "loss": NaN,
+      "step": 27900
+    },
+    {
+      "epoch": 4.54,
+      "eval_loss": 0.43396663665771484,
+      "eval_runtime": 7.1016,
+      "eval_samples_per_second": 14.081,
+      "eval_wer": 0.38855054811205847,
+      "step": 27900
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 8.205253711861641e-05,
+      "loss": NaN,
+      "step": 28000
+    },
+    {
+      "epoch": 4.55,
+      "eval_loss": 0.4182353615760803,
+      "eval_runtime": 9.2514,
+      "eval_samples_per_second": 10.809,
+      "eval_wer": 0.3800243605359318,
+      "step": 28000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 8.198727361722957e-05,
+      "loss": NaN,
+      "step": 28100
+    },
+    {
+      "epoch": 4.57,
+      "eval_loss": 0.5017396211624146,
+      "eval_runtime": 8.9953,
+      "eval_samples_per_second": 11.117,
+      "eval_wer": 0.40316686967113274,
+      "step": 28100
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 8.192201011584271e-05,
+      "loss": NaN,
+      "step": 28200
+    },
+    {
+      "epoch": 4.59,
+      "eval_loss": 0.4595078229904175,
+      "eval_runtime": 9.3616,
+      "eval_samples_per_second": 10.682,
+      "eval_wer": 0.3909866017052375,
+      "step": 28200
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 8.185674661445587e-05,
+      "loss": NaN,
+      "step": 28300
+    },
+    {
+      "epoch": 4.6,
+      "eval_loss": 0.44491440057754517,
+      "eval_runtime": 10.1045,
+      "eval_samples_per_second": 9.897,
+      "eval_wer": 0.3946406820950061,
+      "step": 28300
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 8.179148311306902e-05,
+      "loss": NaN,
+      "step": 28400
+    },
+    {
+      "epoch": 4.62,
+      "eval_loss": 0.4460849463939667,
+      "eval_runtime": 9.8214,
+      "eval_samples_per_second": 10.182,
+      "eval_wer": 0.3909866017052375,
+      "step": 28400
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 8.172621961168218e-05,
+      "loss": NaN,
+      "step": 28500
+    },
+    {
+      "epoch": 4.63,
+      "eval_loss": 0.49524936079978943,
+      "eval_runtime": 7.8304,
+      "eval_samples_per_second": 12.771,
+      "eval_wer": 0.40194884287454324,
+      "step": 28500
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 8.166095611029532e-05,
+      "loss": NaN,
+      "step": 28600
+    },
+    {
+      "epoch": 4.65,
+      "eval_loss": 0.481218159198761,
+      "eval_runtime": 8.0581,
+      "eval_samples_per_second": 12.41,
+      "eval_wer": 0.4043848964677223,
+      "step": 28600
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 8.159569260890847e-05,
+      "loss": NaN,
+      "step": 28700
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.4491060674190521,
+      "eval_runtime": 7.4142,
+      "eval_samples_per_second": 13.488,
+      "eval_wer": 0.3909866017052375,
+      "step": 28700
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 8.153042910752162e-05,
+      "loss": NaN,
+      "step": 28800
+    },
+    {
+      "epoch": 4.68,
+      "eval_loss": 0.5148893594741821,
+      "eval_runtime": 6.7875,
+      "eval_samples_per_second": 14.733,
+      "eval_wer": 0.3946406820950061,
+      "step": 28800
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 8.146516560613477e-05,
+      "loss": NaN,
+      "step": 28900
+    },
+    {
+      "epoch": 4.7,
+      "eval_loss": 0.46138709783554077,
+      "eval_runtime": 7.3893,
+      "eval_samples_per_second": 13.533,
+      "eval_wer": 0.4007308160779537,
+      "step": 28900
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 8.139990210474793e-05,
+      "loss": NaN,
+      "step": 29000
+    },
+    {
+      "epoch": 4.72,
+      "eval_loss": 0.44223907589912415,
+      "eval_runtime": 8.6011,
+      "eval_samples_per_second": 11.626,
+      "eval_wer": 0.3873325213154689,
+      "step": 29000
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 8.133463860336107e-05,
+      "loss": NaN,
+      "step": 29100
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.471282958984375,
+      "eval_runtime": 10.4884,
+      "eval_samples_per_second": 9.534,
+      "eval_wer": 0.40803897685749085,
+      "step": 29100
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 8.126937510197422e-05,
+      "loss": NaN,
+      "step": 29200
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.43840956687927246,
+      "eval_runtime": 8.0732,
+      "eval_samples_per_second": 12.387,
+      "eval_wer": 0.41412911084043846,
+      "step": 29200
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 8.120411160058738e-05,
+      "loss": NaN,
+      "step": 29300
+    },
+    {
+      "epoch": 4.77,
+      "eval_loss": 0.4980277717113495,
+      "eval_runtime": 8.0117,
+      "eval_samples_per_second": 12.482,
+      "eval_wer": 0.4007308160779537,
+      "step": 29300
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 8.113884809920052e-05,
+      "loss": NaN,
+      "step": 29400
+    },
+    {
+      "epoch": 4.78,
+      "eval_loss": 0.46275556087493896,
+      "eval_runtime": 8.4323,
+      "eval_samples_per_second": 11.859,
+      "eval_wer": 0.41169305724725946,
+      "step": 29400
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 8.107358459781368e-05,
+      "loss": NaN,
+      "step": 29500
+    },
+    {
+      "epoch": 4.8,
+      "eval_loss": 0.5011305809020996,
+      "eval_runtime": 9.4028,
+      "eval_samples_per_second": 10.635,
+      "eval_wer": 0.39707673568818513,
+      "step": 29500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 8.100832109642683e-05,
+      "loss": NaN,
+      "step": 29600
+    },
+    {
+      "epoch": 4.81,
+      "eval_loss": 0.4675903022289276,
+      "eval_runtime": 8.4503,
+      "eval_samples_per_second": 11.834,
+      "eval_wer": 0.3861144945188794,
+      "step": 29600
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 8.094305759503997e-05,
+      "loss": NaN,
+      "step": 29700
+    },
+    {
+      "epoch": 4.83,
+      "eval_loss": 0.4845035970211029,
+      "eval_runtime": 10.1458,
+      "eval_samples_per_second": 9.856,
+      "eval_wer": 0.40316686967113274,
+      "step": 29700
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 8.087779409365313e-05,
+      "loss": NaN,
+      "step": 29800
+    },
+    {
+      "epoch": 4.85,
+      "eval_loss": 0.47924065589904785,
+      "eval_runtime": 9.6324,
+      "eval_samples_per_second": 10.382,
+      "eval_wer": 0.41169305724725946,
+      "step": 29800
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 8.081253059226628e-05,
+      "loss": NaN,
+      "step": 29900
+    },
+    {
+      "epoch": 4.86,
+      "eval_loss": 0.4541124701499939,
+      "eval_runtime": 7.4256,
+      "eval_samples_per_second": 13.467,
+      "eval_wer": 0.4007308160779537,
+      "step": 29900
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 8.074726709087943e-05,
+      "loss": NaN,
+      "step": 30000
+    },
+    {
+      "epoch": 4.88,
+      "eval_loss": 0.4285271167755127,
+      "eval_runtime": 6.7649,
+      "eval_samples_per_second": 14.782,
+      "eval_wer": 0.4056029232643118,
+      "step": 30000
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 8.068200358949258e-05,
+      "loss": NaN,
+      "step": 30100
+    },
+    {
+      "epoch": 4.9,
+      "eval_loss": 0.4844328761100769,
+      "eval_runtime": 9.5693,
+      "eval_samples_per_second": 10.45,
+      "eval_wer": 0.3934226552984166,
+      "step": 30100
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 8.061674008810574e-05,
+      "loss": NaN,
+      "step": 30200
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 0.4602464735507965,
+      "eval_runtime": 10.2251,
+      "eval_samples_per_second": 9.78,
+      "eval_wer": 0.3909866017052375,
+      "step": 30200
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 8.055147658671888e-05,
+      "loss": NaN,
+      "step": 30300
+    },
+    {
+      "epoch": 4.93,
+      "eval_loss": 0.431302934885025,
+      "eval_runtime": 8.621,
+      "eval_samples_per_second": 11.6,
+      "eval_wer": 0.3982947624847747,
+      "step": 30300
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 8.048621308533203e-05,
+      "loss": NaN,
+      "step": 30400
+    },
+    {
+      "epoch": 4.94,
+      "eval_loss": 0.4665343463420868,
+      "eval_runtime": 8.6252,
+      "eval_samples_per_second": 11.594,
+      "eval_wer": 0.4092570036540804,
+      "step": 30400
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 8.042094958394519e-05,
+      "loss": NaN,
+      "step": 30500
+    },
+    {
+      "epoch": 4.96,
+      "eval_loss": 0.4470652639865875,
+      "eval_runtime": 8.3879,
+      "eval_samples_per_second": 11.922,
+      "eval_wer": 0.3946406820950061,
+      "step": 30500
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 8.035568608255833e-05,
+      "loss": NaN,
+      "step": 30600
+    },
+    {
+      "epoch": 4.98,
+      "eval_loss": 0.4649478495121002,
+      "eval_runtime": 8.0029,
+      "eval_samples_per_second": 12.495,
+      "eval_wer": 0.3934226552984166,
+      "step": 30600
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 8.029042258117149e-05,
+      "loss": NaN,
+      "step": 30700
+    },
+    {
+      "epoch": 4.99,
+      "eval_loss": 0.42199084162712097,
+      "eval_runtime": 7.8648,
+      "eval_samples_per_second": 12.715,
+      "eval_wer": 0.38367844092570036,
+      "step": 30700
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 8.022515907978464e-05,
+      "loss": NaN,
+      "step": 30800
+    },
+    {
+      "epoch": 5.01,
+      "eval_loss": 0.43867814540863037,
+      "eval_runtime": 10.0022,
+      "eval_samples_per_second": 9.998,
+      "eval_wer": 0.4092570036540804,
+      "step": 30800
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 8.015989557839778e-05,
+      "loss": NaN,
+      "step": 30900
+    },
+    {
+      "epoch": 5.03,
+      "eval_loss": 0.4615475535392761,
+      "eval_runtime": 7.5843,
+      "eval_samples_per_second": 13.185,
+      "eval_wer": 0.4104750304506699,
+      "step": 30900
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 8.009463207701094e-05,
+      "loss": NaN,
+      "step": 31000
+    },
+    {
+      "epoch": 5.04,
+      "eval_loss": 0.4595627188682556,
+      "eval_runtime": 8.6951,
+      "eval_samples_per_second": 11.501,
+      "eval_wer": 0.41169305724725946,
+      "step": 31000
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 8.002936857562408e-05,
+      "loss": NaN,
+      "step": 31100
+    },
+    {
+      "epoch": 5.06,
+      "eval_loss": 0.48309993743896484,
+      "eval_runtime": 7.7623,
+      "eval_samples_per_second": 12.883,
+      "eval_wer": 0.41169305724725946,
+      "step": 31100
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 7.996410507423724e-05,
+      "loss": NaN,
+      "step": 31200
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 0.4405969977378845,
+      "eval_runtime": 8.6906,
+      "eval_samples_per_second": 11.507,
+      "eval_wer": 0.392204628501827,
+      "step": 31200
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 7.989884157285039e-05,
+      "loss": NaN,
+      "step": 31300
+    },
+    {
+      "epoch": 5.09,
+      "eval_loss": 0.46763721108436584,
+      "eval_runtime": 8.1484,
+      "eval_samples_per_second": 12.272,
+      "eval_wer": 0.3909866017052375,
+      "step": 31300
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 7.983357807146353e-05,
+      "loss": NaN,
+      "step": 31400
+    },
+    {
+      "epoch": 5.11,
+      "eval_loss": 0.4569970369338989,
+      "eval_runtime": 8.3373,
+      "eval_samples_per_second": 11.994,
+      "eval_wer": 0.41169305724725946,
+      "step": 31400
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 7.976831457007669e-05,
+      "loss": NaN,
+      "step": 31500
+    },
+    {
+      "epoch": 5.12,
+      "eval_loss": 0.4363997280597687,
+      "eval_runtime": 8.1102,
+      "eval_samples_per_second": 12.33,
+      "eval_wer": 0.3848964677222899,
+      "step": 31500
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 7.970305106868984e-05,
+      "loss": NaN,
+      "step": 31600
+    },
+    {
+      "epoch": 5.14,
+      "eval_loss": 0.4483918249607086,
+      "eval_runtime": 8.4558,
+      "eval_samples_per_second": 11.826,
+      "eval_wer": 0.38246041412911086,
+      "step": 31600
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 7.9637787567303e-05,
+      "loss": NaN,
+      "step": 31700
+    },
+    {
+      "epoch": 5.16,
+      "eval_loss": 0.40626582503318787,
+      "eval_runtime": 7.4323,
+      "eval_samples_per_second": 13.455,
+      "eval_wer": 0.3751522533495737,
+      "step": 31700
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 7.957252406591614e-05,
+      "loss": NaN,
+      "step": 31800
+    },
+    {
+      "epoch": 5.17,
+      "eval_loss": 0.4829193949699402,
+      "eval_runtime": 7.8066,
+      "eval_samples_per_second": 12.81,
+      "eval_wer": 0.40194884287454324,
+      "step": 31800
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 7.95072605645293e-05,
+      "loss": NaN,
+      "step": 31900
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 0.49380388855934143,
+      "eval_runtime": 8.2852,
+      "eval_samples_per_second": 12.07,
+      "eval_wer": 0.38246041412911086,
+      "step": 31900
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 7.944199706314243e-05,
+      "loss": NaN,
+      "step": 32000
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 0.4846552014350891,
+      "eval_runtime": 8.2309,
+      "eval_samples_per_second": 12.149,
+      "eval_wer": 0.3812423873325213,
+      "step": 32000
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 7.937673356175559e-05,
+      "loss": NaN,
+      "step": 32100
+    },
+    {
+      "epoch": 5.22,
+      "eval_loss": 0.4324251413345337,
+      "eval_runtime": 7.5408,
+      "eval_samples_per_second": 13.261,
+      "eval_wer": 0.38976857490864797,
+      "step": 32100
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 7.931147006036875e-05,
+      "loss": NaN,
+      "step": 32200
+    },
+    {
+      "epoch": 5.24,
+      "eval_loss": 0.4314603805541992,
+      "eval_runtime": 8.6415,
+      "eval_samples_per_second": 11.572,
+      "eval_wer": 0.3909866017052375,
+      "step": 32200
+    },
+    {
+      "epoch": 5.25,
+      "learning_rate": 7.92462065589819e-05,
+      "loss": NaN,
+      "step": 32300
+    },
+    {
+      "epoch": 5.25,
+      "eval_loss": 0.4612935185432434,
+      "eval_runtime": 8.2981,
+      "eval_samples_per_second": 12.051,
+      "eval_wer": 0.4092570036540804,
+      "step": 32300
+    },
+    {
+      "epoch": 5.27,
+      "learning_rate": 7.918094305759505e-05,
+      "loss": NaN,
+      "step": 32400
+    },
+    {
+      "epoch": 5.27,
+      "eval_loss": 0.4439612329006195,
+      "eval_runtime": 6.8526,
+      "eval_samples_per_second": 14.593,
+      "eval_wer": 0.3946406820950061,
+      "step": 32400
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 7.91156795562082e-05,
+      "loss": NaN,
+      "step": 32500
+    },
+    {
+      "epoch": 5.29,
+      "eval_loss": 0.5218726396560669,
+      "eval_runtime": 10.5449,
+      "eval_samples_per_second": 9.483,
+      "eval_wer": 0.42143727161997563,
+      "step": 32500
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 7.905041605482134e-05,
+      "loss": NaN,
+      "step": 32600
+    },
+    {
+      "epoch": 5.3,
+      "eval_loss": 0.45300713181495667,
+      "eval_runtime": 7.9081,
+      "eval_samples_per_second": 12.645,
+      "eval_wer": 0.3812423873325213,
+      "step": 32600
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 7.898515255343449e-05,
+      "loss": NaN,
+      "step": 32700
+    },
+    {
+      "epoch": 5.32,
+      "eval_loss": 0.46696189045906067,
+      "eval_runtime": 8.375,
+      "eval_samples_per_second": 11.94,
+      "eval_wer": 0.36662606577344703,
+      "step": 32700
+    },
+    {
+      "epoch": 5.33,
+      "learning_rate": 7.891988905204765e-05,
+      "loss": NaN,
+      "step": 32800
+    },
+    {
+      "epoch": 5.33,
+      "eval_loss": 0.4551876485347748,
+      "eval_runtime": 8.9235,
+      "eval_samples_per_second": 11.206,
+      "eval_wer": 0.39707673568818513,
+      "step": 32800
+    },
+    {
+      "epoch": 5.35,
+      "learning_rate": 7.88546255506608e-05,
+      "loss": NaN,
+      "step": 32900
+    },
+    {
+      "epoch": 5.35,
+      "eval_loss": 0.49849167466163635,
+      "eval_runtime": 7.4164,
+      "eval_samples_per_second": 13.484,
+      "eval_wer": 0.3763702801461632,
+      "step": 32900
+    },
+    {
+      "epoch": 5.37,
+      "learning_rate": 7.878936204927395e-05,
+      "loss": NaN,
+      "step": 33000
+    },
+    {
+      "epoch": 5.37,
+      "eval_loss": 0.4134560525417328,
+      "eval_runtime": 8.9386,
+      "eval_samples_per_second": 11.187,
+      "eval_wer": 0.3800243605359318,
+      "step": 33000
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 7.87240985478871e-05,
+      "loss": NaN,
+      "step": 33100
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.43791449069976807,
+      "eval_runtime": 7.9006,
+      "eval_samples_per_second": 12.657,
+      "eval_wer": 0.37149817295980514,
+      "step": 33100
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 7.865883504650024e-05,
+      "loss": NaN,
+      "step": 33200
+    },
+    {
+      "epoch": 5.4,
+      "eval_loss": 0.3854129910469055,
+      "eval_runtime": 8.888,
+      "eval_samples_per_second": 11.251,
+      "eval_wer": 0.3702801461632156,
+      "step": 33200
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 7.85935715451134e-05,
+      "loss": NaN,
+      "step": 33300
+    },
+    {
+      "epoch": 5.42,
+      "eval_loss": 0.45465293526649475,
+      "eval_runtime": 7.5638,
+      "eval_samples_per_second": 13.221,
+      "eval_wer": 0.392204628501827,
+      "step": 33300
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 7.852830804372654e-05,
+      "loss": NaN,
+      "step": 33400
+    },
+    {
+      "epoch": 5.43,
+      "eval_loss": 0.4339330196380615,
+      "eval_runtime": 7.2942,
+      "eval_samples_per_second": 13.709,
+      "eval_wer": 0.37880633373934225,
+      "step": 33400
+    },
+    {
+      "epoch": 5.45,
+      "learning_rate": 7.84630445423397e-05,
+      "loss": NaN,
+      "step": 33500
+    },
+    {
+      "epoch": 5.45,
+      "eval_loss": 0.47783201932907104,
+      "eval_runtime": 10.4013,
+      "eval_samples_per_second": 9.614,
+      "eval_wer": 0.38976857490864797,
+      "step": 33500
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 7.839778104095286e-05,
+      "loss": NaN,
+      "step": 33600
+    },
+    {
+      "epoch": 5.46,
+      "eval_loss": 0.451149582862854,
+      "eval_runtime": 10.0363,
+      "eval_samples_per_second": 9.964,
+      "eval_wer": 0.3934226552984166,
+      "step": 33600
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 7.8332517539566e-05,
+      "loss": NaN,
+      "step": 33700
+    },
+    {
+      "epoch": 5.48,
+      "eval_loss": 0.4253043830394745,
+      "eval_runtime": 7.7756,
+      "eval_samples_per_second": 12.861,
+      "eval_wer": 0.3751522533495737,
+      "step": 33700
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 7.826725403817915e-05,
+      "loss": NaN,
+      "step": 33800
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.4464089274406433,
+      "eval_runtime": 6.8445,
+      "eval_samples_per_second": 14.61,
+      "eval_wer": 0.38976857490864797,
+      "step": 33800
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 7.82019905367923e-05,
+      "loss": NaN,
+      "step": 33900
+    },
+    {
+      "epoch": 5.51,
+      "eval_loss": 0.4914042353630066,
+      "eval_runtime": 8.3493,
+      "eval_samples_per_second": 11.977,
+      "eval_wer": 0.39585870889159563,
+      "step": 33900
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 7.813672703540546e-05,
+      "loss": NaN,
+      "step": 34000
+    },
+    {
+      "epoch": 5.53,
+      "eval_loss": 0.4946918487548828,
+      "eval_runtime": 7.3641,
+      "eval_samples_per_second": 13.579,
+      "eval_wer": 0.3995127892813642,
+      "step": 34000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 7.80714635340186e-05,
+      "loss": NaN,
+      "step": 34100
+    },
+    {
+      "epoch": 5.55,
+      "eval_loss": 0.5067921280860901,
+      "eval_runtime": 8.8184,
+      "eval_samples_per_second": 11.34,
+      "eval_wer": 0.4092570036540804,
+      "step": 34100
+    },
+    {
+      "epoch": 5.56,
+      "learning_rate": 7.800620003263176e-05,
+      "loss": NaN,
+      "step": 34200
+    },
+    {
+      "epoch": 5.56,
+      "eval_loss": 0.517976701259613,
+      "eval_runtime": 8.7478,
+      "eval_samples_per_second": 11.431,
+      "eval_wer": 0.40682095006090135,
+      "step": 34200
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 7.79409365312449e-05,
+      "loss": NaN,
+      "step": 34300
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.5033119916915894,
+      "eval_runtime": 9.201,
+      "eval_samples_per_second": 10.868,
+      "eval_wer": 0.392204628501827,
+      "step": 34300
+    },
+    {
+      "epoch": 5.59,
+      "learning_rate": 7.787567302985805e-05,
+      "loss": NaN,
+      "step": 34400
+    },
+    {
+      "epoch": 5.59,
+      "eval_loss": 0.49291473627090454,
+      "eval_runtime": 11.455,
+      "eval_samples_per_second": 8.73,
+      "eval_wer": 0.40316686967113274,
+      "step": 34400
+    },
+    {
+      "epoch": 5.61,
+      "learning_rate": 7.781040952847121e-05,
+      "loss": NaN,
+      "step": 34500
+    },
+    {
+      "epoch": 5.61,
+      "eval_loss": 0.4840911626815796,
+      "eval_runtime": 9.864,
+      "eval_samples_per_second": 10.138,
+      "eval_wer": 0.39707673568818513,
+      "step": 34500
+    },
+    {
+      "epoch": 5.63,
+      "learning_rate": 7.774514602708435e-05,
+      "loss": NaN,
+      "step": 34600
+    },
+    {
+      "epoch": 5.63,
+      "eval_loss": 0.4436954855918884,
+      "eval_runtime": 7.5792,
+      "eval_samples_per_second": 13.194,
+      "eval_wer": 0.37393422655298414,
+      "step": 34600
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 7.767988252569751e-05,
+      "loss": NaN,
+      "step": 34700
+    },
+    {
+      "epoch": 5.64,
+      "eval_loss": 0.42483794689178467,
+      "eval_runtime": 9.6007,
+      "eval_samples_per_second": 10.416,
+      "eval_wer": 0.36784409257003653,
+      "step": 34700
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 7.761461902431066e-05,
+      "loss": NaN,
+      "step": 34800
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.4381932020187378,
+      "eval_runtime": 8.7213,
+      "eval_samples_per_second": 11.466,
+      "eval_wer": 0.3909866017052375,
+      "step": 34800
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 7.75493555229238e-05,
+      "loss": NaN,
+      "step": 34900
+    },
+    {
+      "epoch": 5.68,
+      "eval_loss": 0.40743523836135864,
+      "eval_runtime": 9.6342,
+      "eval_samples_per_second": 10.38,
+      "eval_wer": 0.38367844092570036,
+      "step": 34900
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 7.748409202153696e-05,
+      "loss": NaN,
+      "step": 35000
+    },
+    {
+      "epoch": 5.69,
+      "eval_loss": 0.4256589412689209,
+      "eval_runtime": 7.6861,
+      "eval_samples_per_second": 13.01,
+      "eval_wer": 0.392204628501827,
+      "step": 35000
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 7.741882852015011e-05,
+      "loss": NaN,
+      "step": 35100
+    },
+    {
+      "epoch": 5.71,
+      "eval_loss": 0.41759517788887024,
+      "eval_runtime": 7.5282,
+      "eval_samples_per_second": 13.283,
+      "eval_wer": 0.3946406820950061,
+      "step": 35100
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 7.735356501876327e-05,
+      "loss": NaN,
+      "step": 35200
+    },
+    {
+      "epoch": 5.72,
+      "eval_loss": 0.4593577980995178,
+      "eval_runtime": 8.4088,
+      "eval_samples_per_second": 11.892,
+      "eval_wer": 0.4104750304506699,
+      "step": 35200
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 7.728830151737641e-05,
+      "loss": NaN,
+      "step": 35300
+    },
+    {
+      "epoch": 5.74,
+      "eval_loss": 0.4901994466781616,
+      "eval_runtime": 7.524,
+      "eval_samples_per_second": 13.291,
+      "eval_wer": 0.4056029232643118,
+      "step": 35300
+    },
+    {
+      "epoch": 5.76,
+      "learning_rate": 7.722303801598956e-05,
+      "loss": NaN,
+      "step": 35400
+    },
+    {
+      "epoch": 5.76,
+      "eval_loss": 0.47598525881767273,
+      "eval_runtime": 8.5548,
+      "eval_samples_per_second": 11.689,
+      "eval_wer": 0.38246041412911086,
+      "step": 35400
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 7.715777451460271e-05,
+      "loss": NaN,
+      "step": 35500
+    },
+    {
+      "epoch": 5.77,
+      "eval_loss": 0.4955834150314331,
+      "eval_runtime": 8.2229,
+      "eval_samples_per_second": 12.161,
+      "eval_wer": 0.3995127892813642,
+      "step": 35500
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 7.709251101321586e-05,
+      "loss": NaN,
+      "step": 35600
+    },
+    {
+      "epoch": 5.79,
+      "eval_loss": 0.5013775825500488,
+      "eval_runtime": 7.3332,
+      "eval_samples_per_second": 13.637,
+      "eval_wer": 0.37758830694275275,
+      "step": 35600
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 7.702724751182902e-05,
+      "loss": NaN,
+      "step": 35700
+    },
+    {
+      "epoch": 5.81,
+      "eval_loss": 0.4535202085971832,
+      "eval_runtime": 6.7442,
+      "eval_samples_per_second": 14.828,
+      "eval_wer": 0.3617539585870889,
+      "step": 35700
+    },
+    {
+      "epoch": 5.82,
+      "learning_rate": 7.696198401044216e-05,
+      "loss": NaN,
+      "step": 35800
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.43038153648376465,
+      "eval_runtime": 7.9798,
+      "eval_samples_per_second": 12.532,
+      "eval_wer": 0.38367844092570036,
+      "step": 35800
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 7.689672050905532e-05,
+      "loss": NaN,
+      "step": 35900
+    },
+    {
+      "epoch": 5.84,
+      "eval_loss": 0.4333917200565338,
+      "eval_runtime": 8.5583,
+      "eval_samples_per_second": 11.685,
+      "eval_wer": 0.3800243605359318,
+      "step": 35900
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 7.683145700766847e-05,
+      "loss": NaN,
+      "step": 36000
+    },
+    {
+      "epoch": 5.85,
+      "eval_loss": 0.49249768257141113,
+      "eval_runtime": 9.3291,
+      "eval_samples_per_second": 10.719,
+      "eval_wer": 0.40316686967113274,
+      "step": 36000
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 7.676619350628161e-05,
+      "loss": NaN,
+      "step": 36100
+    },
+    {
+      "epoch": 5.87,
+      "eval_loss": 0.47578758001327515,
+      "eval_runtime": 7.9207,
+      "eval_samples_per_second": 12.625,
+      "eval_wer": 0.38976857490864797,
+      "step": 36100
+    },
+    {
+      "epoch": 5.89,
+      "learning_rate": 7.670093000489477e-05,
+      "loss": NaN,
+      "step": 36200
+    },
+    {
+      "epoch": 5.89,
+      "eval_loss": 0.44561660289764404,
+      "eval_runtime": 6.6969,
+      "eval_samples_per_second": 14.932,
+      "eval_wer": 0.3873325213154689,
+      "step": 36200
+    },
+    {
+      "epoch": 5.9,
+      "learning_rate": 7.663566650350792e-05,
+      "loss": NaN,
+      "step": 36300
+    },
+    {
+      "epoch": 5.9,
+      "eval_loss": 0.46735045313835144,
+      "eval_runtime": 7.2262,
+      "eval_samples_per_second": 13.839,
+      "eval_wer": 0.39585870889159563,
+      "step": 36300
+    },
+    {
+      "epoch": 5.92,
+      "learning_rate": 7.657040300212108e-05,
+      "loss": NaN,
+      "step": 36400
+    },
+    {
+      "epoch": 5.92,
+      "eval_loss": 0.42316126823425293,
+      "eval_runtime": 8.7463,
+      "eval_samples_per_second": 11.433,
+      "eval_wer": 0.37758830694275275,
+      "step": 36400
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 7.65051395007342e-05,
+      "loss": NaN,
+      "step": 36500
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.46479174494743347,
+      "eval_runtime": 9.1318,
+      "eval_samples_per_second": 10.951,
+      "eval_wer": 0.39585870889159563,
+      "step": 36500
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 7.643987599934737e-05,
+      "loss": NaN,
+      "step": 36600
+    },
+    {
+      "epoch": 5.95,
+      "eval_loss": 0.42728888988494873,
+      "eval_runtime": 8.4942,
+      "eval_samples_per_second": 11.773,
+      "eval_wer": 0.37758830694275275,
+      "step": 36600
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 7.637461249796052e-05,
+      "loss": NaN,
+      "step": 36700
+    },
+    {
+      "epoch": 5.97,
+      "eval_loss": 0.4792998433113098,
+      "eval_runtime": 8.1451,
+      "eval_samples_per_second": 12.277,
+      "eval_wer": 0.4007308160779537,
+      "step": 36700
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 7.630934899657367e-05,
+      "loss": NaN,
+      "step": 36800
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.4131828546524048,
+      "eval_runtime": 6.536,
+      "eval_samples_per_second": 15.3,
+      "eval_wer": 0.3629719853836784,
+      "step": 36800
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 7.624408549518683e-05,
+      "loss": NaN,
+      "step": 36900
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.5964876413345337,
+      "eval_runtime": 8.3503,
+      "eval_samples_per_second": 11.976,
+      "eval_wer": 0.392204628501827,
+      "step": 36900
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 7.617882199379997e-05,
+      "loss": NaN,
+      "step": 37000
+    },
+    {
+      "epoch": 6.02,
+      "eval_loss": 0.5113080739974976,
+      "eval_runtime": 7.8786,
+      "eval_samples_per_second": 12.693,
+      "eval_wer": 0.40803897685749085,
+      "step": 37000
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 7.611355849241312e-05,
+      "loss": NaN,
+      "step": 37100
+    },
+    {
+      "epoch": 6.03,
+      "eval_loss": 0.44438639283180237,
+      "eval_runtime": 7.8581,
+      "eval_samples_per_second": 12.726,
+      "eval_wer": 0.3812423873325213,
+      "step": 37100
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 7.604829499102626e-05,
+      "loss": NaN,
+      "step": 37200
+    },
+    {
+      "epoch": 6.05,
+      "eval_loss": 0.44501668214797974,
+      "eval_runtime": 6.8166,
+      "eval_samples_per_second": 14.67,
+      "eval_wer": 0.3861144945188794,
+      "step": 37200
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 7.598303148963942e-05,
+      "loss": NaN,
+      "step": 37300
+    },
+    {
+      "epoch": 6.07,
+      "eval_loss": 0.46016010642051697,
+      "eval_runtime": 6.8605,
+      "eval_samples_per_second": 14.576,
+      "eval_wer": 0.37758830694275275,
+      "step": 37300
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 7.591776798825258e-05,
+      "loss": NaN,
+      "step": 37400
+    },
+    {
+      "epoch": 6.08,
+      "eval_loss": 0.4487974941730499,
+      "eval_runtime": 8.698,
+      "eval_samples_per_second": 11.497,
+      "eval_wer": 0.392204628501827,
+      "step": 37400
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 7.585250448686573e-05,
+      "loss": NaN,
+      "step": 37500
+    },
+    {
+      "epoch": 6.1,
+      "eval_loss": 0.46871453523635864,
+      "eval_runtime": 7.2092,
+      "eval_samples_per_second": 13.871,
+      "eval_wer": 0.3909866017052375,
+      "step": 37500
+    },
+    {
+      "epoch": 6.11,
+      "learning_rate": 7.578724098547888e-05,
+      "loss": NaN,
+      "step": 37600
+    },
+    {
+      "epoch": 6.11,
+      "eval_loss": 0.5187182426452637,
+      "eval_runtime": 8.235,
+      "eval_samples_per_second": 12.143,
+      "eval_wer": 0.3848964677222899,
+      "step": 37600
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 7.572197748409202e-05,
+      "loss": NaN,
+      "step": 37700
+    },
+    {
+      "epoch": 6.13,
+      "eval_loss": 0.4755428433418274,
+      "eval_runtime": 8.6418,
+      "eval_samples_per_second": 11.572,
+      "eval_wer": 0.3909866017052375,
+      "step": 37700
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 7.565671398270517e-05,
+      "loss": NaN,
+      "step": 37800
+    },
+    {
+      "epoch": 6.15,
+      "eval_loss": 0.4716055393218994,
+      "eval_runtime": 8.6568,
+      "eval_samples_per_second": 11.552,
+      "eval_wer": 0.39585870889159563,
+      "step": 37800
+    },
+    {
+      "epoch": 6.16,
+      "learning_rate": 7.559145048131832e-05,
+      "loss": NaN,
+      "step": 37900
+    },
+    {
+      "epoch": 6.16,
+      "eval_loss": 0.43883880972862244,
+      "eval_runtime": 8.0179,
+      "eval_samples_per_second": 12.472,
+      "eval_wer": 0.3861144945188794,
+      "step": 37900
+    },
+    {
+      "epoch": 6.18,
+      "learning_rate": 7.552618697993148e-05,
+      "loss": NaN,
+      "step": 38000
+    },
+    {
+      "epoch": 6.18,
+      "eval_loss": 0.447729229927063,
+      "eval_runtime": 7.3355,
+      "eval_samples_per_second": 13.632,
+      "eval_wer": 0.38855054811205847,
+      "step": 38000
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 7.546092347854464e-05,
+      "loss": NaN,
+      "step": 38100
+    },
+    {
+      "epoch": 6.2,
+      "eval_loss": 0.5071135759353638,
+      "eval_runtime": 9.0115,
+      "eval_samples_per_second": 11.097,
+      "eval_wer": 0.4092570036540804,
+      "step": 38100
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 7.539565997715777e-05,
+      "loss": NaN,
+      "step": 38200
+    },
+    {
+      "epoch": 6.21,
+      "eval_loss": 0.45388340950012207,
+      "eval_runtime": 7.6236,
+      "eval_samples_per_second": 13.117,
+      "eval_wer": 0.3873325213154689,
+      "step": 38200
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 7.533039647577093e-05,
+      "loss": NaN,
+      "step": 38300
+    },
+    {
+      "epoch": 6.23,
+      "eval_loss": 0.4727196991443634,
+      "eval_runtime": 9.3783,
+      "eval_samples_per_second": 10.663,
+      "eval_wer": 0.392204628501827,
+      "step": 38300
+    },
+    {
+      "epoch": 6.24,
+      "learning_rate": 7.526513297438407e-05,
+      "loss": NaN,
+      "step": 38400
+    },
+    {
+      "epoch": 6.24,
+      "eval_loss": 0.45815300941467285,
+      "eval_runtime": 8.7937,
+      "eval_samples_per_second": 11.372,
+      "eval_wer": 0.3995127892813642,
+      "step": 38400
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 7.519986947299723e-05,
+      "loss": NaN,
+      "step": 38500
+    },
+    {
+      "epoch": 6.26,
+      "eval_loss": 0.45697593688964844,
+      "eval_runtime": 7.849,
+      "eval_samples_per_second": 12.74,
+      "eval_wer": 0.38367844092570036,
+      "step": 38500
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 7.513460597161039e-05,
+      "loss": NaN,
+      "step": 38600
+    },
+    {
+      "epoch": 6.28,
+      "eval_loss": 0.4512711465358734,
+      "eval_runtime": 8.0969,
+      "eval_samples_per_second": 12.35,
+      "eval_wer": 0.4056029232643118,
+      "step": 38600
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 7.506934247022354e-05,
+      "loss": NaN,
+      "step": 38700
+    },
+    {
+      "epoch": 6.29,
+      "eval_loss": 0.47323668003082275,
+      "eval_runtime": 9.4309,
+      "eval_samples_per_second": 10.603,
+      "eval_wer": 0.4007308160779537,
+      "step": 38700
+    },
+    {
+      "epoch": 6.31,
+      "learning_rate": 7.500407896883668e-05,
+      "loss": NaN,
+      "step": 38800
+    },
+    {
+      "epoch": 6.31,
+      "eval_loss": 0.46344485878944397,
+      "eval_runtime": 7.4323,
+      "eval_samples_per_second": 13.455,
+      "eval_wer": 0.3909866017052375,
+      "step": 38800
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 7.493881546744983e-05,
+      "loss": NaN,
+      "step": 38900
+    },
+    {
+      "epoch": 6.33,
+      "eval_loss": 0.46373656392097473,
+      "eval_runtime": 8.8968,
+      "eval_samples_per_second": 11.24,
+      "eval_wer": 0.4043848964677223,
+      "step": 38900
+    },
+    {
+      "epoch": 6.34,
+      "learning_rate": 7.487355196606298e-05,
+      "loss": NaN,
+      "step": 39000
+    },
+    {
+      "epoch": 6.34,
+      "eval_loss": 0.5335507392883301,
+      "eval_runtime": 7.8243,
+      "eval_samples_per_second": 12.781,
+      "eval_wer": 0.3982947624847747,
+      "step": 39000
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 7.480828846467613e-05,
+      "loss": NaN,
+      "step": 39100
+    },
+    {
+      "epoch": 6.36,
+      "eval_loss": 0.4426437318325043,
+      "eval_runtime": 9.3026,
+      "eval_samples_per_second": 10.75,
+      "eval_wer": 0.38246041412911086,
+      "step": 39100
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 7.474302496328929e-05,
+      "loss": NaN,
+      "step": 39200
+    },
+    {
+      "epoch": 6.38,
+      "eval_loss": 0.4251578450202942,
+      "eval_runtime": 7.5958,
+      "eval_samples_per_second": 13.165,
+      "eval_wer": 0.38976857490864797,
+      "step": 39200
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 7.467776146190245e-05,
+      "loss": NaN,
+      "step": 39300
+    },
+    {
+      "epoch": 6.39,
+      "eval_loss": 0.45868903398513794,
+      "eval_runtime": 7.9208,
+      "eval_samples_per_second": 12.625,
+      "eval_wer": 0.37271619975639464,
+      "step": 39300
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 7.461249796051558e-05,
+      "loss": NaN,
+      "step": 39400
+    },
+    {
+      "epoch": 6.41,
+      "eval_loss": 0.4029034376144409,
+      "eval_runtime": 7.9815,
+      "eval_samples_per_second": 12.529,
+      "eval_wer": 0.37271619975639464,
+      "step": 39400
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 7.454723445912874e-05,
+      "loss": NaN,
+      "step": 39500
+    },
+    {
+      "epoch": 6.42,
+      "eval_loss": 0.43351614475250244,
+      "eval_runtime": 8.7741,
+      "eval_samples_per_second": 11.397,
+      "eval_wer": 0.3848964677222899,
+      "step": 39500
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 7.448197095774188e-05,
+      "loss": NaN,
+      "step": 39600
+    },
+    {
+      "epoch": 6.44,
+      "eval_loss": 0.4573790729045868,
+      "eval_runtime": 7.9568,
+      "eval_samples_per_second": 12.568,
+      "eval_wer": 0.38367844092570036,
+      "step": 39600
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 7.441670745635504e-05,
+      "loss": NaN,
+      "step": 39700
+    },
+    {
+      "epoch": 6.46,
+      "eval_loss": 0.47754156589508057,
+      "eval_runtime": 8.0778,
+      "eval_samples_per_second": 12.38,
+      "eval_wer": 0.3848964677222899,
+      "step": 39700
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 7.435144395496819e-05,
+      "loss": NaN,
+      "step": 39800
+    },
+    {
+      "epoch": 6.47,
+      "eval_loss": 0.5262435674667358,
+      "eval_runtime": 9.0367,
+      "eval_samples_per_second": 11.066,
+      "eval_wer": 0.3934226552984166,
+      "step": 39800
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 7.428618045358133e-05,
+      "loss": NaN,
+      "step": 39900
+    },
+    {
+      "epoch": 6.49,
+      "eval_loss": 0.45043036341667175,
+      "eval_runtime": 8.4329,
+      "eval_samples_per_second": 11.858,
+      "eval_wer": 0.38855054811205847,
+      "step": 39900
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 7.422091695219449e-05,
+      "loss": NaN,
+      "step": 40000
+    },
+    {
+      "epoch": 6.51,
+      "eval_loss": 0.5360258221626282,
+      "eval_runtime": 8.3169,
+      "eval_samples_per_second": 12.024,
+      "eval_wer": 0.38976857490864797,
+      "step": 40000
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 7.415565345080763e-05,
+      "loss": NaN,
+      "step": 40100
+    },
+    {
+      "epoch": 6.52,
+      "eval_loss": 0.43279510736465454,
+      "eval_runtime": 8.3411,
+      "eval_samples_per_second": 11.989,
+      "eval_wer": 0.37880633373934225,
+      "step": 40100
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 7.40903899494208e-05,
+      "loss": NaN,
+      "step": 40200
+    },
+    {
+      "epoch": 6.54,
+      "eval_loss": 0.436869353055954,
+      "eval_runtime": 7.5681,
+      "eval_samples_per_second": 13.213,
+      "eval_wer": 0.37758830694275275,
+      "step": 40200
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 7.402512644803394e-05,
+      "loss": NaN,
+      "step": 40300
+    },
+    {
+      "epoch": 6.55,
+      "eval_loss": 0.48069870471954346,
+      "eval_runtime": 7.7372,
+      "eval_samples_per_second": 12.924,
+      "eval_wer": 0.4177831912302071,
+      "step": 40300
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 7.39598629466471e-05,
+      "loss": NaN,
+      "step": 40400
+    },
+    {
+      "epoch": 6.57,
+      "eval_loss": 0.43905335664749146,
+      "eval_runtime": 7.4851,
+      "eval_samples_per_second": 13.36,
+      "eval_wer": 0.3848964677222899,
+      "step": 40400
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 7.389459944526024e-05,
+      "loss": NaN,
+      "step": 40500
+    },
+    {
+      "epoch": 6.59,
+      "eval_loss": 0.45289239287376404,
+      "eval_runtime": 8.056,
+      "eval_samples_per_second": 12.413,
+      "eval_wer": 0.3873325213154689,
+      "step": 40500
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 7.382933594387339e-05,
+      "loss": NaN,
+      "step": 40600
+    },
+    {
+      "epoch": 6.6,
+      "eval_loss": 0.4513566195964813,
+      "eval_runtime": 8.3785,
+      "eval_samples_per_second": 11.935,
+      "eval_wer": 0.3848964677222899,
+      "step": 40600
+    },
+    {
+      "epoch": 6.62,
+      "learning_rate": 7.376407244248655e-05,
+      "loss": NaN,
+      "step": 40700
+    },
+    {
+      "epoch": 6.62,
+      "eval_loss": 0.45488113164901733,
+      "eval_runtime": 9.389,
+      "eval_samples_per_second": 10.651,
+      "eval_wer": 0.37149817295980514,
+      "step": 40700
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 7.369880894109969e-05,
+      "loss": NaN,
+      "step": 40800
+    },
+    {
+      "epoch": 6.64,
+      "eval_loss": 0.4812730550765991,
+      "eval_runtime": 9.6857,
+      "eval_samples_per_second": 10.324,
+      "eval_wer": 0.37149817295980514,
+      "step": 40800
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 7.363354543971285e-05,
+      "loss": NaN,
+      "step": 40900
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.4662674367427826,
+      "eval_runtime": 9.1141,
+      "eval_samples_per_second": 10.972,
+      "eval_wer": 0.37271619975639464,
+      "step": 40900
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 7.3568281938326e-05,
+      "loss": NaN,
+      "step": 41000
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 0.43189141154289246,
+      "eval_runtime": 7.7905,
+      "eval_samples_per_second": 12.836,
+      "eval_wer": 0.38855054811205847,
+      "step": 41000
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 7.350301843693914e-05,
+      "loss": NaN,
+      "step": 41100
+    },
+    {
+      "epoch": 6.68,
+      "eval_loss": 0.4479624032974243,
+      "eval_runtime": 6.7026,
+      "eval_samples_per_second": 14.919,
+      "eval_wer": 0.392204628501827,
+      "step": 41100
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 7.34377549355523e-05,
+      "loss": NaN,
+      "step": 41200
+    },
+    {
+      "epoch": 6.7,
+      "eval_loss": 0.5534685254096985,
+      "eval_runtime": 7.9313,
+      "eval_samples_per_second": 12.608,
+      "eval_wer": 0.392204628501827,
+      "step": 41200
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 7.337249143416544e-05,
+      "loss": NaN,
+      "step": 41300
+    },
+    {
+      "epoch": 6.72,
+      "eval_loss": 0.42362719774246216,
+      "eval_runtime": 7.9752,
+      "eval_samples_per_second": 12.539,
+      "eval_wer": 0.3763702801461632,
+      "step": 41300
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 7.33072279327786e-05,
+      "loss": NaN,
+      "step": 41400
+    },
+    {
+      "epoch": 6.73,
+      "eval_loss": 0.4316897690296173,
+      "eval_runtime": 9.0445,
+      "eval_samples_per_second": 11.056,
+      "eval_wer": 0.3800243605359318,
+      "step": 41400
+    },
+    {
+      "epoch": 6.75,
+      "learning_rate": 7.324196443139175e-05,
+      "loss": NaN,
+      "step": 41500
+    },
+    {
+      "epoch": 6.75,
+      "eval_loss": 0.4458038806915283,
+      "eval_runtime": 8.5585,
+      "eval_samples_per_second": 11.684,
+      "eval_wer": 0.38246041412911086,
+      "step": 41500
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 7.31767009300049e-05,
+      "loss": NaN,
+      "step": 41600
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 0.4252176582813263,
+      "eval_runtime": 6.9682,
+      "eval_samples_per_second": 14.351,
+      "eval_wer": 0.38855054811205847,
+      "step": 41600
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 7.311143742861805e-05,
+      "loss": NaN,
+      "step": 41700
+    },
+    {
+      "epoch": 6.78,
+      "eval_loss": 0.42161300778388977,
+      "eval_runtime": 8.2804,
+      "eval_samples_per_second": 12.077,
+      "eval_wer": 0.36053593179049936,
+      "step": 41700
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 7.30461739272312e-05,
+      "loss": NaN,
+      "step": 41800
+    },
+    {
+      "epoch": 6.8,
+      "eval_loss": 0.43236517906188965,
+      "eval_runtime": 6.8741,
+      "eval_samples_per_second": 14.547,
+      "eval_wer": 0.3763702801461632,
+      "step": 41800
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 7.298091042584436e-05,
+      "loss": NaN,
+      "step": 41900
+    },
+    {
+      "epoch": 6.81,
+      "eval_loss": 0.42260417342185974,
+      "eval_runtime": 8.7571,
+      "eval_samples_per_second": 11.419,
+      "eval_wer": 0.3763702801461632,
+      "step": 41900
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 7.29156469244575e-05,
+      "loss": NaN,
+      "step": 42000
+    },
+    {
+      "epoch": 6.83,
+      "eval_loss": 0.4526902735233307,
+      "eval_runtime": 9.9377,
+      "eval_samples_per_second": 10.063,
+      "eval_wer": 0.364190012180268,
+      "step": 42000
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 7.285038342307066e-05,
+      "loss": NaN,
+      "step": 42100
+    },
+    {
+      "epoch": 6.85,
+      "eval_loss": 0.4244474768638611,
+      "eval_runtime": 7.3805,
+      "eval_samples_per_second": 13.549,
+      "eval_wer": 0.3861144945188794,
+      "step": 42100
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 7.278511992168379e-05,
+      "loss": NaN,
+      "step": 42200
+    },
+    {
+      "epoch": 6.86,
+      "eval_loss": 0.3987332284450531,
+      "eval_runtime": 7.9724,
+      "eval_samples_per_second": 12.543,
+      "eval_wer": 0.3690621193666261,
+      "step": 42200
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 7.271985642029695e-05,
+      "loss": NaN,
+      "step": 42300
+    },
+    {
+      "epoch": 6.88,
+      "eval_loss": 0.4404261112213135,
+      "eval_runtime": 8.8576,
+      "eval_samples_per_second": 11.29,
+      "eval_wer": 0.38976857490864797,
+      "step": 42300
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 7.265459291891011e-05,
+      "loss": NaN,
+      "step": 42400
+    },
+    {
+      "epoch": 6.9,
+      "eval_loss": 0.4243963658809662,
+      "eval_runtime": 9.9726,
+      "eval_samples_per_second": 10.027,
+      "eval_wer": 0.37758830694275275,
+      "step": 42400
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 7.258932941752325e-05,
+      "loss": NaN,
+      "step": 42500
+    },
+    {
+      "epoch": 6.91,
+      "eval_loss": 0.44823479652404785,
+      "eval_runtime": 9.933,
+      "eval_samples_per_second": 10.067,
+      "eval_wer": 0.3995127892813642,
+      "step": 42500
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 7.252406591613641e-05,
+      "loss": NaN,
+      "step": 42600
+    },
+    {
+      "epoch": 6.93,
+      "eval_loss": 0.39962050318717957,
+      "eval_runtime": 6.5522,
+      "eval_samples_per_second": 15.262,
+      "eval_wer": 0.3848964677222899,
+      "step": 42600
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 7.245880241474956e-05,
+      "loss": NaN,
+      "step": 42700
+    },
+    {
+      "epoch": 6.94,
+      "eval_loss": 0.43537867069244385,
+      "eval_runtime": 7.7406,
+      "eval_samples_per_second": 12.919,
+      "eval_wer": 0.3812423873325213,
+      "step": 42700
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 7.23935389133627e-05,
+      "loss": NaN,
+      "step": 42800
+    },
+    {
+      "epoch": 6.96,
+      "eval_loss": 0.43869927525520325,
+      "eval_runtime": 8.2951,
+      "eval_samples_per_second": 12.055,
+      "eval_wer": 0.392204628501827,
+      "step": 42800
+    },
+    {
+      "epoch": 6.98,
+      "learning_rate": 7.232827541197585e-05,
+      "loss": NaN,
+      "step": 42900
+    },
+    {
+      "epoch": 6.98,
+      "eval_loss": 0.4649328589439392,
+      "eval_runtime": 8.5972,
+      "eval_samples_per_second": 11.632,
+      "eval_wer": 0.4092570036540804,
+      "step": 42900
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 7.2263011910589e-05,
+      "loss": NaN,
+      "step": 43000
+    },
+    {
+      "epoch": 6.99,
+      "eval_loss": 0.3986141085624695,
+      "eval_runtime": 10.2183,
+      "eval_samples_per_second": 9.786,
+      "eval_wer": 0.37149817295980514,
+      "step": 43000
+    },
+    {
+      "epoch": 7.01,
+      "learning_rate": 7.219774840920217e-05,
+      "loss": NaN,
+      "step": 43100
+    },
+    {
+      "epoch": 7.01,
+      "eval_loss": 0.41271498799324036,
+      "eval_runtime": 8.2539,
+      "eval_samples_per_second": 12.116,
+      "eval_wer": 0.39585870889159563,
+      "step": 43100
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 7.213248490781531e-05,
+      "loss": NaN,
+      "step": 43200
+    },
+    {
+      "epoch": 7.03,
+      "eval_loss": 0.42347651720046997,
+      "eval_runtime": 6.7075,
+      "eval_samples_per_second": 14.909,
+      "eval_wer": 0.3848964677222899,
+      "step": 43200
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 7.206722140642846e-05,
+      "loss": NaN,
+      "step": 43300
+    },
+    {
+      "epoch": 7.04,
+      "eval_loss": 0.4063185453414917,
+      "eval_runtime": 7.6729,
+      "eval_samples_per_second": 13.033,
+      "eval_wer": 0.36662606577344703,
+      "step": 43300
+    },
+    {
+      "epoch": 7.06,
+      "learning_rate": 7.20019579050416e-05,
+      "loss": NaN,
+      "step": 43400
+    },
+    {
+      "epoch": 7.06,
+      "eval_loss": 0.49583899974823,
+      "eval_runtime": 6.9774,
+      "eval_samples_per_second": 14.332,
+      "eval_wer": 0.38855054811205847,
+      "step": 43400
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 7.193669440365476e-05,
+      "loss": NaN,
+      "step": 43500
+    },
+    {
+      "epoch": 7.07,
+      "eval_loss": 0.4709340035915375,
+      "eval_runtime": 7.0993,
+      "eval_samples_per_second": 14.086,
+      "eval_wer": 0.4056029232643118,
+      "step": 43500
+    },
+    {
+      "epoch": 7.09,
+      "learning_rate": 7.18714309022679e-05,
+      "loss": NaN,
+      "step": 43600
+    },
+    {
+      "epoch": 7.09,
+      "eval_loss": 0.45330917835235596,
+      "eval_runtime": 6.7893,
+      "eval_samples_per_second": 14.729,
+      "eval_wer": 0.3702801461632156,
+      "step": 43600
+    },
+    {
+      "epoch": 7.11,
+      "learning_rate": 7.180616740088106e-05,
+      "loss": NaN,
+      "step": 43700
+    },
+    {
+      "epoch": 7.11,
+      "eval_loss": 0.444570392370224,
+      "eval_runtime": 7.3413,
+      "eval_samples_per_second": 13.622,
+      "eval_wer": 0.4043848964677223,
+      "step": 43700
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 7.174090389949422e-05,
+      "loss": NaN,
+      "step": 43800
+    },
+    {
+      "epoch": 7.12,
+      "eval_loss": 0.42336639761924744,
+      "eval_runtime": 7.0892,
+      "eval_samples_per_second": 14.106,
+      "eval_wer": 0.3690621193666261,
+      "step": 43800
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 7.167564039810735e-05,
+      "loss": NaN,
+      "step": 43900
+    },
+    {
+      "epoch": 7.14,
+      "eval_loss": 0.4557478427886963,
+      "eval_runtime": 9.6857,
+      "eval_samples_per_second": 10.325,
+      "eval_wer": 0.38246041412911086,
+      "step": 43900
+    },
+    {
+      "epoch": 7.16,
+      "learning_rate": 7.161037689672051e-05,
+      "loss": NaN,
+      "step": 44000
+    },
+    {
+      "epoch": 7.16,
+      "eval_loss": 0.4820619225502014,
+      "eval_runtime": 8.8382,
+      "eval_samples_per_second": 11.314,
+      "eval_wer": 0.37393422655298414,
+      "step": 44000
+    },
+    {
+      "epoch": 7.17,
+      "learning_rate": 7.154511339533366e-05,
+      "loss": NaN,
+      "step": 44100
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.4444971978664398,
+      "eval_runtime": 9.4662,
+      "eval_samples_per_second": 10.564,
+      "eval_wer": 0.38976857490864797,
+      "step": 44100
+    },
+    {
+      "epoch": 7.19,
+      "learning_rate": 7.147984989394682e-05,
+      "loss": NaN,
+      "step": 44200
+    },
+    {
+      "epoch": 7.19,
+      "eval_loss": 0.4306584596633911,
+      "eval_runtime": 9.2167,
+      "eval_samples_per_second": 10.85,
+      "eval_wer": 0.37758830694275275,
+      "step": 44200
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 7.141458639255996e-05,
+      "loss": NaN,
+      "step": 44300
+    },
+    {
+      "epoch": 7.2,
+      "eval_loss": 0.43316277861595154,
+      "eval_runtime": 6.9757,
+      "eval_samples_per_second": 14.336,
+      "eval_wer": 0.364190012180268,
+      "step": 44300
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 7.13493228911731e-05,
+      "loss": NaN,
+      "step": 44400
+    },
+    {
+      "epoch": 7.22,
+      "eval_loss": 0.4009106755256653,
+      "eval_runtime": 7.8376,
+      "eval_samples_per_second": 12.759,
+      "eval_wer": 0.3629719853836784,
+      "step": 44400
+    },
+    {
+      "epoch": 7.24,
+      "learning_rate": 7.128405938978626e-05,
+      "loss": NaN,
+      "step": 44500
+    },
+    {
+      "epoch": 7.24,
+      "eval_loss": 0.3961714804172516,
+      "eval_runtime": 7.8289,
+      "eval_samples_per_second": 12.773,
+      "eval_wer": 0.3629719853836784,
+      "step": 44500
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 7.121879588839941e-05,
+      "loss": NaN,
+      "step": 44600
+    },
+    {
+      "epoch": 7.25,
+      "eval_loss": 0.4771730303764343,
+      "eval_runtime": 10.2069,
+      "eval_samples_per_second": 9.797,
+      "eval_wer": 0.3861144945188794,
+      "step": 44600
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 7.115353238701257e-05,
+      "loss": NaN,
+      "step": 44700
+    },
+    {
+      "epoch": 7.27,
+      "eval_loss": 0.41656962037086487,
+      "eval_runtime": 8.6363,
+      "eval_samples_per_second": 11.579,
+      "eval_wer": 0.3751522533495737,
+      "step": 44700
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 7.108826888562571e-05,
+      "loss": NaN,
+      "step": 44800
+    },
+    {
+      "epoch": 7.29,
+      "eval_loss": 0.4536881744861603,
+      "eval_runtime": 6.9673,
+      "eval_samples_per_second": 14.353,
+      "eval_wer": 0.3909866017052375,
+      "step": 44800
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 7.102300538423887e-05,
+      "loss": NaN,
+      "step": 44900
+    },
+    {
+      "epoch": 7.3,
+      "eval_loss": 0.4048987627029419,
+      "eval_runtime": 7.9455,
+      "eval_samples_per_second": 12.586,
+      "eval_wer": 0.37758830694275275,
+      "step": 44900
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 7.095774188285202e-05,
+      "loss": NaN,
+      "step": 45000
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.4246349334716797,
+      "eval_runtime": 7.4556,
+      "eval_samples_per_second": 13.413,
+      "eval_wer": 0.3861144945188794,
+      "step": 45000
+    },
+    {
+      "epoch": 7.33,
+      "learning_rate": 7.089247838146516e-05,
+      "loss": NaN,
+      "step": 45100
+    },
+    {
+      "epoch": 7.33,
+      "eval_loss": 0.49522098898887634,
+      "eval_runtime": 6.8596,
+      "eval_samples_per_second": 14.578,
+      "eval_wer": 0.38246041412911086,
+      "step": 45100
+    },
+    {
+      "epoch": 7.35,
+      "learning_rate": 7.082721488007832e-05,
+      "loss": NaN,
+      "step": 45200
+    },
+    {
+      "epoch": 7.35,
+      "eval_loss": 0.47712311148643494,
+      "eval_runtime": 9.0655,
+      "eval_samples_per_second": 11.031,
+      "eval_wer": 0.40194884287454324,
+      "step": 45200
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 7.076195137869147e-05,
+      "loss": NaN,
+      "step": 45300
+    },
+    {
+      "epoch": 7.37,
+      "eval_loss": 0.407779723405838,
+      "eval_runtime": 8.3949,
+      "eval_samples_per_second": 11.912,
+      "eval_wer": 0.3861144945188794,
+      "step": 45300
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 7.069668787730463e-05,
+      "loss": NaN,
+      "step": 45400
+    },
+    {
+      "epoch": 7.38,
+      "eval_loss": 0.42167598009109497,
+      "eval_runtime": 7.6909,
+      "eval_samples_per_second": 13.002,
+      "eval_wer": 0.38976857490864797,
+      "step": 45400
+    },
+    {
+      "epoch": 7.4,
+      "learning_rate": 7.063142437591777e-05,
+      "loss": NaN,
+      "step": 45500
+    },
+    {
+      "epoch": 7.4,
+      "eval_loss": 0.46571946144104004,
+      "eval_runtime": 8.1474,
+      "eval_samples_per_second": 12.274,
+      "eval_wer": 0.3934226552984166,
+      "step": 45500
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 7.056616087453092e-05,
+      "loss": NaN,
+      "step": 45600
+    },
+    {
+      "epoch": 7.42,
+      "eval_loss": 0.40125495195388794,
+      "eval_runtime": 7.1588,
+      "eval_samples_per_second": 13.969,
+      "eval_wer": 0.4007308160779537,
+      "step": 45600
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 7.050089737314407e-05,
+      "loss": NaN,
+      "step": 45700
+    },
+    {
+      "epoch": 7.43,
+      "eval_loss": 0.41013047099113464,
+      "eval_runtime": 8.2392,
+      "eval_samples_per_second": 12.137,
+      "eval_wer": 0.39707673568818513,
+      "step": 45700
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 7.043563387175722e-05,
+      "loss": NaN,
+      "step": 45800
+    },
+    {
+      "epoch": 7.45,
+      "eval_loss": 0.3986717164516449,
+      "eval_runtime": 6.5584,
+      "eval_samples_per_second": 15.248,
+      "eval_wer": 0.37393422655298414,
+      "step": 45800
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 7.037037037037038e-05,
+      "loss": NaN,
+      "step": 45900
+    },
+    {
+      "epoch": 7.46,
+      "eval_loss": 0.3988329768180847,
+      "eval_runtime": 8.4951,
+      "eval_samples_per_second": 11.771,
+      "eval_wer": 0.3763702801461632,
+      "step": 45900
+    },
+    {
+      "epoch": 7.48,
+      "learning_rate": 7.030510686898352e-05,
+      "loss": NaN,
+      "step": 46000
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.45179134607315063,
+      "eval_runtime": 9.3929,
+      "eval_samples_per_second": 10.646,
+      "eval_wer": 0.3800243605359318,
+      "step": 46000
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 7.023984336759667e-05,
+      "loss": NaN,
+      "step": 46100
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.4907733201980591,
+      "eval_runtime": 8.1588,
+      "eval_samples_per_second": 12.257,
+      "eval_wer": 0.41169305724725946,
+      "step": 46100
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 7.017457986620983e-05,
+      "loss": NaN,
+      "step": 46200
+    },
+    {
+      "epoch": 7.51,
+      "eval_loss": 0.4354599416255951,
+      "eval_runtime": 7.4922,
+      "eval_samples_per_second": 13.347,
+      "eval_wer": 0.3909866017052375,
+      "step": 46200
+    },
+    {
+      "epoch": 7.53,
+      "learning_rate": 7.010931636482297e-05,
+      "loss": NaN,
+      "step": 46300
+    },
+    {
+      "epoch": 7.53,
+      "eval_loss": 0.4466521441936493,
+      "eval_runtime": 10.9543,
+      "eval_samples_per_second": 9.129,
+      "eval_wer": 0.3909866017052375,
+      "step": 46300
+    },
+    {
+      "epoch": 7.55,
+      "learning_rate": 7.004405286343613e-05,
+      "loss": NaN,
+      "step": 46400
+    },
+    {
+      "epoch": 7.55,
+      "eval_loss": 0.4440977871417999,
+      "eval_runtime": 9.6264,
+      "eval_samples_per_second": 10.388,
+      "eval_wer": 0.40316686967113274,
+      "step": 46400
+    },
+    {
+      "epoch": 7.56,
+      "learning_rate": 6.997878936204928e-05,
+      "loss": NaN,
+      "step": 46500
+    },
+    {
+      "epoch": 7.56,
+      "eval_loss": 0.40619930624961853,
+      "eval_runtime": 8.2096,
+      "eval_samples_per_second": 12.181,
+      "eval_wer": 0.37149817295980514,
+      "step": 46500
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 6.991352586066243e-05,
+      "loss": NaN,
+      "step": 46600
+    },
+    {
+      "epoch": 7.58,
+      "eval_loss": 0.4126388430595398,
+      "eval_runtime": 8.8109,
+      "eval_samples_per_second": 11.35,
+      "eval_wer": 0.3909866017052375,
+      "step": 46600
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 6.984826235927558e-05,
+      "loss": NaN,
+      "step": 46700
+    },
+    {
+      "epoch": 7.59,
+      "eval_loss": 0.41685402393341064,
+      "eval_runtime": 8.6911,
+      "eval_samples_per_second": 11.506,
+      "eval_wer": 0.3800243605359318,
+      "step": 46700
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 6.978299885788873e-05,
+      "loss": NaN,
+      "step": 46800
+    },
+    {
+      "epoch": 7.61,
+      "eval_loss": 0.42471861839294434,
+      "eval_runtime": 6.7824,
+      "eval_samples_per_second": 14.744,
+      "eval_wer": 0.39585870889159563,
+      "step": 46800
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 6.971773535650188e-05,
+      "loss": NaN,
+      "step": 46900
+    },
+    {
+      "epoch": 7.63,
+      "eval_loss": 0.4128079116344452,
+      "eval_runtime": 7.183,
+      "eval_samples_per_second": 13.922,
+      "eval_wer": 0.3946406820950061,
+      "step": 46900
+    },
+    {
+      "epoch": 7.64,
+      "learning_rate": 6.965247185511503e-05,
+      "loss": NaN,
+      "step": 47000
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.3996775448322296,
+      "eval_runtime": 8.3343,
+      "eval_samples_per_second": 11.999,
+      "eval_wer": 0.3654080389768575,
+      "step": 47000
+    },
+    {
+      "epoch": 7.66,
+      "learning_rate": 6.958720835372819e-05,
+      "loss": NaN,
+      "step": 47100
+    },
+    {
+      "epoch": 7.66,
+      "eval_loss": 0.3690239191055298,
+      "eval_runtime": 6.5963,
+      "eval_samples_per_second": 15.16,
+      "eval_wer": 0.37880633373934225,
+      "step": 47100
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 6.952194485234133e-05,
+      "loss": NaN,
+      "step": 47200
+    },
+    {
+      "epoch": 7.68,
+      "eval_loss": 0.42326632142066956,
+      "eval_runtime": 8.3908,
+      "eval_samples_per_second": 11.918,
+      "eval_wer": 0.3909866017052375,
+      "step": 47200
+    },
+    {
+      "epoch": 7.69,
+      "learning_rate": 6.945668135095448e-05,
+      "loss": NaN,
+      "step": 47300
+    },
+    {
+      "epoch": 7.69,
+      "eval_loss": 0.39741602540016174,
+      "eval_runtime": 8.5855,
+      "eval_samples_per_second": 11.648,
+      "eval_wer": 0.36784409257003653,
+      "step": 47300
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 6.939141784956764e-05,
+      "loss": NaN,
+      "step": 47400
+    },
+    {
+      "epoch": 7.71,
+      "eval_loss": 0.42626139521598816,
+      "eval_runtime": 8.2558,
+      "eval_samples_per_second": 12.113,
+      "eval_wer": 0.3982947624847747,
+      "step": 47400
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 6.932615434818078e-05,
+      "loss": NaN,
+      "step": 47500
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.41164088249206543,
+      "eval_runtime": 7.9604,
+      "eval_samples_per_second": 12.562,
+      "eval_wer": 0.392204628501827,
+      "step": 47500
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 6.926089084679394e-05,
+      "loss": NaN,
+      "step": 47600
+    },
+    {
+      "epoch": 7.74,
+      "eval_loss": 0.41196590662002563,
+      "eval_runtime": 7.4856,
+      "eval_samples_per_second": 13.359,
+      "eval_wer": 0.3654080389768575,
+      "step": 47600
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 6.919562734540709e-05,
+      "loss": NaN,
+      "step": 47700
+    },
+    {
+      "epoch": 7.76,
+      "eval_loss": 0.4575519263744354,
+      "eval_runtime": 7.5753,
+      "eval_samples_per_second": 13.201,
+      "eval_wer": 0.392204628501827,
+      "step": 47700
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 6.913036384402023e-05,
+      "loss": NaN,
+      "step": 47800
+    },
+    {
+      "epoch": 7.77,
+      "eval_loss": 0.47335246205329895,
+      "eval_runtime": 8.6796,
+      "eval_samples_per_second": 11.521,
+      "eval_wer": 0.40194884287454324,
+      "step": 47800
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 6.906510034263338e-05,
+      "loss": NaN,
+      "step": 47900
+    },
+    {
+      "epoch": 7.79,
+      "eval_loss": 0.46512919664382935,
+      "eval_runtime": 7.9927,
+      "eval_samples_per_second": 12.511,
+      "eval_wer": 0.3873325213154689,
+      "step": 47900
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 6.899983684124653e-05,
+      "loss": NaN,
+      "step": 48000
+    },
+    {
+      "epoch": 7.81,
+      "eval_loss": 0.45921266078948975,
+      "eval_runtime": 8.1681,
+      "eval_samples_per_second": 12.243,
+      "eval_wer": 0.3946406820950061,
+      "step": 48000
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 6.89345733398597e-05,
+      "loss": NaN,
+      "step": 48100
+    },
+    {
+      "epoch": 7.82,
+      "eval_loss": 0.4549075961112976,
+      "eval_runtime": 9.0376,
+      "eval_samples_per_second": 11.065,
+      "eval_wer": 0.38246041412911086,
+      "step": 48100
+    },
+    {
+      "epoch": 7.84,
+      "learning_rate": 6.886930983847284e-05,
+      "loss": NaN,
+      "step": 48200
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.45289474725723267,
+      "eval_runtime": 7.9376,
+      "eval_samples_per_second": 12.598,
+      "eval_wer": 0.3873325213154689,
+      "step": 48200
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 6.8804046337086e-05,
+      "loss": NaN,
+      "step": 48300
+    },
+    {
+      "epoch": 7.85,
+      "eval_loss": 0.4604376256465912,
+      "eval_runtime": 8.0346,
+      "eval_samples_per_second": 12.446,
+      "eval_wer": 0.3861144945188794,
+      "step": 48300
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 6.873878283569913e-05,
+      "loss": NaN,
+      "step": 48400
+    },
+    {
+      "epoch": 7.87,
+      "eval_loss": 0.42993414402008057,
+      "eval_runtime": 9.3655,
+      "eval_samples_per_second": 10.677,
+      "eval_wer": 0.38367844092570036,
+      "step": 48400
+    },
+    {
+      "epoch": 7.89,
+      "learning_rate": 6.867351933431229e-05,
+      "loss": NaN,
+      "step": 48500
+    },
+    {
+      "epoch": 7.89,
+      "eval_loss": 0.5003374218940735,
+      "eval_runtime": 9.3394,
+      "eval_samples_per_second": 10.707,
+      "eval_wer": 0.3946406820950061,
+      "step": 48500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 6.860825583292543e-05,
+      "loss": NaN,
+      "step": 48600
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.4476844072341919,
+      "eval_runtime": 8.2996,
+      "eval_samples_per_second": 12.049,
+      "eval_wer": 0.3982947624847747,
+      "step": 48600
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 6.854299233153859e-05,
+      "loss": NaN,
+      "step": 48700
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.4162767827510834,
+      "eval_runtime": 7.2206,
+      "eval_samples_per_second": 13.849,
+      "eval_wer": 0.3861144945188794,
+      "step": 48700
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 6.847772883015175e-05,
+      "loss": NaN,
+      "step": 48800
+    },
+    {
+      "epoch": 7.94,
+      "eval_loss": 0.5044607520103455,
+      "eval_runtime": 8.7024,
+      "eval_samples_per_second": 11.491,
+      "eval_wer": 0.3909866017052375,
+      "step": 48800
+    },
+    {
+      "epoch": 7.95,
+      "learning_rate": 6.84124653287649e-05,
+      "loss": NaN,
+      "step": 48900
+    },
+    {
+      "epoch": 7.95,
+      "eval_loss": 0.42168164253234863,
+      "eval_runtime": 6.5122,
+      "eval_samples_per_second": 15.356,
+      "eval_wer": 0.3800243605359318,
+      "step": 48900
+    },
+    {
+      "epoch": 7.97,
+      "learning_rate": 6.834720182737804e-05,
+      "loss": NaN,
+      "step": 49000
+    },
+    {
+      "epoch": 7.97,
+      "eval_loss": 0.4774813950061798,
+      "eval_runtime": 8.4021,
+      "eval_samples_per_second": 11.902,
+      "eval_wer": 0.3873325213154689,
+      "step": 49000
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 6.828193832599119e-05,
+      "loss": NaN,
+      "step": 49100
+    },
+    {
+      "epoch": 7.99,
+      "eval_loss": 0.47412794828414917,
+      "eval_runtime": 7.8667,
+      "eval_samples_per_second": 12.712,
+      "eval_wer": 0.3946406820950061,
+      "step": 49100
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 6.821667482460434e-05,
+      "loss": NaN,
+      "step": 49200
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.4439965784549713,
+      "eval_runtime": 8.4464,
+      "eval_samples_per_second": 11.839,
+      "eval_wer": 0.3873325213154689,
+      "step": 49200
+    },
+    {
+      "epoch": 8.02,
+      "learning_rate": 6.815141132321749e-05,
+      "loss": NaN,
+      "step": 49300
+    },
+    {
+      "epoch": 8.02,
+      "eval_loss": 0.47220298647880554,
+      "eval_runtime": 8.4551,
+      "eval_samples_per_second": 11.827,
+      "eval_wer": 0.38367844092570036,
+      "step": 49300
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 6.808614782183065e-05,
+      "loss": NaN,
+      "step": 49400
+    },
+    {
+      "epoch": 8.03,
+      "eval_loss": 0.41892436146736145,
+      "eval_runtime": 7.9787,
+      "eval_samples_per_second": 12.533,
+      "eval_wer": 0.37880633373934225,
+      "step": 49400
+    },
+    {
+      "epoch": 8.05,
+      "learning_rate": 6.802088432044379e-05,
+      "loss": NaN,
+      "step": 49500
+    },
+    {
+      "epoch": 8.05,
+      "eval_loss": 0.4536736309528351,
+      "eval_runtime": 7.9322,
+      "eval_samples_per_second": 12.607,
+      "eval_wer": 0.39585870889159563,
+      "step": 49500
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 6.795562081905694e-05,
+      "loss": NaN,
+      "step": 49600
+    },
+    {
+      "epoch": 8.07,
+      "eval_loss": 0.45775213837623596,
+      "eval_runtime": 8.207,
+      "eval_samples_per_second": 12.185,
+      "eval_wer": 0.3873325213154689,
+      "step": 49600
+    },
+    {
+      "epoch": 8.08,
+      "learning_rate": 6.78903573176701e-05,
+      "loss": NaN,
+      "step": 49700
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.44402602314949036,
+      "eval_runtime": 8.5892,
+      "eval_samples_per_second": 11.643,
+      "eval_wer": 0.38976857490864797,
+      "step": 49700
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 6.782509381628324e-05,
+      "loss": NaN,
+      "step": 49800
+    },
+    {
+      "epoch": 8.1,
+      "eval_loss": 0.46547335386276245,
+      "eval_runtime": 9.3683,
+      "eval_samples_per_second": 10.674,
+      "eval_wer": 0.3934226552984166,
+      "step": 49800
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 6.77598303148964e-05,
+      "loss": NaN,
+      "step": 49900
+    },
+    {
+      "epoch": 8.12,
+      "eval_loss": 0.46032240986824036,
+      "eval_runtime": 8.8425,
+      "eval_samples_per_second": 11.309,
+      "eval_wer": 0.3848964677222899,
+      "step": 49900
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 6.769456681350955e-05,
+      "loss": NaN,
+      "step": 50000
+    },
+    {
+      "epoch": 8.13,
+      "eval_loss": 0.4585595726966858,
+      "eval_runtime": 8.5708,
+      "eval_samples_per_second": 11.667,
+      "eval_wer": 0.3848964677222899,
+      "step": 50000
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 6.762930331212269e-05,
+      "loss": NaN,
+      "step": 50100
+    },
+    {
+      "epoch": 8.15,
+      "eval_loss": 0.41307058930397034,
+      "eval_runtime": 7.0952,
+      "eval_samples_per_second": 14.094,
+      "eval_wer": 0.37271619975639464,
+      "step": 50100
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 6.756403981073585e-05,
+      "loss": NaN,
+      "step": 50200
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.41041550040245056,
+      "eval_runtime": 7.1426,
+      "eval_samples_per_second": 14.001,
+      "eval_wer": 0.36784409257003653,
+      "step": 50200
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 6.7498776309349e-05,
+      "loss": NaN,
+      "step": 50300
+    },
+    {
+      "epoch": 8.18,
+      "eval_loss": 0.44717052578926086,
+      "eval_runtime": 7.0047,
+      "eval_samples_per_second": 14.276,
+      "eval_wer": 0.39707673568818513,
+      "step": 50300
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 6.743351280796215e-05,
+      "loss": NaN,
+      "step": 50400
+    },
+    {
+      "epoch": 8.2,
+      "eval_loss": 0.5247046947479248,
+      "eval_runtime": 7.6638,
+      "eval_samples_per_second": 13.048,
+      "eval_wer": 0.3982947624847747,
+      "step": 50400
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 6.73682493065753e-05,
+      "loss": NaN,
+      "step": 50500
+    },
+    {
+      "epoch": 8.21,
+      "eval_loss": 0.5030866861343384,
+      "eval_runtime": 7.6449,
+      "eval_samples_per_second": 13.081,
+      "eval_wer": 0.38246041412911086,
+      "step": 50500
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 6.730298580518846e-05,
+      "loss": NaN,
+      "step": 50600
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 0.4644200801849365,
+      "eval_runtime": 7.0234,
+      "eval_samples_per_second": 14.238,
+      "eval_wer": 0.364190012180268,
+      "step": 50600
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 6.72377223038016e-05,
+      "loss": NaN,
+      "step": 50700
+    },
+    {
+      "epoch": 8.25,
+      "eval_loss": 0.4306560158729553,
+      "eval_runtime": 8.0867,
+      "eval_samples_per_second": 12.366,
+      "eval_wer": 0.3800243605359318,
+      "step": 50700
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 6.717245880241475e-05,
+      "loss": NaN,
+      "step": 50800
+    },
+    {
+      "epoch": 8.26,
+      "eval_loss": 0.45848017930984497,
+      "eval_runtime": 8.7036,
+      "eval_samples_per_second": 11.489,
+      "eval_wer": 0.39707673568818513,
+      "step": 50800
+    },
+    {
+      "epoch": 8.28,
+      "learning_rate": 6.71071953010279e-05,
+      "loss": NaN,
+      "step": 50900
+    },
+    {
+      "epoch": 8.28,
+      "eval_loss": 0.5098088979721069,
+      "eval_runtime": 7.2954,
+      "eval_samples_per_second": 13.707,
+      "eval_wer": 0.3861144945188794,
+      "step": 50900
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 6.704193179964105e-05,
+      "loss": NaN,
+      "step": 51000
+    },
+    {
+      "epoch": 8.29,
+      "eval_loss": 0.5031391382217407,
+      "eval_runtime": 7.9446,
+      "eval_samples_per_second": 12.587,
+      "eval_wer": 0.3934226552984166,
+      "step": 51000
+    },
+    {
+      "epoch": 8.31,
+      "learning_rate": 6.697666829825421e-05,
+      "loss": NaN,
+      "step": 51100
+    },
+    {
+      "epoch": 8.31,
+      "eval_loss": 0.455885648727417,
+      "eval_runtime": 8.4028,
+      "eval_samples_per_second": 11.901,
+      "eval_wer": 0.392204628501827,
+      "step": 51100
+    },
+    {
+      "epoch": 8.33,
+      "learning_rate": 6.691140479686736e-05,
+      "loss": NaN,
+      "step": 51200
+    },
+    {
+      "epoch": 8.33,
+      "eval_loss": 0.4358394145965576,
+      "eval_runtime": 9.3301,
+      "eval_samples_per_second": 10.718,
+      "eval_wer": 0.3702801461632156,
+      "step": 51200
+    },
+    {
+      "epoch": 8.34,
+      "learning_rate": 6.68461412954805e-05,
+      "loss": NaN,
+      "step": 51300
+    },
+    {
+      "epoch": 8.34,
+      "eval_loss": 0.4508705139160156,
+      "eval_runtime": 7.2511,
+      "eval_samples_per_second": 13.791,
+      "eval_wer": 0.37880633373934225,
+      "step": 51300
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 6.678087779409366e-05,
+      "loss": NaN,
+      "step": 51400
+    },
+    {
+      "epoch": 8.36,
+      "eval_loss": 0.5324064493179321,
+      "eval_runtime": 7.3965,
+      "eval_samples_per_second": 13.52,
+      "eval_wer": 0.37880633373934225,
+      "step": 51400
+    },
+    {
+      "epoch": 8.38,
+      "learning_rate": 6.67156142927068e-05,
+      "loss": NaN,
+      "step": 51500
+    },
+    {
+      "epoch": 8.38,
+      "eval_loss": 0.4332933723926544,
+      "eval_runtime": 7.9068,
+      "eval_samples_per_second": 12.647,
+      "eval_wer": 0.3751522533495737,
+      "step": 51500
+    },
+    {
+      "epoch": 8.39,
+      "learning_rate": 6.665035079131996e-05,
+      "loss": NaN,
+      "step": 51600
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 0.5386966466903687,
+      "eval_runtime": 6.9317,
+      "eval_samples_per_second": 14.426,
+      "eval_wer": 0.364190012180268,
+      "step": 51600
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 6.658508728993311e-05,
+      "loss": NaN,
+      "step": 51700
+    },
+    {
+      "epoch": 8.41,
+      "eval_loss": 0.47883322834968567,
+      "eval_runtime": 8.0805,
+      "eval_samples_per_second": 12.376,
+      "eval_wer": 0.3861144945188794,
+      "step": 51700
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 6.651982378854625e-05,
+      "loss": NaN,
+      "step": 51800
+    },
+    {
+      "epoch": 8.42,
+      "eval_loss": 0.49707546830177307,
+      "eval_runtime": 6.9503,
+      "eval_samples_per_second": 14.388,
+      "eval_wer": 0.3763702801461632,
+      "step": 51800
+    },
+    {
+      "epoch": 8.44,
+      "learning_rate": 6.645456028715941e-05,
+      "loss": NaN,
+      "step": 51900
+    },
+    {
+      "epoch": 8.44,
+      "eval_loss": 0.4724676012992859,
+      "eval_runtime": 8.5223,
+      "eval_samples_per_second": 11.734,
+      "eval_wer": 0.37758830694275275,
+      "step": 51900
+    },
+    {
+      "epoch": 8.46,
+      "learning_rate": 6.638929678577256e-05,
+      "loss": NaN,
+      "step": 52000
+    },
+    {
+      "epoch": 8.46,
+      "eval_loss": 0.49637308716773987,
+      "eval_runtime": 6.8621,
+      "eval_samples_per_second": 14.573,
+      "eval_wer": 0.37393422655298414,
+      "step": 52000
+    },
+    {
+      "epoch": 8.47,
+      "learning_rate": 6.632403328438572e-05,
+      "loss": NaN,
+      "step": 52100
+    },
+    {
+      "epoch": 8.47,
+      "eval_loss": 0.46207770705223083,
+      "eval_runtime": 9.6685,
+      "eval_samples_per_second": 10.343,
+      "eval_wer": 0.3812423873325213,
+      "step": 52100
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 6.625876978299886e-05,
+      "loss": NaN,
+      "step": 52200
+    },
+    {
+      "epoch": 8.49,
+      "eval_loss": 0.47856566309928894,
+      "eval_runtime": 9.3206,
+      "eval_samples_per_second": 10.729,
+      "eval_wer": 0.3751522533495737,
+      "step": 52200
+    },
+    {
+      "epoch": 8.51,
+      "learning_rate": 6.619350628161202e-05,
+      "loss": NaN,
+      "step": 52300
+    },
+    {
+      "epoch": 8.51,
+      "eval_loss": 0.49372223019599915,
+      "eval_runtime": 8.558,
+      "eval_samples_per_second": 11.685,
+      "eval_wer": 0.3873325213154689,
+      "step": 52300
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 6.612824278022516e-05,
+      "loss": NaN,
+      "step": 52400
+    },
+    {
+      "epoch": 8.52,
+      "eval_loss": 0.4097326695919037,
+      "eval_runtime": 7.8765,
+      "eval_samples_per_second": 12.696,
+      "eval_wer": 0.3568818514007308,
+      "step": 52400
+    },
+    {
+      "epoch": 8.54,
+      "learning_rate": 6.606297927883831e-05,
+      "loss": NaN,
+      "step": 52500
+    },
+    {
+      "epoch": 8.54,
+      "eval_loss": 0.510248601436615,
+      "eval_runtime": 8.7686,
+      "eval_samples_per_second": 11.404,
+      "eval_wer": 0.3751522533495737,
+      "step": 52500
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 6.599771577745147e-05,
+      "loss": NaN,
+      "step": 52600
+    },
+    {
+      "epoch": 8.55,
+      "eval_loss": 0.4330621063709259,
+      "eval_runtime": 7.4599,
+      "eval_samples_per_second": 13.405,
+      "eval_wer": 0.36662606577344703,
+      "step": 52600
+    },
+    {
+      "epoch": 8.57,
+      "learning_rate": 6.593245227606461e-05,
+      "loss": NaN,
+      "step": 52700
+    },
+    {
+      "epoch": 8.57,
+      "eval_loss": 0.4965771436691284,
+      "eval_runtime": 9.6722,
+      "eval_samples_per_second": 10.339,
+      "eval_wer": 0.392204628501827,
+      "step": 52700
+    },
+    {
+      "epoch": 8.59,
+      "learning_rate": 6.586718877467777e-05,
+      "loss": NaN,
+      "step": 52800
+    },
+    {
+      "epoch": 8.59,
+      "eval_loss": 0.5258552432060242,
+      "eval_runtime": 8.3154,
+      "eval_samples_per_second": 12.026,
+      "eval_wer": 0.3934226552984166,
+      "step": 52800
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 6.58019252732909e-05,
+      "loss": NaN,
+      "step": 52900
+    },
+    {
+      "epoch": 8.6,
+      "eval_loss": 0.47305095195770264,
+      "eval_runtime": 8.8487,
+      "eval_samples_per_second": 11.301,
+      "eval_wer": 0.3873325213154689,
+      "step": 52900
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 6.573666177190406e-05,
+      "loss": NaN,
+      "step": 53000
+    },
+    {
+      "epoch": 8.62,
+      "eval_loss": 0.5063592791557312,
+      "eval_runtime": 8.5975,
+      "eval_samples_per_second": 11.631,
+      "eval_wer": 0.39585870889159563,
+      "step": 53000
+    },
+    {
+      "epoch": 8.64,
+      "learning_rate": 6.567139827051722e-05,
+      "loss": NaN,
+      "step": 53100
+    },
+    {
+      "epoch": 8.64,
+      "eval_loss": 0.5428659319877625,
+      "eval_runtime": 8.4203,
+      "eval_samples_per_second": 11.876,
+      "eval_wer": 0.3800243605359318,
+      "step": 53100
+    },
+    {
+      "epoch": 8.65,
+      "learning_rate": 6.560613476913037e-05,
+      "loss": NaN,
+      "step": 53200
+    },
+    {
+      "epoch": 8.65,
+      "eval_loss": 0.44813072681427,
+      "eval_runtime": 8.2801,
+      "eval_samples_per_second": 12.077,
+      "eval_wer": 0.37880633373934225,
+      "step": 53200
+    },
+    {
+      "epoch": 8.67,
+      "learning_rate": 6.554087126774353e-05,
+      "loss": NaN,
+      "step": 53300
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.4521804451942444,
+      "eval_runtime": 8.2143,
+      "eval_samples_per_second": 12.174,
+      "eval_wer": 0.37393422655298414,
+      "step": 53300
+    },
+    {
+      "epoch": 8.68,
+      "learning_rate": 6.547560776635667e-05,
+      "loss": NaN,
+      "step": 53400
+    },
+    {
+      "epoch": 8.68,
+      "eval_loss": 0.45459070801734924,
+      "eval_runtime": 8.9144,
+      "eval_samples_per_second": 11.218,
+      "eval_wer": 0.37149817295980514,
+      "step": 53400
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 6.541034426496982e-05,
+      "loss": NaN,
+      "step": 53500
+    },
+    {
+      "epoch": 8.7,
+      "eval_loss": 0.5054107904434204,
+      "eval_runtime": 6.4804,
+      "eval_samples_per_second": 15.431,
+      "eval_wer": 0.3763702801461632,
+      "step": 53500
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 6.534508076358296e-05,
+      "loss": NaN,
+      "step": 53600
+    },
+    {
+      "epoch": 8.72,
+      "eval_loss": 0.4579046666622162,
+      "eval_runtime": 6.6279,
+      "eval_samples_per_second": 15.088,
+      "eval_wer": 0.3702801461632156,
+      "step": 53600
+    },
+    {
+      "epoch": 8.73,
+      "learning_rate": 6.527981726219612e-05,
+      "loss": NaN,
+      "step": 53700
+    },
+    {
+      "epoch": 8.73,
+      "eval_loss": 0.4322802722454071,
+      "eval_runtime": 9.2316,
+      "eval_samples_per_second": 10.832,
+      "eval_wer": 0.3763702801461632,
+      "step": 53700
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 6.521455376080928e-05,
+      "loss": NaN,
+      "step": 53800
+    },
+    {
+      "epoch": 8.75,
+      "eval_loss": 0.42796722054481506,
+      "eval_runtime": 7.68,
+      "eval_samples_per_second": 13.021,
+      "eval_wer": 0.37271619975639464,
+      "step": 53800
+    },
+    {
+      "epoch": 8.77,
+      "learning_rate": 6.514929025942242e-05,
+      "loss": NaN,
+      "step": 53900
+    },
+    {
+      "epoch": 8.77,
+      "eval_loss": 0.44873932003974915,
+      "eval_runtime": 7.9481,
+      "eval_samples_per_second": 12.582,
+      "eval_wer": 0.38855054811205847,
+      "step": 53900
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 6.508402675803558e-05,
+      "loss": NaN,
+      "step": 54000
+    },
+    {
+      "epoch": 8.78,
+      "eval_loss": 0.4511549472808838,
+      "eval_runtime": 9.1786,
+      "eval_samples_per_second": 10.895,
+      "eval_wer": 0.3654080389768575,
+      "step": 54000
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 6.501876325664871e-05,
+      "loss": NaN,
+      "step": 54100
+    },
+    {
+      "epoch": 8.8,
+      "eval_loss": 0.42401379346847534,
+      "eval_runtime": 7.9905,
+      "eval_samples_per_second": 12.515,
+      "eval_wer": 0.3629719853836784,
+      "step": 54100
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 6.495349975526187e-05,
+      "loss": NaN,
+      "step": 54200
+    },
+    {
+      "epoch": 8.81,
+      "eval_loss": 0.4265538156032562,
+      "eval_runtime": 9.2408,
+      "eval_samples_per_second": 10.822,
+      "eval_wer": 0.3751522533495737,
+      "step": 54200
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 6.488823625387502e-05,
+      "loss": NaN,
+      "step": 54300
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.505720853805542,
+      "eval_runtime": 8.1012,
+      "eval_samples_per_second": 12.344,
+      "eval_wer": 0.37393422655298414,
+      "step": 54300
+    },
+    {
+      "epoch": 8.85,
+      "learning_rate": 6.482297275248818e-05,
+      "loss": NaN,
+      "step": 54400
+    },
+    {
+      "epoch": 8.85,
+      "eval_loss": 0.4096541702747345,
+      "eval_runtime": 7.7623,
+      "eval_samples_per_second": 12.883,
+      "eval_wer": 0.37149817295980514,
+      "step": 54400
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 6.475770925110133e-05,
+      "loss": NaN,
+      "step": 54500
+    },
+    {
+      "epoch": 8.86,
+      "eval_loss": 0.4086014926433563,
+      "eval_runtime": 8.886,
+      "eval_samples_per_second": 11.254,
+      "eval_wer": 0.3763702801461632,
+      "step": 54500
+    },
+    {
+      "epoch": 8.88,
+      "learning_rate": 6.469244574971447e-05,
+      "loss": NaN,
+      "step": 54600
+    },
+    {
+      "epoch": 8.88,
+      "eval_loss": 0.43217840790748596,
+      "eval_runtime": 7.9198,
+      "eval_samples_per_second": 12.627,
+      "eval_wer": 0.36662606577344703,
+      "step": 54600
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 6.462718224832762e-05,
+      "loss": NaN,
+      "step": 54700
+    },
+    {
+      "epoch": 8.9,
+      "eval_loss": 0.428193062543869,
+      "eval_runtime": 8.0067,
+      "eval_samples_per_second": 12.49,
+      "eval_wer": 0.3873325213154689,
+      "step": 54700
+    },
+    {
+      "epoch": 8.91,
+      "learning_rate": 6.456191874694077e-05,
+      "loss": NaN,
+      "step": 54800
+    },
+    {
+      "epoch": 8.91,
+      "eval_loss": 0.43840643763542175,
+      "eval_runtime": 8.3593,
+      "eval_samples_per_second": 11.963,
+      "eval_wer": 0.37393422655298414,
+      "step": 54800
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 6.449665524555393e-05,
+      "loss": NaN,
+      "step": 54900
+    },
+    {
+      "epoch": 8.93,
+      "eval_loss": 0.41468119621276855,
+      "eval_runtime": 7.1084,
+      "eval_samples_per_second": 14.068,
+      "eval_wer": 0.36784409257003653,
+      "step": 54900
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 6.443139174416707e-05,
+      "loss": NaN,
+      "step": 55000
+    },
+    {
+      "epoch": 8.94,
+      "eval_loss": 0.4655587673187256,
+      "eval_runtime": 7.4051,
+      "eval_samples_per_second": 13.504,
+      "eval_wer": 0.364190012180268,
+      "step": 55000
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 6.436612824278023e-05,
+      "loss": NaN,
+      "step": 55100
+    },
+    {
+      "epoch": 8.96,
+      "eval_loss": 0.4038917124271393,
+      "eval_runtime": 8.3584,
+      "eval_samples_per_second": 11.964,
+      "eval_wer": 0.36784409257003653,
+      "step": 55100
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 6.430086474139338e-05,
+      "loss": NaN,
+      "step": 55200
+    },
+    {
+      "epoch": 8.98,
+      "eval_loss": 0.39275607466697693,
+      "eval_runtime": 7.452,
+      "eval_samples_per_second": 13.419,
+      "eval_wer": 0.36784409257003653,
+      "step": 55200
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 6.423560124000652e-05,
+      "loss": NaN,
+      "step": 55300
+    },
+    {
+      "epoch": 8.99,
+      "eval_loss": 0.4186645448207855,
+      "eval_runtime": 8.5472,
+      "eval_samples_per_second": 11.7,
+      "eval_wer": 0.364190012180268,
+      "step": 55300
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 6.417033773861968e-05,
+      "loss": NaN,
+      "step": 55400
+    },
+    {
+      "epoch": 9.01,
+      "eval_loss": 0.44433704018592834,
+      "eval_runtime": 7.986,
+      "eval_samples_per_second": 12.522,
+      "eval_wer": 0.36662606577344703,
+      "step": 55400
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 6.410507423723283e-05,
+      "loss": NaN,
+      "step": 55500
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 0.43365246057510376,
+      "eval_runtime": 7.3226,
+      "eval_samples_per_second": 13.656,
+      "eval_wer": 0.35931790499390986,
+      "step": 55500
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 6.403981073584599e-05,
+      "loss": NaN,
+      "step": 55600
+    },
+    {
+      "epoch": 9.04,
+      "eval_loss": 0.4543744623661041,
+      "eval_runtime": 8.7477,
+      "eval_samples_per_second": 11.432,
+      "eval_wer": 0.37271619975639464,
+      "step": 55600
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.397454723445913e-05,
+      "loss": NaN,
+      "step": 55700
+    },
+    {
+      "epoch": 9.06,
+      "eval_loss": 0.43953046202659607,
+      "eval_runtime": 7.711,
+      "eval_samples_per_second": 12.968,
+      "eval_wer": 0.3934226552984166,
+      "step": 55700
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 6.390928373307228e-05,
+      "loss": NaN,
+      "step": 55800
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.43022480607032776,
+      "eval_runtime": 7.9745,
+      "eval_samples_per_second": 12.54,
+      "eval_wer": 0.36053593179049936,
+      "step": 55800
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 6.384402023168543e-05,
+      "loss": NaN,
+      "step": 55900
+    },
+    {
+      "epoch": 9.09,
+      "eval_loss": 0.4893076419830322,
+      "eval_runtime": 8.1627,
+      "eval_samples_per_second": 12.251,
+      "eval_wer": 0.3507917174177832,
+      "step": 55900
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 6.377875673029858e-05,
+      "loss": NaN,
+      "step": 56000
+    },
+    {
+      "epoch": 9.11,
+      "eval_loss": 0.4135149419307709,
+      "eval_runtime": 7.9225,
+      "eval_samples_per_second": 12.622,
+      "eval_wer": 0.3763702801461632,
+      "step": 56000
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 6.371349322891174e-05,
+      "loss": NaN,
+      "step": 56100
+    },
+    {
+      "epoch": 9.12,
+      "eval_loss": 0.4469653069972992,
+      "eval_runtime": 8.096,
+      "eval_samples_per_second": 12.352,
+      "eval_wer": 0.3800243605359318,
+      "step": 56100
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 6.364822972752488e-05,
+      "loss": NaN,
+      "step": 56200
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 0.42649006843566895,
+      "eval_runtime": 8.89,
+      "eval_samples_per_second": 11.249,
+      "eval_wer": 0.3690621193666261,
+      "step": 56200
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 6.358296622613803e-05,
+      "loss": NaN,
+      "step": 56300
+    },
+    {
+      "epoch": 9.16,
+      "eval_loss": 0.46478691697120667,
+      "eval_runtime": 7.1008,
+      "eval_samples_per_second": 14.083,
+      "eval_wer": 0.36784409257003653,
+      "step": 56300
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 6.351770272475119e-05,
+      "loss": NaN,
+      "step": 56400
+    },
+    {
+      "epoch": 9.17,
+      "eval_loss": 0.45123374462127686,
+      "eval_runtime": 8.3492,
+      "eval_samples_per_second": 11.977,
+      "eval_wer": 0.37393422655298414,
+      "step": 56400
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 6.345243922336433e-05,
+      "loss": NaN,
+      "step": 56500
+    },
+    {
+      "epoch": 9.19,
+      "eval_loss": 0.42654842138290405,
+      "eval_runtime": 6.8554,
+      "eval_samples_per_second": 14.587,
+      "eval_wer": 0.3812423873325213,
+      "step": 56500
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 6.338717572197749e-05,
+      "loss": NaN,
+      "step": 56600
+    },
+    {
+      "epoch": 9.2,
+      "eval_loss": 0.4205102026462555,
+      "eval_runtime": 8.9024,
+      "eval_samples_per_second": 11.233,
+      "eval_wer": 0.37271619975639464,
+      "step": 56600
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 6.332191222059064e-05,
+      "loss": NaN,
+      "step": 56700
+    },
+    {
+      "epoch": 9.22,
+      "eval_loss": 0.4153713583946228,
+      "eval_runtime": 8.0624,
+      "eval_samples_per_second": 12.403,
+      "eval_wer": 0.35931790499390986,
+      "step": 56700
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 6.32566487192038e-05,
+      "loss": NaN,
+      "step": 56800
+    },
+    {
+      "epoch": 9.24,
+      "eval_loss": 0.4380166232585907,
+      "eval_runtime": 7.3533,
+      "eval_samples_per_second": 13.599,
+      "eval_wer": 0.3471376370280146,
+      "step": 56800
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 6.319138521781694e-05,
+      "loss": NaN,
+      "step": 56900
+    },
+    {
+      "epoch": 9.25,
+      "eval_loss": 0.3888612389564514,
+      "eval_runtime": 9.3301,
+      "eval_samples_per_second": 10.718,
+      "eval_wer": 0.3520097442143727,
+      "step": 56900
+    },
+    {
+      "epoch": 9.27,
+      "learning_rate": 6.312612171643009e-05,
+      "loss": NaN,
+      "step": 57000
+    },
+    {
+      "epoch": 9.27,
+      "eval_loss": 0.39410483837127686,
+      "eval_runtime": 8.4812,
+      "eval_samples_per_second": 11.791,
+      "eval_wer": 0.3568818514007308,
+      "step": 57000
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 6.306085821504324e-05,
+      "loss": NaN,
+      "step": 57100
+    },
+    {
+      "epoch": 9.29,
+      "eval_loss": 0.4467742443084717,
+      "eval_runtime": 7.367,
+      "eval_samples_per_second": 13.574,
+      "eval_wer": 0.35931790499390986,
+      "step": 57100
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 6.299559471365639e-05,
+      "loss": NaN,
+      "step": 57200
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.47365981340408325,
+      "eval_runtime": 8.3932,
+      "eval_samples_per_second": 11.914,
+      "eval_wer": 0.3800243605359318,
+      "step": 57200
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 6.293033121226955e-05,
+      "loss": NaN,
+      "step": 57300
+    },
+    {
+      "epoch": 9.32,
+      "eval_loss": 0.4668024182319641,
+      "eval_runtime": 8.2093,
+      "eval_samples_per_second": 12.181,
+      "eval_wer": 0.3690621193666261,
+      "step": 57300
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 6.286506771088269e-05,
+      "loss": NaN,
+      "step": 57400
+    },
+    {
+      "epoch": 9.33,
+      "eval_loss": 0.4525511860847473,
+      "eval_runtime": 9.8628,
+      "eval_samples_per_second": 10.139,
+      "eval_wer": 0.37758830694275275,
+      "step": 57400
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 6.279980420949584e-05,
+      "loss": NaN,
+      "step": 57500
+    },
+    {
+      "epoch": 9.35,
+      "eval_loss": 0.45667481422424316,
+      "eval_runtime": 7.42,
+      "eval_samples_per_second": 13.477,
+      "eval_wer": 0.38367844092570036,
+      "step": 57500
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 6.2734540708109e-05,
+      "loss": NaN,
+      "step": 57600
+    },
+    {
+      "epoch": 9.37,
+      "eval_loss": 0.4748976230621338,
+      "eval_runtime": 7.9502,
+      "eval_samples_per_second": 12.578,
+      "eval_wer": 0.37271619975639464,
+      "step": 57600
+    },
+    {
+      "epoch": 9.38,
+      "learning_rate": 6.266927720672214e-05,
+      "loss": NaN,
+      "step": 57700
+    },
+    {
+      "epoch": 9.38,
+      "eval_loss": 0.41124123334884644,
+      "eval_runtime": 8.7336,
+      "eval_samples_per_second": 11.45,
+      "eval_wer": 0.3629719853836784,
+      "step": 57700
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 6.26040137053353e-05,
+      "loss": NaN,
+      "step": 57800
+    },
+    {
+      "epoch": 9.4,
+      "eval_loss": 0.4126984477043152,
+      "eval_runtime": 7.3596,
+      "eval_samples_per_second": 13.588,
+      "eval_wer": 0.3654080389768575,
+      "step": 57800
+    },
+    {
+      "epoch": 9.42,
+      "learning_rate": 6.253875020394845e-05,
+      "loss": NaN,
+      "step": 57900
+    },
+    {
+      "epoch": 9.42,
+      "eval_loss": 0.41617000102996826,
+      "eval_runtime": 8.9616,
+      "eval_samples_per_second": 11.159,
+      "eval_wer": 0.3617539585870889,
+      "step": 57900
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 6.247348670256159e-05,
+      "loss": NaN,
+      "step": 58000
+    },
+    {
+      "epoch": 9.43,
+      "eval_loss": 0.4667081832885742,
+      "eval_runtime": 7.9176,
+      "eval_samples_per_second": 12.63,
+      "eval_wer": 0.37271619975639464,
+      "step": 58000
+    },
+    {
+      "epoch": 9.45,
+      "learning_rate": 6.240822320117474e-05,
+      "loss": NaN,
+      "step": 58100
+    },
+    {
+      "epoch": 9.45,
+      "eval_loss": 0.4130760431289673,
+      "eval_runtime": 9.1619,
+      "eval_samples_per_second": 10.915,
+      "eval_wer": 0.3520097442143727,
+      "step": 58100
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 6.23429596997879e-05,
+      "loss": NaN,
+      "step": 58200
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.3896174728870392,
+      "eval_runtime": 6.9796,
+      "eval_samples_per_second": 14.328,
+      "eval_wer": 0.3507917174177832,
+      "step": 58200
+    },
+    {
+      "epoch": 9.48,
+      "learning_rate": 6.227769619840105e-05,
+      "loss": NaN,
+      "step": 58300
+    },
+    {
+      "epoch": 9.48,
+      "eval_loss": 0.44675758481025696,
+      "eval_runtime": 10.5739,
+      "eval_samples_per_second": 9.457,
+      "eval_wer": 0.37393422655298414,
+      "step": 58300
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 6.22124326970142e-05,
+      "loss": NaN,
+      "step": 58400
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.45445725321769714,
+      "eval_runtime": 8.0137,
+      "eval_samples_per_second": 12.479,
+      "eval_wer": 0.35322777101096225,
+      "step": 58400
+    },
+    {
+      "epoch": 9.51,
+      "learning_rate": 6.214716919562736e-05,
+      "loss": NaN,
+      "step": 58500
+    },
+    {
+      "epoch": 9.51,
+      "eval_loss": 0.47014904022216797,
+      "eval_runtime": 8.4495,
+      "eval_samples_per_second": 11.835,
+      "eval_wer": 0.36784409257003653,
+      "step": 58500
+    },
+    {
+      "epoch": 9.53,
+      "learning_rate": 6.208190569424049e-05,
+      "loss": NaN,
+      "step": 58600
+    },
+    {
+      "epoch": 9.53,
+      "eval_loss": 0.42686671018600464,
+      "eval_runtime": 7.4504,
+      "eval_samples_per_second": 13.422,
+      "eval_wer": 0.36053593179049936,
+      "step": 58600
+    },
+    {
+      "epoch": 9.55,
+      "learning_rate": 6.201664219285365e-05,
+      "loss": NaN,
+      "step": 58700
+    },
+    {
+      "epoch": 9.55,
+      "eval_loss": 0.45379403233528137,
+      "eval_runtime": 7.6774,
+      "eval_samples_per_second": 13.025,
+      "eval_wer": 0.3617539585870889,
+      "step": 58700
+    },
+    {
+      "epoch": 9.56,
+      "learning_rate": 6.19513786914668e-05,
+      "loss": NaN,
+      "step": 58800
+    },
+    {
+      "epoch": 9.56,
+      "eval_loss": 0.4386783838272095,
+      "eval_runtime": 9.7583,
+      "eval_samples_per_second": 10.248,
+      "eval_wer": 0.36662606577344703,
+      "step": 58800
+    },
+    {
+      "epoch": 9.58,
+      "learning_rate": 6.188611519007995e-05,
+      "loss": NaN,
+      "step": 58900
+    },
+    {
+      "epoch": 9.58,
+      "eval_loss": 0.40192508697509766,
+      "eval_runtime": 9.6879,
+      "eval_samples_per_second": 10.322,
+      "eval_wer": 0.35809987819732036,
+      "step": 58900
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 6.182085168869311e-05,
+      "loss": NaN,
+      "step": 59000
+    },
+    {
+      "epoch": 9.6,
+      "eval_loss": 0.46459415555000305,
+      "eval_runtime": 8.441,
+      "eval_samples_per_second": 11.847,
+      "eval_wer": 0.35931790499390986,
+      "step": 59000
+    },
+    {
+      "epoch": 9.61,
+      "learning_rate": 6.175558818730625e-05,
+      "loss": NaN,
+      "step": 59100
+    },
+    {
+      "epoch": 9.61,
+      "eval_loss": 0.41784995794296265,
+      "eval_runtime": 7.9289,
+      "eval_samples_per_second": 12.612,
+      "eval_wer": 0.38246041412911086,
+      "step": 59100
+    },
+    {
+      "epoch": 9.63,
+      "learning_rate": 6.16903246859194e-05,
+      "loss": NaN,
+      "step": 59200
+    },
+    {
+      "epoch": 9.63,
+      "eval_loss": 0.44782283902168274,
+      "eval_runtime": 6.8119,
+      "eval_samples_per_second": 14.68,
+      "eval_wer": 0.37758830694275275,
+      "step": 59200
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 6.162506118453255e-05,
+      "loss": NaN,
+      "step": 59300
+    },
+    {
+      "epoch": 9.64,
+      "eval_loss": 0.40649664402008057,
+      "eval_runtime": 7.3722,
+      "eval_samples_per_second": 13.564,
+      "eval_wer": 0.3520097442143727,
+      "step": 59300
+    },
+    {
+      "epoch": 9.66,
+      "learning_rate": 6.15597976831457e-05,
+      "loss": NaN,
+      "step": 59400
+    },
+    {
+      "epoch": 9.66,
+      "eval_loss": 0.405249685049057,
+      "eval_runtime": 7.7895,
+      "eval_samples_per_second": 12.838,
+      "eval_wer": 0.3690621193666261,
+      "step": 59400
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 6.149453418175886e-05,
+      "loss": NaN,
+      "step": 59500
+    },
+    {
+      "epoch": 9.68,
+      "eval_loss": 0.37005943059921265,
+      "eval_runtime": 7.3848,
+      "eval_samples_per_second": 13.541,
+      "eval_wer": 0.3507917174177832,
+      "step": 59500
+    },
+    {
+      "epoch": 9.69,
+      "learning_rate": 6.142927068037201e-05,
+      "loss": NaN,
+      "step": 59600
+    },
+    {
+      "epoch": 9.69,
+      "eval_loss": 0.4289380609989166,
+      "eval_runtime": 8.9702,
+      "eval_samples_per_second": 11.148,
+      "eval_wer": 0.36053593179049936,
+      "step": 59600
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 6.136400717898515e-05,
+      "loss": NaN,
+      "step": 59700
+    },
+    {
+      "epoch": 9.71,
+      "eval_loss": 0.39418941736221313,
+      "eval_runtime": 7.4148,
+      "eval_samples_per_second": 13.487,
+      "eval_wer": 0.3654080389768575,
+      "step": 59700
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 6.12987436775983e-05,
+      "loss": NaN,
+      "step": 59800
+    },
+    {
+      "epoch": 9.73,
+      "eval_loss": 0.44876864552497864,
+      "eval_runtime": 10.228,
+      "eval_samples_per_second": 9.777,
+      "eval_wer": 0.3556638246041413,
+      "step": 59800
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 6.123348017621146e-05,
+      "loss": NaN,
+      "step": 59900
+    },
+    {
+      "epoch": 9.74,
+      "eval_loss": 0.49101337790489197,
+      "eval_runtime": 8.1552,
+      "eval_samples_per_second": 12.262,
+      "eval_wer": 0.3848964677222899,
+      "step": 59900
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 6.11682166748246e-05,
+      "loss": NaN,
+      "step": 60000
+    },
+    {
+      "epoch": 9.76,
+      "eval_loss": 0.3982294797897339,
+      "eval_runtime": 8.4742,
+      "eval_samples_per_second": 11.8,
+      "eval_wer": 0.37149817295980514,
+      "step": 60000
+    },
+    {
+      "epoch": 9.77,
+      "learning_rate": 6.110295317343776e-05,
+      "loss": NaN,
+      "step": 60100
+    },
+    {
+      "epoch": 9.77,
+      "eval_loss": 0.3967539668083191,
+      "eval_runtime": 6.4434,
+      "eval_samples_per_second": 15.52,
+      "eval_wer": 0.36053593179049936,
+      "step": 60100
+    },
+    {
+      "epoch": 9.79,
+      "learning_rate": 6.103768967205092e-05,
+      "loss": NaN,
+      "step": 60200
+    },
+    {
+      "epoch": 9.79,
+      "eval_loss": 0.4385029673576355,
+      "eval_runtime": 7.5002,
+      "eval_samples_per_second": 13.333,
+      "eval_wer": 0.3617539585870889,
+      "step": 60200
+    },
+    {
+      "epoch": 9.81,
+      "learning_rate": 6.097242617066406e-05,
+      "loss": NaN,
+      "step": 60300
+    },
+    {
+      "epoch": 9.81,
+      "eval_loss": 0.4130534827709198,
+      "eval_runtime": 8.817,
+      "eval_samples_per_second": 11.342,
+      "eval_wer": 0.3751522533495737,
+      "step": 60300
+    },
+    {
+      "epoch": 9.82,
+      "learning_rate": 6.090716266927721e-05,
+      "loss": NaN,
+      "step": 60400
+    },
+    {
+      "epoch": 9.82,
+      "eval_loss": 0.5191701650619507,
+      "eval_runtime": 7.9727,
+      "eval_samples_per_second": 12.543,
+      "eval_wer": 0.37880633373934225,
+      "step": 60400
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 6.084189916789036e-05,
+      "loss": NaN,
+      "step": 60500
+    },
+    {
+      "epoch": 9.84,
+      "eval_loss": 0.4418995678424835,
+      "eval_runtime": 9.1327,
+      "eval_samples_per_second": 10.95,
+      "eval_wer": 0.37880633373934225,
+      "step": 60500
+    },
+    {
+      "epoch": 9.86,
+      "learning_rate": 6.077663566650351e-05,
+      "loss": NaN,
+      "step": 60600
+    },
+    {
+      "epoch": 9.86,
+      "eval_loss": 0.4954804480075836,
+      "eval_runtime": 9.5074,
+      "eval_samples_per_second": 10.518,
+      "eval_wer": 0.4056029232643118,
+      "step": 60600
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 6.0711372165116665e-05,
+      "loss": NaN,
+      "step": 60700
+    },
+    {
+      "epoch": 9.87,
+      "eval_loss": 0.45987486839294434,
+      "eval_runtime": 6.9269,
+      "eval_samples_per_second": 14.436,
+      "eval_wer": 0.36784409257003653,
+      "step": 60700
+    },
+    {
+      "epoch": 9.89,
+      "learning_rate": 6.064610866372982e-05,
+      "loss": NaN,
+      "step": 60800
+    },
+    {
+      "epoch": 9.89,
+      "eval_loss": 0.38861092925071716,
+      "eval_runtime": 9.0697,
+      "eval_samples_per_second": 11.026,
+      "eval_wer": 0.35931790499390986,
+      "step": 60800
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 6.0580845162342956e-05,
+      "loss": NaN,
+      "step": 60900
+    },
+    {
+      "epoch": 9.9,
+      "eval_loss": 0.38833603262901306,
+      "eval_runtime": 7.6516,
+      "eval_samples_per_second": 13.069,
+      "eval_wer": 0.364190012180268,
+      "step": 60900
+    },
+    {
+      "epoch": 9.92,
+      "learning_rate": 6.0515581660956114e-05,
+      "loss": NaN,
+      "step": 61000
+    },
+    {
+      "epoch": 9.92,
+      "eval_loss": 0.44373536109924316,
+      "eval_runtime": 7.1189,
+      "eval_samples_per_second": 14.047,
+      "eval_wer": 0.35809987819732036,
+      "step": 61000
+    },
+    {
+      "epoch": 9.94,
+      "learning_rate": 6.0450318159569266e-05,
+      "loss": NaN,
+      "step": 61100
+    },
+    {
+      "epoch": 9.94,
+      "eval_loss": 0.41120070219039917,
+      "eval_runtime": 7.3599,
+      "eval_samples_per_second": 13.587,
+      "eval_wer": 0.3459196102314251,
+      "step": 61100
+    },
+    {
+      "epoch": 9.95,
+      "learning_rate": 6.038505465818242e-05,
+      "loss": NaN,
+      "step": 61200
+    },
+    {
+      "epoch": 9.95,
+      "eval_loss": 0.41615867614746094,
+      "eval_runtime": 9.4386,
+      "eval_samples_per_second": 10.595,
+      "eval_wer": 0.3568818514007308,
+      "step": 61200
+    },
+    {
+      "epoch": 9.97,
+      "learning_rate": 6.031979115679557e-05,
+      "loss": NaN,
+      "step": 61300
+    },
+    {
+      "epoch": 9.97,
+      "eval_loss": 0.4973611831665039,
+      "eval_runtime": 8.1559,
+      "eval_samples_per_second": 12.261,
+      "eval_wer": 0.3702801461632156,
+      "step": 61300
+    },
+    {
+      "epoch": 9.99,
+      "learning_rate": 6.025452765540871e-05,
+      "loss": NaN,
+      "step": 61400
+    },
+    {
+      "epoch": 9.99,
+      "eval_loss": 0.448307603597641,
+      "eval_runtime": 9.8048,
+      "eval_samples_per_second": 10.199,
+      "eval_wer": 0.3690621193666261,
+      "step": 61400
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 6.018926415402186e-05,
+      "loss": NaN,
+      "step": 61500
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.5115909576416016,
+      "eval_runtime": 7.945,
+      "eval_samples_per_second": 12.587,
+      "eval_wer": 0.37393422655298414,
+      "step": 61500
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 6.012400065263501e-05,
+      "loss": NaN,
+      "step": 61600
+    },
+    {
+      "epoch": 10.02,
+      "eval_loss": 0.42501771450042725,
+      "eval_runtime": 9.4293,
+      "eval_samples_per_second": 10.605,
+      "eval_wer": 0.3690621193666261,
+      "step": 61600
+    },
+    {
+      "epoch": 10.03,
+      "learning_rate": 6.005873715124817e-05,
+      "loss": NaN,
+      "step": 61700
+    },
+    {
+      "epoch": 10.03,
+      "eval_loss": 0.4137573540210724,
+      "eval_runtime": 8.5889,
+      "eval_samples_per_second": 11.643,
+      "eval_wer": 0.3520097442143727,
+      "step": 61700
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 5.999347364986132e-05,
+      "loss": NaN,
+      "step": 61800
+    },
+    {
+      "epoch": 10.05,
+      "eval_loss": 0.4213745892047882,
+      "eval_runtime": 9.5865,
+      "eval_samples_per_second": 10.431,
+      "eval_wer": 0.36053593179049936,
+      "step": 61800
+    },
+    {
+      "epoch": 10.07,
+      "learning_rate": 5.9928210148474475e-05,
+      "loss": NaN,
+      "step": 61900
+    },
+    {
+      "epoch": 10.07,
+      "eval_loss": 0.4096081256866455,
+      "eval_runtime": 8.1463,
+      "eval_samples_per_second": 12.275,
+      "eval_wer": 0.3690621193666261,
+      "step": 61900
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 5.986294664708761e-05,
+      "loss": NaN,
+      "step": 62000
+    },
+    {
+      "epoch": 10.08,
+      "eval_loss": 0.41392749547958374,
+      "eval_runtime": 9.4692,
+      "eval_samples_per_second": 10.561,
+      "eval_wer": 0.36662606577344703,
+      "step": 62000
+    },
+    {
+      "epoch": 10.1,
+      "learning_rate": 5.9797683145700765e-05,
+      "loss": NaN,
+      "step": 62100
+    },
+    {
+      "epoch": 10.1,
+      "eval_loss": 0.41633856296539307,
+      "eval_runtime": 8.7223,
+      "eval_samples_per_second": 11.465,
+      "eval_wer": 0.3690621193666261,
+      "step": 62100
+    },
+    {
+      "epoch": 10.12,
+      "learning_rate": 5.973241964431392e-05,
+      "loss": NaN,
+      "step": 62200
+    },
+    {
+      "epoch": 10.12,
+      "eval_loss": 0.45410457253456116,
+      "eval_runtime": 7.382,
+      "eval_samples_per_second": 13.546,
+      "eval_wer": 0.3520097442143727,
+      "step": 62200
+    },
+    {
+      "epoch": 10.13,
+      "learning_rate": 5.966715614292707e-05,
+      "loss": NaN,
+      "step": 62300
+    },
+    {
+      "epoch": 10.13,
+      "eval_loss": 0.456071674823761,
+      "eval_runtime": 8.3133,
+      "eval_samples_per_second": 12.029,
+      "eval_wer": 0.3690621193666261,
+      "step": 62300
+    },
+    {
+      "epoch": 10.15,
+      "learning_rate": 5.960189264154023e-05,
+      "loss": NaN,
+      "step": 62400
+    },
+    {
+      "epoch": 10.15,
+      "eval_loss": 0.4523433446884155,
+      "eval_runtime": 7.4187,
+      "eval_samples_per_second": 13.479,
+      "eval_wer": 0.35931790499390986,
+      "step": 62400
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 5.953662914015338e-05,
+      "loss": NaN,
+      "step": 62500
+    },
+    {
+      "epoch": 10.16,
+      "eval_loss": 0.4045345187187195,
+      "eval_runtime": 9.0224,
+      "eval_samples_per_second": 11.083,
+      "eval_wer": 0.3556638246041413,
+      "step": 62500
+    },
+    {
+      "epoch": 10.18,
+      "learning_rate": 5.947136563876652e-05,
+      "loss": NaN,
+      "step": 62600
+    },
+    {
+      "epoch": 10.18,
+      "eval_loss": 0.4067111313343048,
+      "eval_runtime": 7.5666,
+      "eval_samples_per_second": 13.216,
+      "eval_wer": 0.364190012180268,
+      "step": 62600
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 5.940610213737967e-05,
+      "loss": NaN,
+      "step": 62700
+    },
+    {
+      "epoch": 10.2,
+      "eval_loss": 0.4985601007938385,
+      "eval_runtime": 10.6701,
+      "eval_samples_per_second": 9.372,
+      "eval_wer": 0.3812423873325213,
+      "step": 62700
+    },
+    {
+      "epoch": 10.21,
+      "learning_rate": 5.934083863599282e-05,
+      "loss": NaN,
+      "step": 62800
+    },
+    {
+      "epoch": 10.21,
+      "eval_loss": 0.4605454206466675,
+      "eval_runtime": 7.6443,
+      "eval_samples_per_second": 13.082,
+      "eval_wer": 0.37880633373934225,
+      "step": 62800
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 5.9275575134605974e-05,
+      "loss": NaN,
+      "step": 62900
+    },
+    {
+      "epoch": 10.23,
+      "eval_loss": 0.41414105892181396,
+      "eval_runtime": 9.3718,
+      "eval_samples_per_second": 10.67,
+      "eval_wer": 0.35931790499390986,
+      "step": 62900
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 5.9210311633219125e-05,
+      "loss": NaN,
+      "step": 63000
+    },
+    {
+      "epoch": 10.25,
+      "eval_loss": 0.4487077593803406,
+      "eval_runtime": 8.7749,
+      "eval_samples_per_second": 11.396,
+      "eval_wer": 0.37149817295980514,
+      "step": 63000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 5.914504813183227e-05,
+      "loss": NaN,
+      "step": 63100
+    },
+    {
+      "epoch": 10.26,
+      "eval_loss": 0.5015296339988708,
+      "eval_runtime": 7.5183,
+      "eval_samples_per_second": 13.301,
+      "eval_wer": 0.3861144945188794,
+      "step": 63100
+    },
+    {
+      "epoch": 10.28,
+      "learning_rate": 5.907978463044542e-05,
+      "loss": NaN,
+      "step": 63200
+    },
+    {
+      "epoch": 10.28,
+      "eval_loss": 0.49254322052001953,
+      "eval_runtime": 7.8387,
+      "eval_samples_per_second": 12.757,
+      "eval_wer": 0.3617539585870889,
+      "step": 63200
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 5.9014521129058574e-05,
+      "loss": NaN,
+      "step": 63300
+    },
+    {
+      "epoch": 10.29,
+      "eval_loss": 0.4693681001663208,
+      "eval_runtime": 9.0717,
+      "eval_samples_per_second": 11.023,
+      "eval_wer": 0.3812423873325213,
+      "step": 63300
+    },
+    {
+      "epoch": 10.31,
+      "learning_rate": 5.8949257627671726e-05,
+      "loss": NaN,
+      "step": 63400
+    },
+    {
+      "epoch": 10.31,
+      "eval_loss": 0.4481465220451355,
+      "eval_runtime": 8.4682,
+      "eval_samples_per_second": 11.809,
+      "eval_wer": 0.3702801461632156,
+      "step": 63400
+    },
+    {
+      "epoch": 10.33,
+      "learning_rate": 5.888399412628488e-05,
+      "loss": NaN,
+      "step": 63500
+    },
+    {
+      "epoch": 10.33,
+      "eval_loss": 0.43376660346984863,
+      "eval_runtime": 9.0956,
+      "eval_samples_per_second": 10.994,
+      "eval_wer": 0.3702801461632156,
+      "step": 63500
+    },
+    {
+      "epoch": 10.34,
+      "learning_rate": 5.881873062489803e-05,
+      "loss": NaN,
+      "step": 63600
+    },
+    {
+      "epoch": 10.34,
+      "eval_loss": 0.4156494438648224,
+      "eval_runtime": 8.4037,
+      "eval_samples_per_second": 11.899,
+      "eval_wer": 0.35444579780755175,
+      "step": 63600
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 5.8753467123511175e-05,
+      "loss": NaN,
+      "step": 63700
+    },
+    {
+      "epoch": 10.36,
+      "eval_loss": 0.4458553194999695,
+      "eval_runtime": 8.7165,
+      "eval_samples_per_second": 11.473,
+      "eval_wer": 0.37393422655298414,
+      "step": 63700
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 5.868820362212433e-05,
+      "loss": NaN,
+      "step": 63800
+    },
+    {
+      "epoch": 10.38,
+      "eval_loss": 0.466782808303833,
+      "eval_runtime": 8.1618,
+      "eval_samples_per_second": 12.252,
+      "eval_wer": 0.3873325213154689,
+      "step": 63800
+    },
+    {
+      "epoch": 10.39,
+      "learning_rate": 5.862294012073748e-05,
+      "loss": NaN,
+      "step": 63900
+    },
+    {
+      "epoch": 10.39,
+      "eval_loss": 0.5930745601654053,
+      "eval_runtime": 9.5258,
+      "eval_samples_per_second": 10.498,
+      "eval_wer": 0.39707673568818513,
+      "step": 63900
+    },
+    {
+      "epoch": 10.41,
+      "learning_rate": 5.855767661935063e-05,
+      "loss": NaN,
+      "step": 64000
+    },
+    {
+      "epoch": 10.41,
+      "eval_loss": 0.45110756158828735,
+      "eval_runtime": 9.4694,
+      "eval_samples_per_second": 10.56,
+      "eval_wer": 0.3617539585870889,
+      "step": 64000
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 5.849241311796378e-05,
+      "loss": NaN,
+      "step": 64100
+    },
+    {
+      "epoch": 10.42,
+      "eval_loss": 0.4962243139743805,
+      "eval_runtime": 8.4633,
+      "eval_samples_per_second": 11.816,
+      "eval_wer": 0.3800243605359318,
+      "step": 64100
+    },
+    {
+      "epoch": 10.44,
+      "learning_rate": 5.8427149616576935e-05,
+      "loss": NaN,
+      "step": 64200
+    },
+    {
+      "epoch": 10.44,
+      "eval_loss": 0.43860459327697754,
+      "eval_runtime": 8.0809,
+      "eval_samples_per_second": 12.375,
+      "eval_wer": 0.3568818514007308,
+      "step": 64200
+    },
+    {
+      "epoch": 10.46,
+      "learning_rate": 5.836188611519008e-05,
+      "loss": NaN,
+      "step": 64300
+    },
+    {
+      "epoch": 10.46,
+      "eval_loss": 0.4754991829395294,
+      "eval_runtime": 10.3787,
+      "eval_samples_per_second": 9.635,
+      "eval_wer": 0.3800243605359318,
+      "step": 64300
+    },
+    {
+      "epoch": 10.47,
+      "learning_rate": 5.829662261380323e-05,
+      "loss": NaN,
+      "step": 64400
+    },
+    {
+      "epoch": 10.47,
+      "eval_loss": 0.44975659251213074,
+      "eval_runtime": 8.6363,
+      "eval_samples_per_second": 11.579,
+      "eval_wer": 0.37393422655298414,
+      "step": 64400
+    },
+    {
+      "epoch": 10.49,
+      "learning_rate": 5.8231359112416384e-05,
+      "loss": NaN,
+      "step": 64500
+    },
+    {
+      "epoch": 10.49,
+      "eval_loss": 0.4558520019054413,
+      "eval_runtime": 8.2941,
+      "eval_samples_per_second": 12.057,
+      "eval_wer": 0.37271619975639464,
+      "step": 64500
+    },
+    {
+      "epoch": 10.51,
+      "learning_rate": 5.8166095611029536e-05,
+      "loss": NaN,
+      "step": 64600
+    },
+    {
+      "epoch": 10.51,
+      "eval_loss": 0.40871143341064453,
+      "eval_runtime": 8.7219,
+      "eval_samples_per_second": 11.465,
+      "eval_wer": 0.3556638246041413,
+      "step": 64600
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 5.810083210964269e-05,
+      "loss": NaN,
+      "step": 64700
+    },
+    {
+      "epoch": 10.52,
+      "eval_loss": 0.5071795582771301,
+      "eval_runtime": 8.6766,
+      "eval_samples_per_second": 11.525,
+      "eval_wer": 0.3848964677222899,
+      "step": 64700
+    },
+    {
+      "epoch": 10.54,
+      "learning_rate": 5.803556860825583e-05,
+      "loss": NaN,
+      "step": 64800
+    },
+    {
+      "epoch": 10.54,
+      "eval_loss": 0.4381246864795685,
+      "eval_runtime": 7.7019,
+      "eval_samples_per_second": 12.984,
+      "eval_wer": 0.364190012180268,
+      "step": 64800
+    },
+    {
+      "epoch": 10.55,
+      "learning_rate": 5.7970305106868985e-05,
+      "loss": NaN,
+      "step": 64900
+    },
+    {
+      "epoch": 10.55,
+      "eval_loss": 0.42241111397743225,
+      "eval_runtime": 6.9119,
+      "eval_samples_per_second": 14.468,
+      "eval_wer": 0.3520097442143727,
+      "step": 64900
+    },
+    {
+      "epoch": 10.57,
+      "learning_rate": 5.790504160548214e-05,
+      "loss": NaN,
+      "step": 65000
+    },
+    {
+      "epoch": 10.57,
+      "eval_loss": 0.44368839263916016,
+      "eval_runtime": 8.9514,
+      "eval_samples_per_second": 11.171,
+      "eval_wer": 0.37393422655298414,
+      "step": 65000
+    },
+    {
+      "epoch": 10.59,
+      "learning_rate": 5.783977810409529e-05,
+      "loss": NaN,
+      "step": 65100
+    },
+    {
+      "epoch": 10.59,
+      "eval_loss": 0.4559805393218994,
+      "eval_runtime": 9.0066,
+      "eval_samples_per_second": 11.103,
+      "eval_wer": 0.3702801461632156,
+      "step": 65100
+    },
+    {
+      "epoch": 10.6,
+      "learning_rate": 5.777451460270844e-05,
+      "loss": NaN,
+      "step": 65200
+    },
+    {
+      "epoch": 10.6,
+      "eval_loss": 0.3956843912601471,
+      "eval_runtime": 8.016,
+      "eval_samples_per_second": 12.475,
+      "eval_wer": 0.3800243605359318,
+      "step": 65200
+    },
+    {
+      "epoch": 10.62,
+      "learning_rate": 5.770925110132159e-05,
+      "loss": NaN,
+      "step": 65300
+    },
+    {
+      "epoch": 10.62,
+      "eval_loss": 0.3806883990764618,
+      "eval_runtime": 6.54,
+      "eval_samples_per_second": 15.291,
+      "eval_wer": 0.3568818514007308,
+      "step": 65300
+    },
+    {
+      "epoch": 10.64,
+      "learning_rate": 5.764398759993474e-05,
+      "loss": NaN,
+      "step": 65400
+    },
+    {
+      "epoch": 10.64,
+      "eval_loss": 0.4815838634967804,
+      "eval_runtime": 8.6182,
+      "eval_samples_per_second": 11.603,
+      "eval_wer": 0.37758830694275275,
+      "step": 65400
+    },
+    {
+      "epoch": 10.65,
+      "learning_rate": 5.757872409854789e-05,
+      "loss": NaN,
+      "step": 65500
+    },
+    {
+      "epoch": 10.65,
+      "eval_loss": 0.42734912037849426,
+      "eval_runtime": 7.7612,
+      "eval_samples_per_second": 12.885,
+      "eval_wer": 0.3702801461632156,
+      "step": 65500
+    },
+    {
+      "epoch": 10.67,
+      "learning_rate": 5.751346059716104e-05,
+      "loss": NaN,
+      "step": 65600
+    },
+    {
+      "epoch": 10.67,
+      "eval_loss": 0.453123539686203,
+      "eval_runtime": 8.3059,
+      "eval_samples_per_second": 12.04,
+      "eval_wer": 0.3861144945188794,
+      "step": 65600
+    },
+    {
+      "epoch": 10.68,
+      "learning_rate": 5.744819709577419e-05,
+      "loss": NaN,
+      "step": 65700
+    },
+    {
+      "epoch": 10.68,
+      "eval_loss": 0.47986891865730286,
+      "eval_runtime": 8.2303,
+      "eval_samples_per_second": 12.15,
+      "eval_wer": 0.3763702801461632,
+      "step": 65700
+    },
+    {
+      "epoch": 10.7,
+      "learning_rate": 5.7382933594387345e-05,
+      "loss": NaN,
+      "step": 65800
+    },
+    {
+      "epoch": 10.7,
+      "eval_loss": 0.3873835802078247,
+      "eval_runtime": 7.8326,
+      "eval_samples_per_second": 12.767,
+      "eval_wer": 0.3568818514007308,
+      "step": 65800
+    },
+    {
+      "epoch": 10.72,
+      "learning_rate": 5.73176700930005e-05,
+      "loss": NaN,
+      "step": 65900
+    },
+    {
+      "epoch": 10.72,
+      "eval_loss": 0.41347476840019226,
+      "eval_runtime": 10.5146,
+      "eval_samples_per_second": 9.511,
+      "eval_wer": 0.36784409257003653,
+      "step": 65900
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 5.7252406591613636e-05,
+      "loss": NaN,
+      "step": 66000
+    },
+    {
+      "epoch": 10.73,
+      "eval_loss": 0.39395031332969666,
+      "eval_runtime": 7.1626,
+      "eval_samples_per_second": 13.961,
+      "eval_wer": 0.3629719853836784,
+      "step": 66000
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 5.7187143090226794e-05,
+      "loss": NaN,
+      "step": 66100
+    },
+    {
+      "epoch": 10.75,
+      "eval_loss": 0.38374292850494385,
+      "eval_runtime": 8.2206,
+      "eval_samples_per_second": 12.165,
+      "eval_wer": 0.3690621193666261,
+      "step": 66100
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 5.7121879588839946e-05,
+      "loss": NaN,
+      "step": 66200
+    },
+    {
+      "epoch": 10.77,
+      "eval_loss": 0.4342725872993469,
+      "eval_runtime": 8.1692,
+      "eval_samples_per_second": 12.241,
+      "eval_wer": 0.37149817295980514,
+      "step": 66200
+    },
+    {
+      "epoch": 10.78,
+      "learning_rate": 5.70566160874531e-05,
+      "loss": NaN,
+      "step": 66300
+    },
+    {
+      "epoch": 10.78,
+      "eval_loss": 0.4155646562576294,
+      "eval_runtime": 6.8934,
+      "eval_samples_per_second": 14.507,
+      "eval_wer": 0.3690621193666261,
+      "step": 66300
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 5.699135258606625e-05,
+      "loss": NaN,
+      "step": 66400
+    },
+    {
+      "epoch": 10.8,
+      "eval_loss": 0.410979300737381,
+      "eval_runtime": 7.7957,
+      "eval_samples_per_second": 12.828,
+      "eval_wer": 0.37149817295980514,
+      "step": 66400
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 5.692608908467939e-05,
+      "loss": NaN,
+      "step": 66500
+    },
+    {
+      "epoch": 10.81,
+      "eval_loss": 0.3924597203731537,
+      "eval_runtime": 7.8199,
+      "eval_samples_per_second": 12.788,
+      "eval_wer": 0.3702801461632156,
+      "step": 66500
+    },
+    {
+      "epoch": 10.83,
+      "learning_rate": 5.686082558329254e-05,
+      "loss": NaN,
+      "step": 66600
+    },
+    {
+      "epoch": 10.83,
+      "eval_loss": 0.4514992833137512,
+      "eval_runtime": 8.7106,
+      "eval_samples_per_second": 11.48,
+      "eval_wer": 0.3763702801461632,
+      "step": 66600
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 5.679556208190569e-05,
+      "loss": NaN,
+      "step": 66700
+    },
+    {
+      "epoch": 10.85,
+      "eval_loss": 0.46335548162460327,
+      "eval_runtime": 6.7296,
+      "eval_samples_per_second": 14.86,
+      "eval_wer": 0.37271619975639464,
+      "step": 66700
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 5.673029858051885e-05,
+      "loss": NaN,
+      "step": 66800
+    },
+    {
+      "epoch": 10.86,
+      "eval_loss": 0.48735862970352173,
+      "eval_runtime": 8.529,
+      "eval_samples_per_second": 11.725,
+      "eval_wer": 0.38367844092570036,
+      "step": 66800
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 5.6665035079132e-05,
+      "loss": NaN,
+      "step": 66900
+    },
+    {
+      "epoch": 10.88,
+      "eval_loss": 0.4417389929294586,
+      "eval_runtime": 8.1548,
+      "eval_samples_per_second": 12.263,
+      "eval_wer": 0.364190012180268,
+      "step": 66900
+    },
+    {
+      "epoch": 10.9,
+      "learning_rate": 5.6599771577745155e-05,
+      "loss": NaN,
+      "step": 67000
+    },
+    {
+      "epoch": 10.9,
+      "eval_loss": 0.38281384110450745,
+      "eval_runtime": 7.2321,
+      "eval_samples_per_second": 13.827,
+      "eval_wer": 0.34957369062119364,
+      "step": 67000
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 5.653450807635829e-05,
+      "loss": NaN,
+      "step": 67100
+    },
+    {
+      "epoch": 10.91,
+      "eval_loss": 0.4453480839729309,
+      "eval_runtime": 9.8708,
+      "eval_samples_per_second": 10.131,
+      "eval_wer": 0.37149817295980514,
+      "step": 67100
+    },
+    {
+      "epoch": 10.93,
+      "learning_rate": 5.6469244574971445e-05,
+      "loss": NaN,
+      "step": 67200
+    },
+    {
+      "epoch": 10.93,
+      "eval_loss": 0.43574249744415283,
+      "eval_runtime": 6.7934,
+      "eval_samples_per_second": 14.72,
+      "eval_wer": 0.3654080389768575,
+      "step": 67200
+    },
+    {
+      "epoch": 10.94,
+      "learning_rate": 5.64039810735846e-05,
+      "loss": NaN,
+      "step": 67300
+    },
+    {
+      "epoch": 10.94,
+      "eval_loss": 0.4049379825592041,
+      "eval_runtime": 7.1607,
+      "eval_samples_per_second": 13.965,
+      "eval_wer": 0.35931790499390986,
+      "step": 67300
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 5.6338717572197756e-05,
+      "loss": NaN,
+      "step": 67400
+    },
+    {
+      "epoch": 10.96,
+      "eval_loss": 0.40730178356170654,
+      "eval_runtime": 8.7286,
+      "eval_samples_per_second": 11.457,
+      "eval_wer": 0.36784409257003653,
+      "step": 67400
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 5.627345407081091e-05,
+      "loss": NaN,
+      "step": 67500
+    },
+    {
+      "epoch": 10.98,
+      "eval_loss": 0.42172133922576904,
+      "eval_runtime": 7.5099,
+      "eval_samples_per_second": 13.316,
+      "eval_wer": 0.3617539585870889,
+      "step": 67500
+    },
+    {
+      "epoch": 10.99,
+      "learning_rate": 5.620819056942406e-05,
+      "loss": NaN,
+      "step": 67600
+    },
+    {
+      "epoch": 10.99,
+      "eval_loss": 0.4412268400192261,
+      "eval_runtime": 8.7502,
+      "eval_samples_per_second": 11.428,
+      "eval_wer": 0.3848964677222899,
+      "step": 67600
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 5.61429270680372e-05,
+      "loss": NaN,
+      "step": 67700
+    },
+    {
+      "epoch": 11.01,
+      "eval_loss": 0.4201769232749939,
+      "eval_runtime": 9.2704,
+      "eval_samples_per_second": 10.787,
+      "eval_wer": 0.364190012180268,
+      "step": 67700
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 5.607766356665035e-05,
+      "loss": NaN,
+      "step": 67800
+    },
+    {
+      "epoch": 11.03,
+      "eval_loss": 0.418453574180603,
+      "eval_runtime": 8.1205,
+      "eval_samples_per_second": 12.315,
+      "eval_wer": 0.37758830694275275,
+      "step": 67800
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 5.60124000652635e-05,
+      "loss": NaN,
+      "step": 67900
+    },
+    {
+      "epoch": 11.04,
+      "eval_loss": 0.4066586196422577,
+      "eval_runtime": 7.045,
+      "eval_samples_per_second": 14.194,
+      "eval_wer": 0.36053593179049936,
+      "step": 67900
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 5.5947136563876653e-05,
+      "loss": NaN,
+      "step": 68000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.43720924854278564,
+      "eval_runtime": 8.1791,
+      "eval_samples_per_second": 12.226,
+      "eval_wer": 0.3800243605359318,
+      "step": 68000
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 5.588187306248981e-05,
+      "loss": NaN,
+      "step": 68100
+    },
+    {
+      "epoch": 11.07,
+      "eval_loss": 0.40105950832366943,
+      "eval_runtime": 9.6195,
+      "eval_samples_per_second": 10.396,
+      "eval_wer": 0.37880633373934225,
+      "step": 68100
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 5.581660956110295e-05,
+      "loss": NaN,
+      "step": 68200
+    },
+    {
+      "epoch": 11.09,
+      "eval_loss": 0.365195631980896,
+      "eval_runtime": 6.5706,
+      "eval_samples_per_second": 15.219,
+      "eval_wer": 0.3447015834348356,
+      "step": 68200
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 5.57513460597161e-05,
+      "loss": NaN,
+      "step": 68300
+    },
+    {
+      "epoch": 11.11,
+      "eval_loss": 0.4046388268470764,
+      "eval_runtime": 8.1044,
+      "eval_samples_per_second": 12.339,
+      "eval_wer": 0.3617539585870889,
+      "step": 68300
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 5.5686082558329254e-05,
+      "loss": NaN,
+      "step": 68400
+    },
+    {
+      "epoch": 11.12,
+      "eval_loss": 0.39111071825027466,
+      "eval_runtime": 6.8887,
+      "eval_samples_per_second": 14.517,
+      "eval_wer": 0.35931790499390986,
+      "step": 68400
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 5.5620819056942406e-05,
+      "loss": NaN,
+      "step": 68500
+    },
+    {
+      "epoch": 11.14,
+      "eval_loss": 0.4509762227535248,
+      "eval_runtime": 8.7816,
+      "eval_samples_per_second": 11.388,
+      "eval_wer": 0.36053593179049936,
+      "step": 68500
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": NaN,
+      "step": 68600
+    },
+    {
+      "epoch": 11.16,
+      "eval_loss": 0.43242478370666504,
+      "eval_runtime": 9.8683,
+      "eval_samples_per_second": 10.133,
+      "eval_wer": 0.37271619975639464,
+      "step": 68600
+    },
+    {
+      "epoch": 11.17,
+      "learning_rate": 5.549029205416871e-05,
+      "loss": NaN,
+      "step": 68700
+    },
+    {
+      "epoch": 11.17,
+      "eval_loss": 0.3907853364944458,
+      "eval_runtime": 7.1506,
+      "eval_samples_per_second": 13.985,
+      "eval_wer": 0.3617539585870889,
+      "step": 68700
+    },
+    {
+      "epoch": 11.19,
+      "learning_rate": 5.5425028552781855e-05,
+      "loss": NaN,
+      "step": 68800
+    },
+    {
+      "epoch": 11.19,
+      "eval_loss": 0.5252321362495422,
+      "eval_runtime": 7.5772,
+      "eval_samples_per_second": 13.197,
+      "eval_wer": 0.3751522533495737,
+      "step": 68800
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 5.535976505139501e-05,
+      "loss": NaN,
+      "step": 68900
+    },
+    {
+      "epoch": 11.21,
+      "eval_loss": 0.3976127505302429,
+      "eval_runtime": 8.8027,
+      "eval_samples_per_second": 11.36,
+      "eval_wer": 0.35809987819732036,
+      "step": 68900
+    },
+    {
+      "epoch": 11.22,
+      "learning_rate": 5.529450155000816e-05,
+      "loss": NaN,
+      "step": 69000
+    },
+    {
+      "epoch": 11.22,
+      "eval_loss": 0.3901364505290985,
+      "eval_runtime": 7.7268,
+      "eval_samples_per_second": 12.942,
+      "eval_wer": 0.364190012180268,
+      "step": 69000
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 5.522923804862131e-05,
+      "loss": NaN,
+      "step": 69100
+    },
+    {
+      "epoch": 11.24,
+      "eval_loss": 0.42438361048698425,
+      "eval_runtime": 7.1569,
+      "eval_samples_per_second": 13.972,
+      "eval_wer": 0.3751522533495737,
+      "step": 69100
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 5.516397454723446e-05,
+      "loss": NaN,
+      "step": 69200
+    },
+    {
+      "epoch": 11.25,
+      "eval_loss": 0.4562244415283203,
+      "eval_runtime": 8.5825,
+      "eval_samples_per_second": 11.652,
+      "eval_wer": 0.3800243605359318,
+      "step": 69200
+    },
+    {
+      "epoch": 11.27,
+      "learning_rate": 5.5098711045847615e-05,
+      "loss": NaN,
+      "step": 69300
+    },
+    {
+      "epoch": 11.27,
+      "eval_loss": 0.4827350974082947,
+      "eval_runtime": 7.0866,
+      "eval_samples_per_second": 14.111,
+      "eval_wer": 0.37149817295980514,
+      "step": 69300
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 5.503344754446076e-05,
+      "loss": NaN,
+      "step": 69400
+    },
+    {
+      "epoch": 11.29,
+      "eval_loss": 0.43090012669563293,
+      "eval_runtime": 7.5916,
+      "eval_samples_per_second": 13.172,
+      "eval_wer": 0.36784409257003653,
+      "step": 69400
+    },
+    {
+      "epoch": 11.3,
+      "learning_rate": 5.496818404307391e-05,
+      "loss": NaN,
+      "step": 69500
+    },
+    {
+      "epoch": 11.3,
+      "eval_loss": 0.42443668842315674,
+      "eval_runtime": 8.0483,
+      "eval_samples_per_second": 12.425,
+      "eval_wer": 0.36053593179049936,
+      "step": 69500
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 5.4902920541687064e-05,
+      "loss": NaN,
+      "step": 69600
+    },
+    {
+      "epoch": 11.32,
+      "eval_loss": 0.42483994364738464,
+      "eval_runtime": 8.6393,
+      "eval_samples_per_second": 11.575,
+      "eval_wer": 0.37880633373934225,
+      "step": 69600
+    },
+    {
+      "epoch": 11.34,
+      "learning_rate": 5.4837657040300216e-05,
+      "loss": NaN,
+      "step": 69700
+    },
+    {
+      "epoch": 11.34,
+      "eval_loss": 0.47487872838974,
+      "eval_runtime": 7.5637,
+      "eval_samples_per_second": 13.221,
+      "eval_wer": 0.37149817295980514,
+      "step": 69700
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 5.477239353891337e-05,
+      "loss": NaN,
+      "step": 69800
+    },
+    {
+      "epoch": 11.35,
+      "eval_loss": 0.4218917191028595,
+      "eval_runtime": 9.9857,
+      "eval_samples_per_second": 10.014,
+      "eval_wer": 0.3995127892813642,
+      "step": 69800
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 5.470713003752651e-05,
+      "loss": NaN,
+      "step": 69900
+    },
+    {
+      "epoch": 11.37,
+      "eval_loss": 0.4314954876899719,
+      "eval_runtime": 9.0835,
+      "eval_samples_per_second": 11.009,
+      "eval_wer": 0.3751522533495737,
+      "step": 69900
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 5.4641866536139665e-05,
+      "loss": NaN,
+      "step": 70000
+    },
+    {
+      "epoch": 11.38,
+      "eval_loss": 0.38264960050582886,
+      "eval_runtime": 8.6353,
+      "eval_samples_per_second": 11.58,
+      "eval_wer": 0.3751522533495737,
+      "step": 70000
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 5.457660303475282e-05,
+      "loss": NaN,
+      "step": 70100
+    },
+    {
+      "epoch": 11.4,
+      "eval_loss": 0.3891557455062866,
+      "eval_runtime": 8.2828,
+      "eval_samples_per_second": 12.073,
+      "eval_wer": 0.3812423873325213,
+      "step": 70100
+    },
+    {
+      "epoch": 11.42,
+      "learning_rate": 5.451133953336597e-05,
+      "loss": NaN,
+      "step": 70200
+    },
+    {
+      "epoch": 11.42,
+      "eval_loss": 0.4659789800643921,
+      "eval_runtime": 7.9385,
+      "eval_samples_per_second": 12.597,
+      "eval_wer": 0.37758830694275275,
+      "step": 70200
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 5.444607603197912e-05,
+      "loss": NaN,
+      "step": 70300
+    },
+    {
+      "epoch": 11.43,
+      "eval_loss": 0.4575248062610626,
+      "eval_runtime": 7.6225,
+      "eval_samples_per_second": 13.119,
+      "eval_wer": 0.3702801461632156,
+      "step": 70300
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 5.438081253059227e-05,
+      "loss": NaN,
+      "step": 70400
+    },
+    {
+      "epoch": 11.45,
+      "eval_loss": 0.4173835515975952,
+      "eval_runtime": 7.9279,
+      "eval_samples_per_second": 12.614,
+      "eval_wer": 0.36053593179049936,
+      "step": 70400
+    },
+    {
+      "epoch": 11.47,
+      "learning_rate": 5.431554902920542e-05,
+      "loss": NaN,
+      "step": 70500
+    },
+    {
+      "epoch": 11.47,
+      "eval_loss": 0.4074372947216034,
+      "eval_runtime": 8.2601,
+      "eval_samples_per_second": 12.106,
+      "eval_wer": 0.3556638246041413,
+      "step": 70500
+    },
+    {
+      "epoch": 11.48,
+      "learning_rate": 5.425028552781857e-05,
+      "loss": NaN,
+      "step": 70600
+    },
+    {
+      "epoch": 11.48,
+      "eval_loss": 0.4152701497077942,
+      "eval_runtime": 8.2546,
+      "eval_samples_per_second": 12.114,
+      "eval_wer": 0.3617539585870889,
+      "step": 70600
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 5.418502202643172e-05,
+      "loss": NaN,
+      "step": 70700
+    },
+    {
+      "epoch": 11.5,
+      "eval_loss": 0.422438383102417,
+      "eval_runtime": 7.4806,
+      "eval_samples_per_second": 13.368,
+      "eval_wer": 0.3556638246041413,
+      "step": 70700
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 5.411975852504487e-05,
+      "loss": NaN,
+      "step": 70800
+    },
+    {
+      "epoch": 11.51,
+      "eval_loss": 0.40204957127571106,
+      "eval_runtime": 8.0201,
+      "eval_samples_per_second": 12.469,
+      "eval_wer": 0.3654080389768575,
+      "step": 70800
+    },
+    {
+      "epoch": 11.53,
+      "learning_rate": 5.4054495023658025e-05,
+      "loss": NaN,
+      "step": 70900
+    },
+    {
+      "epoch": 11.53,
+      "eval_loss": 0.4267421066761017,
+      "eval_runtime": 8.9633,
+      "eval_samples_per_second": 11.157,
+      "eval_wer": 0.36053593179049936,
+      "step": 70900
+    },
+    {
+      "epoch": 11.55,
+      "learning_rate": 5.398923152227118e-05,
+      "loss": NaN,
+      "step": 71000
+    },
+    {
+      "epoch": 11.55,
+      "eval_loss": 0.4199873208999634,
+      "eval_runtime": 8.0756,
+      "eval_samples_per_second": 12.383,
+      "eval_wer": 0.3617539585870889,
+      "step": 71000
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 5.392396802088432e-05,
+      "loss": NaN,
+      "step": 71100
+    },
+    {
+      "epoch": 11.56,
+      "eval_loss": 0.4814501702785492,
+      "eval_runtime": 8.2177,
+      "eval_samples_per_second": 12.169,
+      "eval_wer": 0.3690621193666261,
+      "step": 71100
+    },
+    {
+      "epoch": 11.58,
+      "learning_rate": 5.3858704519497474e-05,
+      "loss": NaN,
+      "step": 71200
+    },
+    {
+      "epoch": 11.58,
+      "eval_loss": 0.4721526801586151,
+      "eval_runtime": 9.4886,
+      "eval_samples_per_second": 10.539,
+      "eval_wer": 0.36784409257003653,
+      "step": 71200
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 5.3793441018110626e-05,
+      "loss": NaN,
+      "step": 71300
+    },
+    {
+      "epoch": 11.6,
+      "eval_loss": 0.41694724559783936,
+      "eval_runtime": 8.7547,
+      "eval_samples_per_second": 11.422,
+      "eval_wer": 0.3556638246041413,
+      "step": 71300
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 5.372817751672378e-05,
+      "loss": NaN,
+      "step": 71400
+    },
+    {
+      "epoch": 11.61,
+      "eval_loss": 0.43105384707450867,
+      "eval_runtime": 8.4226,
+      "eval_samples_per_second": 11.873,
+      "eval_wer": 0.35322777101096225,
+      "step": 71400
+    },
+    {
+      "epoch": 11.63,
+      "learning_rate": 5.366291401533693e-05,
+      "loss": NaN,
+      "step": 71500
+    },
+    {
+      "epoch": 11.63,
+      "eval_loss": 0.43795666098594666,
+      "eval_runtime": 7.2699,
+      "eval_samples_per_second": 13.755,
+      "eval_wer": 0.36784409257003653,
+      "step": 71500
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 5.359765051395007e-05,
+      "loss": NaN,
+      "step": 71600
+    },
+    {
+      "epoch": 11.64,
+      "eval_loss": 0.4947461783885956,
+      "eval_runtime": 7.7101,
+      "eval_samples_per_second": 12.97,
+      "eval_wer": 0.36662606577344703,
+      "step": 71600
+    },
+    {
+      "epoch": 11.66,
+      "learning_rate": 5.353238701256322e-05,
+      "loss": NaN,
+      "step": 71700
+    },
+    {
+      "epoch": 11.66,
+      "eval_loss": 0.4540432095527649,
+      "eval_runtime": 6.9467,
+      "eval_samples_per_second": 14.395,
+      "eval_wer": 0.35931790499390986,
+      "step": 71700
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 5.346712351117638e-05,
+      "loss": NaN,
+      "step": 71800
+    },
+    {
+      "epoch": 11.68,
+      "eval_loss": 0.3812675476074219,
+      "eval_runtime": 7.2252,
+      "eval_samples_per_second": 13.84,
+      "eval_wer": 0.3471376370280146,
+      "step": 71800
+    },
+    {
+      "epoch": 11.69,
+      "learning_rate": 5.340186000978953e-05,
+      "loss": NaN,
+      "step": 71900
+    },
+    {
+      "epoch": 11.69,
+      "eval_loss": 0.3847273290157318,
+      "eval_runtime": 7.6934,
+      "eval_samples_per_second": 12.998,
+      "eval_wer": 0.3568818514007308,
+      "step": 71900
+    },
+    {
+      "epoch": 11.71,
+      "learning_rate": 5.333659650840268e-05,
+      "loss": NaN,
+      "step": 72000
+    },
+    {
+      "epoch": 11.71,
+      "eval_loss": 0.4283711910247803,
+      "eval_runtime": 8.7201,
+      "eval_samples_per_second": 11.468,
+      "eval_wer": 0.3751522533495737,
+      "step": 72000
+    },
+    {
+      "epoch": 11.73,
+      "learning_rate": 5.3271333007015835e-05,
+      "loss": NaN,
+      "step": 72100
+    },
+    {
+      "epoch": 11.73,
+      "eval_loss": 0.4184917211532593,
+      "eval_runtime": 7.324,
+      "eval_samples_per_second": 13.654,
+      "eval_wer": 0.3568818514007308,
+      "step": 72100
+    },
+    {
+      "epoch": 11.74,
+      "learning_rate": 5.320606950562897e-05,
+      "loss": NaN,
+      "step": 72200
+    },
+    {
+      "epoch": 11.74,
+      "eval_loss": 0.4423336088657379,
+      "eval_runtime": 8.1944,
+      "eval_samples_per_second": 12.203,
+      "eval_wer": 0.37758830694275275,
+      "step": 72200
+    },
+    {
+      "epoch": 11.76,
+      "learning_rate": 5.3140806004242125e-05,
+      "loss": NaN,
+      "step": 72300
+    },
+    {
+      "epoch": 11.76,
+      "eval_loss": 0.3999084234237671,
+      "eval_runtime": 8.6145,
+      "eval_samples_per_second": 11.608,
+      "eval_wer": 0.36053593179049936,
+      "step": 72300
+    },
+    {
+      "epoch": 11.77,
+      "learning_rate": 5.307554250285528e-05,
+      "loss": NaN,
+      "step": 72400
+    },
+    {
+      "epoch": 11.77,
+      "eval_loss": 0.428960919380188,
+      "eval_runtime": 7.2399,
+      "eval_samples_per_second": 13.812,
+      "eval_wer": 0.36053593179049936,
+      "step": 72400
+    },
+    {
+      "epoch": 11.79,
+      "learning_rate": 5.3010279001468436e-05,
+      "loss": NaN,
+      "step": 72500
+    },
+    {
+      "epoch": 11.79,
+      "eval_loss": 0.3995371162891388,
+      "eval_runtime": 7.3237,
+      "eval_samples_per_second": 13.654,
+      "eval_wer": 0.35322777101096225,
+      "step": 72500
+    },
+    {
+      "epoch": 11.81,
+      "learning_rate": 5.294501550008159e-05,
+      "loss": NaN,
+      "step": 72600
+    },
+    {
+      "epoch": 11.81,
+      "eval_loss": 0.3626769185066223,
+      "eval_runtime": 8.6716,
+      "eval_samples_per_second": 11.532,
+      "eval_wer": 0.35322777101096225,
+      "step": 72600
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 5.287975199869474e-05,
+      "loss": NaN,
+      "step": 72700
+    },
+    {
+      "epoch": 11.82,
+      "eval_loss": 0.4408608675003052,
+      "eval_runtime": 8.3313,
+      "eval_samples_per_second": 12.003,
+      "eval_wer": 0.38976857490864797,
+      "step": 72700
+    },
+    {
+      "epoch": 11.84,
+      "learning_rate": 5.281448849730788e-05,
+      "loss": NaN,
+      "step": 72800
+    },
+    {
+      "epoch": 11.84,
+      "eval_loss": 0.39294520020484924,
+      "eval_runtime": 9.9612,
+      "eval_samples_per_second": 10.039,
+      "eval_wer": 0.36784409257003653,
+      "step": 72800
+    },
+    {
+      "epoch": 11.86,
+      "learning_rate": 5.274922499592103e-05,
+      "loss": NaN,
+      "step": 72900
+    },
+    {
+      "epoch": 11.86,
+      "eval_loss": 0.4848403036594391,
+      "eval_runtime": 7.6218,
+      "eval_samples_per_second": 13.12,
+      "eval_wer": 0.37149817295980514,
+      "step": 72900
+    },
+    {
+      "epoch": 11.87,
+      "learning_rate": 5.268396149453418e-05,
+      "loss": NaN,
+      "step": 73000
+    },
+    {
+      "epoch": 11.87,
+      "eval_loss": 0.41433045268058777,
+      "eval_runtime": 8.3506,
+      "eval_samples_per_second": 11.975,
+      "eval_wer": 0.37271619975639464,
+      "step": 73000
+    },
+    {
+      "epoch": 11.89,
+      "learning_rate": 5.2618697993147333e-05,
+      "loss": NaN,
+      "step": 73100
+    },
+    {
+      "epoch": 11.89,
+      "eval_loss": 0.38409173488616943,
+      "eval_runtime": 7.2038,
+      "eval_samples_per_second": 13.881,
+      "eval_wer": 0.35444579780755175,
+      "step": 73100
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 5.255343449176049e-05,
+      "loss": NaN,
+      "step": 73200
+    },
+    {
+      "epoch": 11.9,
+      "eval_loss": 0.4268048405647278,
+      "eval_runtime": 9.8281,
+      "eval_samples_per_second": 10.175,
+      "eval_wer": 0.38976857490864797,
+      "step": 73200
+    },
+    {
+      "epoch": 11.92,
+      "learning_rate": 5.248817099037363e-05,
+      "loss": NaN,
+      "step": 73300
+    },
+    {
+      "epoch": 11.92,
+      "eval_loss": 0.43448886275291443,
+      "eval_runtime": 7.4958,
+      "eval_samples_per_second": 13.341,
+      "eval_wer": 0.3556638246041413,
+      "step": 73300
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 5.242290748898678e-05,
+      "loss": NaN,
+      "step": 73400
+    },
+    {
+      "epoch": 11.94,
+      "eval_loss": 0.43121451139450073,
+      "eval_runtime": 9.4109,
+      "eval_samples_per_second": 10.626,
+      "eval_wer": 0.37880633373934225,
+      "step": 73400
+    },
+    {
+      "epoch": 11.95,
+      "learning_rate": 5.2357643987599934e-05,
+      "loss": NaN,
+      "step": 73500
+    },
+    {
+      "epoch": 11.95,
+      "eval_loss": 0.3783913552761078,
+      "eval_runtime": 7.8278,
+      "eval_samples_per_second": 12.775,
+      "eval_wer": 0.364190012180268,
+      "step": 73500
+    },
+    {
+      "epoch": 11.97,
+      "learning_rate": 5.2292380486213086e-05,
+      "loss": NaN,
+      "step": 73600
+    },
+    {
+      "epoch": 11.97,
+      "eval_loss": 0.4278438687324524,
+      "eval_runtime": 9.8748,
+      "eval_samples_per_second": 10.127,
+      "eval_wer": 0.32399512789281365,
+      "step": 73600
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 5.222711698482624e-05,
+      "loss": NaN,
+      "step": 73700
+    },
+    {
+      "epoch": 11.99,
+      "eval_loss": 0.3995451331138611,
+      "eval_runtime": 6.8971,
+      "eval_samples_per_second": 14.499,
+      "eval_wer": 0.3629719853836784,
+      "step": 73700
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 5.21618534834394e-05,
+      "loss": NaN,
+      "step": 73800
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.43313267827033997,
+      "eval_runtime": 6.688,
+      "eval_samples_per_second": 14.952,
+      "eval_wer": 0.36053593179049936,
+      "step": 73800
+    },
+    {
+      "epoch": 12.02,
+      "learning_rate": 5.2096589982052535e-05,
+      "loss": NaN,
+      "step": 73900
+    },
+    {
+      "epoch": 12.02,
+      "eval_loss": 0.3490147292613983,
+      "eval_runtime": 8.1685,
+      "eval_samples_per_second": 12.242,
+      "eval_wer": 0.3447015834348356,
+      "step": 73900
+    },
+    {
+      "epoch": 12.03,
+      "learning_rate": 5.203132648066569e-05,
+      "loss": NaN,
+      "step": 74000
+    },
+    {
+      "epoch": 12.03,
+      "eval_loss": 0.37458693981170654,
+      "eval_runtime": 8.6478,
+      "eval_samples_per_second": 11.564,
+      "eval_wer": 0.3520097442143727,
+      "step": 74000
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 5.196606297927884e-05,
+      "loss": NaN,
+      "step": 74100
+    },
+    {
+      "epoch": 12.05,
+      "eval_loss": 0.3997301459312439,
+      "eval_runtime": 9.0658,
+      "eval_samples_per_second": 11.031,
+      "eval_wer": 0.3617539585870889,
+      "step": 74100
+    },
+    {
+      "epoch": 12.07,
+      "learning_rate": 5.190079947789199e-05,
+      "loss": NaN,
+      "step": 74200
+    },
+    {
+      "epoch": 12.07,
+      "eval_loss": 0.4225488305091858,
+      "eval_runtime": 8.5571,
+      "eval_samples_per_second": 11.686,
+      "eval_wer": 0.364190012180268,
+      "step": 74200
+    },
+    {
+      "epoch": 12.08,
+      "learning_rate": 5.183553597650514e-05,
+      "loss": NaN,
+      "step": 74300
+    },
+    {
+      "epoch": 12.08,
+      "eval_loss": 0.4431927800178528,
+      "eval_runtime": 7.6665,
+      "eval_samples_per_second": 13.044,
+      "eval_wer": 0.34957369062119364,
+      "step": 74300
+    },
+    {
+      "epoch": 12.1,
+      "learning_rate": 5.1770272475118295e-05,
+      "loss": NaN,
+      "step": 74400
+    },
+    {
+      "epoch": 12.1,
+      "eval_loss": 0.39965328574180603,
+      "eval_runtime": 6.9617,
+      "eval_samples_per_second": 14.364,
+      "eval_wer": 0.36053593179049936,
+      "step": 74400
+    },
+    {
+      "epoch": 12.12,
+      "learning_rate": 5.170500897373144e-05,
+      "loss": NaN,
+      "step": 74500
+    },
+    {
+      "epoch": 12.12,
+      "eval_loss": 0.4133952260017395,
+      "eval_runtime": 10.1253,
+      "eval_samples_per_second": 9.876,
+      "eval_wer": 0.36053593179049936,
+      "step": 74500
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 5.163974547234459e-05,
+      "loss": NaN,
+      "step": 74600
+    },
+    {
+      "epoch": 12.13,
+      "eval_loss": 0.436084508895874,
+      "eval_runtime": 9.4077,
+      "eval_samples_per_second": 10.63,
+      "eval_wer": 0.35931790499390986,
+      "step": 74600
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 5.1574481970957744e-05,
+      "loss": NaN,
+      "step": 74700
+    },
+    {
+      "epoch": 12.15,
+      "eval_loss": 0.42807960510253906,
+      "eval_runtime": 8.0262,
+      "eval_samples_per_second": 12.459,
+      "eval_wer": 0.3520097442143727,
+      "step": 74700
+    },
+    {
+      "epoch": 12.16,
+      "learning_rate": 5.1509218469570896e-05,
+      "loss": NaN,
+      "step": 74800
+    },
+    {
+      "epoch": 12.16,
+      "eval_loss": 0.6679572463035583,
+      "eval_runtime": 9.4255,
+      "eval_samples_per_second": 10.61,
+      "eval_wer": 0.35444579780755175,
+      "step": 74800
+    },
+    {
+      "epoch": 12.18,
+      "learning_rate": 5.144395496818405e-05,
+      "loss": NaN,
+      "step": 74900
+    },
+    {
+      "epoch": 12.18,
+      "eval_loss": 0.3985752463340759,
+      "eval_runtime": 7.9339,
+      "eval_samples_per_second": 12.604,
+      "eval_wer": 0.35809987819732036,
+      "step": 74900
+    },
+    {
+      "epoch": 12.2,
+      "learning_rate": 5.137869146679719e-05,
+      "loss": NaN,
+      "step": 75000
+    },
+    {
+      "epoch": 12.2,
+      "eval_loss": 0.3972986936569214,
+      "eval_runtime": 9.0029,
+      "eval_samples_per_second": 11.108,
+      "eval_wer": 0.35322777101096225,
+      "step": 75000
+    },
+    {
+      "epoch": 12.21,
+      "learning_rate": 5.1313427965410345e-05,
+      "loss": NaN,
+      "step": 75100
+    },
+    {
+      "epoch": 12.21,
+      "eval_loss": 0.41875389218330383,
+      "eval_runtime": 7.5122,
+      "eval_samples_per_second": 13.312,
+      "eval_wer": 0.3556638246041413,
+      "step": 75100
+    },
+    {
+      "epoch": 12.23,
+      "learning_rate": 5.1248164464023497e-05,
+      "loss": NaN,
+      "step": 75200
+    },
+    {
+      "epoch": 12.23,
+      "eval_loss": 0.4159642159938812,
+      "eval_runtime": 7.1412,
+      "eval_samples_per_second": 14.003,
+      "eval_wer": 0.33617539585870887,
+      "step": 75200
+    },
+    {
+      "epoch": 12.25,
+      "learning_rate": 5.118290096263665e-05,
+      "loss": NaN,
+      "step": 75300
+    },
+    {
+      "epoch": 12.25,
+      "eval_loss": 0.44466495513916016,
+      "eval_runtime": 9.1084,
+      "eval_samples_per_second": 10.979,
+      "eval_wer": 0.34957369062119364,
+      "step": 75300
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 5.11176374612498e-05,
+      "loss": NaN,
+      "step": 75400
+    },
+    {
+      "epoch": 12.26,
+      "eval_loss": 0.45291373133659363,
+      "eval_runtime": 10.9268,
+      "eval_samples_per_second": 9.152,
+      "eval_wer": 0.3654080389768575,
+      "step": 75400
+    },
+    {
+      "epoch": 12.28,
+      "learning_rate": 5.105237395986295e-05,
+      "loss": NaN,
+      "step": 75500
+    },
+    {
+      "epoch": 12.28,
+      "eval_loss": 0.429513156414032,
+      "eval_runtime": 7.1347,
+      "eval_samples_per_second": 14.016,
+      "eval_wer": 0.3507917174177832,
+      "step": 75500
+    },
+    {
+      "epoch": 12.29,
+      "learning_rate": 5.09871104584761e-05,
+      "loss": NaN,
+      "step": 75600
+    },
+    {
+      "epoch": 12.29,
+      "eval_loss": 0.43607571721076965,
+      "eval_runtime": 8.106,
+      "eval_samples_per_second": 12.336,
+      "eval_wer": 0.36662606577344703,
+      "step": 75600
+    },
+    {
+      "epoch": 12.31,
+      "learning_rate": 5.092184695708925e-05,
+      "loss": NaN,
+      "step": 75700
+    },
+    {
+      "epoch": 12.31,
+      "eval_loss": 0.505099356174469,
+      "eval_runtime": 9.0741,
+      "eval_samples_per_second": 11.02,
+      "eval_wer": 0.36053593179049936,
+      "step": 75700
+    },
+    {
+      "epoch": 12.33,
+      "learning_rate": 5.08565834557024e-05,
+      "loss": NaN,
+      "step": 75800
+    },
+    {
+      "epoch": 12.33,
+      "eval_loss": 0.5338563919067383,
+      "eval_runtime": 9.1994,
+      "eval_samples_per_second": 10.87,
+      "eval_wer": 0.35322777101096225,
+      "step": 75800
+    },
+    {
+      "epoch": 12.34,
+      "learning_rate": 5.079131995431555e-05,
+      "loss": NaN,
+      "step": 75900
+    },
+    {
+      "epoch": 12.34,
+      "eval_loss": 0.43960484862327576,
+      "eval_runtime": 10.6506,
+      "eval_samples_per_second": 9.389,
+      "eval_wer": 0.364190012180268,
+      "step": 75900
+    },
+    {
+      "epoch": 12.36,
+      "learning_rate": 5.0726056452928705e-05,
+      "loss": NaN,
+      "step": 76000
+    },
+    {
+      "epoch": 12.36,
+      "eval_loss": 0.4200018644332886,
+      "eval_runtime": 8.4143,
+      "eval_samples_per_second": 11.885,
+      "eval_wer": 0.3459196102314251,
+      "step": 76000
+    },
+    {
+      "epoch": 12.38,
+      "learning_rate": 5.066079295154186e-05,
+      "loss": NaN,
+      "step": 76100
+    },
+    {
+      "epoch": 12.38,
+      "eval_loss": 0.44790372252464294,
+      "eval_runtime": 9.2667,
+      "eval_samples_per_second": 10.791,
+      "eval_wer": 0.36053593179049936,
+      "step": 76100
+    },
+    {
+      "epoch": 12.39,
+      "learning_rate": 5.0595529450155e-05,
+      "loss": NaN,
+      "step": 76200
+    },
+    {
+      "epoch": 12.39,
+      "eval_loss": 0.4088483154773712,
+      "eval_runtime": 9.4703,
+      "eval_samples_per_second": 10.559,
+      "eval_wer": 0.35809987819732036,
+      "step": 76200
+    },
+    {
+      "epoch": 12.41,
+      "learning_rate": 5.0530265948768154e-05,
+      "loss": NaN,
+      "step": 76300
+    },
+    {
+      "epoch": 12.41,
+      "eval_loss": 0.4267137944698334,
+      "eval_runtime": 8.6069,
+      "eval_samples_per_second": 11.619,
+      "eval_wer": 0.3763702801461632,
+      "step": 76300
+    },
+    {
+      "epoch": 12.42,
+      "learning_rate": 5.0465002447381306e-05,
+      "loss": NaN,
+      "step": 76400
+    },
+    {
+      "epoch": 12.42,
+      "eval_loss": 0.4056796133518219,
+      "eval_runtime": 7.7712,
+      "eval_samples_per_second": 12.868,
+      "eval_wer": 0.37149817295980514,
+      "step": 76400
+    },
+    {
+      "epoch": 12.44,
+      "learning_rate": 5.039973894599446e-05,
+      "loss": NaN,
+      "step": 76500
+    },
+    {
+      "epoch": 12.44,
+      "eval_loss": 0.3797760307788849,
+      "eval_runtime": 8.4756,
+      "eval_samples_per_second": 11.799,
+      "eval_wer": 0.341047503045067,
+      "step": 76500
+    },
+    {
+      "epoch": 12.46,
+      "learning_rate": 5.033447544460761e-05,
+      "loss": NaN,
+      "step": 76600
+    },
+    {
+      "epoch": 12.46,
+      "eval_loss": 0.3841753900051117,
+      "eval_runtime": 9.2622,
+      "eval_samples_per_second": 10.797,
+      "eval_wer": 0.3617539585870889,
+      "step": 76600
+    },
+    {
+      "epoch": 12.47,
+      "learning_rate": 5.026921194322075e-05,
+      "loss": NaN,
+      "step": 76700
+    },
+    {
+      "epoch": 12.47,
+      "eval_loss": 0.3942345380783081,
+      "eval_runtime": 7.1118,
+      "eval_samples_per_second": 14.061,
+      "eval_wer": 0.3459196102314251,
+      "step": 76700
+    },
+    {
+      "epoch": 12.49,
+      "learning_rate": 5.02039484418339e-05,
+      "loss": NaN,
+      "step": 76800
+    },
+    {
+      "epoch": 12.49,
+      "eval_loss": 0.4500068426132202,
+      "eval_runtime": 8.7652,
+      "eval_samples_per_second": 11.409,
+      "eval_wer": 0.36784409257003653,
+      "step": 76800
+    },
+    {
+      "epoch": 12.51,
+      "learning_rate": 5.013868494044706e-05,
+      "loss": NaN,
+      "step": 76900
+    },
+    {
+      "epoch": 12.51,
+      "eval_loss": 0.36947688460350037,
+      "eval_runtime": 7.5264,
+      "eval_samples_per_second": 13.286,
+      "eval_wer": 0.35322777101096225,
+      "step": 76900
+    },
+    {
+      "epoch": 12.52,
+      "learning_rate": 5.007342143906021e-05,
+      "loss": NaN,
+      "step": 77000
+    },
+    {
+      "epoch": 12.52,
+      "eval_loss": 0.4559879004955292,
+      "eval_runtime": 7.0948,
+      "eval_samples_per_second": 14.095,
+      "eval_wer": 0.36053593179049936,
+      "step": 77000
+    },
+    {
+      "epoch": 12.54,
+      "learning_rate": 5.000815793767336e-05,
+      "loss": NaN,
+      "step": 77100
+    },
+    {
+      "epoch": 12.54,
+      "eval_loss": 0.4029790759086609,
+      "eval_runtime": 8.456,
+      "eval_samples_per_second": 11.826,
+      "eval_wer": 0.34835566382460414,
+      "step": 77100
+    },
+    {
+      "epoch": 12.55,
+      "learning_rate": 4.994289443628651e-05,
+      "loss": NaN,
+      "step": 77200
+    },
+    {
+      "epoch": 12.55,
+      "eval_loss": 0.3982163369655609,
+      "eval_runtime": 7.6143,
+      "eval_samples_per_second": 13.133,
+      "eval_wer": 0.34226552984165654,
+      "step": 77200
+    },
+    {
+      "epoch": 12.57,
+      "learning_rate": 4.987763093489966e-05,
+      "loss": NaN,
+      "step": 77300
+    },
+    {
+      "epoch": 12.57,
+      "eval_loss": 0.5170900225639343,
+      "eval_runtime": 8.925,
+      "eval_samples_per_second": 11.204,
+      "eval_wer": 0.36784409257003653,
+      "step": 77300
+    },
+    {
+      "epoch": 12.59,
+      "learning_rate": 4.9812367433512805e-05,
+      "loss": NaN,
+      "step": 77400
+    },
+    {
+      "epoch": 12.59,
+      "eval_loss": 0.42326900362968445,
+      "eval_runtime": 8.9522,
+      "eval_samples_per_second": 11.17,
+      "eval_wer": 0.35931790499390986,
+      "step": 77400
+    },
+    {
+      "epoch": 12.6,
+      "learning_rate": 4.9747103932125964e-05,
+      "loss": NaN,
+      "step": 77500
+    },
+    {
+      "epoch": 12.6,
+      "eval_loss": 0.4721744656562805,
+      "eval_runtime": 9.3092,
+      "eval_samples_per_second": 10.742,
+      "eval_wer": 0.3763702801461632,
+      "step": 77500
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 4.9681840430739115e-05,
+      "loss": NaN,
+      "step": 77600
+    },
+    {
+      "epoch": 12.62,
+      "eval_loss": 0.40708309412002563,
+      "eval_runtime": 8.9646,
+      "eval_samples_per_second": 11.155,
+      "eval_wer": 0.36053593179049936,
+      "step": 77600
+    },
+    {
+      "epoch": 12.64,
+      "learning_rate": 4.961657692935226e-05,
+      "loss": NaN,
+      "step": 77700
+    },
+    {
+      "epoch": 12.64,
+      "eval_loss": 0.3885576128959656,
+      "eval_runtime": 6.9779,
+      "eval_samples_per_second": 14.331,
+      "eval_wer": 0.3471376370280146,
+      "step": 77700
+    },
+    {
+      "epoch": 12.65,
+      "learning_rate": 4.955131342796541e-05,
+      "loss": NaN,
+      "step": 77800
+    },
+    {
+      "epoch": 12.65,
+      "eval_loss": 0.39132988452911377,
+      "eval_runtime": 9.1207,
+      "eval_samples_per_second": 10.964,
+      "eval_wer": 0.33617539585870887,
+      "step": 77800
+    },
+    {
+      "epoch": 12.67,
+      "learning_rate": 4.9486049926578564e-05,
+      "loss": NaN,
+      "step": 77900
+    },
+    {
+      "epoch": 12.67,
+      "eval_loss": 0.40842190384864807,
+      "eval_runtime": 7.0913,
+      "eval_samples_per_second": 14.102,
+      "eval_wer": 0.35809987819732036,
+      "step": 77900
+    },
+    {
+      "epoch": 12.68,
+      "learning_rate": 4.942078642519171e-05,
+      "loss": NaN,
+      "step": 78000
+    },
+    {
+      "epoch": 12.68,
+      "eval_loss": 0.3725109398365021,
+      "eval_runtime": 7.7538,
+      "eval_samples_per_second": 12.897,
+      "eval_wer": 0.35809987819732036,
+      "step": 78000
+    },
+    {
+      "epoch": 12.7,
+      "learning_rate": 4.935552292380486e-05,
+      "loss": NaN,
+      "step": 78100
+    },
+    {
+      "epoch": 12.7,
+      "eval_loss": 0.5190932750701904,
+      "eval_runtime": 8.1388,
+      "eval_samples_per_second": 12.287,
+      "eval_wer": 0.34835566382460414,
+      "step": 78100
+    },
+    {
+      "epoch": 12.72,
+      "learning_rate": 4.929025942241802e-05,
+      "loss": NaN,
+      "step": 78200
+    },
+    {
+      "epoch": 12.72,
+      "eval_loss": 0.37530940771102905,
+      "eval_runtime": 7.1222,
+      "eval_samples_per_second": 14.041,
+      "eval_wer": 0.35322777101096225,
+      "step": 78200
+    },
+    {
+      "epoch": 12.73,
+      "learning_rate": 4.9224995921031165e-05,
+      "loss": NaN,
+      "step": 78300
+    },
+    {
+      "epoch": 12.73,
+      "eval_loss": 0.4114912748336792,
+      "eval_runtime": 7.8419,
+      "eval_samples_per_second": 12.752,
+      "eval_wer": 0.36053593179049936,
+      "step": 78300
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 4.915973241964432e-05,
+      "loss": NaN,
+      "step": 78400
+    },
+    {
+      "epoch": 12.75,
+      "eval_loss": 0.4053696095943451,
+      "eval_runtime": 6.6142,
+      "eval_samples_per_second": 15.119,
+      "eval_wer": 0.3507917174177832,
+      "step": 78400
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 4.909446891825747e-05,
+      "loss": NaN,
+      "step": 78500
+    },
+    {
+      "epoch": 12.77,
+      "eval_loss": 0.39146101474761963,
+      "eval_runtime": 9.407,
+      "eval_samples_per_second": 10.63,
+      "eval_wer": 0.3556638246041413,
+      "step": 78500
+    },
+    {
+      "epoch": 12.78,
+      "learning_rate": 4.9029205416870614e-05,
+      "loss": NaN,
+      "step": 78600
+    },
+    {
+      "epoch": 12.78,
+      "eval_loss": 0.40449854731559753,
+      "eval_runtime": 7.3375,
+      "eval_samples_per_second": 13.629,
+      "eval_wer": 0.3568818514007308,
+      "step": 78600
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 4.8963941915483766e-05,
+      "loss": NaN,
+      "step": 78700
+    },
+    {
+      "epoch": 12.8,
+      "eval_loss": 0.4020620584487915,
+      "eval_runtime": 10.3327,
+      "eval_samples_per_second": 9.678,
+      "eval_wer": 0.35809987819732036,
+      "step": 78700
+    },
+    {
+      "epoch": 12.82,
+      "learning_rate": 4.889867841409692e-05,
+      "loss": NaN,
+      "step": 78800
+    },
+    {
+      "epoch": 12.82,
+      "eval_loss": 0.39416953921318054,
+      "eval_runtime": 7.3981,
+      "eval_samples_per_second": 13.517,
+      "eval_wer": 0.3507917174177832,
+      "step": 78800
+    },
+    {
+      "epoch": 12.83,
+      "learning_rate": 4.883341491271007e-05,
+      "loss": NaN,
+      "step": 78900
+    },
+    {
+      "epoch": 12.83,
+      "eval_loss": 0.3987289369106293,
+      "eval_runtime": 8.9882,
+      "eval_samples_per_second": 11.126,
+      "eval_wer": 0.3507917174177832,
+      "step": 78900
+    },
+    {
+      "epoch": 12.85,
+      "learning_rate": 4.876815141132322e-05,
+      "loss": NaN,
+      "step": 79000
+    },
+    {
+      "epoch": 12.85,
+      "eval_loss": 0.3875060975551605,
+      "eval_runtime": 8.7165,
+      "eval_samples_per_second": 11.472,
+      "eval_wer": 0.35809987819732036,
+      "step": 79000
+    },
+    {
+      "epoch": 12.86,
+      "learning_rate": 4.870288790993637e-05,
+      "loss": NaN,
+      "step": 79100
+    },
+    {
+      "epoch": 12.86,
+      "eval_loss": 0.4113094210624695,
+      "eval_runtime": 9.2773,
+      "eval_samples_per_second": 10.779,
+      "eval_wer": 0.3702801461632156,
+      "step": 79100
+    },
+    {
+      "epoch": 12.88,
+      "learning_rate": 4.863762440854952e-05,
+      "loss": NaN,
+      "step": 79200
+    },
+    {
+      "epoch": 12.88,
+      "eval_loss": 0.4063952565193176,
+      "eval_runtime": 8.6562,
+      "eval_samples_per_second": 11.552,
+      "eval_wer": 0.3751522533495737,
+      "step": 79200
+    },
+    {
+      "epoch": 12.9,
+      "learning_rate": 4.857236090716267e-05,
+      "loss": NaN,
+      "step": 79300
+    },
+    {
+      "epoch": 12.9,
+      "eval_loss": 0.3837190270423889,
+      "eval_runtime": 7.4933,
+      "eval_samples_per_second": 13.345,
+      "eval_wer": 0.3568818514007308,
+      "step": 79300
+    },
+    {
+      "epoch": 12.91,
+      "learning_rate": 4.850709740577582e-05,
+      "loss": NaN,
+      "step": 79400
+    },
+    {
+      "epoch": 12.91,
+      "eval_loss": 0.40857169032096863,
+      "eval_runtime": 8.4689,
+      "eval_samples_per_second": 11.808,
+      "eval_wer": 0.3568818514007308,
+      "step": 79400
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 4.8441833904388975e-05,
+      "loss": NaN,
+      "step": 79500
+    },
+    {
+      "epoch": 12.93,
+      "eval_loss": 0.3926541209220886,
+      "eval_runtime": 6.7162,
+      "eval_samples_per_second": 14.889,
+      "eval_wer": 0.3459196102314251,
+      "step": 79500
+    },
+    {
+      "epoch": 12.95,
+      "learning_rate": 4.837657040300213e-05,
+      "loss": NaN,
+      "step": 79600
+    },
+    {
+      "epoch": 12.95,
+      "eval_loss": 0.4522092044353485,
+      "eval_runtime": 8.4503,
+      "eval_samples_per_second": 11.834,
+      "eval_wer": 0.35322777101096225,
+      "step": 79600
+    },
+    {
+      "epoch": 12.96,
+      "learning_rate": 4.831130690161527e-05,
+      "loss": NaN,
+      "step": 79700
+    },
+    {
+      "epoch": 12.96,
+      "eval_loss": 0.4004019498825073,
+      "eval_runtime": 7.2333,
+      "eval_samples_per_second": 13.825,
+      "eval_wer": 0.35809987819732036,
+      "step": 79700
+    },
+    {
+      "epoch": 12.98,
+      "learning_rate": 4.8246043400228424e-05,
+      "loss": NaN,
+      "step": 79800
+    },
+    {
+      "epoch": 12.98,
+      "eval_loss": 0.36814793944358826,
+      "eval_runtime": 9.1464,
+      "eval_samples_per_second": 10.933,
+      "eval_wer": 0.34348355663824603,
+      "step": 79800
+    },
+    {
+      "epoch": 12.99,
+      "learning_rate": 4.8180779898841576e-05,
+      "loss": NaN,
+      "step": 79900
+    },
+    {
+      "epoch": 12.99,
+      "eval_loss": 0.3880935609340668,
+      "eval_runtime": 8.0402,
+      "eval_samples_per_second": 12.438,
+      "eval_wer": 0.364190012180268,
+      "step": 79900
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 4.811551639745472e-05,
+      "loss": NaN,
+      "step": 80000
+    },
+    {
+      "epoch": 13.01,
+      "eval_loss": 0.39711371064186096,
+      "eval_runtime": 8.0714,
+      "eval_samples_per_second": 12.389,
+      "eval_wer": 0.3520097442143727,
+      "step": 80000
+    },
+    {
+      "epoch": 13.03,
+      "learning_rate": 4.805025289606788e-05,
+      "loss": NaN,
+      "step": 80100
+    },
+    {
+      "epoch": 13.03,
+      "eval_loss": 0.4093989133834839,
+      "eval_runtime": 8.8057,
+      "eval_samples_per_second": 11.356,
+      "eval_wer": 0.3568818514007308,
+      "step": 80100
+    },
+    {
+      "epoch": 13.04,
+      "learning_rate": 4.798498939468103e-05,
+      "loss": NaN,
+      "step": 80200
+    },
+    {
+      "epoch": 13.04,
+      "eval_loss": 0.39422935247421265,
+      "eval_runtime": 8.3368,
+      "eval_samples_per_second": 11.995,
+      "eval_wer": 0.36784409257003653,
+      "step": 80200
+    },
+    {
+      "epoch": 13.06,
+      "learning_rate": 4.7919725893294177e-05,
+      "loss": NaN,
+      "step": 80300
+    },
+    {
+      "epoch": 13.06,
+      "eval_loss": 0.40601789951324463,
+      "eval_runtime": 7.678,
+      "eval_samples_per_second": 13.024,
+      "eval_wer": 0.36053593179049936,
+      "step": 80300
+    },
+    {
+      "epoch": 13.08,
+      "learning_rate": 4.785446239190733e-05,
+      "loss": NaN,
+      "step": 80400
+    },
+    {
+      "epoch": 13.08,
+      "eval_loss": 0.42190930247306824,
+      "eval_runtime": 7.1522,
+      "eval_samples_per_second": 13.982,
+      "eval_wer": 0.3568818514007308,
+      "step": 80400
+    },
+    {
+      "epoch": 13.09,
+      "learning_rate": 4.778919889052048e-05,
+      "loss": NaN,
+      "step": 80500
+    },
+    {
+      "epoch": 13.09,
+      "eval_loss": 0.45500144362449646,
+      "eval_runtime": 7.293,
+      "eval_samples_per_second": 13.712,
+      "eval_wer": 0.3568818514007308,
+      "step": 80500
+    },
+    {
+      "epoch": 13.11,
+      "learning_rate": 4.7723935389133625e-05,
+      "loss": NaN,
+      "step": 80600
+    },
+    {
+      "epoch": 13.11,
+      "eval_loss": 0.4279215335845947,
+      "eval_runtime": 8.0851,
+      "eval_samples_per_second": 12.368,
+      "eval_wer": 0.364190012180268,
+      "step": 80600
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 4.7658671887746784e-05,
+      "loss": NaN,
+      "step": 80700
+    },
+    {
+      "epoch": 13.12,
+      "eval_loss": 0.379155695438385,
+      "eval_runtime": 8.3158,
+      "eval_samples_per_second": 12.025,
+      "eval_wer": 0.3447015834348356,
+      "step": 80700
+    },
+    {
+      "epoch": 13.14,
+      "learning_rate": 4.759340838635993e-05,
+      "loss": NaN,
+      "step": 80800
+    },
+    {
+      "epoch": 13.14,
+      "eval_loss": 0.41694533824920654,
+      "eval_runtime": 9.1011,
+      "eval_samples_per_second": 10.988,
+      "eval_wer": 0.3702801461632156,
+      "step": 80800
+    },
+    {
+      "epoch": 13.16,
+      "learning_rate": 4.752814488497308e-05,
+      "loss": NaN,
+      "step": 80900
+    },
+    {
+      "epoch": 13.16,
+      "eval_loss": 0.43820008635520935,
+      "eval_runtime": 8.0662,
+      "eval_samples_per_second": 12.397,
+      "eval_wer": 0.35931790499390986,
+      "step": 80900
+    },
+    {
+      "epoch": 13.17,
+      "learning_rate": 4.746288138358623e-05,
+      "loss": NaN,
+      "step": 81000
+    },
+    {
+      "epoch": 13.17,
+      "eval_loss": 0.38130292296409607,
+      "eval_runtime": 6.6507,
+      "eval_samples_per_second": 15.036,
+      "eval_wer": 0.3471376370280146,
+      "step": 81000
+    },
+    {
+      "epoch": 13.19,
+      "learning_rate": 4.739761788219938e-05,
+      "loss": NaN,
+      "step": 81100
+    },
+    {
+      "epoch": 13.19,
+      "eval_loss": 0.4210968315601349,
+      "eval_runtime": 8.56,
+      "eval_samples_per_second": 11.682,
+      "eval_wer": 0.35322777101096225,
+      "step": 81100
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 4.733235438081253e-05,
+      "loss": NaN,
+      "step": 81200
+    },
+    {
+      "epoch": 13.21,
+      "eval_loss": 0.379304438829422,
+      "eval_runtime": 7.6806,
+      "eval_samples_per_second": 13.02,
+      "eval_wer": 0.3373934226552984,
+      "step": 81200
+    },
+    {
+      "epoch": 13.22,
+      "learning_rate": 4.726709087942568e-05,
+      "loss": NaN,
+      "step": 81300
+    },
+    {
+      "epoch": 13.22,
+      "eval_loss": 0.4642069935798645,
+      "eval_runtime": 7.3598,
+      "eval_samples_per_second": 13.587,
+      "eval_wer": 0.3629719853836784,
+      "step": 81300
+    },
+    {
+      "epoch": 13.24,
+      "learning_rate": 4.7201827378038834e-05,
+      "loss": NaN,
+      "step": 81400
+    },
+    {
+      "epoch": 13.24,
+      "eval_loss": 0.39892637729644775,
+      "eval_runtime": 8.1349,
+      "eval_samples_per_second": 12.293,
+      "eval_wer": 0.35444579780755175,
+      "step": 81400
+    },
+    {
+      "epoch": 13.25,
+      "learning_rate": 4.7136563876651986e-05,
+      "loss": NaN,
+      "step": 81500
+    },
+    {
+      "epoch": 13.25,
+      "eval_loss": 0.3699035942554474,
+      "eval_runtime": 7.0381,
+      "eval_samples_per_second": 14.208,
+      "eval_wer": 0.3386114494518879,
+      "step": 81500
+    },
+    {
+      "epoch": 13.27,
+      "learning_rate": 4.707130037526514e-05,
+      "loss": NaN,
+      "step": 81600
+    },
+    {
+      "epoch": 13.27,
+      "eval_loss": 0.4748342037200928,
+      "eval_runtime": 8.5553,
+      "eval_samples_per_second": 11.689,
+      "eval_wer": 0.3654080389768575,
+      "step": 81600
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 4.700603687387828e-05,
+      "loss": NaN,
+      "step": 81700
+    },
+    {
+      "epoch": 13.29,
+      "eval_loss": 0.4026525616645813,
+      "eval_runtime": 6.9498,
+      "eval_samples_per_second": 14.389,
+      "eval_wer": 0.36053593179049936,
+      "step": 81700
+    },
+    {
+      "epoch": 13.3,
+      "learning_rate": 4.6940773372491435e-05,
+      "loss": NaN,
+      "step": 81800
+    },
+    {
+      "epoch": 13.3,
+      "eval_loss": 0.4426953196525574,
+      "eval_runtime": 9.5632,
+      "eval_samples_per_second": 10.457,
+      "eval_wer": 0.36053593179049936,
+      "step": 81800
+    },
+    {
+      "epoch": 13.32,
+      "learning_rate": 4.687550987110459e-05,
+      "loss": NaN,
+      "step": 81900
+    },
+    {
+      "epoch": 13.32,
+      "eval_loss": 0.4907471835613251,
+      "eval_runtime": 9.1012,
+      "eval_samples_per_second": 10.988,
+      "eval_wer": 0.38246041412911086,
+      "step": 81900
+    },
+    {
+      "epoch": 13.34,
+      "learning_rate": 4.681024636971774e-05,
+      "loss": NaN,
+      "step": 82000
+    },
+    {
+      "epoch": 13.34,
+      "eval_loss": 0.39570945501327515,
+      "eval_runtime": 9.1482,
+      "eval_samples_per_second": 10.931,
+      "eval_wer": 0.35931790499390986,
+      "step": 82000
+    },
+    {
+      "epoch": 13.35,
+      "learning_rate": 4.674498286833089e-05,
+      "loss": NaN,
+      "step": 82100
+    },
+    {
+      "epoch": 13.35,
+      "eval_loss": 0.39692896604537964,
+      "eval_runtime": 8.067,
+      "eval_samples_per_second": 12.396,
+      "eval_wer": 0.3520097442143727,
+      "step": 82100
+    },
+    {
+      "epoch": 13.37,
+      "learning_rate": 4.667971936694404e-05,
+      "loss": NaN,
+      "step": 82200
+    },
+    {
+      "epoch": 13.37,
+      "eval_loss": 0.41192084550857544,
+      "eval_runtime": 8.128,
+      "eval_samples_per_second": 12.303,
+      "eval_wer": 0.3617539585870889,
+      "step": 82200
+    },
+    {
+      "epoch": 13.38,
+      "learning_rate": 4.661445586555719e-05,
+      "loss": NaN,
+      "step": 82300
+    },
+    {
+      "epoch": 13.38,
+      "eval_loss": 0.38953062891960144,
+      "eval_runtime": 9.918,
+      "eval_samples_per_second": 10.083,
+      "eval_wer": 0.36053593179049936,
+      "step": 82300
+    },
+    {
+      "epoch": 13.4,
+      "learning_rate": 4.654919236417034e-05,
+      "loss": NaN,
+      "step": 82400
+    },
+    {
+      "epoch": 13.4,
+      "eval_loss": 0.37186986207962036,
+      "eval_runtime": 8.1376,
+      "eval_samples_per_second": 12.289,
+      "eval_wer": 0.34835566382460414,
+      "step": 82400
+    },
+    {
+      "epoch": 13.42,
+      "learning_rate": 4.6483928862783485e-05,
+      "loss": NaN,
+      "step": 82500
+    },
+    {
+      "epoch": 13.42,
+      "eval_loss": 0.40984976291656494,
+      "eval_runtime": 8.9721,
+      "eval_samples_per_second": 11.146,
+      "eval_wer": 0.34226552984165654,
+      "step": 82500
+    },
+    {
+      "epoch": 13.43,
+      "learning_rate": 4.6418665361396643e-05,
+      "loss": NaN,
+      "step": 82600
+    },
+    {
+      "epoch": 13.43,
+      "eval_loss": 0.4037730097770691,
+      "eval_runtime": 6.8614,
+      "eval_samples_per_second": 14.574,
+      "eval_wer": 0.34226552984165654,
+      "step": 82600
+    },
+    {
+      "epoch": 13.45,
+      "learning_rate": 4.6353401860009795e-05,
+      "loss": NaN,
+      "step": 82700
+    },
+    {
+      "epoch": 13.45,
+      "eval_loss": 0.38672852516174316,
+      "eval_runtime": 7.8242,
+      "eval_samples_per_second": 12.781,
+      "eval_wer": 0.3556638246041413,
+      "step": 82700
+    },
+    {
+      "epoch": 13.47,
+      "learning_rate": 4.628813835862294e-05,
+      "loss": NaN,
+      "step": 82800
+    },
+    {
+      "epoch": 13.47,
+      "eval_loss": 0.41303497552871704,
+      "eval_runtime": 7.7371,
+      "eval_samples_per_second": 12.925,
+      "eval_wer": 0.34957369062119364,
+      "step": 82800
+    },
+    {
+      "epoch": 13.48,
+      "learning_rate": 4.622287485723609e-05,
+      "loss": NaN,
+      "step": 82900
+    },
+    {
+      "epoch": 13.48,
+      "eval_loss": 0.3807326853275299,
+      "eval_runtime": 8.6603,
+      "eval_samples_per_second": 11.547,
+      "eval_wer": 0.35444579780755175,
+      "step": 82900
+    },
+    {
+      "epoch": 13.5,
+      "learning_rate": 4.6157611355849244e-05,
+      "loss": NaN,
+      "step": 83000
+    },
+    {
+      "epoch": 13.5,
+      "eval_loss": 0.3885740637779236,
+      "eval_runtime": 8.1938,
+      "eval_samples_per_second": 12.204,
+      "eval_wer": 0.34348355663824603,
+      "step": 83000
+    },
+    {
+      "epoch": 13.51,
+      "learning_rate": 4.609234785446239e-05,
+      "loss": NaN,
+      "step": 83100
+    },
+    {
+      "epoch": 13.51,
+      "eval_loss": 0.40991002321243286,
+      "eval_runtime": 8.0699,
+      "eval_samples_per_second": 12.392,
+      "eval_wer": 0.34957369062119364,
+      "step": 83100
+    },
+    {
+      "epoch": 13.53,
+      "learning_rate": 4.602708435307554e-05,
+      "loss": NaN,
+      "step": 83200
+    },
+    {
+      "epoch": 13.53,
+      "eval_loss": 0.45967453718185425,
+      "eval_runtime": 9.6326,
+      "eval_samples_per_second": 10.381,
+      "eval_wer": 0.3654080389768575,
+      "step": 83200
+    },
+    {
+      "epoch": 13.55,
+      "learning_rate": 4.59618208516887e-05,
+      "loss": NaN,
+      "step": 83300
+    },
+    {
+      "epoch": 13.55,
+      "eval_loss": 0.41274598240852356,
+      "eval_runtime": 7.4414,
+      "eval_samples_per_second": 13.438,
+      "eval_wer": 0.3520097442143727,
+      "step": 83300
+    },
+    {
+      "epoch": 13.56,
+      "learning_rate": 4.5896557350301845e-05,
+      "loss": NaN,
+      "step": 83400
+    },
+    {
+      "epoch": 13.56,
+      "eval_loss": 0.39359050989151,
+      "eval_runtime": 7.6776,
+      "eval_samples_per_second": 13.025,
+      "eval_wer": 0.3520097442143727,
+      "step": 83400
+    },
+    {
+      "epoch": 13.58,
+      "learning_rate": 4.5831293848915e-05,
+      "loss": NaN,
+      "step": 83500
+    },
+    {
+      "epoch": 13.58,
+      "eval_loss": 0.3984470069408417,
+      "eval_runtime": 8.3263,
+      "eval_samples_per_second": 12.01,
+      "eval_wer": 0.3556638246041413,
+      "step": 83500
+    },
+    {
+      "epoch": 13.6,
+      "learning_rate": 4.576603034752815e-05,
+      "loss": NaN,
+      "step": 83600
+    },
+    {
+      "epoch": 13.6,
+      "eval_loss": 0.39405977725982666,
+      "eval_runtime": 7.0798,
+      "eval_samples_per_second": 14.125,
+      "eval_wer": 0.35809987819732036,
+      "step": 83600
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 4.5700766846141294e-05,
+      "loss": NaN,
+      "step": 83700
+    },
+    {
+      "epoch": 13.61,
+      "eval_loss": 0.45130589604377747,
+      "eval_runtime": 7.6376,
+      "eval_samples_per_second": 13.093,
+      "eval_wer": 0.3629719853836784,
+      "step": 83700
+    },
+    {
+      "epoch": 13.63,
+      "learning_rate": 4.5635503344754446e-05,
+      "loss": NaN,
+      "step": 83800
+    },
+    {
+      "epoch": 13.63,
+      "eval_loss": 0.4328234791755676,
+      "eval_runtime": 6.7166,
+      "eval_samples_per_second": 14.889,
+      "eval_wer": 0.3520097442143727,
+      "step": 83800
+    },
+    {
+      "epoch": 13.64,
+      "learning_rate": 4.55702398433676e-05,
+      "loss": NaN,
+      "step": 83900
+    },
+    {
+      "epoch": 13.64,
+      "eval_loss": 0.40169548988342285,
+      "eval_runtime": 8.601,
+      "eval_samples_per_second": 11.626,
+      "eval_wer": 0.35444579780755175,
+      "step": 83900
+    },
+    {
+      "epoch": 13.66,
+      "learning_rate": 4.550497634198075e-05,
+      "loss": NaN,
+      "step": 84000
+    },
+    {
+      "epoch": 13.66,
+      "eval_loss": 0.40670937299728394,
+      "eval_runtime": 8.6181,
+      "eval_samples_per_second": 11.603,
+      "eval_wer": 0.36662606577344703,
+      "step": 84000
+    },
+    {
+      "epoch": 13.68,
+      "learning_rate": 4.54397128405939e-05,
+      "loss": NaN,
+      "step": 84100
+    },
+    {
+      "epoch": 13.68,
+      "eval_loss": 0.4055994153022766,
+      "eval_runtime": 8.9478,
+      "eval_samples_per_second": 11.176,
+      "eval_wer": 0.3556638246041413,
+      "step": 84100
+    },
+    {
+      "epoch": 13.69,
+      "learning_rate": 4.537444933920705e-05,
+      "loss": NaN,
+      "step": 84200
+    },
+    {
+      "epoch": 13.69,
+      "eval_loss": 0.37059950828552246,
+      "eval_runtime": 8.4585,
+      "eval_samples_per_second": 11.822,
+      "eval_wer": 0.3520097442143727,
+      "step": 84200
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 4.53091858378202e-05,
+      "loss": NaN,
+      "step": 84300
+    },
+    {
+      "epoch": 13.71,
+      "eval_loss": 0.3316919207572937,
+      "eval_runtime": 7.6508,
+      "eval_samples_per_second": 13.071,
+      "eval_wer": 0.32521315468940315,
+      "step": 84300
+    },
+    {
+      "epoch": 13.73,
+      "learning_rate": 4.524392233643335e-05,
+      "loss": NaN,
+      "step": 84400
+    },
+    {
+      "epoch": 13.73,
+      "eval_loss": 0.38926997780799866,
+      "eval_runtime": 7.2992,
+      "eval_samples_per_second": 13.7,
+      "eval_wer": 0.3459196102314251,
+      "step": 84400
+    },
+    {
+      "epoch": 13.74,
+      "learning_rate": 4.51786588350465e-05,
+      "loss": NaN,
+      "step": 84500
+    },
+    {
+      "epoch": 13.74,
+      "eval_loss": 0.3776205778121948,
+      "eval_runtime": 7.205,
+      "eval_samples_per_second": 13.879,
+      "eval_wer": 0.3398294762484775,
+      "step": 84500
+    },
+    {
+      "epoch": 13.76,
+      "learning_rate": 4.5113395333659655e-05,
+      "loss": NaN,
+      "step": 84600
+    },
+    {
+      "epoch": 13.76,
+      "eval_loss": 0.4353153705596924,
+      "eval_runtime": 8.1838,
+      "eval_samples_per_second": 12.219,
+      "eval_wer": 0.34957369062119364,
+      "step": 84600
+    },
+    {
+      "epoch": 13.77,
+      "learning_rate": 4.5048131832272807e-05,
+      "loss": NaN,
+      "step": 84700
+    },
+    {
+      "epoch": 13.77,
+      "eval_loss": 0.3977775573730469,
+      "eval_runtime": 8.5838,
+      "eval_samples_per_second": 11.65,
+      "eval_wer": 0.34226552984165654,
+      "step": 84700
+    },
+    {
+      "epoch": 13.79,
+      "learning_rate": 4.498286833088595e-05,
+      "loss": NaN,
+      "step": 84800
+    },
+    {
+      "epoch": 13.79,
+      "eval_loss": 0.3765636384487152,
+      "eval_runtime": 7.8414,
+      "eval_samples_per_second": 12.753,
+      "eval_wer": 0.34226552984165654,
+      "step": 84800
+    },
+    {
+      "epoch": 13.81,
+      "learning_rate": 4.4917604829499104e-05,
+      "loss": NaN,
+      "step": 84900
+    },
+    {
+      "epoch": 13.81,
+      "eval_loss": 0.3906586766242981,
+      "eval_runtime": 9.8562,
+      "eval_samples_per_second": 10.146,
+      "eval_wer": 0.36053593179049936,
+      "step": 84900
+    },
+    {
+      "epoch": 13.82,
+      "learning_rate": 4.4852341328112256e-05,
+      "loss": NaN,
+      "step": 85000
+    },
+    {
+      "epoch": 13.82,
+      "eval_loss": 0.39076992869377136,
+      "eval_runtime": 7.9184,
+      "eval_samples_per_second": 12.629,
+      "eval_wer": 0.34348355663824603,
+      "step": 85000
+    },
+    {
+      "epoch": 13.84,
+      "learning_rate": 4.478707782672541e-05,
+      "loss": NaN,
+      "step": 85100
+    },
+    {
+      "epoch": 13.84,
+      "eval_loss": 0.38430699706077576,
+      "eval_runtime": 7.852,
+      "eval_samples_per_second": 12.736,
+      "eval_wer": 0.3471376370280146,
+      "step": 85100
+    },
+    {
+      "epoch": 13.86,
+      "learning_rate": 4.472181432533856e-05,
+      "loss": NaN,
+      "step": 85200
+    },
+    {
+      "epoch": 13.86,
+      "eval_loss": 0.36845266819000244,
+      "eval_runtime": 7.4373,
+      "eval_samples_per_second": 13.446,
+      "eval_wer": 0.3459196102314251,
+      "step": 85200
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 4.465655082395171e-05,
+      "loss": NaN,
+      "step": 85300
+    },
+    {
+      "epoch": 13.87,
+      "eval_loss": 0.39804258942604065,
+      "eval_runtime": 9.8439,
+      "eval_samples_per_second": 10.159,
+      "eval_wer": 0.3459196102314251,
+      "step": 85300
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 4.4591287322564856e-05,
+      "loss": NaN,
+      "step": 85400
+    },
+    {
+      "epoch": 13.89,
+      "eval_loss": 0.3661288321018219,
+      "eval_runtime": 8.5748,
+      "eval_samples_per_second": 11.662,
+      "eval_wer": 0.3398294762484775,
+      "step": 85400
+    },
+    {
+      "epoch": 13.9,
+      "learning_rate": 4.452602382117801e-05,
+      "loss": NaN,
+      "step": 85500
+    },
+    {
+      "epoch": 13.9,
+      "eval_loss": 0.3940080404281616,
+      "eval_runtime": 8.4536,
+      "eval_samples_per_second": 11.829,
+      "eval_wer": 0.35444579780755175,
+      "step": 85500
+    },
+    {
+      "epoch": 13.92,
+      "learning_rate": 4.446076031979116e-05,
+      "loss": NaN,
+      "step": 85600
+    },
+    {
+      "epoch": 13.92,
+      "eval_loss": 0.38597309589385986,
+      "eval_runtime": 7.5301,
+      "eval_samples_per_second": 13.28,
+      "eval_wer": 0.3471376370280146,
+      "step": 85600
+    },
+    {
+      "epoch": 13.94,
+      "learning_rate": 4.4395496818404305e-05,
+      "loss": NaN,
+      "step": 85700
+    },
+    {
+      "epoch": 13.94,
+      "eval_loss": 0.3475070297718048,
+      "eval_runtime": 7.4895,
+      "eval_samples_per_second": 13.352,
+      "eval_wer": 0.3447015834348356,
+      "step": 85700
+    },
+    {
+      "epoch": 13.95,
+      "learning_rate": 4.4330233317017464e-05,
+      "loss": NaN,
+      "step": 85800
+    },
+    {
+      "epoch": 13.95,
+      "eval_loss": 0.3472925126552582,
+      "eval_runtime": 7.1585,
+      "eval_samples_per_second": 13.969,
+      "eval_wer": 0.3459196102314251,
+      "step": 85800
+    },
+    {
+      "epoch": 13.97,
+      "learning_rate": 4.426496981563061e-05,
+      "loss": NaN,
+      "step": 85900
+    },
+    {
+      "epoch": 13.97,
+      "eval_loss": 0.4307803213596344,
+      "eval_runtime": 8.4562,
+      "eval_samples_per_second": 11.826,
+      "eval_wer": 0.35444579780755175,
+      "step": 85900
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 4.419970631424376e-05,
+      "loss": NaN,
+      "step": 86000
+    },
+    {
+      "epoch": 13.99,
+      "eval_loss": 0.3824266791343689,
+      "eval_runtime": 7.6614,
+      "eval_samples_per_second": 13.052,
+      "eval_wer": 0.35444579780755175,
+      "step": 86000
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 4.413444281285691e-05,
+      "loss": NaN,
+      "step": 86100
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.4147208333015442,
+      "eval_runtime": 8.0603,
+      "eval_samples_per_second": 12.407,
+      "eval_wer": 0.34348355663824603,
+      "step": 86100
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 4.406917931147006e-05,
+      "loss": NaN,
+      "step": 86200
+    },
+    {
+      "epoch": 14.02,
+      "eval_loss": 0.37703704833984375,
+      "eval_runtime": 8.6635,
+      "eval_samples_per_second": 11.543,
+      "eval_wer": 0.35322777101096225,
+      "step": 86200
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 4.400391581008321e-05,
+      "loss": NaN,
+      "step": 86300
+    },
+    {
+      "epoch": 14.03,
+      "eval_loss": 0.38355034589767456,
+      "eval_runtime": 8.3757,
+      "eval_samples_per_second": 11.939,
+      "eval_wer": 0.3507917174177832,
+      "step": 86300
+    },
+    {
+      "epoch": 14.05,
+      "learning_rate": 4.393865230869636e-05,
+      "loss": NaN,
+      "step": 86400
+    },
+    {
+      "epoch": 14.05,
+      "eval_loss": 0.4052790403366089,
+      "eval_runtime": 9.7614,
+      "eval_samples_per_second": 10.244,
+      "eval_wer": 0.3398294762484775,
+      "step": 86400
+    },
+    {
+      "epoch": 14.07,
+      "learning_rate": 4.3873388807309514e-05,
+      "loss": NaN,
+      "step": 86500
+    },
+    {
+      "epoch": 14.07,
+      "eval_loss": 0.3577238917350769,
+      "eval_runtime": 7.8702,
+      "eval_samples_per_second": 12.706,
+      "eval_wer": 0.34348355663824603,
+      "step": 86500
+    },
+    {
+      "epoch": 14.08,
+      "learning_rate": 4.3808125305922666e-05,
+      "loss": NaN,
+      "step": 86600
+    },
+    {
+      "epoch": 14.08,
+      "eval_loss": 0.3567332327365875,
+      "eval_runtime": 8.207,
+      "eval_samples_per_second": 12.185,
+      "eval_wer": 0.3373934226552984,
+      "step": 86600
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 4.374286180453582e-05,
+      "loss": NaN,
+      "step": 86700
+    },
+    {
+      "epoch": 14.1,
+      "eval_loss": 0.46958306431770325,
+      "eval_runtime": 7.2452,
+      "eval_samples_per_second": 13.802,
+      "eval_wer": 0.35444579780755175,
+      "step": 86700
+    },
+    {
+      "epoch": 14.12,
+      "learning_rate": 4.367759830314896e-05,
+      "loss": NaN,
+      "step": 86800
+    },
+    {
+      "epoch": 14.12,
+      "eval_loss": 0.37138259410858154,
+      "eval_runtime": 8.0019,
+      "eval_samples_per_second": 12.497,
+      "eval_wer": 0.3325213154689403,
+      "step": 86800
+    },
+    {
+      "epoch": 14.13,
+      "learning_rate": 4.3612334801762115e-05,
+      "loss": 0.1053,
+      "step": 86900
+    },
+    {
+      "epoch": 14.13,
+      "eval_loss": 0.3933388590812683,
+      "eval_runtime": 7.7892,
+      "eval_samples_per_second": 12.838,
+      "eval_wer": 0.35444579780755175,
+      "step": 86900
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 4.354707130037527e-05,
+      "loss": 0.1085,
+      "step": 87000
+    },
+    {
+      "epoch": 14.15,
+      "eval_loss": 0.4454494118690491,
+      "eval_runtime": 9.0708,
+      "eval_samples_per_second": 11.024,
+      "eval_wer": 0.34835566382460414,
+      "step": 87000
+    },
+    {
+      "epoch": 14.16,
+      "learning_rate": 4.348180779898842e-05,
+      "loss": 0.1044,
+      "step": 87100
+    },
+    {
+      "epoch": 14.16,
+      "eval_loss": 0.35896095633506775,
+      "eval_runtime": 7.3353,
+      "eval_samples_per_second": 13.633,
+      "eval_wer": 0.341047503045067,
+      "step": 87100
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 4.341654429760157e-05,
+      "loss": 0.1131,
+      "step": 87200
+    },
+    {
+      "epoch": 14.18,
+      "eval_loss": 0.4209243655204773,
+      "eval_runtime": 7.4199,
+      "eval_samples_per_second": 13.477,
+      "eval_wer": 0.3459196102314251,
+      "step": 87200
+    },
+    {
+      "epoch": 14.2,
+      "learning_rate": 4.335128079621472e-05,
+      "loss": 0.1069,
+      "step": 87300
+    },
+    {
+      "epoch": 14.2,
+      "eval_loss": 0.4241653084754944,
+      "eval_runtime": 7.8927,
+      "eval_samples_per_second": 12.67,
+      "eval_wer": 0.341047503045067,
+      "step": 87300
+    },
+    {
+      "epoch": 14.21,
+      "learning_rate": 4.328601729482787e-05,
+      "loss": 0.1042,
+      "step": 87400
+    },
+    {
+      "epoch": 14.21,
+      "eval_loss": 0.3520914912223816,
+      "eval_runtime": 7.2723,
+      "eval_samples_per_second": 13.751,
+      "eval_wer": 0.3459196102314251,
+      "step": 87400
+    },
+    {
+      "epoch": 14.23,
+      "learning_rate": 4.322075379344102e-05,
+      "loss": 0.1017,
+      "step": 87500
+    },
+    {
+      "epoch": 14.23,
+      "eval_loss": 0.3735422194004059,
+      "eval_runtime": 7.8531,
+      "eval_samples_per_second": 12.734,
+      "eval_wer": 0.3337393422655298,
+      "step": 87500
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 4.315549029205417e-05,
+      "loss": 0.099,
+      "step": 87600
+    },
+    {
+      "epoch": 14.25,
+      "eval_loss": 0.4072035253047943,
+      "eval_runtime": 6.9486,
+      "eval_samples_per_second": 14.391,
+      "eval_wer": 0.3520097442143727,
+      "step": 87600
+    },
+    {
+      "epoch": 14.26,
+      "learning_rate": 4.3090226790667323e-05,
+      "loss": 0.1119,
+      "step": 87700
+    },
+    {
+      "epoch": 14.26,
+      "eval_loss": 0.4090457856655121,
+      "eval_runtime": 9.1301,
+      "eval_samples_per_second": 10.953,
+      "eval_wer": 0.33008526187576126,
+      "step": 87700
+    },
+    {
+      "epoch": 14.28,
+      "learning_rate": 4.3024963289280475e-05,
+      "loss": 0.1072,
+      "step": 87800
+    },
+    {
+      "epoch": 14.28,
+      "eval_loss": 0.3945271372795105,
+      "eval_runtime": 8.9475,
+      "eval_samples_per_second": 11.176,
+      "eval_wer": 0.3556638246041413,
+      "step": 87800
+    },
+    {
+      "epoch": 14.3,
+      "learning_rate": 4.295969978789362e-05,
+      "loss": 0.1132,
+      "step": 87900
+    },
+    {
+      "epoch": 14.3,
+      "eval_loss": 0.3662361800670624,
+      "eval_runtime": 7.1294,
+      "eval_samples_per_second": 14.026,
+      "eval_wer": 0.33617539585870887,
+      "step": 87900
+    },
+    {
+      "epoch": 14.31,
+      "learning_rate": 4.289443628650677e-05,
+      "loss": 0.1037,
+      "step": 88000
+    },
+    {
+      "epoch": 14.31,
+      "eval_loss": 0.3741585910320282,
+      "eval_runtime": 7.5993,
+      "eval_samples_per_second": 13.159,
+      "eval_wer": 0.3398294762484775,
+      "step": 88000
+    },
+    {
+      "epoch": 14.33,
+      "learning_rate": 4.2829172785119924e-05,
+      "loss": 0.1045,
+      "step": 88100
+    },
+    {
+      "epoch": 14.33,
+      "eval_loss": 0.41879794001579285,
+      "eval_runtime": 7.0732,
+      "eval_samples_per_second": 14.138,
+      "eval_wer": 0.3568818514007308,
+      "step": 88100
+    },
+    {
+      "epoch": 14.34,
+      "learning_rate": 4.276390928373307e-05,
+      "loss": 0.0999,
+      "step": 88200
+    },
+    {
+      "epoch": 14.34,
+      "eval_loss": 0.39614391326904297,
+      "eval_runtime": 9.6972,
+      "eval_samples_per_second": 10.312,
+      "eval_wer": 0.35444579780755175,
+      "step": 88200
+    },
+    {
+      "epoch": 14.36,
+      "learning_rate": 4.269864578234623e-05,
+      "loss": 0.1047,
+      "step": 88300
+    },
+    {
+      "epoch": 14.36,
+      "eval_loss": 0.3773258328437805,
+      "eval_runtime": 8.0348,
+      "eval_samples_per_second": 12.446,
+      "eval_wer": 0.34835566382460414,
+      "step": 88300
+    },
+    {
+      "epoch": 14.38,
+      "learning_rate": 4.263338228095938e-05,
+      "loss": 0.114,
+      "step": 88400
+    },
+    {
+      "epoch": 14.38,
+      "eval_loss": 0.37774306535720825,
+      "eval_runtime": 7.4926,
+      "eval_samples_per_second": 13.346,
+      "eval_wer": 0.34835566382460414,
+      "step": 88400
+    },
+    {
+      "epoch": 14.39,
+      "learning_rate": 4.2568118779572525e-05,
+      "loss": 0.1038,
+      "step": 88500
+    },
+    {
+      "epoch": 14.39,
+      "eval_loss": 0.3713986575603485,
+      "eval_runtime": 7.4849,
+      "eval_samples_per_second": 13.36,
+      "eval_wer": 0.34957369062119364,
+      "step": 88500
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 4.250285527818568e-05,
+      "loss": 0.0978,
+      "step": 88600
+    },
+    {
+      "epoch": 14.41,
+      "eval_loss": 0.3625016510486603,
+      "eval_runtime": 7.1558,
+      "eval_samples_per_second": 13.975,
+      "eval_wer": 0.3398294762484775,
+      "step": 88600
+    },
+    {
+      "epoch": 14.43,
+      "learning_rate": 4.243759177679883e-05,
+      "loss": 0.0954,
+      "step": 88700
+    },
+    {
+      "epoch": 14.43,
+      "eval_loss": 0.40445342659950256,
+      "eval_runtime": 7.6543,
+      "eval_samples_per_second": 13.064,
+      "eval_wer": 0.34835566382460414,
+      "step": 88700
+    },
+    {
+      "epoch": 14.44,
+      "learning_rate": 4.2372328275411974e-05,
+      "loss": 0.1027,
+      "step": 88800
+    },
+    {
+      "epoch": 14.44,
+      "eval_loss": 0.4006795585155487,
+      "eval_runtime": 7.2382,
+      "eval_samples_per_second": 13.816,
+      "eval_wer": 0.34226552984165654,
+      "step": 88800
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 4.2307064774025126e-05,
+      "loss": Infinity,
+      "step": 88900
+    },
+    {
+      "epoch": 14.46,
+      "eval_loss": 0.35563650727272034,
+      "eval_runtime": 8.396,
+      "eval_samples_per_second": 11.91,
+      "eval_wer": 0.34957369062119364,
+      "step": 88900
+    },
+    {
+      "epoch": 14.47,
+      "learning_rate": 4.2241801272638285e-05,
+      "loss": NaN,
+      "step": 89000
+    },
+    {
+      "epoch": 14.47,
+      "eval_loss": 0.3528667688369751,
+      "eval_runtime": 7.9985,
+      "eval_samples_per_second": 12.502,
+      "eval_wer": 0.34835566382460414,
+      "step": 89000
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 4.217653777125143e-05,
+      "loss": NaN,
+      "step": 89100
+    },
+    {
+      "epoch": 14.49,
+      "eval_loss": 0.416147381067276,
+      "eval_runtime": 7.9316,
+      "eval_samples_per_second": 12.608,
+      "eval_wer": 0.35444579780755175,
+      "step": 89100
+    },
+    {
+      "epoch": 14.51,
+      "learning_rate": 4.211127426986458e-05,
+      "loss": NaN,
+      "step": 89200
+    },
+    {
+      "epoch": 14.51,
+      "eval_loss": 0.4058997631072998,
+      "eval_runtime": 8.2486,
+      "eval_samples_per_second": 12.123,
+      "eval_wer": 0.3520097442143727,
+      "step": 89200
+    },
+    {
+      "epoch": 14.52,
+      "learning_rate": 4.204601076847773e-05,
+      "loss": NaN,
+      "step": 89300
+    },
+    {
+      "epoch": 14.52,
+      "eval_loss": 0.38170912861824036,
+      "eval_runtime": 9.2084,
+      "eval_samples_per_second": 10.86,
+      "eval_wer": 0.3398294762484775,
+      "step": 89300
+    },
+    {
+      "epoch": 14.54,
+      "learning_rate": 4.198074726709088e-05,
+      "loss": NaN,
+      "step": 89400
+    },
+    {
+      "epoch": 14.54,
+      "eval_loss": 0.37428218126296997,
+      "eval_runtime": 8.1719,
+      "eval_samples_per_second": 12.237,
+      "eval_wer": 0.341047503045067,
+      "step": 89400
+    },
+    {
+      "epoch": 14.56,
+      "learning_rate": 4.191548376570403e-05,
+      "loss": NaN,
+      "step": 89500
+    },
+    {
+      "epoch": 14.56,
+      "eval_loss": 0.3986841142177582,
+      "eval_runtime": 10.8754,
+      "eval_samples_per_second": 9.195,
+      "eval_wer": 0.34835566382460414,
+      "step": 89500
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 4.185022026431718e-05,
+      "loss": NaN,
+      "step": 89600
+    },
+    {
+      "epoch": 14.57,
+      "eval_loss": 0.38741618394851685,
+      "eval_runtime": 9.3064,
+      "eval_samples_per_second": 10.745,
+      "eval_wer": 0.3520097442143727,
+      "step": 89600
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 4.1784956762930335e-05,
+      "loss": NaN,
+      "step": 89700
+    },
+    {
+      "epoch": 14.59,
+      "eval_loss": 0.4405732750892639,
+      "eval_runtime": 7.6728,
+      "eval_samples_per_second": 13.033,
+      "eval_wer": 0.3471376370280146,
+      "step": 89700
+    },
+    {
+      "epoch": 14.6,
+      "learning_rate": 4.1719693261543487e-05,
+      "loss": NaN,
+      "step": 89800
+    },
+    {
+      "epoch": 14.6,
+      "eval_loss": 0.3700186014175415,
+      "eval_runtime": 7.4389,
+      "eval_samples_per_second": 13.443,
+      "eval_wer": 0.341047503045067,
+      "step": 89800
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 4.165442976015663e-05,
+      "loss": NaN,
+      "step": 89900
+    },
+    {
+      "epoch": 14.62,
+      "eval_loss": 0.4012463092803955,
+      "eval_runtime": 8.227,
+      "eval_samples_per_second": 12.155,
+      "eval_wer": 0.3386114494518879,
+      "step": 89900
+    },
+    {
+      "epoch": 14.64,
+      "learning_rate": 4.1589166258769784e-05,
+      "loss": NaN,
+      "step": 90000
+    },
+    {
+      "epoch": 14.64,
+      "eval_loss": 0.4593057930469513,
+      "eval_runtime": 7.5267,
+      "eval_samples_per_second": 13.286,
+      "eval_wer": 0.3471376370280146,
+      "step": 90000
+    },
+    {
+      "epoch": 14.65,
+      "learning_rate": 4.1523902757382936e-05,
+      "loss": NaN,
+      "step": 90100
+    },
+    {
+      "epoch": 14.65,
+      "eval_loss": 0.3738018870353699,
+      "eval_runtime": 8.684,
+      "eval_samples_per_second": 11.515,
+      "eval_wer": 0.3325213154689403,
+      "step": 90100
+    },
+    {
+      "epoch": 14.67,
+      "learning_rate": 4.145863925599609e-05,
+      "loss": NaN,
+      "step": 90200
+    },
+    {
+      "epoch": 14.67,
+      "eval_loss": 0.4285886287689209,
+      "eval_runtime": 8.4528,
+      "eval_samples_per_second": 11.83,
+      "eval_wer": 0.35322777101096225,
+      "step": 90200
+    },
+    {
+      "epoch": 14.69,
+      "learning_rate": 4.139337575460924e-05,
+      "loss": NaN,
+      "step": 90300
+    },
+    {
+      "epoch": 14.69,
+      "eval_loss": 0.3823952078819275,
+      "eval_runtime": 8.2181,
+      "eval_samples_per_second": 12.168,
+      "eval_wer": 0.33008526187576126,
+      "step": 90300
+    },
+    {
+      "epoch": 14.7,
+      "learning_rate": 4.132811225322239e-05,
+      "loss": NaN,
+      "step": 90400
+    },
+    {
+      "epoch": 14.7,
+      "eval_loss": 0.4831365644931793,
+      "eval_runtime": 9.718,
+      "eval_samples_per_second": 10.29,
+      "eval_wer": 0.3373934226552984,
+      "step": 90400
+    },
+    {
+      "epoch": 14.72,
+      "learning_rate": 4.1262848751835536e-05,
+      "loss": NaN,
+      "step": 90500
+    },
+    {
+      "epoch": 14.72,
+      "eval_loss": 0.40132513642311096,
+      "eval_runtime": 8.1178,
+      "eval_samples_per_second": 12.319,
+      "eval_wer": 0.34835566382460414,
+      "step": 90500
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 4.119758525044869e-05,
+      "loss": NaN,
+      "step": 90600
+    },
+    {
+      "epoch": 14.73,
+      "eval_loss": 0.40187588334083557,
+      "eval_runtime": 9.5226,
+      "eval_samples_per_second": 10.501,
+      "eval_wer": 0.35931790499390986,
+      "step": 90600
+    },
+    {
+      "epoch": 14.75,
+      "learning_rate": 4.113232174906184e-05,
+      "loss": NaN,
+      "step": 90700
+    },
+    {
+      "epoch": 14.75,
+      "eval_loss": 0.46043136715888977,
+      "eval_runtime": 10.1706,
+      "eval_samples_per_second": 9.832,
+      "eval_wer": 0.364190012180268,
+      "step": 90700
+    },
+    {
+      "epoch": 14.77,
+      "learning_rate": 4.106705824767499e-05,
+      "loss": NaN,
+      "step": 90800
+    },
+    {
+      "epoch": 14.77,
+      "eval_loss": 0.37815314531326294,
+      "eval_runtime": 8.7882,
+      "eval_samples_per_second": 11.379,
+      "eval_wer": 0.3459196102314251,
+      "step": 90800
+    },
+    {
+      "epoch": 14.78,
+      "learning_rate": 4.1001794746288144e-05,
+      "loss": NaN,
+      "step": 90900
+    },
+    {
+      "epoch": 14.78,
+      "eval_loss": 0.4232279658317566,
+      "eval_runtime": 9.4671,
+      "eval_samples_per_second": 10.563,
+      "eval_wer": 0.3556638246041413,
+      "step": 90900
+    },
+    {
+      "epoch": 14.8,
+      "learning_rate": 4.093653124490129e-05,
+      "loss": NaN,
+      "step": 91000
+    },
+    {
+      "epoch": 14.8,
+      "eval_loss": 0.42844250798225403,
+      "eval_runtime": 8.6741,
+      "eval_samples_per_second": 11.529,
+      "eval_wer": 0.3654080389768575,
+      "step": 91000
+    },
+    {
+      "epoch": 14.82,
+      "learning_rate": 4.087126774351444e-05,
+      "loss": NaN,
+      "step": 91100
+    },
+    {
+      "epoch": 14.82,
+      "eval_loss": 0.3949730396270752,
+      "eval_runtime": 7.3535,
+      "eval_samples_per_second": 13.599,
+      "eval_wer": 0.34348355663824603,
+      "step": 91100
+    },
+    {
+      "epoch": 14.83,
+      "learning_rate": 4.080600424212759e-05,
+      "loss": NaN,
+      "step": 91200
+    },
+    {
+      "epoch": 14.83,
+      "eval_loss": 0.4596826136112213,
+      "eval_runtime": 7.979,
+      "eval_samples_per_second": 12.533,
+      "eval_wer": 0.34226552984165654,
+      "step": 91200
+    },
+    {
+      "epoch": 14.85,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": NaN,
+      "step": 91300
+    },
+    {
+      "epoch": 14.85,
+      "eval_loss": 0.3969116508960724,
+      "eval_runtime": 7.3471,
+      "eval_samples_per_second": 13.611,
+      "eval_wer": 0.34348355663824603,
+      "step": 91300
+    },
+    {
+      "epoch": 14.86,
+      "learning_rate": 4.067547723935389e-05,
+      "loss": NaN,
+      "step": 91400
+    },
+    {
+      "epoch": 14.86,
+      "eval_loss": 0.42892399430274963,
+      "eval_runtime": 7.7448,
+      "eval_samples_per_second": 12.912,
+      "eval_wer": 0.33617539585870887,
+      "step": 91400
+    },
+    {
+      "epoch": 14.88,
+      "learning_rate": 4.061021373796705e-05,
+      "loss": NaN,
+      "step": 91500
+    },
+    {
+      "epoch": 14.88,
+      "eval_loss": 0.3805890679359436,
+      "eval_runtime": 7.337,
+      "eval_samples_per_second": 13.629,
+      "eval_wer": 0.3398294762484775,
+      "step": 91500
+    },
+    {
+      "epoch": 14.9,
+      "learning_rate": 4.0544950236580194e-05,
+      "loss": NaN,
+      "step": 91600
+    },
+    {
+      "epoch": 14.9,
+      "eval_loss": 0.34959712624549866,
+      "eval_runtime": 9.7552,
+      "eval_samples_per_second": 10.251,
+      "eval_wer": 0.30572472594397077,
+      "step": 91600
+    },
+    {
+      "epoch": 14.91,
+      "learning_rate": 4.0479686735193346e-05,
+      "loss": NaN,
+      "step": 91700
+    },
+    {
+      "epoch": 14.91,
+      "eval_loss": 0.3602063059806824,
+      "eval_runtime": 6.6405,
+      "eval_samples_per_second": 15.059,
+      "eval_wer": 0.3373934226552984,
+      "step": 91700
+    },
+    {
+      "epoch": 14.93,
+      "learning_rate": 4.04144232338065e-05,
+      "loss": NaN,
+      "step": 91800
+    },
+    {
+      "epoch": 14.93,
+      "eval_loss": 0.442261666059494,
+      "eval_runtime": 10.1904,
+      "eval_samples_per_second": 9.813,
+      "eval_wer": 0.34835566382460414,
+      "step": 91800
+    },
+    {
+      "epoch": 14.95,
+      "learning_rate": 4.034915973241964e-05,
+      "loss": NaN,
+      "step": 91900
+    },
+    {
+      "epoch": 14.95,
+      "eval_loss": 0.3955381512641907,
+      "eval_runtime": 9.4798,
+      "eval_samples_per_second": 10.549,
+      "eval_wer": 0.3398294762484775,
+      "step": 91900
+    },
+    {
+      "epoch": 14.96,
+      "learning_rate": 4.0283896231032795e-05,
+      "loss": NaN,
+      "step": 92000
+    },
+    {
+      "epoch": 14.96,
+      "eval_loss": 0.3891383409500122,
+      "eval_runtime": 8.2087,
+      "eval_samples_per_second": 12.182,
+      "eval_wer": 0.3215590742996346,
+      "step": 92000
+    },
+    {
+      "epoch": 14.98,
+      "learning_rate": 4.021863272964595e-05,
+      "loss": NaN,
+      "step": 92100
+    },
+    {
+      "epoch": 14.98,
+      "eval_loss": 0.38750743865966797,
+      "eval_runtime": 7.6982,
+      "eval_samples_per_second": 12.99,
+      "eval_wer": 0.3325213154689403,
+      "step": 92100
+    },
+    {
+      "epoch": 14.99,
+      "learning_rate": 4.01533692282591e-05,
+      "loss": NaN,
+      "step": 92200
+    },
+    {
+      "epoch": 14.99,
+      "eval_loss": 0.45837047696113586,
+      "eval_runtime": 7.4055,
+      "eval_samples_per_second": 13.504,
+      "eval_wer": 0.3507917174177832,
+      "step": 92200
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 4.008810572687225e-05,
+      "loss": NaN,
+      "step": 92300
+    },
+    {
+      "epoch": 15.01,
+      "eval_loss": 0.4188990890979767,
+      "eval_runtime": 8.4196,
+      "eval_samples_per_second": 11.877,
+      "eval_wer": 0.37271619975639464,
+      "step": 92300
+    },
+    {
+      "epoch": 15.03,
+      "learning_rate": 4.00228422254854e-05,
+      "loss": NaN,
+      "step": 92400
+    },
+    {
+      "epoch": 15.03,
+      "eval_loss": 0.4422924816608429,
+      "eval_runtime": 8.3856,
+      "eval_samples_per_second": 11.925,
+      "eval_wer": 0.35322777101096225,
+      "step": 92400
+    },
+    {
+      "epoch": 15.04,
+      "learning_rate": 3.995757872409855e-05,
+      "loss": NaN,
+      "step": 92500
+    },
+    {
+      "epoch": 15.04,
+      "eval_loss": 0.414529412984848,
+      "eval_runtime": 8.9456,
+      "eval_samples_per_second": 11.179,
+      "eval_wer": 0.35931790499390986,
+      "step": 92500
+    },
+    {
+      "epoch": 15.06,
+      "learning_rate": 3.98923152227117e-05,
+      "loss": NaN,
+      "step": 92600
+    },
+    {
+      "epoch": 15.06,
+      "eval_loss": 0.3688591718673706,
+      "eval_runtime": 8.5338,
+      "eval_samples_per_second": 11.718,
+      "eval_wer": 0.33495736906211937,
+      "step": 92600
+    },
+    {
+      "epoch": 15.08,
+      "learning_rate": 3.982705172132485e-05,
+      "loss": NaN,
+      "step": 92700
+    },
+    {
+      "epoch": 15.08,
+      "eval_loss": 0.396541565656662,
+      "eval_runtime": 8.586,
+      "eval_samples_per_second": 11.647,
+      "eval_wer": 0.3337393422655298,
+      "step": 92700
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 3.9761788219938e-05,
+      "loss": NaN,
+      "step": 92800
+    },
+    {
+      "epoch": 15.09,
+      "eval_loss": 0.4621961712837219,
+      "eval_runtime": 9.2469,
+      "eval_samples_per_second": 10.814,
+      "eval_wer": 0.3507917174177832,
+      "step": 92800
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 3.9696524718551155e-05,
+      "loss": NaN,
+      "step": 92900
+    },
+    {
+      "epoch": 15.11,
+      "eval_loss": 0.39792075753211975,
+      "eval_runtime": 7.6153,
+      "eval_samples_per_second": 13.131,
+      "eval_wer": 0.3447015834348356,
+      "step": 92900
+    },
+    {
+      "epoch": 15.12,
+      "learning_rate": 3.96312612171643e-05,
+      "loss": NaN,
+      "step": 93000
+    },
+    {
+      "epoch": 15.12,
+      "eval_loss": 0.4314855635166168,
+      "eval_runtime": 8.7472,
+      "eval_samples_per_second": 11.432,
+      "eval_wer": 0.34835566382460414,
+      "step": 93000
+    },
+    {
+      "epoch": 15.14,
+      "learning_rate": 3.956599771577745e-05,
+      "loss": NaN,
+      "step": 93100
+    },
+    {
+      "epoch": 15.14,
+      "eval_loss": 0.4228772222995758,
+      "eval_runtime": 6.9716,
+      "eval_samples_per_second": 14.344,
+      "eval_wer": 0.34835566382460414,
+      "step": 93100
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 3.9500734214390604e-05,
+      "loss": NaN,
+      "step": 93200
+    },
+    {
+      "epoch": 15.16,
+      "eval_loss": 0.4500848054885864,
+      "eval_runtime": 8.5782,
+      "eval_samples_per_second": 11.657,
+      "eval_wer": 0.3629719853836784,
+      "step": 93200
+    },
+    {
+      "epoch": 15.17,
+      "learning_rate": 3.943547071300375e-05,
+      "loss": NaN,
+      "step": 93300
+    },
+    {
+      "epoch": 15.17,
+      "eval_loss": 0.4819047451019287,
+      "eval_runtime": 7.8844,
+      "eval_samples_per_second": 12.683,
+      "eval_wer": 0.3313032886723508,
+      "step": 93300
+    },
+    {
+      "epoch": 15.19,
+      "learning_rate": 3.937020721161691e-05,
+      "loss": NaN,
+      "step": 93400
+    },
+    {
+      "epoch": 15.19,
+      "eval_loss": 0.40653935074806213,
+      "eval_runtime": 8.8297,
+      "eval_samples_per_second": 11.325,
+      "eval_wer": 0.3568818514007308,
+      "step": 93400
+    },
+    {
+      "epoch": 15.21,
+      "learning_rate": 3.930494371023006e-05,
+      "loss": NaN,
+      "step": 93500
+    },
+    {
+      "epoch": 15.21,
+      "eval_loss": 0.4287218451499939,
+      "eval_runtime": 8.8101,
+      "eval_samples_per_second": 11.351,
+      "eval_wer": 0.3568818514007308,
+      "step": 93500
+    },
+    {
+      "epoch": 15.22,
+      "learning_rate": 3.9239680208843205e-05,
+      "loss": NaN,
+      "step": 93600
+    },
+    {
+      "epoch": 15.22,
+      "eval_loss": 0.3936750888824463,
+      "eval_runtime": 8.9968,
+      "eval_samples_per_second": 11.115,
+      "eval_wer": 0.33495736906211937,
+      "step": 93600
+    },
+    {
+      "epoch": 15.24,
+      "learning_rate": 3.917441670745636e-05,
+      "loss": NaN,
+      "step": 93700
+    },
+    {
+      "epoch": 15.24,
+      "eval_loss": 0.4512450098991394,
+      "eval_runtime": 9.9939,
+      "eval_samples_per_second": 10.006,
+      "eval_wer": 0.35444579780755175,
+      "step": 93700
+    },
+    {
+      "epoch": 15.25,
+      "learning_rate": 3.910915320606951e-05,
+      "loss": NaN,
+      "step": 93800
+    },
+    {
+      "epoch": 15.25,
+      "eval_loss": 0.38099244236946106,
+      "eval_runtime": 8.1003,
+      "eval_samples_per_second": 12.345,
+      "eval_wer": 0.33008526187576126,
+      "step": 93800
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 3.9043889704682654e-05,
+      "loss": NaN,
+      "step": 93900
+    },
+    {
+      "epoch": 15.27,
+      "eval_loss": 0.4231901466846466,
+      "eval_runtime": 8.4197,
+      "eval_samples_per_second": 11.877,
+      "eval_wer": 0.35809987819732036,
+      "step": 93900
+    },
+    {
+      "epoch": 15.29,
+      "learning_rate": 3.8978626203295806e-05,
+      "loss": NaN,
+      "step": 94000
+    },
+    {
+      "epoch": 15.29,
+      "eval_loss": 0.41978344321250916,
+      "eval_runtime": 9.9333,
+      "eval_samples_per_second": 10.067,
+      "eval_wer": 0.34348355663824603,
+      "step": 94000
+    },
+    {
+      "epoch": 15.3,
+      "learning_rate": 3.8913362701908965e-05,
+      "loss": NaN,
+      "step": 94100
+    },
+    {
+      "epoch": 15.3,
+      "eval_loss": 0.35810530185699463,
+      "eval_runtime": 8.2325,
+      "eval_samples_per_second": 12.147,
+      "eval_wer": 0.32886723507917176,
+      "step": 94100
+    },
+    {
+      "epoch": 15.32,
+      "learning_rate": 3.884809920052211e-05,
+      "loss": NaN,
+      "step": 94200
+    },
+    {
+      "epoch": 15.32,
+      "eval_loss": 0.40189048647880554,
+      "eval_runtime": 7.9965,
+      "eval_samples_per_second": 12.505,
+      "eval_wer": 0.3325213154689403,
+      "step": 94200
+    },
+    {
+      "epoch": 15.34,
+      "learning_rate": 3.878283569913526e-05,
+      "loss": NaN,
+      "step": 94300
+    },
+    {
+      "epoch": 15.34,
+      "eval_loss": 0.39003273844718933,
+      "eval_runtime": 9.1613,
+      "eval_samples_per_second": 10.916,
+      "eval_wer": 0.34835566382460414,
+      "step": 94300
+    },
+    {
+      "epoch": 15.35,
+      "learning_rate": 3.871757219774841e-05,
+      "loss": NaN,
+      "step": 94400
+    },
+    {
+      "epoch": 15.35,
+      "eval_loss": 0.37178894877433777,
+      "eval_runtime": 8.3496,
+      "eval_samples_per_second": 11.977,
+      "eval_wer": 0.3373934226552984,
+      "step": 94400
+    },
+    {
+      "epoch": 15.37,
+      "learning_rate": 3.865230869636156e-05,
+      "loss": NaN,
+      "step": 94500
+    },
+    {
+      "epoch": 15.37,
+      "eval_loss": 0.43365535140037537,
+      "eval_runtime": 7.7206,
+      "eval_samples_per_second": 12.952,
+      "eval_wer": 0.3337393422655298,
+      "step": 94500
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 3.858704519497471e-05,
+      "loss": NaN,
+      "step": 94600
+    },
+    {
+      "epoch": 15.38,
+      "eval_loss": 0.4589609205722809,
+      "eval_runtime": 9.1951,
+      "eval_samples_per_second": 10.875,
+      "eval_wer": 0.3507917174177832,
+      "step": 94600
+    },
+    {
+      "epoch": 15.4,
+      "learning_rate": 3.852178169358786e-05,
+      "loss": NaN,
+      "step": 94700
+    },
+    {
+      "epoch": 15.4,
+      "eval_loss": 0.424941748380661,
+      "eval_runtime": 7.5287,
+      "eval_samples_per_second": 13.283,
+      "eval_wer": 0.34226552984165654,
+      "step": 94700
+    },
+    {
+      "epoch": 15.42,
+      "learning_rate": 3.8456518192201015e-05,
+      "loss": NaN,
+      "step": 94800
+    },
+    {
+      "epoch": 15.42,
+      "eval_loss": 0.3637240529060364,
+      "eval_runtime": 7.2763,
+      "eval_samples_per_second": 13.743,
+      "eval_wer": 0.33617539585870887,
+      "step": 94800
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 3.8391254690814166e-05,
+      "loss": NaN,
+      "step": 94900
+    },
+    {
+      "epoch": 15.43,
+      "eval_loss": 0.4193127453327179,
+      "eval_runtime": 8.6177,
+      "eval_samples_per_second": 11.604,
+      "eval_wer": 0.34957369062119364,
+      "step": 94900
+    },
+    {
+      "epoch": 15.45,
+      "learning_rate": 3.832599118942731e-05,
+      "loss": NaN,
+      "step": 95000
+    },
+    {
+      "epoch": 15.45,
+      "eval_loss": 0.4117446839809418,
+      "eval_runtime": 8.8573,
+      "eval_samples_per_second": 11.29,
+      "eval_wer": 0.35322777101096225,
+      "step": 95000
+    },
+    {
+      "epoch": 15.47,
+      "learning_rate": 3.8260727688040464e-05,
+      "loss": NaN,
+      "step": 95100
+    },
+    {
+      "epoch": 15.47,
+      "eval_loss": 0.4040590226650238,
+      "eval_runtime": 8.3094,
+      "eval_samples_per_second": 12.035,
+      "eval_wer": 0.3325213154689403,
+      "step": 95100
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 3.8195464186653615e-05,
+      "loss": NaN,
+      "step": 95200
+    },
+    {
+      "epoch": 15.48,
+      "eval_loss": 0.4011731445789337,
+      "eval_runtime": 8.1566,
+      "eval_samples_per_second": 12.26,
+      "eval_wer": 0.3447015834348356,
+      "step": 95200
+    },
+    {
+      "epoch": 15.5,
+      "learning_rate": 3.813020068526677e-05,
+      "loss": NaN,
+      "step": 95300
+    },
+    {
+      "epoch": 15.5,
+      "eval_loss": 0.4071398675441742,
+      "eval_runtime": 8.9786,
+      "eval_samples_per_second": 11.138,
+      "eval_wer": 0.3690621193666261,
+      "step": 95300
+    },
+    {
+      "epoch": 15.51,
+      "learning_rate": 3.806493718387992e-05,
+      "loss": NaN,
+      "step": 95400
+    },
+    {
+      "epoch": 15.51,
+      "eval_loss": 0.4124356806278229,
+      "eval_runtime": 7.7821,
+      "eval_samples_per_second": 12.85,
+      "eval_wer": 0.36053593179049936,
+      "step": 95400
+    },
+    {
+      "epoch": 15.53,
+      "learning_rate": 3.799967368249307e-05,
+      "loss": NaN,
+      "step": 95500
+    },
+    {
+      "epoch": 15.53,
+      "eval_loss": 0.43873709440231323,
+      "eval_runtime": 8.5817,
+      "eval_samples_per_second": 11.653,
+      "eval_wer": 0.35322777101096225,
+      "step": 95500
+    },
+    {
+      "epoch": 15.55,
+      "learning_rate": 3.7934410181106216e-05,
+      "loss": NaN,
+      "step": 95600
+    },
+    {
+      "epoch": 15.55,
+      "eval_loss": 0.43614262342453003,
+      "eval_runtime": 7.3882,
+      "eval_samples_per_second": 13.535,
+      "eval_wer": 0.35322777101096225,
+      "step": 95600
+    },
+    {
+      "epoch": 15.56,
+      "learning_rate": 3.786914667971937e-05,
+      "loss": NaN,
+      "step": 95700
+    },
+    {
+      "epoch": 15.56,
+      "eval_loss": 0.4307575225830078,
+      "eval_runtime": 7.3712,
+      "eval_samples_per_second": 13.566,
+      "eval_wer": 0.3617539585870889,
+      "step": 95700
+    },
+    {
+      "epoch": 15.58,
+      "learning_rate": 3.780388317833252e-05,
+      "loss": NaN,
+      "step": 95800
+    },
+    {
+      "epoch": 15.58,
+      "eval_loss": 0.39022716879844666,
+      "eval_runtime": 8.1214,
+      "eval_samples_per_second": 12.313,
+      "eval_wer": 0.34348355663824603,
+      "step": 95800
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 3.773861967694567e-05,
+      "loss": NaN,
+      "step": 95900
+    },
+    {
+      "epoch": 15.6,
+      "eval_loss": 0.5400065779685974,
+      "eval_runtime": 9.4699,
+      "eval_samples_per_second": 10.56,
+      "eval_wer": 0.34226552984165654,
+      "step": 95900
+    },
+    {
+      "epoch": 15.61,
+      "learning_rate": 3.7673356175558824e-05,
+      "loss": NaN,
+      "step": 96000
+    },
+    {
+      "epoch": 15.61,
+      "eval_loss": 0.4195316433906555,
+      "eval_runtime": 6.7762,
+      "eval_samples_per_second": 14.758,
+      "eval_wer": 0.3471376370280146,
+      "step": 96000
+    },
+    {
+      "epoch": 15.63,
+      "learning_rate": 3.760809267417197e-05,
+      "loss": NaN,
+      "step": 96100
+    },
+    {
+      "epoch": 15.63,
+      "eval_loss": 0.5240188837051392,
+      "eval_runtime": 7.6344,
+      "eval_samples_per_second": 13.099,
+      "eval_wer": 0.35931790499390986,
+      "step": 96100
+    },
+    {
+      "epoch": 15.64,
+      "learning_rate": 3.754282917278512e-05,
+      "loss": NaN,
+      "step": 96200
+    },
+    {
+      "epoch": 15.64,
+      "eval_loss": 0.4596652686595917,
+      "eval_runtime": 8.7291,
+      "eval_samples_per_second": 11.456,
+      "eval_wer": 0.3471376370280146,
+      "step": 96200
+    },
+    {
+      "epoch": 15.66,
+      "learning_rate": 3.747756567139827e-05,
+      "loss": NaN,
+      "step": 96300
+    },
+    {
+      "epoch": 15.66,
+      "eval_loss": 0.5023432374000549,
+      "eval_runtime": 10.5167,
+      "eval_samples_per_second": 9.509,
+      "eval_wer": 0.3459196102314251,
+      "step": 96300
+    },
+    {
+      "epoch": 15.68,
+      "learning_rate": 3.741230217001142e-05,
+      "loss": NaN,
+      "step": 96400
+    },
+    {
+      "epoch": 15.68,
+      "eval_loss": 0.42950576543807983,
+      "eval_runtime": 9.5929,
+      "eval_samples_per_second": 10.424,
+      "eval_wer": 0.3617539585870889,
+      "step": 96400
+    },
+    {
+      "epoch": 15.69,
+      "learning_rate": 3.734703866862457e-05,
+      "loss": NaN,
+      "step": 96500
+    },
+    {
+      "epoch": 15.69,
+      "eval_loss": 0.6256393194198608,
+      "eval_runtime": 8.8475,
+      "eval_samples_per_second": 11.303,
+      "eval_wer": 0.3617539585870889,
+      "step": 96500
+    },
+    {
+      "epoch": 15.71,
+      "learning_rate": 3.728177516723773e-05,
+      "loss": NaN,
+      "step": 96600
+    },
+    {
+      "epoch": 15.71,
+      "eval_loss": 0.40215057134628296,
+      "eval_runtime": 7.4719,
+      "eval_samples_per_second": 13.383,
+      "eval_wer": 0.34835566382460414,
+      "step": 96600
+    },
+    {
+      "epoch": 15.73,
+      "learning_rate": 3.7216511665850874e-05,
+      "loss": NaN,
+      "step": 96700
+    },
+    {
+      "epoch": 15.73,
+      "eval_loss": 0.5013496279716492,
+      "eval_runtime": 8.1012,
+      "eval_samples_per_second": 12.344,
+      "eval_wer": 0.3520097442143727,
+      "step": 96700
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 3.7151248164464026e-05,
+      "loss": NaN,
+      "step": 96800
+    },
+    {
+      "epoch": 15.74,
+      "eval_loss": 0.4012104868888855,
+      "eval_runtime": 6.7403,
+      "eval_samples_per_second": 14.836,
+      "eval_wer": 0.3459196102314251,
+      "step": 96800
+    },
+    {
+      "epoch": 15.76,
+      "learning_rate": 3.708598466307718e-05,
+      "loss": NaN,
+      "step": 96900
+    },
+    {
+      "epoch": 15.76,
+      "eval_loss": 0.39129239320755005,
+      "eval_runtime": 7.4628,
+      "eval_samples_per_second": 13.4,
+      "eval_wer": 0.35322777101096225,
+      "step": 96900
+    },
+    {
+      "epoch": 15.77,
+      "learning_rate": 3.702072116169032e-05,
+      "loss": NaN,
+      "step": 97000
+    },
+    {
+      "epoch": 15.77,
+      "eval_loss": 0.4360794126987457,
+      "eval_runtime": 7.5057,
+      "eval_samples_per_second": 13.323,
+      "eval_wer": 0.35444579780755175,
+      "step": 97000
+    },
+    {
+      "epoch": 15.79,
+      "learning_rate": 3.6955457660303475e-05,
+      "loss": NaN,
+      "step": 97100
+    },
+    {
+      "epoch": 15.79,
+      "eval_loss": 0.42406460642814636,
+      "eval_runtime": 7.6982,
+      "eval_samples_per_second": 12.99,
+      "eval_wer": 0.3398294762484775,
+      "step": 97100
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 3.689019415891663e-05,
+      "loss": NaN,
+      "step": 97200
+    },
+    {
+      "epoch": 15.81,
+      "eval_loss": 0.4149155020713806,
+      "eval_runtime": 6.9699,
+      "eval_samples_per_second": 14.347,
+      "eval_wer": 0.3556638246041413,
+      "step": 97200
+    },
+    {
+      "epoch": 15.82,
+      "learning_rate": 3.682493065752978e-05,
+      "loss": NaN,
+      "step": 97300
+    },
+    {
+      "epoch": 15.82,
+      "eval_loss": 0.4104059934616089,
+      "eval_runtime": 7.1554,
+      "eval_samples_per_second": 13.976,
+      "eval_wer": 0.34226552984165654,
+      "step": 97300
+    },
+    {
+      "epoch": 15.84,
+      "learning_rate": 3.675966715614293e-05,
+      "loss": NaN,
+      "step": 97400
+    },
+    {
+      "epoch": 15.84,
+      "eval_loss": 0.3772718906402588,
+      "eval_runtime": 7.8874,
+      "eval_samples_per_second": 12.678,
+      "eval_wer": 0.3447015834348356,
+      "step": 97400
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 3.669440365475608e-05,
+      "loss": NaN,
+      "step": 97500
+    },
+    {
+      "epoch": 15.86,
+      "eval_loss": 0.37940847873687744,
+      "eval_runtime": 6.9895,
+      "eval_samples_per_second": 14.307,
+      "eval_wer": 0.3373934226552984,
+      "step": 97500
+    },
+    {
+      "epoch": 15.87,
+      "learning_rate": 3.662914015336923e-05,
+      "loss": NaN,
+      "step": 97600
+    },
+    {
+      "epoch": 15.87,
+      "eval_loss": 0.41447925567626953,
+      "eval_runtime": 7.7777,
+      "eval_samples_per_second": 12.857,
+      "eval_wer": 0.36053593179049936,
+      "step": 97600
+    },
+    {
+      "epoch": 15.89,
+      "learning_rate": 3.656387665198238e-05,
+      "loss": NaN,
+      "step": 97700
+    },
+    {
+      "epoch": 15.89,
+      "eval_loss": 0.41132599115371704,
+      "eval_runtime": 8.7663,
+      "eval_samples_per_second": 11.407,
+      "eval_wer": 0.37149817295980514,
+      "step": 97700
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 3.649861315059553e-05,
+      "loss": NaN,
+      "step": 97800
+    },
+    {
+      "epoch": 15.91,
+      "eval_loss": 0.5543003678321838,
+      "eval_runtime": 9.1096,
+      "eval_samples_per_second": 10.977,
+      "eval_wer": 0.35444579780755175,
+      "step": 97800
+    },
+    {
+      "epoch": 15.92,
+      "learning_rate": 3.643334964920868e-05,
+      "loss": NaN,
+      "step": 97900
+    },
+    {
+      "epoch": 15.92,
+      "eval_loss": 0.4039764106273651,
+      "eval_runtime": 8.5411,
+      "eval_samples_per_second": 11.708,
+      "eval_wer": 0.34226552984165654,
+      "step": 97900
+    },
+    {
+      "epoch": 15.94,
+      "learning_rate": 3.6368086147821835e-05,
+      "loss": NaN,
+      "step": 98000
+    },
+    {
+      "epoch": 15.94,
+      "eval_loss": 0.39489075541496277,
+      "eval_runtime": 7.4333,
+      "eval_samples_per_second": 13.453,
+      "eval_wer": 0.3459196102314251,
+      "step": 98000
+    },
+    {
+      "epoch": 15.95,
+      "learning_rate": 3.630282264643498e-05,
+      "loss": NaN,
+      "step": 98100
+    },
+    {
+      "epoch": 15.95,
+      "eval_loss": 0.44759106636047363,
+      "eval_runtime": 7.8336,
+      "eval_samples_per_second": 12.766,
+      "eval_wer": 0.35931790499390986,
+      "step": 98100
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 3.623755914504813e-05,
+      "loss": NaN,
+      "step": 98200
+    },
+    {
+      "epoch": 15.97,
+      "eval_loss": 0.42032337188720703,
+      "eval_runtime": 9.2764,
+      "eval_samples_per_second": 10.78,
+      "eval_wer": 0.36053593179049936,
+      "step": 98200
+    },
+    {
+      "epoch": 15.99,
+      "learning_rate": 3.6172295643661284e-05,
+      "loss": NaN,
+      "step": 98300
+    },
+    {
+      "epoch": 15.99,
+      "eval_loss": 0.3860644996166229,
+      "eval_runtime": 7.7163,
+      "eval_samples_per_second": 12.96,
+      "eval_wer": 0.34226552984165654,
+      "step": 98300
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3.6107032142274436e-05,
+      "loss": NaN,
+      "step": 98400
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.5123631954193115,
+      "eval_runtime": 8.6602,
+      "eval_samples_per_second": 11.547,
+      "eval_wer": 0.3459196102314251,
+      "step": 98400
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 3.604176864088759e-05,
+      "loss": NaN,
+      "step": 98500
+    },
+    {
+      "epoch": 16.02,
+      "eval_loss": 0.39611780643463135,
+      "eval_runtime": 7.1716,
+      "eval_samples_per_second": 13.944,
+      "eval_wer": 0.3459196102314251,
+      "step": 98500
+    },
+    {
+      "epoch": 16.04,
+      "learning_rate": 3.597650513950074e-05,
+      "loss": NaN,
+      "step": 98600
+    },
+    {
+      "epoch": 16.04,
+      "eval_loss": 0.47687721252441406,
+      "eval_runtime": 7.4875,
+      "eval_samples_per_second": 13.356,
+      "eval_wer": 0.3556638246041413,
+      "step": 98600
+    },
+    {
+      "epoch": 16.05,
+      "learning_rate": 3.5911241638113885e-05,
+      "loss": NaN,
+      "step": 98700
+    },
+    {
+      "epoch": 16.05,
+      "eval_loss": 0.5570668578147888,
+      "eval_runtime": 9.3365,
+      "eval_samples_per_second": 10.711,
+      "eval_wer": 0.35931790499390986,
+      "step": 98700
+    },
+    {
+      "epoch": 16.07,
+      "learning_rate": 3.584597813672704e-05,
+      "loss": NaN,
+      "step": 98800
+    },
+    {
+      "epoch": 16.07,
+      "eval_loss": 0.4510762691497803,
+      "eval_runtime": 8.9657,
+      "eval_samples_per_second": 11.154,
+      "eval_wer": 0.3629719853836784,
+      "step": 98800
+    },
+    {
+      "epoch": 16.08,
+      "learning_rate": 3.578071463534019e-05,
+      "loss": NaN,
+      "step": 98900
+    },
+    {
+      "epoch": 16.08,
+      "eval_loss": 0.41739127039909363,
+      "eval_runtime": 8.5583,
+      "eval_samples_per_second": 11.685,
+      "eval_wer": 0.3459196102314251,
+      "step": 98900
+    },
+    {
+      "epoch": 16.1,
+      "learning_rate": 3.5715451133953334e-05,
+      "loss": NaN,
+      "step": 99000
+    },
+    {
+      "epoch": 16.1,
+      "eval_loss": 0.36998283863067627,
+      "eval_runtime": 9.3054,
+      "eval_samples_per_second": 10.747,
+      "eval_wer": 0.33008526187576126,
+      "step": 99000
+    },
+    {
+      "epoch": 16.12,
+      "learning_rate": 3.565018763256649e-05,
+      "loss": NaN,
+      "step": 99100
+    },
+    {
+      "epoch": 16.12,
+      "eval_loss": 0.4438319504261017,
+      "eval_runtime": 7.1139,
+      "eval_samples_per_second": 14.057,
+      "eval_wer": 0.35931790499390986,
+      "step": 99100
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 3.5584924131179645e-05,
+      "loss": NaN,
+      "step": 99200
+    },
+    {
+      "epoch": 16.13,
+      "eval_loss": 0.42432862520217896,
+      "eval_runtime": 7.9048,
+      "eval_samples_per_second": 12.651,
+      "eval_wer": 0.30450669914738127,
+      "step": 99200
+    },
+    {
+      "epoch": 16.15,
+      "learning_rate": 3.551966062979279e-05,
+      "loss": NaN,
+      "step": 99300
+    },
+    {
+      "epoch": 16.15,
+      "eval_loss": 0.39224445819854736,
+      "eval_runtime": 7.1957,
+      "eval_samples_per_second": 13.897,
+      "eval_wer": 0.3447015834348356,
+      "step": 99300
+    },
+    {
+      "epoch": 16.17,
+      "learning_rate": 3.545439712840594e-05,
+      "loss": NaN,
+      "step": 99400
+    },
+    {
+      "epoch": 16.17,
+      "eval_loss": 0.44131773710250854,
+      "eval_runtime": 8.1898,
+      "eval_samples_per_second": 12.21,
+      "eval_wer": 0.3507917174177832,
+      "step": 99400
+    },
+    {
+      "epoch": 16.18,
+      "learning_rate": 3.538913362701909e-05,
+      "loss": NaN,
+      "step": 99500
+    },
+    {
+      "epoch": 16.18,
+      "eval_loss": 0.38120517134666443,
+      "eval_runtime": 6.6009,
+      "eval_samples_per_second": 15.149,
+      "eval_wer": 0.3398294762484775,
+      "step": 99500
+    },
+    {
+      "epoch": 16.2,
+      "learning_rate": 3.532387012563224e-05,
+      "loss": NaN,
+      "step": 99600
+    },
+    {
+      "epoch": 16.2,
+      "eval_loss": 0.4235430955886841,
+      "eval_runtime": 9.0979,
+      "eval_samples_per_second": 10.991,
+      "eval_wer": 0.3447015834348356,
+      "step": 99600
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 3.525860662424539e-05,
+      "loss": NaN,
+      "step": 99700
+    },
+    {
+      "epoch": 16.21,
+      "eval_loss": 0.39221322536468506,
+      "eval_runtime": 7.4156,
+      "eval_samples_per_second": 13.485,
+      "eval_wer": 0.3507917174177832,
+      "step": 99700
+    },
+    {
+      "epoch": 16.23,
+      "learning_rate": 3.519334312285854e-05,
+      "loss": NaN,
+      "step": 99800
+    },
+    {
+      "epoch": 16.23,
+      "eval_loss": 0.49404698610305786,
+      "eval_runtime": 7.4446,
+      "eval_samples_per_second": 13.433,
+      "eval_wer": 0.3556638246041413,
+      "step": 99800
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 3.5128079621471695e-05,
+      "loss": NaN,
+      "step": 99900
+    },
+    {
+      "epoch": 16.25,
+      "eval_loss": 0.4537053406238556,
+      "eval_runtime": 9.1442,
+      "eval_samples_per_second": 10.936,
+      "eval_wer": 0.3471376370280146,
+      "step": 99900
+    },
+    {
+      "epoch": 16.26,
+      "learning_rate": 3.5062816120084846e-05,
+      "loss": NaN,
+      "step": 100000
+    },
+    {
+      "epoch": 16.26,
+      "eval_loss": 0.42373108863830566,
+      "eval_runtime": 8.1063,
+      "eval_samples_per_second": 12.336,
+      "eval_wer": 0.33617539585870887,
+      "step": 100000
+    },
+    {
+      "epoch": 16.28,
+      "learning_rate": 3.499755261869799e-05,
+      "loss": NaN,
+      "step": 100100
+    },
+    {
+      "epoch": 16.28,
+      "eval_loss": 0.5141391754150391,
+      "eval_runtime": 9.0075,
+      "eval_samples_per_second": 11.102,
+      "eval_wer": 0.3459196102314251,
+      "step": 100100
+    },
+    {
+      "epoch": 16.3,
+      "learning_rate": 3.4932289117311143e-05,
+      "loss": NaN,
+      "step": 100200
+    },
+    {
+      "epoch": 16.3,
+      "eval_loss": 0.4039132297039032,
+      "eval_runtime": 9.3683,
+      "eval_samples_per_second": 10.674,
+      "eval_wer": 0.3459196102314251,
+      "step": 100200
+    },
+    {
+      "epoch": 16.31,
+      "learning_rate": 3.4867025615924295e-05,
+      "loss": NaN,
+      "step": 100300
+    },
+    {
+      "epoch": 16.31,
+      "eval_loss": 0.46978646516799927,
+      "eval_runtime": 6.7436,
+      "eval_samples_per_second": 14.829,
+      "eval_wer": 0.3471376370280146,
+      "step": 100300
+    },
+    {
+      "epoch": 16.33,
+      "learning_rate": 3.480176211453745e-05,
+      "loss": NaN,
+      "step": 100400
+    },
+    {
+      "epoch": 16.33,
+      "eval_loss": 0.41287657618522644,
+      "eval_runtime": 8.0877,
+      "eval_samples_per_second": 12.364,
+      "eval_wer": 0.3471376370280146,
+      "step": 100400
+    },
+    {
+      "epoch": 16.34,
+      "learning_rate": 3.47364986131506e-05,
+      "loss": NaN,
+      "step": 100500
+    },
+    {
+      "epoch": 16.34,
+      "eval_loss": 0.4684438407421112,
+      "eval_runtime": 8.5044,
+      "eval_samples_per_second": 11.759,
+      "eval_wer": 0.3520097442143727,
+      "step": 100500
+    },
+    {
+      "epoch": 16.36,
+      "learning_rate": 3.467123511176375e-05,
+      "loss": NaN,
+      "step": 100600
+    },
+    {
+      "epoch": 16.36,
+      "eval_loss": 0.4466744363307953,
+      "eval_runtime": 8.8741,
+      "eval_samples_per_second": 11.269,
+      "eval_wer": 0.35809987819732036,
+      "step": 100600
+    },
+    {
+      "epoch": 16.38,
+      "learning_rate": 3.4605971610376896e-05,
+      "loss": NaN,
+      "step": 100700
+    },
+    {
+      "epoch": 16.38,
+      "eval_loss": 0.38788944482803345,
+      "eval_runtime": 7.8104,
+      "eval_samples_per_second": 12.803,
+      "eval_wer": 0.33008526187576126,
+      "step": 100700
+    },
+    {
+      "epoch": 16.39,
+      "learning_rate": 3.454070810899005e-05,
+      "loss": NaN,
+      "step": 100800
+    },
+    {
+      "epoch": 16.39,
+      "eval_loss": 0.40568241477012634,
+      "eval_runtime": 9.8132,
+      "eval_samples_per_second": 10.19,
+      "eval_wer": 0.341047503045067,
+      "step": 100800
+    },
+    {
+      "epoch": 16.41,
+      "learning_rate": 3.44754446076032e-05,
+      "loss": NaN,
+      "step": 100900
+    },
+    {
+      "epoch": 16.41,
+      "eval_loss": 0.43558773398399353,
+      "eval_runtime": 7.63,
+      "eval_samples_per_second": 13.106,
+      "eval_wer": 0.3568818514007308,
+      "step": 100900
+    },
+    {
+      "epoch": 16.43,
+      "learning_rate": 3.441018110621635e-05,
+      "loss": NaN,
+      "step": 101000
+    },
+    {
+      "epoch": 16.43,
+      "eval_loss": 0.4001496136188507,
+      "eval_runtime": 6.8773,
+      "eval_samples_per_second": 14.541,
+      "eval_wer": 0.3471376370280146,
+      "step": 101000
+    },
+    {
+      "epoch": 16.44,
+      "learning_rate": 3.4344917604829504e-05,
+      "loss": NaN,
+      "step": 101100
+    },
+    {
+      "epoch": 16.44,
+      "eval_loss": 0.4105696976184845,
+      "eval_runtime": 7.7809,
+      "eval_samples_per_second": 12.852,
+      "eval_wer": 0.3325213154689403,
+      "step": 101100
+    },
+    {
+      "epoch": 16.46,
+      "learning_rate": 3.427965410344265e-05,
+      "loss": NaN,
+      "step": 101200
+    },
+    {
+      "epoch": 16.46,
+      "eval_loss": 0.4008920192718506,
+      "eval_runtime": 7.3769,
+      "eval_samples_per_second": 13.556,
+      "eval_wer": 0.34348355663824603,
+      "step": 101200
+    },
+    {
+      "epoch": 16.47,
+      "learning_rate": 3.42143906020558e-05,
+      "loss": NaN,
+      "step": 101300
+    },
+    {
+      "epoch": 16.47,
+      "eval_loss": 0.4045610725879669,
+      "eval_runtime": 8.9725,
+      "eval_samples_per_second": 11.145,
+      "eval_wer": 0.341047503045067,
+      "step": 101300
+    },
+    {
+      "epoch": 16.49,
+      "learning_rate": 3.414912710066895e-05,
+      "loss": NaN,
+      "step": 101400
+    },
+    {
+      "epoch": 16.49,
+      "eval_loss": 0.43567919731140137,
+      "eval_runtime": 8.8256,
+      "eval_samples_per_second": 11.331,
+      "eval_wer": 0.36053593179049936,
+      "step": 101400
+    },
+    {
+      "epoch": 16.51,
+      "learning_rate": 3.40838635992821e-05,
+      "loss": NaN,
+      "step": 101500
+    },
+    {
+      "epoch": 16.51,
+      "eval_loss": 0.41516247391700745,
+      "eval_runtime": 7.2706,
+      "eval_samples_per_second": 13.754,
+      "eval_wer": 0.35444579780755175,
+      "step": 101500
+    },
+    {
+      "epoch": 16.52,
+      "learning_rate": 3.401860009789526e-05,
+      "loss": NaN,
+      "step": 101600
+    },
+    {
+      "epoch": 16.52,
+      "eval_loss": 0.3579968512058258,
+      "eval_runtime": 7.7267,
+      "eval_samples_per_second": 12.942,
+      "eval_wer": 0.34226552984165654,
+      "step": 101600
+    },
+    {
+      "epoch": 16.54,
+      "learning_rate": 3.395333659650841e-05,
+      "loss": NaN,
+      "step": 101700
+    },
+    {
+      "epoch": 16.54,
+      "eval_loss": 0.3978956639766693,
+      "eval_runtime": 7.5352,
+      "eval_samples_per_second": 13.271,
+      "eval_wer": 0.3373934226552984,
+      "step": 101700
+    },
+    {
+      "epoch": 16.56,
+      "learning_rate": 3.3888073095121554e-05,
+      "loss": NaN,
+      "step": 101800
+    },
+    {
+      "epoch": 16.56,
+      "eval_loss": 0.4536603093147278,
+      "eval_runtime": 7.7523,
+      "eval_samples_per_second": 12.899,
+      "eval_wer": 0.3105968331303289,
+      "step": 101800
+    },
+    {
+      "epoch": 16.57,
+      "learning_rate": 3.3822809593734706e-05,
+      "loss": NaN,
+      "step": 101900
+    },
+    {
+      "epoch": 16.57,
+      "eval_loss": 0.44562357664108276,
+      "eval_runtime": 7.9874,
+      "eval_samples_per_second": 12.52,
+      "eval_wer": 0.3447015834348356,
+      "step": 101900
+    },
+    {
+      "epoch": 16.59,
+      "learning_rate": 3.375754609234786e-05,
+      "loss": NaN,
+      "step": 102000
+    },
+    {
+      "epoch": 16.59,
+      "eval_loss": 0.4070366322994232,
+      "eval_runtime": 7.5818,
+      "eval_samples_per_second": 13.189,
+      "eval_wer": 0.33495736906211937,
+      "step": 102000
+    },
+    {
+      "epoch": 16.6,
+      "learning_rate": 3.3692282590961e-05,
+      "loss": NaN,
+      "step": 102100
+    },
+    {
+      "epoch": 16.6,
+      "eval_loss": 0.4052729904651642,
+      "eval_runtime": 9.8038,
+      "eval_samples_per_second": 10.2,
+      "eval_wer": 0.3398294762484775,
+      "step": 102100
+    },
+    {
+      "epoch": 16.62,
+      "learning_rate": 3.3627019089574155e-05,
+      "loss": NaN,
+      "step": 102200
+    },
+    {
+      "epoch": 16.62,
+      "eval_loss": 0.43835657835006714,
+      "eval_runtime": 9.1381,
+      "eval_samples_per_second": 10.943,
+      "eval_wer": 0.3276492082825822,
+      "step": 102200
+    },
+    {
+      "epoch": 16.64,
+      "learning_rate": 3.3561755588187313e-05,
+      "loss": NaN,
+      "step": 102300
+    },
+    {
+      "epoch": 16.64,
+      "eval_loss": 0.3671765923500061,
+      "eval_runtime": 8.8073,
+      "eval_samples_per_second": 11.354,
+      "eval_wer": 0.33008526187576126,
+      "step": 102300
+    },
+    {
+      "epoch": 16.65,
+      "learning_rate": 3.349649208680046e-05,
+      "loss": NaN,
+      "step": 102400
+    },
+    {
+      "epoch": 16.65,
+      "eval_loss": 0.3550013303756714,
+      "eval_runtime": 8.81,
+      "eval_samples_per_second": 11.351,
+      "eval_wer": 0.3276492082825822,
+      "step": 102400
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 3.343122858541361e-05,
+      "loss": NaN,
+      "step": 102500
+    },
+    {
+      "epoch": 16.67,
+      "eval_loss": 0.37561336159706116,
+      "eval_runtime": 8.2237,
+      "eval_samples_per_second": 12.16,
+      "eval_wer": 0.341047503045067,
+      "step": 102500
+    },
+    {
+      "epoch": 16.69,
+      "learning_rate": 3.336596508402676e-05,
+      "loss": NaN,
+      "step": 102600
+    },
+    {
+      "epoch": 16.69,
+      "eval_loss": 0.42471256852149963,
+      "eval_runtime": 10.0,
+      "eval_samples_per_second": 10.0,
+      "eval_wer": 0.341047503045067,
+      "step": 102600
+    },
+    {
+      "epoch": 16.7,
+      "learning_rate": 3.330070158263991e-05,
+      "loss": NaN,
+      "step": 102700
+    },
+    {
+      "epoch": 16.7,
+      "eval_loss": 0.43302589654922485,
+      "eval_runtime": 8.4874,
+      "eval_samples_per_second": 11.782,
+      "eval_wer": 0.3337393422655298,
+      "step": 102700
+    },
+    {
+      "epoch": 16.72,
+      "learning_rate": 3.323543808125306e-05,
+      "loss": NaN,
+      "step": 102800
+    },
+    {
+      "epoch": 16.72,
+      "eval_loss": 0.3747265636920929,
+      "eval_runtime": 8.2183,
+      "eval_samples_per_second": 12.168,
+      "eval_wer": 0.3398294762484775,
+      "step": 102800
+    },
+    {
+      "epoch": 16.73,
+      "learning_rate": 3.317017457986621e-05,
+      "loss": NaN,
+      "step": 102900
+    },
+    {
+      "epoch": 16.73,
+      "eval_loss": 0.44977033138275146,
+      "eval_runtime": 9.9224,
+      "eval_samples_per_second": 10.078,
+      "eval_wer": 0.33617539585870887,
+      "step": 102900
+    },
+    {
+      "epoch": 16.75,
+      "learning_rate": 3.310491107847936e-05,
+      "loss": NaN,
+      "step": 103000
+    },
+    {
+      "epoch": 16.75,
+      "eval_loss": 0.3952389061450958,
+      "eval_runtime": 7.7792,
+      "eval_samples_per_second": 12.855,
+      "eval_wer": 0.35322777101096225,
+      "step": 103000
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 3.3039647577092515e-05,
+      "loss": NaN,
+      "step": 103100
+    },
+    {
+      "epoch": 16.77,
+      "eval_loss": 0.40458202362060547,
+      "eval_runtime": 8.518,
+      "eval_samples_per_second": 11.74,
+      "eval_wer": 0.3386114494518879,
+      "step": 103100
+    },
+    {
+      "epoch": 16.78,
+      "learning_rate": 3.297438407570566e-05,
+      "loss": NaN,
+      "step": 103200
+    },
+    {
+      "epoch": 16.78,
+      "eval_loss": 0.4162432849407196,
+      "eval_runtime": 9.1287,
+      "eval_samples_per_second": 10.954,
+      "eval_wer": 0.33617539585870887,
+      "step": 103200
+    },
+    {
+      "epoch": 16.8,
+      "learning_rate": 3.290912057431881e-05,
+      "loss": NaN,
+      "step": 103300
+    },
+    {
+      "epoch": 16.8,
+      "eval_loss": 0.4272727966308594,
+      "eval_runtime": 10.4704,
+      "eval_samples_per_second": 9.551,
+      "eval_wer": 0.3471376370280146,
+      "step": 103300
+    },
+    {
+      "epoch": 16.82,
+      "learning_rate": 3.2843857072931964e-05,
+      "loss": NaN,
+      "step": 103400
+    },
+    {
+      "epoch": 16.82,
+      "eval_loss": 0.40407755970954895,
+      "eval_runtime": 9.8048,
+      "eval_samples_per_second": 10.199,
+      "eval_wer": 0.3471376370280146,
+      "step": 103400
+    },
+    {
+      "epoch": 16.83,
+      "learning_rate": 3.2778593571545116e-05,
+      "loss": NaN,
+      "step": 103500
+    },
+    {
+      "epoch": 16.83,
+      "eval_loss": 0.36328965425491333,
+      "eval_runtime": 7.0675,
+      "eval_samples_per_second": 14.149,
+      "eval_wer": 0.3337393422655298,
+      "step": 103500
+    },
+    {
+      "epoch": 16.85,
+      "learning_rate": 3.271333007015827e-05,
+      "loss": NaN,
+      "step": 103600
+    },
+    {
+      "epoch": 16.85,
+      "eval_loss": 0.3919774293899536,
+      "eval_runtime": 8.2233,
+      "eval_samples_per_second": 12.161,
+      "eval_wer": 0.3227771010962241,
+      "step": 103600
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 3.264806656877142e-05,
+      "loss": NaN,
+      "step": 103700
+    },
+    {
+      "epoch": 16.86,
+      "eval_loss": 0.41714799404144287,
+      "eval_runtime": 7.8888,
+      "eval_samples_per_second": 12.676,
+      "eval_wer": 0.3459196102314251,
+      "step": 103700
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 3.2582803067384565e-05,
+      "loss": NaN,
+      "step": 103800
+    },
+    {
+      "epoch": 16.88,
+      "eval_loss": 0.3970955014228821,
+      "eval_runtime": 8.7637,
+      "eval_samples_per_second": 11.411,
+      "eval_wer": 0.34348355663824603,
+      "step": 103800
+    },
+    {
+      "epoch": 16.9,
+      "learning_rate": 3.251753956599772e-05,
+      "loss": NaN,
+      "step": 103900
+    },
+    {
+      "epoch": 16.9,
+      "eval_loss": 0.39458972215652466,
+      "eval_runtime": 7.5247,
+      "eval_samples_per_second": 13.29,
+      "eval_wer": 0.3313032886723508,
+      "step": 103900
+    },
+    {
+      "epoch": 16.91,
+      "learning_rate": 3.245227606461087e-05,
+      "loss": NaN,
+      "step": 104000
+    },
+    {
+      "epoch": 16.91,
+      "eval_loss": 0.3992546498775482,
+      "eval_runtime": 7.666,
+      "eval_samples_per_second": 13.045,
+      "eval_wer": 0.34348355663824603,
+      "step": 104000
+    },
+    {
+      "epoch": 16.93,
+      "learning_rate": 3.2387012563224014e-05,
+      "loss": NaN,
+      "step": 104100
+    },
+    {
+      "epoch": 16.93,
+      "eval_loss": 0.3565240502357483,
+      "eval_runtime": 6.8455,
+      "eval_samples_per_second": 14.608,
+      "eval_wer": 0.3313032886723508,
+      "step": 104100
+    },
+    {
+      "epoch": 16.95,
+      "learning_rate": 3.232174906183717e-05,
+      "loss": NaN,
+      "step": 104200
+    },
+    {
+      "epoch": 16.95,
+      "eval_loss": 0.39272624254226685,
+      "eval_runtime": 8.7645,
+      "eval_samples_per_second": 11.41,
+      "eval_wer": 0.3398294762484775,
+      "step": 104200
+    },
+    {
+      "epoch": 16.96,
+      "learning_rate": 3.2256485560450325e-05,
+      "loss": NaN,
+      "step": 104300
+    },
+    {
+      "epoch": 16.96,
+      "eval_loss": 0.377750962972641,
+      "eval_runtime": 7.4931,
+      "eval_samples_per_second": 13.346,
+      "eval_wer": 0.32886723507917176,
+      "step": 104300
+    },
+    {
+      "epoch": 16.98,
+      "learning_rate": 3.219122205906347e-05,
+      "loss": NaN,
+      "step": 104400
+    },
+    {
+      "epoch": 16.98,
+      "eval_loss": 0.3803618550300598,
+      "eval_runtime": 7.7196,
+      "eval_samples_per_second": 12.954,
+      "eval_wer": 0.32521315468940315,
+      "step": 104400
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 3.212595855767662e-05,
+      "loss": NaN,
+      "step": 104500
+    },
+    {
+      "epoch": 16.99,
+      "eval_loss": 0.4160638153553009,
+      "eval_runtime": 7.8399,
+      "eval_samples_per_second": 12.755,
+      "eval_wer": 0.35931790499390986,
+      "step": 104500
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 3.206069505628977e-05,
+      "loss": NaN,
+      "step": 104600
+    },
+    {
+      "epoch": 17.01,
+      "eval_loss": 0.3985629677772522,
+      "eval_runtime": 7.8601,
+      "eval_samples_per_second": 12.723,
+      "eval_wer": 0.36662606577344703,
+      "step": 104600
+    },
+    {
+      "epoch": 17.03,
+      "learning_rate": 3.199543155490292e-05,
+      "loss": NaN,
+      "step": 104700
+    },
+    {
+      "epoch": 17.03,
+      "eval_loss": 0.362797349691391,
+      "eval_runtime": 7.5799,
+      "eval_samples_per_second": 13.193,
+      "eval_wer": 0.33495736906211937,
+      "step": 104700
+    },
+    {
+      "epoch": 17.04,
+      "learning_rate": 3.193016805351608e-05,
+      "loss": NaN,
+      "step": 104800
+    },
+    {
+      "epoch": 17.04,
+      "eval_loss": 0.46020495891571045,
+      "eval_runtime": 10.2517,
+      "eval_samples_per_second": 9.754,
+      "eval_wer": 0.35322777101096225,
+      "step": 104800
+    },
+    {
+      "epoch": 17.06,
+      "learning_rate": 3.186490455212922e-05,
+      "loss": NaN,
+      "step": 104900
+    },
+    {
+      "epoch": 17.06,
+      "eval_loss": 0.4332337975502014,
+      "eval_runtime": 8.5335,
+      "eval_samples_per_second": 11.719,
+      "eval_wer": 0.33617539585870887,
+      "step": 104900
+    },
+    {
+      "epoch": 17.08,
+      "learning_rate": 3.1799641050742374e-05,
+      "loss": NaN,
+      "step": 105000
+    },
+    {
+      "epoch": 17.08,
+      "eval_loss": 0.39707785844802856,
+      "eval_runtime": 9.4106,
+      "eval_samples_per_second": 10.626,
+      "eval_wer": 0.34348355663824603,
+      "step": 105000
+    },
+    {
+      "epoch": 17.09,
+      "learning_rate": 3.1734377549355526e-05,
+      "loss": NaN,
+      "step": 105100
+    },
+    {
+      "epoch": 17.09,
+      "eval_loss": 0.4423673152923584,
+      "eval_runtime": 7.0369,
+      "eval_samples_per_second": 14.211,
+      "eval_wer": 0.3373934226552984,
+      "step": 105100
+    },
+    {
+      "epoch": 17.11,
+      "learning_rate": 3.166911404796867e-05,
+      "loss": NaN,
+      "step": 105200
+    },
+    {
+      "epoch": 17.11,
+      "eval_loss": 0.4622967541217804,
+      "eval_runtime": 8.2948,
+      "eval_samples_per_second": 12.056,
+      "eval_wer": 0.3654080389768575,
+      "step": 105200
+    },
+    {
+      "epoch": 17.12,
+      "learning_rate": 3.1603850546581823e-05,
+      "loss": NaN,
+      "step": 105300
+    },
+    {
+      "epoch": 17.12,
+      "eval_loss": 0.47677239775657654,
+      "eval_runtime": 7.7449,
+      "eval_samples_per_second": 12.912,
+      "eval_wer": 0.34348355663824603,
+      "step": 105300
+    },
+    {
+      "epoch": 17.14,
+      "learning_rate": 3.1538587045194975e-05,
+      "loss": NaN,
+      "step": 105400
+    },
+    {
+      "epoch": 17.14,
+      "eval_loss": 0.3996973931789398,
+      "eval_runtime": 8.3747,
+      "eval_samples_per_second": 11.941,
+      "eval_wer": 0.3471376370280146,
+      "step": 105400
+    },
+    {
+      "epoch": 17.16,
+      "learning_rate": 3.147332354380813e-05,
+      "loss": NaN,
+      "step": 105500
+    },
+    {
+      "epoch": 17.16,
+      "eval_loss": 0.45852556824684143,
+      "eval_runtime": 7.9151,
+      "eval_samples_per_second": 12.634,
+      "eval_wer": 0.34957369062119364,
+      "step": 105500
+    },
+    {
+      "epoch": 17.17,
+      "learning_rate": 3.140806004242128e-05,
+      "loss": NaN,
+      "step": 105600
+    },
+    {
+      "epoch": 17.17,
+      "eval_loss": 0.3811168670654297,
+      "eval_runtime": 7.7269,
+      "eval_samples_per_second": 12.942,
+      "eval_wer": 0.32886723507917176,
+      "step": 105600
+    },
+    {
+      "epoch": 17.19,
+      "learning_rate": 3.134279654103443e-05,
+      "loss": NaN,
+      "step": 105700
+    },
+    {
+      "epoch": 17.19,
+      "eval_loss": 0.3853236436843872,
+      "eval_runtime": 8.0078,
+      "eval_samples_per_second": 12.488,
+      "eval_wer": 0.32521315468940315,
+      "step": 105700
+    },
+    {
+      "epoch": 17.21,
+      "learning_rate": 3.1277533039647576e-05,
+      "loss": NaN,
+      "step": 105800
+    },
+    {
+      "epoch": 17.21,
+      "eval_loss": 0.43565693497657776,
+      "eval_runtime": 8.6327,
+      "eval_samples_per_second": 11.584,
+      "eval_wer": 0.3690621193666261,
+      "step": 105800
+    },
+    {
+      "epoch": 17.22,
+      "learning_rate": 3.121226953826073e-05,
+      "loss": NaN,
+      "step": 105900
+    },
+    {
+      "epoch": 17.22,
+      "eval_loss": 0.40283602476119995,
+      "eval_runtime": 7.4114,
+      "eval_samples_per_second": 13.493,
+      "eval_wer": 0.3264311814859927,
+      "step": 105900
+    },
+    {
+      "epoch": 17.24,
+      "learning_rate": 3.114700603687388e-05,
+      "loss": NaN,
+      "step": 106000
+    },
+    {
+      "epoch": 17.24,
+      "eval_loss": 0.4006456434726715,
+      "eval_runtime": 7.4096,
+      "eval_samples_per_second": 13.496,
+      "eval_wer": 0.3325213154689403,
+      "step": 106000
+    },
+    {
+      "epoch": 17.25,
+      "learning_rate": 3.108174253548703e-05,
+      "loss": NaN,
+      "step": 106100
+    },
+    {
+      "epoch": 17.25,
+      "eval_loss": 0.43152371048927307,
+      "eval_runtime": 7.2864,
+      "eval_samples_per_second": 13.724,
+      "eval_wer": 0.3386114494518879,
+      "step": 106100
+    },
+    {
+      "epoch": 17.27,
+      "learning_rate": 3.1016479034100184e-05,
+      "loss": NaN,
+      "step": 106200
+    },
+    {
+      "epoch": 17.27,
+      "eval_loss": 0.3727237582206726,
+      "eval_runtime": 9.6507,
+      "eval_samples_per_second": 10.362,
+      "eval_wer": 0.3227771010962241,
+      "step": 106200
+    },
+    {
+      "epoch": 17.29,
+      "learning_rate": 3.095121553271333e-05,
+      "loss": NaN,
+      "step": 106300
+    },
+    {
+      "epoch": 17.29,
+      "eval_loss": 0.4210117757320404,
+      "eval_runtime": 10.0021,
+      "eval_samples_per_second": 9.998,
+      "eval_wer": 0.3264311814859927,
+      "step": 106300
+    },
+    {
+      "epoch": 17.3,
+      "learning_rate": 3.088595203132648e-05,
+      "loss": NaN,
+      "step": 106400
+    },
+    {
+      "epoch": 17.3,
+      "eval_loss": 0.40674594044685364,
+      "eval_runtime": 9.4605,
+      "eval_samples_per_second": 10.57,
+      "eval_wer": 0.34226552984165654,
+      "step": 106400
+    },
+    {
+      "epoch": 17.32,
+      "learning_rate": 3.082068852993963e-05,
+      "loss": NaN,
+      "step": 106500
+    },
+    {
+      "epoch": 17.32,
+      "eval_loss": 0.42881014943122864,
+      "eval_runtime": 8.646,
+      "eval_samples_per_second": 11.566,
+      "eval_wer": 0.3325213154689403,
+      "step": 106500
+    },
+    {
+      "epoch": 17.34,
+      "learning_rate": 3.075542502855278e-05,
+      "loss": NaN,
+      "step": 106600
+    },
+    {
+      "epoch": 17.34,
+      "eval_loss": 0.3960503339767456,
+      "eval_runtime": 7.5435,
+      "eval_samples_per_second": 13.256,
+      "eval_wer": 0.3313032886723508,
+      "step": 106600
+    },
+    {
+      "epoch": 17.35,
+      "learning_rate": 3.069016152716594e-05,
+      "loss": NaN,
+      "step": 106700
+    },
+    {
+      "epoch": 17.35,
+      "eval_loss": 0.5093197226524353,
+      "eval_runtime": 8.4275,
+      "eval_samples_per_second": 11.866,
+      "eval_wer": 0.34226552984165654,
+      "step": 106700
+    },
+    {
+      "epoch": 17.37,
+      "learning_rate": 3.062489802577909e-05,
+      "loss": NaN,
+      "step": 106800
+    },
+    {
+      "epoch": 17.37,
+      "eval_loss": 0.4141642451286316,
+      "eval_runtime": 8.7304,
+      "eval_samples_per_second": 11.454,
+      "eval_wer": 0.3459196102314251,
+      "step": 106800
+    },
+    {
+      "epoch": 17.38,
+      "learning_rate": 3.0559634524392234e-05,
+      "loss": NaN,
+      "step": 106900
+    },
+    {
+      "epoch": 17.38,
+      "eval_loss": 0.3708423376083374,
+      "eval_runtime": 9.1322,
+      "eval_samples_per_second": 10.95,
+      "eval_wer": 0.3276492082825822,
+      "step": 106900
+    },
+    {
+      "epoch": 17.4,
+      "learning_rate": 3.0494371023005386e-05,
+      "loss": NaN,
+      "step": 107000
+    },
+    {
+      "epoch": 17.4,
+      "eval_loss": 0.43578729033470154,
+      "eval_runtime": 8.1187,
+      "eval_samples_per_second": 12.317,
+      "eval_wer": 0.3398294762484775,
+      "step": 107000
+    },
+    {
+      "epoch": 17.42,
+      "learning_rate": 3.0429107521618538e-05,
+      "loss": NaN,
+      "step": 107100
+    },
+    {
+      "epoch": 17.42,
+      "eval_loss": 0.38338860869407654,
+      "eval_runtime": 8.1539,
+      "eval_samples_per_second": 12.264,
+      "eval_wer": 0.32521315468940315,
+      "step": 107100
+    },
+    {
+      "epoch": 17.43,
+      "learning_rate": 3.0363844020231686e-05,
+      "loss": NaN,
+      "step": 107200
+    },
+    {
+      "epoch": 17.43,
+      "eval_loss": 0.3750736713409424,
+      "eval_runtime": 8.3902,
+      "eval_samples_per_second": 11.919,
+      "eval_wer": 0.34348355663824603,
+      "step": 107200
+    },
+    {
+      "epoch": 17.45,
+      "learning_rate": 3.0298580518844838e-05,
+      "loss": NaN,
+      "step": 107300
+    },
+    {
+      "epoch": 17.45,
+      "eval_loss": 0.39097708463668823,
+      "eval_runtime": 9.385,
+      "eval_samples_per_second": 10.655,
+      "eval_wer": 0.34348355663824603,
+      "step": 107300
+    },
+    {
+      "epoch": 17.47,
+      "learning_rate": 3.023331701745799e-05,
+      "loss": NaN,
+      "step": 107400
+    },
+    {
+      "epoch": 17.47,
+      "eval_loss": 0.4204353094100952,
+      "eval_runtime": 8.9165,
+      "eval_samples_per_second": 11.215,
+      "eval_wer": 0.35444579780755175,
+      "step": 107400
+    },
+    {
+      "epoch": 17.48,
+      "learning_rate": 3.016805351607114e-05,
+      "loss": NaN,
+      "step": 107500
+    },
+    {
+      "epoch": 17.48,
+      "eval_loss": 0.40133535861968994,
+      "eval_runtime": 8.5063,
+      "eval_samples_per_second": 11.756,
+      "eval_wer": 0.34226552984165654,
+      "step": 107500
+    },
+    {
+      "epoch": 17.5,
+      "learning_rate": 3.010279001468429e-05,
+      "loss": NaN,
+      "step": 107600
+    },
+    {
+      "epoch": 17.5,
+      "eval_loss": 0.3767768144607544,
+      "eval_runtime": 7.8527,
+      "eval_samples_per_second": 12.735,
+      "eval_wer": 0.32521315468940315,
+      "step": 107600
+    },
+    {
+      "epoch": 17.52,
+      "learning_rate": 3.0037526513297442e-05,
+      "loss": NaN,
+      "step": 107700
+    },
+    {
+      "epoch": 17.52,
+      "eval_loss": 0.3812255859375,
+      "eval_runtime": 8.1107,
+      "eval_samples_per_second": 12.329,
+      "eval_wer": 0.3398294762484775,
+      "step": 107700
+    },
+    {
+      "epoch": 17.53,
+      "learning_rate": 2.997226301191059e-05,
+      "loss": NaN,
+      "step": 107800
+    },
+    {
+      "epoch": 17.53,
+      "eval_loss": 0.40557724237442017,
+      "eval_runtime": 8.1245,
+      "eval_samples_per_second": 12.308,
+      "eval_wer": 0.33008526187576126,
+      "step": 107800
+    },
+    {
+      "epoch": 17.55,
+      "learning_rate": 2.9906999510523743e-05,
+      "loss": NaN,
+      "step": 107900
+    },
+    {
+      "epoch": 17.55,
+      "eval_loss": 0.42703160643577576,
+      "eval_runtime": 8.9403,
+      "eval_samples_per_second": 11.185,
+      "eval_wer": 0.3471376370280146,
+      "step": 107900
+    },
+    {
+      "epoch": 17.56,
+      "learning_rate": 2.9841736009136888e-05,
+      "loss": NaN,
+      "step": 108000
+    },
+    {
+      "epoch": 17.56,
+      "eval_loss": 0.38233357667922974,
+      "eval_runtime": 7.8203,
+      "eval_samples_per_second": 12.787,
+      "eval_wer": 0.34835566382460414,
+      "step": 108000
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 2.9776472507750043e-05,
+      "loss": NaN,
+      "step": 108100
+    },
+    {
+      "epoch": 17.58,
+      "eval_loss": 0.4634896218776703,
+      "eval_runtime": 8.3672,
+      "eval_samples_per_second": 11.951,
+      "eval_wer": 0.3520097442143727,
+      "step": 108100
+    },
+    {
+      "epoch": 17.6,
+      "learning_rate": 2.9711209006363195e-05,
+      "loss": NaN,
+      "step": 108200
+    },
+    {
+      "epoch": 17.6,
+      "eval_loss": 0.3950602412223816,
+      "eval_runtime": 8.3188,
+      "eval_samples_per_second": 12.021,
+      "eval_wer": 0.33617539585870887,
+      "step": 108200
+    },
+    {
+      "epoch": 17.61,
+      "learning_rate": 2.964594550497634e-05,
+      "loss": NaN,
+      "step": 108300
+    },
+    {
+      "epoch": 17.61,
+      "eval_loss": 0.3925233781337738,
+      "eval_runtime": 6.759,
+      "eval_samples_per_second": 14.795,
+      "eval_wer": 0.3373934226552984,
+      "step": 108300
+    },
+    {
+      "epoch": 17.63,
+      "learning_rate": 2.9580682003589492e-05,
+      "loss": NaN,
+      "step": 108400
+    },
+    {
+      "epoch": 17.63,
+      "eval_loss": 0.49706822633743286,
+      "eval_runtime": 9.3441,
+      "eval_samples_per_second": 10.702,
+      "eval_wer": 0.35809987819732036,
+      "step": 108400
+    },
+    {
+      "epoch": 17.65,
+      "learning_rate": 2.9515418502202647e-05,
+      "loss": NaN,
+      "step": 108500
+    },
+    {
+      "epoch": 17.65,
+      "eval_loss": 0.4032347798347473,
+      "eval_runtime": 8.8075,
+      "eval_samples_per_second": 11.354,
+      "eval_wer": 0.3398294762484775,
+      "step": 108500
+    },
+    {
+      "epoch": 17.66,
+      "learning_rate": 2.9450155000815793e-05,
+      "loss": NaN,
+      "step": 108600
+    },
+    {
+      "epoch": 17.66,
+      "eval_loss": 0.39194339513778687,
+      "eval_runtime": 10.3759,
+      "eval_samples_per_second": 9.638,
+      "eval_wer": 0.32521315468940315,
+      "step": 108600
+    },
+    {
+      "epoch": 17.68,
+      "learning_rate": 2.9384891499428945e-05,
+      "loss": NaN,
+      "step": 108700
+    },
+    {
+      "epoch": 17.68,
+      "eval_loss": 0.36986175179481506,
+      "eval_runtime": 7.8636,
+      "eval_samples_per_second": 12.717,
+      "eval_wer": 0.32886723507917176,
+      "step": 108700
+    },
+    {
+      "epoch": 17.69,
+      "learning_rate": 2.93196279980421e-05,
+      "loss": NaN,
+      "step": 108800
+    },
+    {
+      "epoch": 17.69,
+      "eval_loss": 0.3867470920085907,
+      "eval_runtime": 8.137,
+      "eval_samples_per_second": 12.289,
+      "eval_wer": 0.34348355663824603,
+      "step": 108800
+    },
+    {
+      "epoch": 17.71,
+      "learning_rate": 2.9254364496655245e-05,
+      "loss": NaN,
+      "step": 108900
+    },
+    {
+      "epoch": 17.71,
+      "eval_loss": 0.3782542943954468,
+      "eval_runtime": 8.4236,
+      "eval_samples_per_second": 11.871,
+      "eval_wer": 0.3325213154689403,
+      "step": 108900
+    },
+    {
+      "epoch": 17.73,
+      "learning_rate": 2.9189100995268397e-05,
+      "loss": NaN,
+      "step": 109000
+    },
+    {
+      "epoch": 17.73,
+      "eval_loss": 0.4252021312713623,
+      "eval_runtime": 8.512,
+      "eval_samples_per_second": 11.748,
+      "eval_wer": 0.3325213154689403,
+      "step": 109000
+    },
+    {
+      "epoch": 17.74,
+      "learning_rate": 2.9123837493881552e-05,
+      "loss": NaN,
+      "step": 109100
+    },
+    {
+      "epoch": 17.74,
+      "eval_loss": 0.3819904327392578,
+      "eval_runtime": 6.8511,
+      "eval_samples_per_second": 14.596,
+      "eval_wer": 0.3373934226552984,
+      "step": 109100
+    },
+    {
+      "epoch": 17.76,
+      "learning_rate": 2.9058573992494697e-05,
+      "loss": NaN,
+      "step": 109200
+    },
+    {
+      "epoch": 17.76,
+      "eval_loss": 0.3850736618041992,
+      "eval_runtime": 8.4679,
+      "eval_samples_per_second": 11.809,
+      "eval_wer": 0.33008526187576126,
+      "step": 109200
+    },
+    {
+      "epoch": 17.78,
+      "learning_rate": 2.899331049110785e-05,
+      "loss": NaN,
+      "step": 109300
+    },
+    {
+      "epoch": 17.78,
+      "eval_loss": 0.4139541685581207,
+      "eval_runtime": 7.6909,
+      "eval_samples_per_second": 13.002,
+      "eval_wer": 0.3386114494518879,
+      "step": 109300
+    },
+    {
+      "epoch": 17.79,
+      "learning_rate": 2.8928046989721e-05,
+      "loss": NaN,
+      "step": 109400
+    },
+    {
+      "epoch": 17.79,
+      "eval_loss": 0.4256812334060669,
+      "eval_runtime": 7.0399,
+      "eval_samples_per_second": 14.205,
+      "eval_wer": 0.3507917174177832,
+      "step": 109400
+    },
+    {
+      "epoch": 17.81,
+      "learning_rate": 2.886278348833415e-05,
+      "loss": NaN,
+      "step": 109500
+    },
+    {
+      "epoch": 17.81,
+      "eval_loss": 0.4498865008354187,
+      "eval_runtime": 9.6258,
+      "eval_samples_per_second": 10.389,
+      "eval_wer": 0.3471376370280146,
+      "step": 109500
+    },
+    {
+      "epoch": 17.82,
+      "learning_rate": 2.87975199869473e-05,
+      "loss": NaN,
+      "step": 109600
+    },
+    {
+      "epoch": 17.82,
+      "eval_loss": 0.4236893057823181,
+      "eval_runtime": 9.1871,
+      "eval_samples_per_second": 10.885,
+      "eval_wer": 0.3617539585870889,
+      "step": 109600
+    },
+    {
+      "epoch": 17.84,
+      "learning_rate": 2.873225648556045e-05,
+      "loss": NaN,
+      "step": 109700
+    },
+    {
+      "epoch": 17.84,
+      "eval_loss": 0.46277669072151184,
+      "eval_runtime": 9.6292,
+      "eval_samples_per_second": 10.385,
+      "eval_wer": 0.35809987819732036,
+      "step": 109700
+    },
+    {
+      "epoch": 17.86,
+      "learning_rate": 2.8666992984173602e-05,
+      "loss": NaN,
+      "step": 109800
+    },
+    {
+      "epoch": 17.86,
+      "eval_loss": 0.46583592891693115,
+      "eval_runtime": 7.8086,
+      "eval_samples_per_second": 12.806,
+      "eval_wer": 0.35322777101096225,
+      "step": 109800
+    },
+    {
+      "epoch": 17.87,
+      "learning_rate": 2.8601729482786754e-05,
+      "loss": NaN,
+      "step": 109900
+    },
+    {
+      "epoch": 17.87,
+      "eval_loss": 0.3932786285877228,
+      "eval_runtime": 6.8409,
+      "eval_samples_per_second": 14.618,
+      "eval_wer": 0.3373934226552984,
+      "step": 109900
+    },
+    {
+      "epoch": 17.89,
+      "learning_rate": 2.8536465981399902e-05,
+      "loss": NaN,
+      "step": 110000
+    },
+    {
+      "epoch": 17.89,
+      "eval_loss": 0.40608084201812744,
+      "eval_runtime": 7.3141,
+      "eval_samples_per_second": 13.672,
+      "eval_wer": 0.3373934226552984,
+      "step": 110000
+    },
+    {
+      "epoch": 17.91,
+      "learning_rate": 2.8471202480013054e-05,
+      "loss": NaN,
+      "step": 110100
+    },
+    {
+      "epoch": 17.91,
+      "eval_loss": 0.4084034860134125,
+      "eval_runtime": 7.1928,
+      "eval_samples_per_second": 13.903,
+      "eval_wer": 0.3373934226552984,
+      "step": 110100
+    },
+    {
+      "epoch": 17.92,
+      "learning_rate": 2.8405938978626206e-05,
+      "loss": NaN,
+      "step": 110200
+    },
+    {
+      "epoch": 17.92,
+      "eval_loss": 0.40555787086486816,
+      "eval_runtime": 8.5682,
+      "eval_samples_per_second": 11.671,
+      "eval_wer": 0.3459196102314251,
+      "step": 110200
+    },
+    {
+      "epoch": 17.94,
+      "learning_rate": 2.8340675477239355e-05,
+      "loss": NaN,
+      "step": 110300
+    },
+    {
+      "epoch": 17.94,
+      "eval_loss": 0.4647526443004608,
+      "eval_runtime": 8.7905,
+      "eval_samples_per_second": 11.376,
+      "eval_wer": 0.341047503045067,
+      "step": 110300
+    },
+    {
+      "epoch": 17.95,
+      "learning_rate": 2.8275411975852507e-05,
+      "loss": NaN,
+      "step": 110400
+    },
+    {
+      "epoch": 17.95,
+      "eval_loss": 0.3823550343513489,
+      "eval_runtime": 8.631,
+      "eval_samples_per_second": 11.586,
+      "eval_wer": 0.341047503045067,
+      "step": 110400
+    },
+    {
+      "epoch": 17.97,
+      "learning_rate": 2.821014847446566e-05,
+      "loss": NaN,
+      "step": 110500
+    },
+    {
+      "epoch": 17.97,
+      "eval_loss": 0.4006991982460022,
+      "eval_runtime": 7.1345,
+      "eval_samples_per_second": 14.016,
+      "eval_wer": 0.3471376370280146,
+      "step": 110500
+    },
+    {
+      "epoch": 17.99,
+      "learning_rate": 2.8144884973078807e-05,
+      "loss": NaN,
+      "step": 110600
+    },
+    {
+      "epoch": 17.99,
+      "eval_loss": 0.3922583758831024,
+      "eval_runtime": 6.9349,
+      "eval_samples_per_second": 14.42,
+      "eval_wer": 0.3507917174177832,
+      "step": 110600
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 2.807962147169196e-05,
+      "loss": NaN,
+      "step": 110700
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.3946372866630554,
+      "eval_runtime": 6.8519,
+      "eval_samples_per_second": 14.594,
+      "eval_wer": 0.341047503045067,
+      "step": 110700
+    },
+    {
+      "epoch": 18.02,
+      "learning_rate": 2.801435797030511e-05,
+      "loss": NaN,
+      "step": 110800
+    },
+    {
+      "epoch": 18.02,
+      "eval_loss": 0.4183802306652069,
+      "eval_runtime": 7.1866,
+      "eval_samples_per_second": 13.915,
+      "eval_wer": 0.341047503045067,
+      "step": 110800
+    },
+    {
+      "epoch": 18.04,
+      "learning_rate": 2.7949094468918256e-05,
+      "loss": NaN,
+      "step": 110900
+    },
+    {
+      "epoch": 18.04,
+      "eval_loss": 0.37478265166282654,
+      "eval_runtime": 8.3068,
+      "eval_samples_per_second": 12.038,
+      "eval_wer": 0.3471376370280146,
+      "step": 110900
+    },
+    {
+      "epoch": 18.05,
+      "learning_rate": 2.788383096753141e-05,
+      "loss": NaN,
+      "step": 111000
+    },
+    {
+      "epoch": 18.05,
+      "eval_loss": 0.3887958526611328,
+      "eval_runtime": 7.7706,
+      "eval_samples_per_second": 12.869,
+      "eval_wer": 0.34957369062119364,
+      "step": 111000
+    },
+    {
+      "epoch": 18.07,
+      "learning_rate": 2.7818567466144557e-05,
+      "loss": NaN,
+      "step": 111100
+    },
+    {
+      "epoch": 18.07,
+      "eval_loss": 0.3766718804836273,
+      "eval_runtime": 7.7942,
+      "eval_samples_per_second": 12.83,
+      "eval_wer": 0.3447015834348356,
+      "step": 111100
+    },
+    {
+      "epoch": 18.08,
+      "learning_rate": 2.775330396475771e-05,
+      "loss": NaN,
+      "step": 111200
+    },
+    {
+      "epoch": 18.08,
+      "eval_loss": 0.39117416739463806,
+      "eval_runtime": 8.1811,
+      "eval_samples_per_second": 12.223,
+      "eval_wer": 0.341047503045067,
+      "step": 111200
+    },
+    {
+      "epoch": 18.1,
+      "learning_rate": 2.7688040463370864e-05,
+      "loss": NaN,
+      "step": 111300
+    },
+    {
+      "epoch": 18.1,
+      "eval_loss": 0.41156256198883057,
+      "eval_runtime": 8.6071,
+      "eval_samples_per_second": 11.618,
+      "eval_wer": 0.341047503045067,
+      "step": 111300
+    },
+    {
+      "epoch": 18.12,
+      "learning_rate": 2.762277696198401e-05,
+      "loss": NaN,
+      "step": 111400
+    },
+    {
+      "epoch": 18.12,
+      "eval_loss": 0.39620694518089294,
+      "eval_runtime": 8.9372,
+      "eval_samples_per_second": 11.189,
+      "eval_wer": 0.35322777101096225,
+      "step": 111400
+    },
+    {
+      "epoch": 18.13,
+      "learning_rate": 2.755751346059716e-05,
+      "loss": NaN,
+      "step": 111500
+    },
+    {
+      "epoch": 18.13,
+      "eval_loss": 0.40653663873672485,
+      "eval_runtime": 7.1536,
+      "eval_samples_per_second": 13.979,
+      "eval_wer": 0.3313032886723508,
+      "step": 111500
+    },
+    {
+      "epoch": 18.15,
+      "learning_rate": 2.7492249959210313e-05,
+      "loss": NaN,
+      "step": 111600
+    },
+    {
+      "epoch": 18.15,
+      "eval_loss": 0.43940940499305725,
+      "eval_runtime": 7.214,
+      "eval_samples_per_second": 13.862,
+      "eval_wer": 0.34835566382460414,
+      "step": 111600
+    },
+    {
+      "epoch": 18.17,
+      "learning_rate": 2.742698645782346e-05,
+      "loss": NaN,
+      "step": 111700
+    },
+    {
+      "epoch": 18.17,
+      "eval_loss": 0.43023011088371277,
+      "eval_runtime": 9.4948,
+      "eval_samples_per_second": 10.532,
+      "eval_wer": 0.35931790499390986,
+      "step": 111700
+    },
+    {
+      "epoch": 18.18,
+      "learning_rate": 2.7361722956436613e-05,
+      "loss": NaN,
+      "step": 111800
+    },
+    {
+      "epoch": 18.18,
+      "eval_loss": 0.47506821155548096,
+      "eval_runtime": 8.7209,
+      "eval_samples_per_second": 11.467,
+      "eval_wer": 0.3507917174177832,
+      "step": 111800
+    },
+    {
+      "epoch": 18.2,
+      "learning_rate": 2.7296459455049765e-05,
+      "loss": NaN,
+      "step": 111900
+    },
+    {
+      "epoch": 18.2,
+      "eval_loss": 0.4082556962966919,
+      "eval_runtime": 9.4452,
+      "eval_samples_per_second": 10.587,
+      "eval_wer": 0.364190012180268,
+      "step": 111900
+    },
+    {
+      "epoch": 18.21,
+      "learning_rate": 2.7231195953662914e-05,
+      "loss": NaN,
+      "step": 112000
+    },
+    {
+      "epoch": 18.21,
+      "eval_loss": 0.44821274280548096,
+      "eval_runtime": 7.7256,
+      "eval_samples_per_second": 12.944,
+      "eval_wer": 0.3313032886723508,
+      "step": 112000
+    },
+    {
+      "epoch": 18.23,
+      "learning_rate": 2.7165932452276066e-05,
+      "loss": NaN,
+      "step": 112100
+    },
+    {
+      "epoch": 18.23,
+      "eval_loss": 0.4030204117298126,
+      "eval_runtime": 8.0067,
+      "eval_samples_per_second": 12.49,
+      "eval_wer": 0.3507917174177832,
+      "step": 112100
+    },
+    {
+      "epoch": 18.25,
+      "learning_rate": 2.7100668950889218e-05,
+      "loss": NaN,
+      "step": 112200
+    },
+    {
+      "epoch": 18.25,
+      "eval_loss": 0.3854163885116577,
+      "eval_runtime": 8.2701,
+      "eval_samples_per_second": 12.092,
+      "eval_wer": 0.3398294762484775,
+      "step": 112200
+    },
+    {
+      "epoch": 18.26,
+      "learning_rate": 2.7035405449502366e-05,
+      "loss": NaN,
+      "step": 112300
+    },
+    {
+      "epoch": 18.26,
+      "eval_loss": 0.4053157866001129,
+      "eval_runtime": 7.0908,
+      "eval_samples_per_second": 14.103,
+      "eval_wer": 0.3313032886723508,
+      "step": 112300
+    },
+    {
+      "epoch": 18.28,
+      "learning_rate": 2.6970141948115518e-05,
+      "loss": NaN,
+      "step": 112400
+    },
+    {
+      "epoch": 18.28,
+      "eval_loss": 0.3890162706375122,
+      "eval_runtime": 7.2231,
+      "eval_samples_per_second": 13.844,
+      "eval_wer": 0.33008526187576126,
+      "step": 112400
+    },
+    {
+      "epoch": 18.3,
+      "learning_rate": 2.690487844672867e-05,
+      "loss": NaN,
+      "step": 112500
+    },
+    {
+      "epoch": 18.3,
+      "eval_loss": 0.3915853500366211,
+      "eval_runtime": 8.7452,
+      "eval_samples_per_second": 11.435,
+      "eval_wer": 0.3447015834348356,
+      "step": 112500
+    },
+    {
+      "epoch": 18.31,
+      "learning_rate": 2.683961494534182e-05,
+      "loss": NaN,
+      "step": 112600
+    },
+    {
+      "epoch": 18.31,
+      "eval_loss": 0.3701234459877014,
+      "eval_runtime": 7.3669,
+      "eval_samples_per_second": 13.574,
+      "eval_wer": 0.3313032886723508,
+      "step": 112600
+    },
+    {
+      "epoch": 18.33,
+      "learning_rate": 2.677435144395497e-05,
+      "loss": NaN,
+      "step": 112700
+    },
+    {
+      "epoch": 18.33,
+      "eval_loss": 0.399958074092865,
+      "eval_runtime": 8.536,
+      "eval_samples_per_second": 11.715,
+      "eval_wer": 0.34226552984165654,
+      "step": 112700
+    },
+    {
+      "epoch": 18.34,
+      "learning_rate": 2.670908794256812e-05,
+      "loss": NaN,
+      "step": 112800
+    },
+    {
+      "epoch": 18.34,
+      "eval_loss": 0.3959391117095947,
+      "eval_runtime": 7.6581,
+      "eval_samples_per_second": 13.058,
+      "eval_wer": 0.341047503045067,
+      "step": 112800
+    },
+    {
+      "epoch": 18.36,
+      "learning_rate": 2.664382444118127e-05,
+      "loss": NaN,
+      "step": 112900
+    },
+    {
+      "epoch": 18.36,
+      "eval_loss": 0.4151996672153473,
+      "eval_runtime": 8.5593,
+      "eval_samples_per_second": 11.683,
+      "eval_wer": 0.3398294762484775,
+      "step": 112900
+    },
+    {
+      "epoch": 18.38,
+      "learning_rate": 2.6578560939794423e-05,
+      "loss": NaN,
+      "step": 113000
+    },
+    {
+      "epoch": 18.38,
+      "eval_loss": 0.388653039932251,
+      "eval_runtime": 7.3021,
+      "eval_samples_per_second": 13.695,
+      "eval_wer": 0.341047503045067,
+      "step": 113000
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 2.6513297438407568e-05,
+      "loss": NaN,
+      "step": 113100
+    },
+    {
+      "epoch": 18.39,
+      "eval_loss": 0.3932548761367798,
+      "eval_runtime": 7.3475,
+      "eval_samples_per_second": 13.61,
+      "eval_wer": 0.3447015834348356,
+      "step": 113100
+    },
+    {
+      "epoch": 18.41,
+      "learning_rate": 2.6448033937020723e-05,
+      "loss": NaN,
+      "step": 113200
+    },
+    {
+      "epoch": 18.41,
+      "eval_loss": 0.5715663433074951,
+      "eval_runtime": 6.4752,
+      "eval_samples_per_second": 15.444,
+      "eval_wer": 0.3459196102314251,
+      "step": 113200
+    },
+    {
+      "epoch": 18.43,
+      "learning_rate": 2.6382770435633875e-05,
+      "loss": NaN,
+      "step": 113300
+    },
+    {
+      "epoch": 18.43,
+      "eval_loss": 0.5505608320236206,
+      "eval_runtime": 8.5504,
+      "eval_samples_per_second": 11.695,
+      "eval_wer": 0.3459196102314251,
+      "step": 113300
+    },
+    {
+      "epoch": 18.44,
+      "learning_rate": 2.631750693424702e-05,
+      "loss": NaN,
+      "step": 113400
+    },
+    {
+      "epoch": 18.44,
+      "eval_loss": 0.4306776523590088,
+      "eval_runtime": 8.0297,
+      "eval_samples_per_second": 12.454,
+      "eval_wer": 0.33008526187576126,
+      "step": 113400
+    },
+    {
+      "epoch": 18.46,
+      "learning_rate": 2.6252243432860175e-05,
+      "loss": NaN,
+      "step": 113500
+    },
+    {
+      "epoch": 18.46,
+      "eval_loss": 0.3789026737213135,
+      "eval_runtime": 8.1239,
+      "eval_samples_per_second": 12.309,
+      "eval_wer": 0.3325213154689403,
+      "step": 113500
+    },
+    {
+      "epoch": 18.47,
+      "learning_rate": 2.6186979931473327e-05,
+      "loss": NaN,
+      "step": 113600
+    },
+    {
+      "epoch": 18.47,
+      "eval_loss": 0.42162245512008667,
+      "eval_runtime": 8.6954,
+      "eval_samples_per_second": 11.5,
+      "eval_wer": 0.35322777101096225,
+      "step": 113600
+    },
+    {
+      "epoch": 18.49,
+      "learning_rate": 2.6121716430086473e-05,
+      "loss": NaN,
+      "step": 113700
+    },
+    {
+      "epoch": 18.49,
+      "eval_loss": 0.5023617744445801,
+      "eval_runtime": 9.6846,
+      "eval_samples_per_second": 10.326,
+      "eval_wer": 0.3507917174177832,
+      "step": 113700
+    },
+    {
+      "epoch": 18.51,
+      "learning_rate": 2.6056452928699628e-05,
+      "loss": NaN,
+      "step": 113800
+    },
+    {
+      "epoch": 18.51,
+      "eval_loss": 0.395231693983078,
+      "eval_runtime": 9.953,
+      "eval_samples_per_second": 10.047,
+      "eval_wer": 0.3471376370280146,
+      "step": 113800
+    },
+    {
+      "epoch": 18.52,
+      "learning_rate": 2.599118942731278e-05,
+      "loss": NaN,
+      "step": 113900
+    },
+    {
+      "epoch": 18.52,
+      "eval_loss": 0.39416807889938354,
+      "eval_runtime": 7.819,
+      "eval_samples_per_second": 12.789,
+      "eval_wer": 0.33617539585870887,
+      "step": 113900
+    },
+    {
+      "epoch": 18.54,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": NaN,
+      "step": 114000
+    },
+    {
+      "epoch": 18.54,
+      "eval_loss": 0.5159714221954346,
+      "eval_runtime": 7.203,
+      "eval_samples_per_second": 13.883,
+      "eval_wer": 0.3337393422655298,
+      "step": 114000
+    },
+    {
+      "epoch": 18.56,
+      "learning_rate": 2.5860662424539077e-05,
+      "loss": NaN,
+      "step": 114100
+    },
+    {
+      "epoch": 18.56,
+      "eval_loss": 0.39711394906044006,
+      "eval_runtime": 8.1764,
+      "eval_samples_per_second": 12.23,
+      "eval_wer": 0.341047503045067,
+      "step": 114100
+    },
+    {
+      "epoch": 18.57,
+      "learning_rate": 2.5795398923152232e-05,
+      "loss": NaN,
+      "step": 114200
+    },
+    {
+      "epoch": 18.57,
+      "eval_loss": 0.3980695605278015,
+      "eval_runtime": 7.8237,
+      "eval_samples_per_second": 12.782,
+      "eval_wer": 0.341047503045067,
+      "step": 114200
+    },
+    {
+      "epoch": 18.59,
+      "learning_rate": 2.5730135421765377e-05,
+      "loss": NaN,
+      "step": 114300
+    },
+    {
+      "epoch": 18.59,
+      "eval_loss": 0.39846745133399963,
+      "eval_runtime": 9.4234,
+      "eval_samples_per_second": 10.612,
+      "eval_wer": 0.3398294762484775,
+      "step": 114300
+    },
+    {
+      "epoch": 18.6,
+      "learning_rate": 2.566487192037853e-05,
+      "loss": NaN,
+      "step": 114400
+    },
+    {
+      "epoch": 18.6,
+      "eval_loss": 0.4071855843067169,
+      "eval_runtime": 7.858,
+      "eval_samples_per_second": 12.726,
+      "eval_wer": 0.341047503045067,
+      "step": 114400
+    },
+    {
+      "epoch": 18.62,
+      "learning_rate": 2.5599608418991678e-05,
+      "loss": NaN,
+      "step": 114500
+    },
+    {
+      "epoch": 18.62,
+      "eval_loss": 0.41952818632125854,
+      "eval_runtime": 8.1596,
+      "eval_samples_per_second": 12.256,
+      "eval_wer": 0.3447015834348356,
+      "step": 114500
+    },
+    {
+      "epoch": 18.64,
+      "learning_rate": 2.553434491760483e-05,
+      "loss": NaN,
+      "step": 114600
+    },
+    {
+      "epoch": 18.64,
+      "eval_loss": 0.44777679443359375,
+      "eval_runtime": 8.1577,
+      "eval_samples_per_second": 12.258,
+      "eval_wer": 0.3325213154689403,
+      "step": 114600
+    },
+    {
+      "epoch": 18.65,
+      "learning_rate": 2.546908141621798e-05,
+      "loss": NaN,
+      "step": 114700
+    },
+    {
+      "epoch": 18.65,
+      "eval_loss": 0.39139124751091003,
+      "eval_runtime": 7.223,
+      "eval_samples_per_second": 13.845,
+      "eval_wer": 0.32399512789281365,
+      "step": 114700
+    },
+    {
+      "epoch": 18.67,
+      "learning_rate": 2.540381791483113e-05,
+      "loss": NaN,
+      "step": 114800
+    },
+    {
+      "epoch": 18.67,
+      "eval_loss": 0.40552714467048645,
+      "eval_runtime": 8.0589,
+      "eval_samples_per_second": 12.409,
+      "eval_wer": 0.3313032886723508,
+      "step": 114800
+    },
+    {
+      "epoch": 18.69,
+      "learning_rate": 2.5338554413444282e-05,
+      "loss": NaN,
+      "step": 114900
+    },
+    {
+      "epoch": 18.69,
+      "eval_loss": 0.4118463397026062,
+      "eval_runtime": 8.077,
+      "eval_samples_per_second": 12.381,
+      "eval_wer": 0.3276492082825822,
+      "step": 114900
+    },
+    {
+      "epoch": 18.7,
+      "learning_rate": 2.5273290912057434e-05,
+      "loss": NaN,
+      "step": 115000
+    },
+    {
+      "epoch": 18.7,
+      "eval_loss": 0.4166834354400635,
+      "eval_runtime": 8.1784,
+      "eval_samples_per_second": 12.227,
+      "eval_wer": 0.34348355663824603,
+      "step": 115000
+    },
+    {
+      "epoch": 18.72,
+      "learning_rate": 2.5208027410670582e-05,
+      "loss": NaN,
+      "step": 115100
+    },
+    {
+      "epoch": 18.72,
+      "eval_loss": 0.4071851074695587,
+      "eval_runtime": 10.5991,
+      "eval_samples_per_second": 9.435,
+      "eval_wer": 0.3276492082825822,
+      "step": 115100
+    },
+    {
+      "epoch": 18.73,
+      "learning_rate": 2.5142763909283734e-05,
+      "loss": NaN,
+      "step": 115200
+    },
+    {
+      "epoch": 18.73,
+      "eval_loss": 0.44569680094718933,
+      "eval_runtime": 7.985,
+      "eval_samples_per_second": 12.523,
+      "eval_wer": 0.3398294762484775,
+      "step": 115200
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 2.5077500407896886e-05,
+      "loss": NaN,
+      "step": 115300
+    },
+    {
+      "epoch": 18.75,
+      "eval_loss": 0.4303815960884094,
+      "eval_runtime": 7.2375,
+      "eval_samples_per_second": 13.817,
+      "eval_wer": 0.3337393422655298,
+      "step": 115300
+    },
+    {
+      "epoch": 18.77,
+      "learning_rate": 2.5012236906510035e-05,
+      "loss": NaN,
+      "step": 115400
+    },
+    {
+      "epoch": 18.77,
+      "eval_loss": 0.4490242898464203,
+      "eval_runtime": 8.2404,
+      "eval_samples_per_second": 12.135,
+      "eval_wer": 0.34226552984165654,
+      "step": 115400
+    },
+    {
+      "epoch": 18.78,
+      "learning_rate": 2.4946973405123187e-05,
+      "loss": NaN,
+      "step": 115500
+    },
+    {
+      "epoch": 18.78,
+      "eval_loss": 0.49515098333358765,
+      "eval_runtime": 7.3002,
+      "eval_samples_per_second": 13.698,
+      "eval_wer": 0.3373934226552984,
+      "step": 115500
+    },
+    {
+      "epoch": 18.8,
+      "learning_rate": 2.4881709903736335e-05,
+      "loss": NaN,
+      "step": 115600
+    },
+    {
+      "epoch": 18.8,
+      "eval_loss": 0.4241500496864319,
+      "eval_runtime": 8.6244,
+      "eval_samples_per_second": 11.595,
+      "eval_wer": 0.3276492082825822,
+      "step": 115600
+    },
+    {
+      "epoch": 18.82,
+      "learning_rate": 2.4816446402349487e-05,
+      "loss": NaN,
+      "step": 115700
+    },
+    {
+      "epoch": 18.82,
+      "eval_loss": 0.4969961941242218,
+      "eval_runtime": 8.4269,
+      "eval_samples_per_second": 11.867,
+      "eval_wer": 0.34835566382460414,
+      "step": 115700
+    },
+    {
+      "epoch": 18.83,
+      "learning_rate": 2.475118290096264e-05,
+      "loss": NaN,
+      "step": 115800
+    },
+    {
+      "epoch": 18.83,
+      "eval_loss": 0.5238353610038757,
+      "eval_runtime": 8.3935,
+      "eval_samples_per_second": 11.914,
+      "eval_wer": 0.34226552984165654,
+      "step": 115800
+    },
+    {
+      "epoch": 18.85,
+      "learning_rate": 2.4685919399575788e-05,
+      "loss": NaN,
+      "step": 115900
+    },
+    {
+      "epoch": 18.85,
+      "eval_loss": 0.43089020252227783,
+      "eval_runtime": 7.219,
+      "eval_samples_per_second": 13.852,
+      "eval_wer": 0.32034104750304504,
+      "step": 115900
+    },
+    {
+      "epoch": 18.86,
+      "learning_rate": 2.462065589818894e-05,
+      "loss": NaN,
+      "step": 116000
+    },
+    {
+      "epoch": 18.86,
+      "eval_loss": 0.41796696186065674,
+      "eval_runtime": 7.5558,
+      "eval_samples_per_second": 13.235,
+      "eval_wer": 0.3313032886723508,
+      "step": 116000
+    },
+    {
+      "epoch": 18.88,
+      "learning_rate": 2.455539239680209e-05,
+      "loss": NaN,
+      "step": 116100
+    },
+    {
+      "epoch": 18.88,
+      "eval_loss": 0.4422737956047058,
+      "eval_runtime": 7.9398,
+      "eval_samples_per_second": 12.595,
+      "eval_wer": 0.32886723507917176,
+      "step": 116100
+    },
+    {
+      "epoch": 18.9,
+      "learning_rate": 2.449012889541524e-05,
+      "loss": NaN,
+      "step": 116200
+    },
+    {
+      "epoch": 18.9,
+      "eval_loss": 0.43862995505332947,
+      "eval_runtime": 8.9085,
+      "eval_samples_per_second": 11.225,
+      "eval_wer": 0.3337393422655298,
+      "step": 116200
+    },
+    {
+      "epoch": 18.91,
+      "learning_rate": 2.442486539402839e-05,
+      "loss": NaN,
+      "step": 116300
+    },
+    {
+      "epoch": 18.91,
+      "eval_loss": 0.4497430920600891,
+      "eval_runtime": 9.2945,
+      "eval_samples_per_second": 10.759,
+      "eval_wer": 0.3447015834348356,
+      "step": 116300
+    },
+    {
+      "epoch": 18.93,
+      "learning_rate": 2.4359601892641544e-05,
+      "loss": NaN,
+      "step": 116400
+    },
+    {
+      "epoch": 18.93,
+      "eval_loss": 0.4064001739025116,
+      "eval_runtime": 9.3152,
+      "eval_samples_per_second": 10.735,
+      "eval_wer": 0.3276492082825822,
+      "step": 116400
+    },
+    {
+      "epoch": 18.95,
+      "learning_rate": 2.4294338391254692e-05,
+      "loss": NaN,
+      "step": 116500
+    },
+    {
+      "epoch": 18.95,
+      "eval_loss": 0.5357220768928528,
+      "eval_runtime": 10.268,
+      "eval_samples_per_second": 9.739,
+      "eval_wer": 0.35444579780755175,
+      "step": 116500
+    },
+    {
+      "epoch": 18.96,
+      "learning_rate": 2.422907488986784e-05,
+      "loss": NaN,
+      "step": 116600
+    },
+    {
+      "epoch": 18.96,
+      "eval_loss": 0.4020291864871979,
+      "eval_runtime": 6.8978,
+      "eval_samples_per_second": 14.497,
+      "eval_wer": 0.341047503045067,
+      "step": 116600
+    },
+    {
+      "epoch": 18.98,
+      "learning_rate": 2.4163811388480993e-05,
+      "loss": NaN,
+      "step": 116700
+    },
+    {
+      "epoch": 18.98,
+      "eval_loss": 0.5173760056495667,
+      "eval_runtime": 8.2411,
+      "eval_samples_per_second": 12.134,
+      "eval_wer": 0.3447015834348356,
+      "step": 116700
+    },
+    {
+      "epoch": 18.99,
+      "learning_rate": 2.4098547887094145e-05,
+      "loss": NaN,
+      "step": 116800
+    },
+    {
+      "epoch": 18.99,
+      "eval_loss": 0.4323920011520386,
+      "eval_runtime": 8.3858,
+      "eval_samples_per_second": 11.925,
+      "eval_wer": 0.3556638246041413,
+      "step": 116800
+    },
+    {
+      "epoch": 19.01,
+      "learning_rate": 2.4033284385707293e-05,
+      "loss": NaN,
+      "step": 116900
+    },
+    {
+      "epoch": 19.01,
+      "eval_loss": 0.4196859300136566,
+      "eval_runtime": 8.9105,
+      "eval_samples_per_second": 11.223,
+      "eval_wer": 0.33617539585870887,
+      "step": 116900
+    },
+    {
+      "epoch": 19.03,
+      "learning_rate": 2.3968020884320445e-05,
+      "loss": NaN,
+      "step": 117000
+    },
+    {
+      "epoch": 19.03,
+      "eval_loss": 0.4224309027194977,
+      "eval_runtime": 7.9389,
+      "eval_samples_per_second": 12.596,
+      "eval_wer": 0.3325213154689403,
+      "step": 117000
+    },
+    {
+      "epoch": 19.04,
+      "learning_rate": 2.3902757382933597e-05,
+      "loss": NaN,
+      "step": 117100
+    },
+    {
+      "epoch": 19.04,
+      "eval_loss": 0.44540169835090637,
+      "eval_runtime": 8.0457,
+      "eval_samples_per_second": 12.429,
+      "eval_wer": 0.33008526187576126,
+      "step": 117100
+    },
+    {
+      "epoch": 19.06,
+      "learning_rate": 2.3837493881546746e-05,
+      "loss": NaN,
+      "step": 117200
+    },
+    {
+      "epoch": 19.06,
+      "eval_loss": 0.5561581254005432,
+      "eval_runtime": 8.6307,
+      "eval_samples_per_second": 11.587,
+      "eval_wer": 0.32521315468940315,
+      "step": 117200
+    },
+    {
+      "epoch": 19.08,
+      "learning_rate": 2.3772230380159897e-05,
+      "loss": NaN,
+      "step": 117300
+    },
+    {
+      "epoch": 19.08,
+      "eval_loss": 0.49928075075149536,
+      "eval_runtime": 7.705,
+      "eval_samples_per_second": 12.979,
+      "eval_wer": 0.3386114494518879,
+      "step": 117300
+    },
+    {
+      "epoch": 19.09,
+      "learning_rate": 2.370696687877305e-05,
+      "loss": NaN,
+      "step": 117400
+    },
+    {
+      "epoch": 19.09,
+      "eval_loss": 0.36428502202033997,
+      "eval_runtime": 8.6228,
+      "eval_samples_per_second": 11.597,
+      "eval_wer": 0.32886723507917176,
+      "step": 117400
+    },
+    {
+      "epoch": 19.11,
+      "learning_rate": 2.3641703377386198e-05,
+      "loss": NaN,
+      "step": 117500
+    },
+    {
+      "epoch": 19.11,
+      "eval_loss": 0.4284897744655609,
+      "eval_runtime": 9.3991,
+      "eval_samples_per_second": 10.639,
+      "eval_wer": 0.3373934226552984,
+      "step": 117500
+    },
+    {
+      "epoch": 19.13,
+      "learning_rate": 2.357643987599935e-05,
+      "loss": NaN,
+      "step": 117600
+    },
+    {
+      "epoch": 19.13,
+      "eval_loss": 0.4161425828933716,
+      "eval_runtime": 7.4568,
+      "eval_samples_per_second": 13.411,
+      "eval_wer": 0.3313032886723508,
+      "step": 117600
+    },
+    {
+      "epoch": 19.14,
+      "learning_rate": 2.35111763746125e-05,
+      "loss": NaN,
+      "step": 117700
+    },
+    {
+      "epoch": 19.14,
+      "eval_loss": 0.4765840470790863,
+      "eval_runtime": 9.8648,
+      "eval_samples_per_second": 10.137,
+      "eval_wer": 0.34226552984165654,
+      "step": 117700
+    },
+    {
+      "epoch": 19.16,
+      "learning_rate": 2.344591287322565e-05,
+      "loss": NaN,
+      "step": 117800
+    },
+    {
+      "epoch": 19.16,
+      "eval_loss": 0.41543564200401306,
+      "eval_runtime": 7.7288,
+      "eval_samples_per_second": 12.939,
+      "eval_wer": 0.32886723507917176,
+      "step": 117800
+    },
+    {
+      "epoch": 19.17,
+      "learning_rate": 2.33806493718388e-05,
+      "loss": NaN,
+      "step": 117900
+    },
+    {
+      "epoch": 19.17,
+      "eval_loss": 0.4077683985233307,
+      "eval_runtime": 6.5049,
+      "eval_samples_per_second": 15.373,
+      "eval_wer": 0.32886723507917176,
+      "step": 117900
+    },
+    {
+      "epoch": 19.19,
+      "learning_rate": 2.331538587045195e-05,
+      "loss": NaN,
+      "step": 118000
+    },
+    {
+      "epoch": 19.19,
+      "eval_loss": 0.4288666546344757,
+      "eval_runtime": 7.3525,
+      "eval_samples_per_second": 13.601,
+      "eval_wer": 0.3325213154689403,
+      "step": 118000
+    },
+    {
+      "epoch": 19.21,
+      "learning_rate": 2.3250122369065103e-05,
+      "loss": NaN,
+      "step": 118100
+    },
+    {
+      "epoch": 19.21,
+      "eval_loss": 0.3833557963371277,
+      "eval_runtime": 8.6001,
+      "eval_samples_per_second": 11.628,
+      "eval_wer": 0.32521315468940315,
+      "step": 118100
+    },
+    {
+      "epoch": 19.22,
+      "learning_rate": 2.318485886767825e-05,
+      "loss": NaN,
+      "step": 118200
+    },
+    {
+      "epoch": 19.22,
+      "eval_loss": 0.4251144528388977,
+      "eval_runtime": 8.0377,
+      "eval_samples_per_second": 12.441,
+      "eval_wer": 0.315468940316687,
+      "step": 118200
+    },
+    {
+      "epoch": 19.24,
+      "learning_rate": 2.3119595366291403e-05,
+      "loss": NaN,
+      "step": 118300
+    },
+    {
+      "epoch": 19.24,
+      "eval_loss": 0.48235252499580383,
+      "eval_runtime": 9.9197,
+      "eval_samples_per_second": 10.081,
+      "eval_wer": 0.3373934226552984,
+      "step": 118300
+    },
+    {
+      "epoch": 19.26,
+      "learning_rate": 2.305433186490455e-05,
+      "loss": NaN,
+      "step": 118400
+    },
+    {
+      "epoch": 19.26,
+      "eval_loss": 0.45876410603523254,
+      "eval_runtime": 8.0238,
+      "eval_samples_per_second": 12.463,
+      "eval_wer": 0.3398294762484775,
+      "step": 118400
+    },
+    {
+      "epoch": 19.27,
+      "learning_rate": 2.2989068363517704e-05,
+      "loss": NaN,
+      "step": 118500
+    },
+    {
+      "epoch": 19.27,
+      "eval_loss": 0.42962944507598877,
+      "eval_runtime": 7.6922,
+      "eval_samples_per_second": 13.0,
+      "eval_wer": 0.32886723507917176,
+      "step": 118500
+    },
+    {
+      "epoch": 19.29,
+      "learning_rate": 2.2923804862130855e-05,
+      "loss": NaN,
+      "step": 118600
+    },
+    {
+      "epoch": 19.29,
+      "eval_loss": 0.43103399872779846,
+      "eval_runtime": 8.5247,
+      "eval_samples_per_second": 11.731,
+      "eval_wer": 0.3313032886723508,
+      "step": 118600
+    },
+    {
+      "epoch": 19.3,
+      "learning_rate": 2.2858541360744004e-05,
+      "loss": NaN,
+      "step": 118700
+    },
+    {
+      "epoch": 19.3,
+      "eval_loss": 0.41755372285842896,
+      "eval_runtime": 7.9327,
+      "eval_samples_per_second": 12.606,
+      "eval_wer": 0.3264311814859927,
+      "step": 118700
+    },
+    {
+      "epoch": 19.32,
+      "learning_rate": 2.2793277859357156e-05,
+      "loss": NaN,
+      "step": 118800
+    },
+    {
+      "epoch": 19.32,
+      "eval_loss": 0.40416061878204346,
+      "eval_runtime": 7.7154,
+      "eval_samples_per_second": 12.961,
+      "eval_wer": 0.3215590742996346,
+      "step": 118800
+    },
+    {
+      "epoch": 19.34,
+      "learning_rate": 2.2728014357970308e-05,
+      "loss": NaN,
+      "step": 118900
+    },
+    {
+      "epoch": 19.34,
+      "eval_loss": 0.42045220732688904,
+      "eval_runtime": 7.9703,
+      "eval_samples_per_second": 12.547,
+      "eval_wer": 0.3325213154689403,
+      "step": 118900
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 2.2662750856583456e-05,
+      "loss": NaN,
+      "step": 119000
+    },
+    {
+      "epoch": 19.35,
+      "eval_loss": 0.4497748613357544,
+      "eval_runtime": 8.152,
+      "eval_samples_per_second": 12.267,
+      "eval_wer": 0.33495736906211937,
+      "step": 119000
+    },
+    {
+      "epoch": 19.37,
+      "learning_rate": 2.2597487355196608e-05,
+      "loss": NaN,
+      "step": 119100
+    },
+    {
+      "epoch": 19.37,
+      "eval_loss": 0.4549383819103241,
+      "eval_runtime": 8.0924,
+      "eval_samples_per_second": 12.357,
+      "eval_wer": 0.3447015834348356,
+      "step": 119100
+    },
+    {
+      "epoch": 19.39,
+      "learning_rate": 2.253222385380976e-05,
+      "loss": NaN,
+      "step": 119200
+    },
+    {
+      "epoch": 19.39,
+      "eval_loss": 0.4458554983139038,
+      "eval_runtime": 8.5049,
+      "eval_samples_per_second": 11.758,
+      "eval_wer": 0.33495736906211937,
+      "step": 119200
+    },
+    {
+      "epoch": 19.4,
+      "learning_rate": 2.246696035242291e-05,
+      "loss": NaN,
+      "step": 119300
+    },
+    {
+      "epoch": 19.4,
+      "eval_loss": 0.43120619654655457,
+      "eval_runtime": 7.0431,
+      "eval_samples_per_second": 14.198,
+      "eval_wer": 0.3264311814859927,
+      "step": 119300
+    },
+    {
+      "epoch": 19.42,
+      "learning_rate": 2.2401696851036057e-05,
+      "loss": NaN,
+      "step": 119400
+    },
+    {
+      "epoch": 19.42,
+      "eval_loss": 0.4251594841480255,
+      "eval_runtime": 7.4385,
+      "eval_samples_per_second": 13.444,
+      "eval_wer": 0.3386114494518879,
+      "step": 119400
+    },
+    {
+      "epoch": 19.43,
+      "learning_rate": 2.233643334964921e-05,
+      "loss": NaN,
+      "step": 119500
+    },
+    {
+      "epoch": 19.43,
+      "eval_loss": 0.42931661009788513,
+      "eval_runtime": 9.2934,
+      "eval_samples_per_second": 10.76,
+      "eval_wer": 0.3507917174177832,
+      "step": 119500
+    },
+    {
+      "epoch": 19.45,
+      "learning_rate": 2.227116984826236e-05,
+      "loss": NaN,
+      "step": 119600
+    },
+    {
+      "epoch": 19.45,
+      "eval_loss": 0.42289912700653076,
+      "eval_runtime": 9.665,
+      "eval_samples_per_second": 10.347,
+      "eval_wer": 0.3398294762484775,
+      "step": 119600
+    },
+    {
+      "epoch": 19.47,
+      "learning_rate": 2.220590634687551e-05,
+      "loss": NaN,
+      "step": 119700
+    },
+    {
+      "epoch": 19.47,
+      "eval_loss": 0.487996369600296,
+      "eval_runtime": 8.5886,
+      "eval_samples_per_second": 11.643,
+      "eval_wer": 0.34348355663824603,
+      "step": 119700
+    },
+    {
+      "epoch": 19.48,
+      "learning_rate": 2.214064284548866e-05,
+      "loss": NaN,
+      "step": 119800
+    },
+    {
+      "epoch": 19.48,
+      "eval_loss": 0.550142228603363,
+      "eval_runtime": 9.4924,
+      "eval_samples_per_second": 10.535,
+      "eval_wer": 0.3556638246041413,
+      "step": 119800
+    },
+    {
+      "epoch": 19.5,
+      "learning_rate": 2.2075379344101813e-05,
+      "loss": NaN,
+      "step": 119900
+    },
+    {
+      "epoch": 19.5,
+      "eval_loss": 0.43226540088653564,
+      "eval_runtime": 7.492,
+      "eval_samples_per_second": 13.348,
+      "eval_wer": 0.32886723507917176,
+      "step": 119900
+    },
+    {
+      "epoch": 19.52,
+      "learning_rate": 2.2010115842714962e-05,
+      "loss": NaN,
+      "step": 120000
+    },
+    {
+      "epoch": 19.52,
+      "eval_loss": 0.3998276889324188,
+      "eval_runtime": 7.4602,
+      "eval_samples_per_second": 13.404,
+      "eval_wer": 0.3325213154689403,
+      "step": 120000
+    },
+    {
+      "epoch": 19.53,
+      "learning_rate": 2.194485234132811e-05,
+      "loss": NaN,
+      "step": 120100
+    },
+    {
+      "epoch": 19.53,
+      "eval_loss": 0.4583325982093811,
+      "eval_runtime": 7.7177,
+      "eval_samples_per_second": 12.957,
+      "eval_wer": 0.34348355663824603,
+      "step": 120100
+    },
+    {
+      "epoch": 19.55,
+      "learning_rate": 2.1879588839941266e-05,
+      "loss": NaN,
+      "step": 120200
+    },
+    {
+      "epoch": 19.55,
+      "eval_loss": 0.44406771659851074,
+      "eval_runtime": 8.2416,
+      "eval_samples_per_second": 12.134,
+      "eval_wer": 0.341047503045067,
+      "step": 120200
+    },
+    {
+      "epoch": 19.56,
+      "learning_rate": 2.1814325338554414e-05,
+      "loss": NaN,
+      "step": 120300
+    },
+    {
+      "epoch": 19.56,
+      "eval_loss": 0.41883566975593567,
+      "eval_runtime": 7.3107,
+      "eval_samples_per_second": 13.679,
+      "eval_wer": 0.34348355663824603,
+      "step": 120300
+    },
+    {
+      "epoch": 19.58,
+      "learning_rate": 2.1749061837167563e-05,
+      "loss": NaN,
+      "step": 120400
+    },
+    {
+      "epoch": 19.58,
+      "eval_loss": 0.4323764741420746,
+      "eval_runtime": 8.8296,
+      "eval_samples_per_second": 11.325,
+      "eval_wer": 0.341047503045067,
+      "step": 120400
+    },
+    {
+      "epoch": 19.6,
+      "learning_rate": 2.1683798335780718e-05,
+      "loss": NaN,
+      "step": 120500
+    },
+    {
+      "epoch": 19.6,
+      "eval_loss": 0.41844385862350464,
+      "eval_runtime": 8.8708,
+      "eval_samples_per_second": 11.273,
+      "eval_wer": 0.34957369062119364,
+      "step": 120500
+    },
+    {
+      "epoch": 19.61,
+      "learning_rate": 2.1618534834393867e-05,
+      "loss": NaN,
+      "step": 120600
+    },
+    {
+      "epoch": 19.61,
+      "eval_loss": 0.39420318603515625,
+      "eval_runtime": 9.8796,
+      "eval_samples_per_second": 10.122,
+      "eval_wer": 0.3325213154689403,
+      "step": 120600
+    },
+    {
+      "epoch": 19.63,
+      "learning_rate": 2.1553271333007015e-05,
+      "loss": NaN,
+      "step": 120700
+    },
+    {
+      "epoch": 19.63,
+      "eval_loss": 0.475872278213501,
+      "eval_runtime": 8.1761,
+      "eval_samples_per_second": 12.231,
+      "eval_wer": 0.3471376370280146,
+      "step": 120700
+    },
+    {
+      "epoch": 19.65,
+      "learning_rate": 2.148800783162017e-05,
+      "loss": NaN,
+      "step": 120800
+    },
+    {
+      "epoch": 19.65,
+      "eval_loss": 0.4005354642868042,
+      "eval_runtime": 8.1599,
+      "eval_samples_per_second": 12.255,
+      "eval_wer": 0.34226552984165654,
+      "step": 120800
+    },
+    {
+      "epoch": 19.66,
+      "learning_rate": 2.142274433023332e-05,
+      "loss": NaN,
+      "step": 120900
+    },
+    {
+      "epoch": 19.66,
+      "eval_loss": 0.3836045563220978,
+      "eval_runtime": 8.6109,
+      "eval_samples_per_second": 11.613,
+      "eval_wer": 0.3459196102314251,
+      "step": 120900
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 2.1357480828846468e-05,
+      "loss": NaN,
+      "step": 121000
+    },
+    {
+      "epoch": 19.68,
+      "eval_loss": 0.36968758702278137,
+      "eval_runtime": 8.2911,
+      "eval_samples_per_second": 12.061,
+      "eval_wer": 0.33495736906211937,
+      "step": 121000
+    },
+    {
+      "epoch": 19.69,
+      "learning_rate": 2.129221732745962e-05,
+      "loss": NaN,
+      "step": 121100
+    },
+    {
+      "epoch": 19.69,
+      "eval_loss": 0.4322676360607147,
+      "eval_runtime": 8.1328,
+      "eval_samples_per_second": 12.296,
+      "eval_wer": 0.34348355663824603,
+      "step": 121100
+    },
+    {
+      "epoch": 19.71,
+      "learning_rate": 2.122695382607277e-05,
+      "loss": NaN,
+      "step": 121200
+    },
+    {
+      "epoch": 19.71,
+      "eval_loss": 0.42114943265914917,
+      "eval_runtime": 9.3436,
+      "eval_samples_per_second": 10.703,
+      "eval_wer": 0.341047503045067,
+      "step": 121200
+    },
+    {
+      "epoch": 19.73,
+      "learning_rate": 2.116169032468592e-05,
+      "loss": NaN,
+      "step": 121300
+    },
+    {
+      "epoch": 19.73,
+      "eval_loss": 0.40339621901512146,
+      "eval_runtime": 7.8643,
+      "eval_samples_per_second": 12.716,
+      "eval_wer": 0.3337393422655298,
+      "step": 121300
+    },
+    {
+      "epoch": 19.74,
+      "learning_rate": 2.1096426823299072e-05,
+      "loss": NaN,
+      "step": 121400
+    },
+    {
+      "epoch": 19.74,
+      "eval_loss": 0.3980773985385895,
+      "eval_runtime": 7.5335,
+      "eval_samples_per_second": 13.274,
+      "eval_wer": 0.3373934226552984,
+      "step": 121400
+    },
+    {
+      "epoch": 19.76,
+      "learning_rate": 2.1031163321912224e-05,
+      "loss": NaN,
+      "step": 121500
+    },
+    {
+      "epoch": 19.76,
+      "eval_loss": 0.5062117576599121,
+      "eval_runtime": 8.2053,
+      "eval_samples_per_second": 12.187,
+      "eval_wer": 0.3471376370280146,
+      "step": 121500
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 2.0965899820525372e-05,
+      "loss": NaN,
+      "step": 121600
+    },
+    {
+      "epoch": 19.78,
+      "eval_loss": 0.4986831247806549,
+      "eval_runtime": 8.3443,
+      "eval_samples_per_second": 11.984,
+      "eval_wer": 0.3447015834348356,
+      "step": 121600
+    },
+    {
+      "epoch": 19.79,
+      "learning_rate": 2.090063631913852e-05,
+      "loss": NaN,
+      "step": 121700
+    },
+    {
+      "epoch": 19.79,
+      "eval_loss": 0.5382255911827087,
+      "eval_runtime": 9.0263,
+      "eval_samples_per_second": 11.079,
+      "eval_wer": 0.3568818514007308,
+      "step": 121700
+    },
+    {
+      "epoch": 19.81,
+      "learning_rate": 2.0835372817751673e-05,
+      "loss": NaN,
+      "step": 121800
+    },
+    {
+      "epoch": 19.81,
+      "eval_loss": 0.5431269407272339,
+      "eval_runtime": 10.0339,
+      "eval_samples_per_second": 9.966,
+      "eval_wer": 0.3471376370280146,
+      "step": 121800
+    },
+    {
+      "epoch": 19.82,
+      "learning_rate": 2.0770109316364825e-05,
+      "loss": NaN,
+      "step": 121900
+    },
+    {
+      "epoch": 19.82,
+      "eval_loss": 0.39853399991989136,
+      "eval_runtime": 8.1763,
+      "eval_samples_per_second": 12.231,
+      "eval_wer": 0.3373934226552984,
+      "step": 121900
+    },
+    {
+      "epoch": 19.84,
+      "learning_rate": 2.0704845814977973e-05,
+      "loss": NaN,
+      "step": 122000
+    },
+    {
+      "epoch": 19.84,
+      "eval_loss": 0.563309907913208,
+      "eval_runtime": 7.9985,
+      "eval_samples_per_second": 12.502,
+      "eval_wer": 0.3447015834348356,
+      "step": 122000
+    },
+    {
+      "epoch": 19.86,
+      "learning_rate": 2.0639582313591125e-05,
+      "loss": NaN,
+      "step": 122100
+    },
+    {
+      "epoch": 19.86,
+      "eval_loss": 0.38848280906677246,
+      "eval_runtime": 7.9406,
+      "eval_samples_per_second": 12.593,
+      "eval_wer": 0.33495736906211937,
+      "step": 122100
+    },
+    {
+      "epoch": 19.87,
+      "learning_rate": 2.0574318812204277e-05,
+      "loss": NaN,
+      "step": 122200
+    },
+    {
+      "epoch": 19.87,
+      "eval_loss": 0.3947732448577881,
+      "eval_runtime": 8.1644,
+      "eval_samples_per_second": 12.248,
+      "eval_wer": 0.35444579780755175,
+      "step": 122200
+    },
+    {
+      "epoch": 19.89,
+      "learning_rate": 2.0509055310817426e-05,
+      "loss": NaN,
+      "step": 122300
+    },
+    {
+      "epoch": 19.89,
+      "eval_loss": 0.4206204116344452,
+      "eval_runtime": 8.6753,
+      "eval_samples_per_second": 11.527,
+      "eval_wer": 0.3471376370280146,
+      "step": 122300
+    },
+    {
+      "epoch": 19.91,
+      "learning_rate": 2.0443791809430577e-05,
+      "loss": NaN,
+      "step": 122400
+    },
+    {
+      "epoch": 19.91,
+      "eval_loss": 0.41722992062568665,
+      "eval_runtime": 7.7422,
+      "eval_samples_per_second": 12.916,
+      "eval_wer": 0.341047503045067,
+      "step": 122400
+    },
+    {
+      "epoch": 19.92,
+      "learning_rate": 2.0378528308043726e-05,
+      "loss": NaN,
+      "step": 122500
+    },
+    {
+      "epoch": 19.92,
+      "eval_loss": 0.4375925362110138,
+      "eval_runtime": 6.9864,
+      "eval_samples_per_second": 14.313,
+      "eval_wer": 0.34348355663824603,
+      "step": 122500
+    },
+    {
+      "epoch": 19.94,
+      "learning_rate": 2.0313264806656878e-05,
+      "loss": NaN,
+      "step": 122600
+    },
+    {
+      "epoch": 19.94,
+      "eval_loss": 0.40097764134407043,
+      "eval_runtime": 6.79,
+      "eval_samples_per_second": 14.728,
+      "eval_wer": 0.33617539585870887,
+      "step": 122600
+    },
+    {
+      "epoch": 19.95,
+      "learning_rate": 2.024800130527003e-05,
+      "loss": NaN,
+      "step": 122700
+    },
+    {
+      "epoch": 19.95,
+      "eval_loss": 0.4545166790485382,
+      "eval_runtime": 7.8384,
+      "eval_samples_per_second": 12.758,
+      "eval_wer": 0.3398294762484775,
+      "step": 122700
+    },
+    {
+      "epoch": 19.97,
+      "learning_rate": 2.0182737803883178e-05,
+      "loss": NaN,
+      "step": 122800
+    },
+    {
+      "epoch": 19.97,
+      "eval_loss": 0.3846965730190277,
+      "eval_runtime": 7.3303,
+      "eval_samples_per_second": 13.642,
+      "eval_wer": 0.3264311814859927,
+      "step": 122800
+    },
+    {
+      "epoch": 19.99,
+      "learning_rate": 2.011747430249633e-05,
+      "loss": NaN,
+      "step": 122900
+    },
+    {
+      "epoch": 19.99,
+      "eval_loss": 0.38395482301712036,
+      "eval_runtime": 7.3923,
+      "eval_samples_per_second": 13.528,
+      "eval_wer": 0.3373934226552984,
+      "step": 122900
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 2.0052210801109482e-05,
+      "loss": NaN,
+      "step": 123000
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.43827033042907715,
+      "eval_runtime": 8.7235,
+      "eval_samples_per_second": 11.463,
+      "eval_wer": 0.3507917174177832,
+      "step": 123000
+    },
+    {
+      "epoch": 20.02,
+      "learning_rate": 1.998694729972263e-05,
+      "loss": NaN,
+      "step": 123100
+    },
+    {
+      "epoch": 20.02,
+      "eval_loss": 0.43740010261535645,
+      "eval_runtime": 8.0253,
+      "eval_samples_per_second": 12.461,
+      "eval_wer": 0.34348355663824603,
+      "step": 123100
+    },
+    {
+      "epoch": 20.04,
+      "learning_rate": 1.9921683798335783e-05,
+      "loss": NaN,
+      "step": 123200
+    },
+    {
+      "epoch": 20.04,
+      "eval_loss": 0.3877253830432892,
+      "eval_runtime": 7.9016,
+      "eval_samples_per_second": 12.656,
+      "eval_wer": 0.33008526187576126,
+      "step": 123200
+    },
+    {
+      "epoch": 20.05,
+      "learning_rate": 1.985642029694893e-05,
+      "loss": NaN,
+      "step": 123300
+    },
+    {
+      "epoch": 20.05,
+      "eval_loss": 0.46851950883865356,
+      "eval_runtime": 8.2945,
+      "eval_samples_per_second": 12.056,
+      "eval_wer": 0.3690621193666261,
+      "step": 123300
+    },
+    {
+      "epoch": 20.07,
+      "learning_rate": 1.9791156795562083e-05,
+      "loss": NaN,
+      "step": 123400
+    },
+    {
+      "epoch": 20.07,
+      "eval_loss": 0.5597333312034607,
+      "eval_runtime": 8.7953,
+      "eval_samples_per_second": 11.37,
+      "eval_wer": 0.34835566382460414,
+      "step": 123400
+    },
+    {
+      "epoch": 20.08,
+      "learning_rate": 1.972589329417523e-05,
+      "loss": NaN,
+      "step": 123500
+    },
+    {
+      "epoch": 20.08,
+      "eval_loss": 0.4044766128063202,
+      "eval_runtime": 8.1152,
+      "eval_samples_per_second": 12.323,
+      "eval_wer": 0.33495736906211937,
+      "step": 123500
+    },
+    {
+      "epoch": 20.1,
+      "learning_rate": 1.9660629792788383e-05,
+      "loss": NaN,
+      "step": 123600
+    },
+    {
+      "epoch": 20.1,
+      "eval_loss": 0.39406195282936096,
+      "eval_runtime": 7.6836,
+      "eval_samples_per_second": 13.015,
+      "eval_wer": 0.3325213154689403,
+      "step": 123600
+    },
+    {
+      "epoch": 20.12,
+      "learning_rate": 1.9595366291401535e-05,
+      "loss": NaN,
+      "step": 123700
+    },
+    {
+      "epoch": 20.12,
+      "eval_loss": 0.4256425201892853,
+      "eval_runtime": 8.9263,
+      "eval_samples_per_second": 11.203,
+      "eval_wer": 0.33495736906211937,
+      "step": 123700
+    },
+    {
+      "epoch": 20.13,
+      "learning_rate": 1.9530102790014684e-05,
+      "loss": NaN,
+      "step": 123800
+    },
+    {
+      "epoch": 20.13,
+      "eval_loss": 0.39307454228401184,
+      "eval_runtime": 7.7688,
+      "eval_samples_per_second": 12.872,
+      "eval_wer": 0.3398294762484775,
+      "step": 123800
+    },
+    {
+      "epoch": 20.15,
+      "learning_rate": 1.9464839288627836e-05,
+      "loss": NaN,
+      "step": 123900
+    },
+    {
+      "epoch": 20.15,
+      "eval_loss": 0.4074282944202423,
+      "eval_runtime": 7.4446,
+      "eval_samples_per_second": 13.433,
+      "eval_wer": 0.33617539585870887,
+      "step": 123900
+    },
+    {
+      "epoch": 20.17,
+      "learning_rate": 1.9399575787240988e-05,
+      "loss": NaN,
+      "step": 124000
+    },
+    {
+      "epoch": 20.17,
+      "eval_loss": 0.38621366024017334,
+      "eval_runtime": 8.5491,
+      "eval_samples_per_second": 11.697,
+      "eval_wer": 0.341047503045067,
+      "step": 124000
+    },
+    {
+      "epoch": 20.18,
+      "learning_rate": 1.9334312285854136e-05,
+      "loss": NaN,
+      "step": 124100
+    },
+    {
+      "epoch": 20.18,
+      "eval_loss": 0.3924228549003601,
+      "eval_runtime": 8.8405,
+      "eval_samples_per_second": 11.312,
+      "eval_wer": 0.34348355663824603,
+      "step": 124100
+    },
+    {
+      "epoch": 20.2,
+      "learning_rate": 1.9269048784467285e-05,
+      "loss": NaN,
+      "step": 124200
+    },
+    {
+      "epoch": 20.2,
+      "eval_loss": 0.3702751398086548,
+      "eval_runtime": 6.8704,
+      "eval_samples_per_second": 14.555,
+      "eval_wer": 0.3386114494518879,
+      "step": 124200
+    },
+    {
+      "epoch": 20.21,
+      "learning_rate": 1.920378528308044e-05,
+      "loss": NaN,
+      "step": 124300
+    },
+    {
+      "epoch": 20.21,
+      "eval_loss": 0.4109724760055542,
+      "eval_runtime": 8.6105,
+      "eval_samples_per_second": 11.614,
+      "eval_wer": 0.3568818514007308,
+      "step": 124300
+    },
+    {
+      "epoch": 20.23,
+      "learning_rate": 1.913852178169359e-05,
+      "loss": NaN,
+      "step": 124400
+    },
+    {
+      "epoch": 20.23,
+      "eval_loss": 0.40841957926750183,
+      "eval_runtime": 7.8666,
+      "eval_samples_per_second": 12.712,
+      "eval_wer": 0.3264311814859927,
+      "step": 124400
+    },
+    {
+      "epoch": 20.25,
+      "learning_rate": 1.9073258280306737e-05,
+      "loss": NaN,
+      "step": 124500
+    },
+    {
+      "epoch": 20.25,
+      "eval_loss": 0.44555091857910156,
+      "eval_runtime": 8.1778,
+      "eval_samples_per_second": 12.228,
+      "eval_wer": 0.341047503045067,
+      "step": 124500
+    },
+    {
+      "epoch": 20.26,
+      "learning_rate": 1.9007994778919892e-05,
+      "loss": NaN,
+      "step": 124600
+    },
+    {
+      "epoch": 20.26,
+      "eval_loss": 0.5727394819259644,
+      "eval_runtime": 8.2574,
+      "eval_samples_per_second": 12.11,
+      "eval_wer": 0.3386114494518879,
+      "step": 124600
+    },
+    {
+      "epoch": 20.28,
+      "learning_rate": 1.894273127753304e-05,
+      "loss": NaN,
+      "step": 124700
+    },
+    {
+      "epoch": 20.28,
+      "eval_loss": 0.43890708684921265,
+      "eval_runtime": 7.5362,
+      "eval_samples_per_second": 13.269,
+      "eval_wer": 0.3507917174177832,
+      "step": 124700
+    },
+    {
+      "epoch": 20.3,
+      "learning_rate": 1.887746777614619e-05,
+      "loss": NaN,
+      "step": 124800
+    },
+    {
+      "epoch": 20.3,
+      "eval_loss": 0.4767882525920868,
+      "eval_runtime": 9.0744,
+      "eval_samples_per_second": 11.02,
+      "eval_wer": 0.34226552984165654,
+      "step": 124800
+    },
+    {
+      "epoch": 20.31,
+      "learning_rate": 1.881220427475934e-05,
+      "loss": NaN,
+      "step": 124900
+    },
+    {
+      "epoch": 20.31,
+      "eval_loss": 0.3942064046859741,
+      "eval_runtime": 9.3212,
+      "eval_samples_per_second": 10.728,
+      "eval_wer": 0.3373934226552984,
+      "step": 124900
+    },
+    {
+      "epoch": 20.33,
+      "learning_rate": 1.8746940773372493e-05,
+      "loss": NaN,
+      "step": 125000
+    },
+    {
+      "epoch": 20.33,
+      "eval_loss": 0.4494655132293701,
+      "eval_runtime": 9.6714,
+      "eval_samples_per_second": 10.34,
+      "eval_wer": 0.3447015834348356,
+      "step": 125000
+    },
+    {
+      "epoch": 20.34,
+      "learning_rate": 1.8681677271985642e-05,
+      "loss": NaN,
+      "step": 125100
+    },
+    {
+      "epoch": 20.34,
+      "eval_loss": 0.39226436614990234,
+      "eval_runtime": 8.7962,
+      "eval_samples_per_second": 11.369,
+      "eval_wer": 0.32886723507917176,
+      "step": 125100
+    },
+    {
+      "epoch": 20.36,
+      "learning_rate": 1.8616413770598794e-05,
+      "loss": NaN,
+      "step": 125200
+    },
+    {
+      "epoch": 20.36,
+      "eval_loss": 0.41099902987480164,
+      "eval_runtime": 8.4883,
+      "eval_samples_per_second": 11.781,
+      "eval_wer": 0.3373934226552984,
+      "step": 125200
+    },
+    {
+      "epoch": 20.38,
+      "learning_rate": 1.8551150269211946e-05,
+      "loss": NaN,
+      "step": 125300
+    },
+    {
+      "epoch": 20.38,
+      "eval_loss": 0.4286768436431885,
+      "eval_runtime": 7.7395,
+      "eval_samples_per_second": 12.921,
+      "eval_wer": 0.341047503045067,
+      "step": 125300
+    },
+    {
+      "epoch": 20.39,
+      "learning_rate": 1.8485886767825094e-05,
+      "loss": NaN,
+      "step": 125400
+    },
+    {
+      "epoch": 20.39,
+      "eval_loss": 0.4009086489677429,
+      "eval_runtime": 7.1964,
+      "eval_samples_per_second": 13.896,
+      "eval_wer": 0.33495736906211937,
+      "step": 125400
+    },
+    {
+      "epoch": 20.41,
+      "learning_rate": 1.8420623266438243e-05,
+      "loss": NaN,
+      "step": 125500
+    },
+    {
+      "epoch": 20.41,
+      "eval_loss": 0.40821143984794617,
+      "eval_runtime": 8.3655,
+      "eval_samples_per_second": 11.954,
+      "eval_wer": 0.34226552984165654,
+      "step": 125500
+    },
+    {
+      "epoch": 20.43,
+      "learning_rate": 1.8355359765051398e-05,
+      "loss": NaN,
+      "step": 125600
+    },
+    {
+      "epoch": 20.43,
+      "eval_loss": 0.4229655861854553,
+      "eval_runtime": 8.8125,
+      "eval_samples_per_second": 11.348,
+      "eval_wer": 0.3568818514007308,
+      "step": 125600
+    },
+    {
+      "epoch": 20.44,
+      "learning_rate": 1.8290096263664547e-05,
+      "loss": NaN,
+      "step": 125700
+    },
+    {
+      "epoch": 20.44,
+      "eval_loss": 0.45079144835472107,
+      "eval_runtime": 9.8702,
+      "eval_samples_per_second": 10.131,
+      "eval_wer": 0.34348355663824603,
+      "step": 125700
+    },
+    {
+      "epoch": 20.46,
+      "learning_rate": 1.8224832762277695e-05,
+      "loss": NaN,
+      "step": 125800
+    },
+    {
+      "epoch": 20.46,
+      "eval_loss": 0.42513442039489746,
+      "eval_runtime": 7.4321,
+      "eval_samples_per_second": 13.455,
+      "eval_wer": 0.3313032886723508,
+      "step": 125800
+    },
+    {
+      "epoch": 20.47,
+      "learning_rate": 1.8159569260890847e-05,
+      "loss": NaN,
+      "step": 125900
+    },
+    {
+      "epoch": 20.47,
+      "eval_loss": 0.4858975112438202,
+      "eval_runtime": 7.8101,
+      "eval_samples_per_second": 12.804,
+      "eval_wer": 0.3568818514007308,
+      "step": 125900
+    },
+    {
+      "epoch": 20.49,
+      "learning_rate": 1.8094305759504e-05,
+      "loss": NaN,
+      "step": 126000
+    },
+    {
+      "epoch": 20.49,
+      "eval_loss": 0.4102497398853302,
+      "eval_runtime": 9.5076,
+      "eval_samples_per_second": 10.518,
+      "eval_wer": 0.35444579780755175,
+      "step": 126000
+    },
+    {
+      "epoch": 20.51,
+      "learning_rate": 1.8029042258117147e-05,
+      "loss": NaN,
+      "step": 126100
+    },
+    {
+      "epoch": 20.51,
+      "eval_loss": 0.4684319794178009,
+      "eval_runtime": 7.5644,
+      "eval_samples_per_second": 13.22,
+      "eval_wer": 0.3373934226552984,
+      "step": 126100
+    },
+    {
+      "epoch": 20.52,
+      "learning_rate": 1.79637787567303e-05,
+      "loss": NaN,
+      "step": 126200
+    },
+    {
+      "epoch": 20.52,
+      "eval_loss": 0.6590189933776855,
+      "eval_runtime": 8.2168,
+      "eval_samples_per_second": 12.17,
+      "eval_wer": 0.35931790499390986,
+      "step": 126200
+    },
+    {
+      "epoch": 20.54,
+      "learning_rate": 1.789851525534345e-05,
+      "loss": NaN,
+      "step": 126300
+    },
+    {
+      "epoch": 20.54,
+      "eval_loss": 0.4641081988811493,
+      "eval_runtime": 7.7606,
+      "eval_samples_per_second": 12.886,
+      "eval_wer": 0.315468940316687,
+      "step": 126300
+    },
+    {
+      "epoch": 20.56,
+      "learning_rate": 1.78332517539566e-05,
+      "loss": NaN,
+      "step": 126400
+    },
+    {
+      "epoch": 20.56,
+      "eval_loss": 0.5528498888015747,
+      "eval_runtime": 9.1648,
+      "eval_samples_per_second": 10.911,
+      "eval_wer": 0.3629719853836784,
+      "step": 126400
+    },
+    {
+      "epoch": 20.57,
+      "learning_rate": 1.7767988252569752e-05,
+      "loss": NaN,
+      "step": 126500
+    },
+    {
+      "epoch": 20.57,
+      "eval_loss": 0.433257132768631,
+      "eval_runtime": 7.6174,
+      "eval_samples_per_second": 13.128,
+      "eval_wer": 0.34348355663824603,
+      "step": 126500
+    },
+    {
+      "epoch": 20.59,
+      "learning_rate": 1.7702724751182904e-05,
+      "loss": NaN,
+      "step": 126600
+    },
+    {
+      "epoch": 20.59,
+      "eval_loss": 0.3999103307723999,
+      "eval_runtime": 7.888,
+      "eval_samples_per_second": 12.677,
+      "eval_wer": 0.3373934226552984,
+      "step": 126600
+    },
+    {
+      "epoch": 20.6,
+      "learning_rate": 1.7637461249796052e-05,
+      "loss": NaN,
+      "step": 126700
+    },
+    {
+      "epoch": 20.6,
+      "eval_loss": 0.4195931553840637,
+      "eval_runtime": 7.5791,
+      "eval_samples_per_second": 13.194,
+      "eval_wer": 0.3447015834348356,
+      "step": 126700
+    },
+    {
+      "epoch": 20.62,
+      "learning_rate": 1.7572197748409204e-05,
+      "loss": NaN,
+      "step": 126800
+    },
+    {
+      "epoch": 20.62,
+      "eval_loss": 0.4389355778694153,
+      "eval_runtime": 6.9812,
+      "eval_samples_per_second": 14.324,
+      "eval_wer": 0.34226552984165654,
+      "step": 126800
+    },
+    {
+      "epoch": 20.64,
+      "learning_rate": 1.7506934247022353e-05,
+      "loss": NaN,
+      "step": 126900
+    },
+    {
+      "epoch": 20.64,
+      "eval_loss": 0.4806211590766907,
+      "eval_runtime": 9.6568,
+      "eval_samples_per_second": 10.355,
+      "eval_wer": 0.34957369062119364,
+      "step": 126900
+    },
+    {
+      "epoch": 20.65,
+      "learning_rate": 1.7441670745635505e-05,
+      "loss": NaN,
+      "step": 127000
+    },
+    {
+      "epoch": 20.65,
+      "eval_loss": 0.48015937209129333,
+      "eval_runtime": 9.1133,
+      "eval_samples_per_second": 10.973,
+      "eval_wer": 0.35322777101096225,
+      "step": 127000
+    },
+    {
+      "epoch": 20.67,
+      "learning_rate": 1.7376407244248653e-05,
+      "loss": NaN,
+      "step": 127100
+    },
+    {
+      "epoch": 20.67,
+      "eval_loss": 0.4087853729724884,
+      "eval_runtime": 7.6535,
+      "eval_samples_per_second": 13.066,
+      "eval_wer": 0.3337393422655298,
+      "step": 127100
+    },
+    {
+      "epoch": 20.69,
+      "learning_rate": 1.7311143742861805e-05,
+      "loss": NaN,
+      "step": 127200
+    },
+    {
+      "epoch": 20.69,
+      "eval_loss": 0.43684786558151245,
+      "eval_runtime": 8.3464,
+      "eval_samples_per_second": 11.981,
+      "eval_wer": 0.33495736906211937,
+      "step": 127200
+    },
+    {
+      "epoch": 20.7,
+      "learning_rate": 1.7245880241474957e-05,
+      "loss": NaN,
+      "step": 127300
+    },
+    {
+      "epoch": 20.7,
+      "eval_loss": 0.46926018595695496,
+      "eval_runtime": 9.6189,
+      "eval_samples_per_second": 10.396,
+      "eval_wer": 0.3447015834348356,
+      "step": 127300
+    },
+    {
+      "epoch": 20.72,
+      "learning_rate": 1.7180616740088105e-05,
+      "loss": NaN,
+      "step": 127400
+    },
+    {
+      "epoch": 20.72,
+      "eval_loss": 0.45676276087760925,
+      "eval_runtime": 9.0225,
+      "eval_samples_per_second": 11.083,
+      "eval_wer": 0.3459196102314251,
+      "step": 127400
+    },
+    {
+      "epoch": 20.74,
+      "learning_rate": 1.7115353238701257e-05,
+      "loss": NaN,
+      "step": 127500
+    },
+    {
+      "epoch": 20.74,
+      "eval_loss": 0.4165736734867096,
+      "eval_runtime": 8.8912,
+      "eval_samples_per_second": 11.247,
+      "eval_wer": 0.3459196102314251,
+      "step": 127500
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 1.7050089737314406e-05,
+      "loss": NaN,
+      "step": 127600
+    },
+    {
+      "epoch": 20.75,
+      "eval_loss": 0.4191476106643677,
+      "eval_runtime": 8.1249,
+      "eval_samples_per_second": 12.308,
+      "eval_wer": 0.3398294762484775,
+      "step": 127600
+    },
+    {
+      "epoch": 20.77,
+      "learning_rate": 1.6984826235927558e-05,
+      "loss": NaN,
+      "step": 127700
+    },
+    {
+      "epoch": 20.77,
+      "eval_loss": 0.4200890362262726,
+      "eval_runtime": 7.7999,
+      "eval_samples_per_second": 12.821,
+      "eval_wer": 0.3313032886723508,
+      "step": 127700
+    },
+    {
+      "epoch": 20.78,
+      "learning_rate": 1.691956273454071e-05,
+      "loss": NaN,
+      "step": 127800
+    },
+    {
+      "epoch": 20.78,
+      "eval_loss": 0.41486749053001404,
+      "eval_runtime": 9.2941,
+      "eval_samples_per_second": 10.76,
+      "eval_wer": 0.34348355663824603,
+      "step": 127800
+    },
+    {
+      "epoch": 20.8,
+      "learning_rate": 1.6854299233153858e-05,
+      "loss": NaN,
+      "step": 127900
+    },
+    {
+      "epoch": 20.8,
+      "eval_loss": 0.4273871183395386,
+      "eval_runtime": 9.7275,
+      "eval_samples_per_second": 10.28,
+      "eval_wer": 0.3386114494518879,
+      "step": 127900
+    },
+    {
+      "epoch": 20.82,
+      "learning_rate": 1.678903573176701e-05,
+      "loss": NaN,
+      "step": 128000
+    },
+    {
+      "epoch": 20.82,
+      "eval_loss": 0.44087138772010803,
+      "eval_runtime": 8.9574,
+      "eval_samples_per_second": 11.164,
+      "eval_wer": 0.3447015834348356,
+      "step": 128000
+    },
+    {
+      "epoch": 20.83,
+      "learning_rate": 1.6723772230380162e-05,
+      "loss": NaN,
+      "step": 128100
+    },
+    {
+      "epoch": 20.83,
+      "eval_loss": 0.3781212270259857,
+      "eval_runtime": 7.5604,
+      "eval_samples_per_second": 13.227,
+      "eval_wer": 0.3325213154689403,
+      "step": 128100
+    },
+    {
+      "epoch": 20.85,
+      "learning_rate": 1.665850872899331e-05,
+      "loss": NaN,
+      "step": 128200
+    },
+    {
+      "epoch": 20.85,
+      "eval_loss": 0.4753413498401642,
+      "eval_runtime": 8.6899,
+      "eval_samples_per_second": 11.508,
+      "eval_wer": 0.3337393422655298,
+      "step": 128200
+    },
+    {
+      "epoch": 20.87,
+      "learning_rate": 1.6593245227606463e-05,
+      "loss": NaN,
+      "step": 128300
+    },
+    {
+      "epoch": 20.87,
+      "eval_loss": 0.40558329224586487,
+      "eval_runtime": 7.5404,
+      "eval_samples_per_second": 13.262,
+      "eval_wer": 0.3313032886723508,
+      "step": 128300
+    },
+    {
+      "epoch": 20.88,
+      "learning_rate": 1.6527981726219614e-05,
+      "loss": NaN,
+      "step": 128400
+    },
+    {
+      "epoch": 20.88,
+      "eval_loss": 0.4515651762485504,
+      "eval_runtime": 8.2888,
+      "eval_samples_per_second": 12.065,
+      "eval_wer": 0.3398294762484775,
+      "step": 128400
+    },
+    {
+      "epoch": 20.9,
+      "learning_rate": 1.6462718224832763e-05,
+      "loss": NaN,
+      "step": 128500
+    },
+    {
+      "epoch": 20.9,
+      "eval_loss": 0.43877291679382324,
+      "eval_runtime": 7.2241,
+      "eval_samples_per_second": 13.843,
+      "eval_wer": 0.3507917174177832,
+      "step": 128500
+    },
+    {
+      "epoch": 20.91,
+      "learning_rate": 1.639745472344591e-05,
+      "loss": NaN,
+      "step": 128600
+    },
+    {
+      "epoch": 20.91,
+      "eval_loss": 0.457927405834198,
+      "eval_runtime": 8.7365,
+      "eval_samples_per_second": 11.446,
+      "eval_wer": 0.34348355663824603,
+      "step": 128600
+    },
+    {
+      "epoch": 20.93,
+      "learning_rate": 1.6332191222059063e-05,
+      "loss": NaN,
+      "step": 128700
+    },
+    {
+      "epoch": 20.93,
+      "eval_loss": 0.40025395154953003,
+      "eval_runtime": 8.0467,
+      "eval_samples_per_second": 12.428,
+      "eval_wer": 0.34348355663824603,
+      "step": 128700
+    },
+    {
+      "epoch": 20.95,
+      "learning_rate": 1.6266927720672215e-05,
+      "loss": NaN,
+      "step": 128800
+    },
+    {
+      "epoch": 20.95,
+      "eval_loss": 0.5182440280914307,
+      "eval_runtime": 7.1852,
+      "eval_samples_per_second": 13.918,
+      "eval_wer": 0.35444579780755175,
+      "step": 128800
+    },
+    {
+      "epoch": 20.96,
+      "learning_rate": 1.6201664219285364e-05,
+      "loss": NaN,
+      "step": 128900
+    },
+    {
+      "epoch": 20.96,
+      "eval_loss": 0.4123252034187317,
+      "eval_runtime": 8.1302,
+      "eval_samples_per_second": 12.3,
+      "eval_wer": 0.3386114494518879,
+      "step": 128900
+    },
+    {
+      "epoch": 20.98,
+      "learning_rate": 1.6136400717898516e-05,
+      "loss": NaN,
+      "step": 129000
+    },
+    {
+      "epoch": 20.98,
+      "eval_loss": 0.4326474070549011,
+      "eval_runtime": 7.6986,
+      "eval_samples_per_second": 12.989,
+      "eval_wer": 0.3398294762484775,
+      "step": 129000
+    },
+    {
+      "epoch": 21.0,
+      "learning_rate": 1.6071137216511668e-05,
+      "loss": NaN,
+      "step": 129100
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.4750351011753082,
+      "eval_runtime": 7.5824,
+      "eval_samples_per_second": 13.188,
+      "eval_wer": 0.3373934226552984,
+      "step": 129100
+    },
+    {
+      "epoch": 21.01,
+      "learning_rate": 1.6005873715124816e-05,
+      "loss": NaN,
+      "step": 129200
+    },
+    {
+      "epoch": 21.01,
+      "eval_loss": 0.4125843942165375,
+      "eval_runtime": 8.0836,
+      "eval_samples_per_second": 12.371,
+      "eval_wer": 0.3386114494518879,
+      "step": 129200
+    },
+    {
+      "epoch": 21.03,
+      "learning_rate": 1.5940610213737968e-05,
+      "loss": NaN,
+      "step": 129300
+    },
+    {
+      "epoch": 21.03,
+      "eval_loss": 0.4247395396232605,
+      "eval_runtime": 8.0802,
+      "eval_samples_per_second": 12.376,
+      "eval_wer": 0.3373934226552984,
+      "step": 129300
+    },
+    {
+      "epoch": 21.04,
+      "learning_rate": 1.587534671235112e-05,
+      "loss": NaN,
+      "step": 129400
+    },
+    {
+      "epoch": 21.04,
+      "eval_loss": 0.43337181210517883,
+      "eval_runtime": 7.6212,
+      "eval_samples_per_second": 13.121,
+      "eval_wer": 0.32886723507917176,
+      "step": 129400
+    },
+    {
+      "epoch": 21.06,
+      "learning_rate": 1.581008321096427e-05,
+      "loss": NaN,
+      "step": 129500
+    },
+    {
+      "epoch": 21.06,
+      "eval_loss": 0.35774993896484375,
+      "eval_runtime": 8.103,
+      "eval_samples_per_second": 12.341,
+      "eval_wer": 0.315468940316687,
+      "step": 129500
+    },
+    {
+      "epoch": 21.08,
+      "learning_rate": 1.5744819709577417e-05,
+      "loss": NaN,
+      "step": 129600
+    },
+    {
+      "epoch": 21.08,
+      "eval_loss": 0.4800620973110199,
+      "eval_runtime": 8.5222,
+      "eval_samples_per_second": 11.734,
+      "eval_wer": 0.32521315468940315,
+      "step": 129600
+    },
+    {
+      "epoch": 21.09,
+      "learning_rate": 1.5679556208190572e-05,
+      "loss": NaN,
+      "step": 129700
+    },
+    {
+      "epoch": 21.09,
+      "eval_loss": 0.4503170847892761,
+      "eval_runtime": 8.4578,
+      "eval_samples_per_second": 11.823,
+      "eval_wer": 0.34226552984165654,
+      "step": 129700
+    },
+    {
+      "epoch": 21.11,
+      "learning_rate": 1.561429270680372e-05,
+      "loss": NaN,
+      "step": 129800
+    },
+    {
+      "epoch": 21.11,
+      "eval_loss": 0.4079561233520508,
+      "eval_runtime": 7.3872,
+      "eval_samples_per_second": 13.537,
+      "eval_wer": 0.3325213154689403,
+      "step": 129800
+    },
+    {
+      "epoch": 21.13,
+      "learning_rate": 1.554902920541687e-05,
+      "loss": NaN,
+      "step": 129900
+    },
+    {
+      "epoch": 21.13,
+      "eval_loss": 0.44905129075050354,
+      "eval_runtime": 7.1484,
+      "eval_samples_per_second": 13.989,
+      "eval_wer": 0.3398294762484775,
+      "step": 129900
+    },
+    {
+      "epoch": 21.14,
+      "learning_rate": 1.5483765704030025e-05,
+      "loss": NaN,
+      "step": 130000
+    },
+    {
+      "epoch": 21.14,
+      "eval_loss": 0.4295308291912079,
+      "eval_runtime": 8.0526,
+      "eval_samples_per_second": 12.418,
+      "eval_wer": 0.33617539585870887,
+      "step": 130000
+    },
+    {
+      "epoch": 21.16,
+      "learning_rate": 1.5418502202643173e-05,
+      "loss": NaN,
+      "step": 130100
+    },
+    {
+      "epoch": 21.16,
+      "eval_loss": 0.3925670385360718,
+      "eval_runtime": 8.4253,
+      "eval_samples_per_second": 11.869,
+      "eval_wer": 0.3325213154689403,
+      "step": 130100
+    },
+    {
+      "epoch": 21.17,
+      "learning_rate": 1.5353238701256322e-05,
+      "loss": NaN,
+      "step": 130200
+    },
+    {
+      "epoch": 21.17,
+      "eval_loss": 0.46943891048431396,
+      "eval_runtime": 6.9244,
+      "eval_samples_per_second": 14.442,
+      "eval_wer": 0.34957369062119364,
+      "step": 130200
+    },
+    {
+      "epoch": 21.19,
+      "learning_rate": 1.5287975199869474e-05,
+      "loss": NaN,
+      "step": 130300
+    },
+    {
+      "epoch": 21.19,
+      "eval_loss": 0.3773401975631714,
+      "eval_runtime": 9.0744,
+      "eval_samples_per_second": 11.02,
+      "eval_wer": 0.3471376370280146,
+      "step": 130300
+    },
+    {
+      "epoch": 21.21,
+      "learning_rate": 1.5222711698482626e-05,
+      "loss": NaN,
+      "step": 130400
+    },
+    {
+      "epoch": 21.21,
+      "eval_loss": 0.4215690493583679,
+      "eval_runtime": 8.1736,
+      "eval_samples_per_second": 12.235,
+      "eval_wer": 0.341047503045067,
+      "step": 130400
+    },
+    {
+      "epoch": 21.22,
+      "learning_rate": 1.5157448197095774e-05,
+      "loss": NaN,
+      "step": 130500
+    },
+    {
+      "epoch": 21.22,
+      "eval_loss": 0.4928508400917053,
+      "eval_runtime": 8.1815,
+      "eval_samples_per_second": 12.223,
+      "eval_wer": 0.3459196102314251,
+      "step": 130500
+    },
+    {
+      "epoch": 21.24,
+      "learning_rate": 1.5092184695708924e-05,
+      "loss": NaN,
+      "step": 130600
+    },
+    {
+      "epoch": 21.24,
+      "eval_loss": 0.4258655309677124,
+      "eval_runtime": 8.8623,
+      "eval_samples_per_second": 11.284,
+      "eval_wer": 0.33617539585870887,
+      "step": 130600
+    },
+    {
+      "epoch": 21.26,
+      "learning_rate": 1.5026921194322078e-05,
+      "loss": NaN,
+      "step": 130700
+    },
+    {
+      "epoch": 21.26,
+      "eval_loss": 0.40194839239120483,
+      "eval_runtime": 8.8628,
+      "eval_samples_per_second": 11.283,
+      "eval_wer": 0.3276492082825822,
+      "step": 130700
+    },
+    {
+      "epoch": 21.27,
+      "learning_rate": 1.4961657692935227e-05,
+      "loss": NaN,
+      "step": 130800
+    },
+    {
+      "epoch": 21.27,
+      "eval_loss": 0.4380399286746979,
+      "eval_runtime": 8.0782,
+      "eval_samples_per_second": 12.379,
+      "eval_wer": 0.34835566382460414,
+      "step": 130800
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 1.4896394191548377e-05,
+      "loss": NaN,
+      "step": 130900
+    },
+    {
+      "epoch": 21.29,
+      "eval_loss": 0.40339186787605286,
+      "eval_runtime": 9.2102,
+      "eval_samples_per_second": 10.858,
+      "eval_wer": 0.34226552984165654,
+      "step": 130900
+    },
+    {
+      "epoch": 21.3,
+      "learning_rate": 1.4831130690161527e-05,
+      "loss": NaN,
+      "step": 131000
+    },
+    {
+      "epoch": 21.3,
+      "eval_loss": 0.4713993966579437,
+      "eval_runtime": 8.5421,
+      "eval_samples_per_second": 11.707,
+      "eval_wer": 0.3507917174177832,
+      "step": 131000
+    },
+    {
+      "epoch": 21.32,
+      "learning_rate": 1.4765867188774679e-05,
+      "loss": NaN,
+      "step": 131100
+    },
+    {
+      "epoch": 21.32,
+      "eval_loss": 0.5234803557395935,
+      "eval_runtime": 7.9161,
+      "eval_samples_per_second": 12.632,
+      "eval_wer": 0.3568818514007308,
+      "step": 131100
+    },
+    {
+      "epoch": 21.34,
+      "learning_rate": 1.4700603687387829e-05,
+      "loss": NaN,
+      "step": 131200
+    },
+    {
+      "epoch": 21.34,
+      "eval_loss": 0.46438494324684143,
+      "eval_runtime": 9.1223,
+      "eval_samples_per_second": 10.962,
+      "eval_wer": 0.3520097442143727,
+      "step": 131200
+    },
+    {
+      "epoch": 21.35,
+      "learning_rate": 1.463534018600098e-05,
+      "loss": NaN,
+      "step": 131300
+    },
+    {
+      "epoch": 21.35,
+      "eval_loss": 0.44316136837005615,
+      "eval_runtime": 9.5471,
+      "eval_samples_per_second": 10.474,
+      "eval_wer": 0.3373934226552984,
+      "step": 131300
+    },
+    {
+      "epoch": 21.37,
+      "learning_rate": 1.4570076684614131e-05,
+      "loss": NaN,
+      "step": 131400
+    },
+    {
+      "epoch": 21.37,
+      "eval_loss": 0.442475825548172,
+      "eval_runtime": 7.1952,
+      "eval_samples_per_second": 13.898,
+      "eval_wer": 0.33617539585870887,
+      "step": 131400
+    },
+    {
+      "epoch": 21.39,
+      "learning_rate": 1.4504813183227281e-05,
+      "loss": NaN,
+      "step": 131500
+    },
+    {
+      "epoch": 21.39,
+      "eval_loss": 0.5654551982879639,
+      "eval_runtime": 8.1407,
+      "eval_samples_per_second": 12.284,
+      "eval_wer": 0.35322777101096225,
+      "step": 131500
+    },
+    {
+      "epoch": 21.4,
+      "learning_rate": 1.443954968184043e-05,
+      "loss": NaN,
+      "step": 131600
+    },
+    {
+      "epoch": 21.4,
+      "eval_loss": 0.4513855278491974,
+      "eval_runtime": 8.8967,
+      "eval_samples_per_second": 11.24,
+      "eval_wer": 0.34835566382460414,
+      "step": 131600
+    },
+    {
+      "epoch": 21.42,
+      "learning_rate": 1.4374286180453584e-05,
+      "loss": NaN,
+      "step": 131700
+    },
+    {
+      "epoch": 21.42,
+      "eval_loss": 0.4416217803955078,
+      "eval_runtime": 9.1103,
+      "eval_samples_per_second": 10.977,
+      "eval_wer": 0.34835566382460414,
+      "step": 131700
+    },
+    {
+      "epoch": 21.43,
+      "learning_rate": 1.4309022679066734e-05,
+      "loss": NaN,
+      "step": 131800
+    },
+    {
+      "epoch": 21.43,
+      "eval_loss": 0.391195148229599,
+      "eval_runtime": 8.6493,
+      "eval_samples_per_second": 11.562,
+      "eval_wer": 0.3386114494518879,
+      "step": 131800
+    },
+    {
+      "epoch": 21.45,
+      "learning_rate": 1.4243759177679882e-05,
+      "loss": NaN,
+      "step": 131900
+    },
+    {
+      "epoch": 21.45,
+      "eval_loss": 0.4384614825248718,
+      "eval_runtime": 8.481,
+      "eval_samples_per_second": 11.791,
+      "eval_wer": 0.3447015834348356,
+      "step": 131900
+    },
+    {
+      "epoch": 21.47,
+      "learning_rate": 1.4178495676293033e-05,
+      "loss": NaN,
+      "step": 132000
+    },
+    {
+      "epoch": 21.47,
+      "eval_loss": 0.42818814516067505,
+      "eval_runtime": 8.6608,
+      "eval_samples_per_second": 11.546,
+      "eval_wer": 0.3386114494518879,
+      "step": 132000
+    },
+    {
+      "epoch": 21.48,
+      "learning_rate": 1.4113232174906185e-05,
+      "loss": NaN,
+      "step": 132100
+    },
+    {
+      "epoch": 21.48,
+      "eval_loss": 0.4142271876335144,
+      "eval_runtime": 7.784,
+      "eval_samples_per_second": 12.847,
+      "eval_wer": 0.32521315468940315,
+      "step": 132100
+    },
+    {
+      "epoch": 21.5,
+      "learning_rate": 1.4047968673519335e-05,
+      "loss": NaN,
+      "step": 132200
+    },
+    {
+      "epoch": 21.5,
+      "eval_loss": 0.42976322770118713,
+      "eval_runtime": 11.0885,
+      "eval_samples_per_second": 9.018,
+      "eval_wer": 0.35809987819732036,
+      "step": 132200
+    },
+    {
+      "epoch": 21.52,
+      "learning_rate": 1.3982705172132485e-05,
+      "loss": NaN,
+      "step": 132300
+    },
+    {
+      "epoch": 21.52,
+      "eval_loss": 0.44189947843551636,
+      "eval_runtime": 8.1376,
+      "eval_samples_per_second": 12.289,
+      "eval_wer": 0.3447015834348356,
+      "step": 132300
+    },
+    {
+      "epoch": 21.53,
+      "learning_rate": 1.3917441670745637e-05,
+      "loss": NaN,
+      "step": 132400
+    },
+    {
+      "epoch": 21.53,
+      "eval_loss": 0.4482198655605316,
+      "eval_runtime": 8.3756,
+      "eval_samples_per_second": 11.939,
+      "eval_wer": 0.3507917174177832,
+      "step": 132400
+    },
+    {
+      "epoch": 21.55,
+      "learning_rate": 1.3852178169358787e-05,
+      "loss": NaN,
+      "step": 132500
+    },
+    {
+      "epoch": 21.55,
+      "eval_loss": 0.37959039211273193,
+      "eval_runtime": 7.1877,
+      "eval_samples_per_second": 13.913,
+      "eval_wer": 0.3337393422655298,
+      "step": 132500
+    },
+    {
+      "epoch": 21.56,
+      "learning_rate": 1.3786914667971937e-05,
+      "loss": NaN,
+      "step": 132600
+    },
+    {
+      "epoch": 21.56,
+      "eval_loss": 0.4015367925167084,
+      "eval_runtime": 7.0749,
+      "eval_samples_per_second": 14.134,
+      "eval_wer": 0.3373934226552984,
+      "step": 132600
+    },
+    {
+      "epoch": 21.58,
+      "learning_rate": 1.3721651166585086e-05,
+      "loss": NaN,
+      "step": 132700
+    },
+    {
+      "epoch": 21.58,
+      "eval_loss": 0.4340609014034271,
+      "eval_runtime": 10.0027,
+      "eval_samples_per_second": 9.997,
+      "eval_wer": 0.34835566382460414,
+      "step": 132700
+    },
+    {
+      "epoch": 21.6,
+      "learning_rate": 1.365638766519824e-05,
+      "loss": NaN,
+      "step": 132800
+    },
+    {
+      "epoch": 21.6,
+      "eval_loss": 0.5372726917266846,
+      "eval_runtime": 8.4121,
+      "eval_samples_per_second": 11.888,
+      "eval_wer": 0.33617539585870887,
+      "step": 132800
+    },
+    {
+      "epoch": 21.61,
+      "learning_rate": 1.359112416381139e-05,
+      "loss": NaN,
+      "step": 132900
+    },
+    {
+      "epoch": 21.61,
+      "eval_loss": 0.39388373494148254,
+      "eval_runtime": 8.9479,
+      "eval_samples_per_second": 11.176,
+      "eval_wer": 0.3264311814859927,
+      "step": 132900
+    },
+    {
+      "epoch": 21.63,
+      "learning_rate": 1.3525860662424538e-05,
+      "loss": NaN,
+      "step": 133000
+    },
+    {
+      "epoch": 21.63,
+      "eval_loss": 0.44166165590286255,
+      "eval_runtime": 8.2657,
+      "eval_samples_per_second": 12.098,
+      "eval_wer": 0.3471376370280146,
+      "step": 133000
+    },
+    {
+      "epoch": 21.65,
+      "learning_rate": 1.3460597161037692e-05,
+      "loss": NaN,
+      "step": 133100
+    },
+    {
+      "epoch": 21.65,
+      "eval_loss": 0.41540205478668213,
+      "eval_runtime": 8.1998,
+      "eval_samples_per_second": 12.195,
+      "eval_wer": 0.34348355663824603,
+      "step": 133100
+    },
+    {
+      "epoch": 21.66,
+      "learning_rate": 1.339533365965084e-05,
+      "loss": NaN,
+      "step": 133200
+    },
+    {
+      "epoch": 21.66,
+      "eval_loss": 0.4051262140274048,
+      "eval_runtime": 7.0885,
+      "eval_samples_per_second": 14.107,
+      "eval_wer": 0.33617539585870887,
+      "step": 133200
+    },
+    {
+      "epoch": 21.68,
+      "learning_rate": 1.333007015826399e-05,
+      "loss": NaN,
+      "step": 133300
+    },
+    {
+      "epoch": 21.68,
+      "eval_loss": 0.41227516531944275,
+      "eval_runtime": 8.2062,
+      "eval_samples_per_second": 12.186,
+      "eval_wer": 0.3459196102314251,
+      "step": 133300
+    },
+    {
+      "epoch": 21.69,
+      "learning_rate": 1.3264806656877144e-05,
+      "loss": NaN,
+      "step": 133400
+    },
+    {
+      "epoch": 21.69,
+      "eval_loss": 0.42322754859924316,
+      "eval_runtime": 9.0314,
+      "eval_samples_per_second": 11.073,
+      "eval_wer": 0.3398294762484775,
+      "step": 133400
+    },
+    {
+      "epoch": 21.71,
+      "learning_rate": 1.3199543155490293e-05,
+      "loss": NaN,
+      "step": 133500
+    },
+    {
+      "epoch": 21.71,
+      "eval_loss": 0.3802301287651062,
+      "eval_runtime": 8.7387,
+      "eval_samples_per_second": 11.443,
+      "eval_wer": 0.3325213154689403,
+      "step": 133500
+    },
+    {
+      "epoch": 21.73,
+      "learning_rate": 1.3134279654103443e-05,
+      "loss": NaN,
+      "step": 133600
+    },
+    {
+      "epoch": 21.73,
+      "eval_loss": 0.40790998935699463,
+      "eval_runtime": 7.0036,
+      "eval_samples_per_second": 14.278,
+      "eval_wer": 0.3398294762484775,
+      "step": 133600
+    },
+    {
+      "epoch": 21.74,
+      "learning_rate": 1.3069016152716593e-05,
+      "loss": NaN,
+      "step": 133700
+    },
+    {
+      "epoch": 21.74,
+      "eval_loss": 0.41051357984542847,
+      "eval_runtime": 8.2179,
+      "eval_samples_per_second": 12.168,
+      "eval_wer": 0.341047503045067,
+      "step": 133700
+    },
+    {
+      "epoch": 21.76,
+      "learning_rate": 1.3003752651329745e-05,
+      "loss": NaN,
+      "step": 133800
+    },
+    {
+      "epoch": 21.76,
+      "eval_loss": 0.40564852952957153,
+      "eval_runtime": 8.5003,
+      "eval_samples_per_second": 11.764,
+      "eval_wer": 0.3325213154689403,
+      "step": 133800
+    },
+    {
+      "epoch": 21.78,
+      "learning_rate": 1.2938489149942895e-05,
+      "loss": NaN,
+      "step": 133900
+    },
+    {
+      "epoch": 21.78,
+      "eval_loss": 0.4392382800579071,
+      "eval_runtime": 7.6928,
+      "eval_samples_per_second": 12.999,
+      "eval_wer": 0.34835566382460414,
+      "step": 133900
+    },
+    {
+      "epoch": 21.79,
+      "learning_rate": 1.2873225648556045e-05,
+      "loss": NaN,
+      "step": 134000
+    },
+    {
+      "epoch": 21.79,
+      "eval_loss": 0.3991428017616272,
+      "eval_runtime": 9.3346,
+      "eval_samples_per_second": 10.713,
+      "eval_wer": 0.3386114494518879,
+      "step": 134000
+    },
+    {
+      "epoch": 21.81,
+      "learning_rate": 1.2807962147169197e-05,
+      "loss": NaN,
+      "step": 134100
+    },
+    {
+      "epoch": 21.81,
+      "eval_loss": 0.4022715389728546,
+      "eval_runtime": 7.981,
+      "eval_samples_per_second": 12.53,
+      "eval_wer": 0.34226552984165654,
+      "step": 134100
+    },
+    {
+      "epoch": 21.82,
+      "learning_rate": 1.2742698645782348e-05,
+      "loss": NaN,
+      "step": 134200
+    },
+    {
+      "epoch": 21.82,
+      "eval_loss": 0.4230504631996155,
+      "eval_runtime": 8.7343,
+      "eval_samples_per_second": 11.449,
+      "eval_wer": 0.341047503045067,
+      "step": 134200
+    },
+    {
+      "epoch": 21.84,
+      "learning_rate": 1.2677435144395496e-05,
+      "loss": NaN,
+      "step": 134300
+    },
+    {
+      "epoch": 21.84,
+      "eval_loss": 0.45141318440437317,
+      "eval_runtime": 9.2929,
+      "eval_samples_per_second": 10.761,
+      "eval_wer": 0.3447015834348356,
+      "step": 134300
+    },
+    {
+      "epoch": 21.86,
+      "learning_rate": 1.2612171643008646e-05,
+      "loss": NaN,
+      "step": 134400
+    },
+    {
+      "epoch": 21.86,
+      "eval_loss": 0.42951327562332153,
+      "eval_runtime": 9.4873,
+      "eval_samples_per_second": 10.54,
+      "eval_wer": 0.31303288672350793,
+      "step": 134400
+    },
+    {
+      "epoch": 21.87,
+      "learning_rate": 1.25469081416218e-05,
+      "loss": NaN,
+      "step": 134500
+    },
+    {
+      "epoch": 21.87,
+      "eval_loss": 0.46236321330070496,
+      "eval_runtime": 10.0535,
+      "eval_samples_per_second": 9.947,
+      "eval_wer": 0.3337393422655298,
+      "step": 134500
+    },
+    {
+      "epoch": 21.89,
+      "learning_rate": 1.2481644640234949e-05,
+      "loss": NaN,
+      "step": 134600
+    },
+    {
+      "epoch": 21.89,
+      "eval_loss": 0.49196091294288635,
+      "eval_runtime": 8.3873,
+      "eval_samples_per_second": 11.923,
+      "eval_wer": 0.33495736906211937,
+      "step": 134600
+    },
+    {
+      "epoch": 21.91,
+      "learning_rate": 1.24163811388481e-05,
+      "loss": NaN,
+      "step": 134700
+    },
+    {
+      "epoch": 21.91,
+      "eval_loss": 0.4672481417655945,
+      "eval_runtime": 9.8356,
+      "eval_samples_per_second": 10.167,
+      "eval_wer": 0.35444579780755175,
+      "step": 134700
+    },
+    {
+      "epoch": 21.92,
+      "learning_rate": 1.235111763746125e-05,
+      "loss": NaN,
+      "step": 134800
+    },
+    {
+      "epoch": 21.92,
+      "eval_loss": 0.4398852586746216,
+      "eval_runtime": 7.9762,
+      "eval_samples_per_second": 12.537,
+      "eval_wer": 0.35931790499390986,
+      "step": 134800
+    },
+    {
+      "epoch": 21.94,
+      "learning_rate": 1.2285854136074401e-05,
+      "loss": NaN,
+      "step": 134900
+    },
+    {
+      "epoch": 21.94,
+      "eval_loss": 0.40451163053512573,
+      "eval_runtime": 7.6202,
+      "eval_samples_per_second": 13.123,
+      "eval_wer": 0.3337393422655298,
+      "step": 134900
+    },
+    {
+      "epoch": 21.95,
+      "learning_rate": 1.2220590634687551e-05,
+      "loss": NaN,
+      "step": 135000
+    },
+    {
+      "epoch": 21.95,
+      "eval_loss": 0.41924548149108887,
+      "eval_runtime": 9.3656,
+      "eval_samples_per_second": 10.677,
+      "eval_wer": 0.34226552984165654,
+      "step": 135000
+    },
+    {
+      "epoch": 21.97,
+      "learning_rate": 1.2155327133300701e-05,
+      "loss": NaN,
+      "step": 135100
+    },
+    {
+      "epoch": 21.97,
+      "eval_loss": 0.42516928911209106,
+      "eval_runtime": 8.4901,
+      "eval_samples_per_second": 11.778,
+      "eval_wer": 0.3447015834348356,
+      "step": 135100
+    },
+    {
+      "epoch": 21.99,
+      "learning_rate": 1.2090063631913853e-05,
+      "loss": NaN,
+      "step": 135200
+    },
+    {
+      "epoch": 21.99,
+      "eval_loss": 0.40347903966903687,
+      "eval_runtime": 8.9415,
+      "eval_samples_per_second": 11.184,
+      "eval_wer": 0.33008526187576126,
+      "step": 135200
+    },
+    {
+      "epoch": 22.0,
+      "learning_rate": 1.2024800130527003e-05,
+      "loss": NaN,
+      "step": 135300
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.5743076801300049,
+      "eval_runtime": 8.6933,
+      "eval_samples_per_second": 11.503,
+      "eval_wer": 0.3373934226552984,
+      "step": 135300
+    },
+    {
+      "epoch": 22.02,
+      "learning_rate": 1.1959536629140154e-05,
+      "loss": NaN,
+      "step": 135400
+    },
+    {
+      "epoch": 22.02,
+      "eval_loss": 0.40245911478996277,
+      "eval_runtime": 8.8702,
+      "eval_samples_per_second": 11.274,
+      "eval_wer": 0.32886723507917176,
+      "step": 135400
+    },
+    {
+      "epoch": 22.04,
+      "learning_rate": 1.1894273127753304e-05,
+      "loss": NaN,
+      "step": 135500
+    },
+    {
+      "epoch": 22.04,
+      "eval_loss": 0.4054236114025116,
+      "eval_runtime": 8.0844,
+      "eval_samples_per_second": 12.369,
+      "eval_wer": 0.33617539585870887,
+      "step": 135500
+    },
+    {
+      "epoch": 22.05,
+      "learning_rate": 1.1829009626366456e-05,
+      "loss": NaN,
+      "step": 135600
+    },
+    {
+      "epoch": 22.05,
+      "eval_loss": 0.40440499782562256,
+      "eval_runtime": 8.0393,
+      "eval_samples_per_second": 12.439,
+      "eval_wer": 0.33495736906211937,
+      "step": 135600
+    },
+    {
+      "epoch": 22.07,
+      "learning_rate": 1.1763746124979606e-05,
+      "loss": NaN,
+      "step": 135700
+    },
+    {
+      "epoch": 22.07,
+      "eval_loss": 0.41659045219421387,
+      "eval_runtime": 7.7624,
+      "eval_samples_per_second": 12.883,
+      "eval_wer": 0.35322777101096225,
+      "step": 135700
+    },
+    {
+      "epoch": 22.08,
+      "learning_rate": 1.1698482623592756e-05,
+      "loss": NaN,
+      "step": 135800
+    },
+    {
+      "epoch": 22.08,
+      "eval_loss": 0.47099122405052185,
+      "eval_runtime": 6.8327,
+      "eval_samples_per_second": 14.635,
+      "eval_wer": 0.341047503045067,
+      "step": 135800
+    },
+    {
+      "epoch": 22.1,
+      "learning_rate": 1.1633219122205906e-05,
+      "loss": NaN,
+      "step": 135900
+    },
+    {
+      "epoch": 22.1,
+      "eval_loss": 0.4006298780441284,
+      "eval_runtime": 6.5785,
+      "eval_samples_per_second": 15.201,
+      "eval_wer": 0.33008526187576126,
+      "step": 135900
+    },
+    {
+      "epoch": 22.12,
+      "learning_rate": 1.1567955620819057e-05,
+      "loss": NaN,
+      "step": 136000
+    },
+    {
+      "epoch": 22.12,
+      "eval_loss": 0.47020214796066284,
+      "eval_runtime": 8.3159,
+      "eval_samples_per_second": 12.025,
+      "eval_wer": 0.3471376370280146,
+      "step": 136000
+    },
+    {
+      "epoch": 22.13,
+      "learning_rate": 1.1502692119432209e-05,
+      "loss": NaN,
+      "step": 136100
+    },
+    {
+      "epoch": 22.13,
+      "eval_loss": 0.43791496753692627,
+      "eval_runtime": 8.3887,
+      "eval_samples_per_second": 11.921,
+      "eval_wer": 0.3471376370280146,
+      "step": 136100
+    },
+    {
+      "epoch": 22.15,
+      "learning_rate": 1.1437428618045359e-05,
+      "loss": NaN,
+      "step": 136200
+    },
+    {
+      "epoch": 22.15,
+      "eval_loss": 0.4248058795928955,
+      "eval_runtime": 10.0383,
+      "eval_samples_per_second": 9.962,
+      "eval_wer": 0.3447015834348356,
+      "step": 136200
+    },
+    {
+      "epoch": 22.17,
+      "learning_rate": 1.1372165116658509e-05,
+      "loss": NaN,
+      "step": 136300
+    },
+    {
+      "epoch": 22.17,
+      "eval_loss": 0.40560001134872437,
+      "eval_runtime": 7.8536,
+      "eval_samples_per_second": 12.733,
+      "eval_wer": 0.3325213154689403,
+      "step": 136300
+    },
+    {
+      "epoch": 22.18,
+      "learning_rate": 1.1306901615271661e-05,
+      "loss": NaN,
+      "step": 136400
+    },
+    {
+      "epoch": 22.18,
+      "eval_loss": 0.41141241788864136,
+      "eval_runtime": 7.712,
+      "eval_samples_per_second": 12.967,
+      "eval_wer": 0.33617539585870887,
+      "step": 136400
+    },
+    {
+      "epoch": 22.2,
+      "learning_rate": 1.124163811388481e-05,
+      "loss": NaN,
+      "step": 136500
+    },
+    {
+      "epoch": 22.2,
+      "eval_loss": 0.37809231877326965,
+      "eval_runtime": 6.7786,
+      "eval_samples_per_second": 14.752,
+      "eval_wer": 0.3398294762484775,
+      "step": 136500
+    },
+    {
+      "epoch": 22.21,
+      "learning_rate": 1.1176374612497961e-05,
+      "loss": NaN,
+      "step": 136600
+    },
+    {
+      "epoch": 22.21,
+      "eval_loss": 0.48994365334510803,
+      "eval_runtime": 8.9346,
+      "eval_samples_per_second": 11.192,
+      "eval_wer": 0.3471376370280146,
+      "step": 136600
+    },
+    {
+      "epoch": 22.23,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": NaN,
+      "step": 136700
+    },
+    {
+      "epoch": 22.23,
+      "eval_loss": 0.43884292244911194,
+      "eval_runtime": 9.9578,
+      "eval_samples_per_second": 10.042,
+      "eval_wer": 0.3520097442143727,
+      "step": 136700
+    },
+    {
+      "epoch": 22.25,
+      "learning_rate": 1.1045847609724262e-05,
+      "loss": NaN,
+      "step": 136800
+    },
+    {
+      "epoch": 22.25,
+      "eval_loss": 0.4258538782596588,
+      "eval_runtime": 7.3965,
+      "eval_samples_per_second": 13.52,
+      "eval_wer": 0.3459196102314251,
+      "step": 136800
+    },
+    {
+      "epoch": 22.26,
+      "learning_rate": 1.0980584108337414e-05,
+      "loss": NaN,
+      "step": 136900
+    },
+    {
+      "epoch": 22.26,
+      "eval_loss": 0.44286561012268066,
+      "eval_runtime": 8.7957,
+      "eval_samples_per_second": 11.369,
+      "eval_wer": 0.3520097442143727,
+      "step": 136900
+    },
+    {
+      "epoch": 22.28,
+      "learning_rate": 1.0915320606950562e-05,
+      "loss": NaN,
+      "step": 137000
+    },
+    {
+      "epoch": 22.28,
+      "eval_loss": 0.41971367597579956,
+      "eval_runtime": 9.2318,
+      "eval_samples_per_second": 10.832,
+      "eval_wer": 0.35809987819732036,
+      "step": 137000
+    },
+    {
+      "epoch": 22.3,
+      "learning_rate": 1.0850057105563714e-05,
+      "loss": NaN,
+      "step": 137100
+    },
+    {
+      "epoch": 22.3,
+      "eval_loss": 0.45038101077079773,
+      "eval_runtime": 7.8919,
+      "eval_samples_per_second": 12.671,
+      "eval_wer": 0.3447015834348356,
+      "step": 137100
+    },
+    {
+      "epoch": 22.31,
+      "learning_rate": 1.0784793604176864e-05,
+      "loss": NaN,
+      "step": 137200
+    },
+    {
+      "epoch": 22.31,
+      "eval_loss": 0.417258620262146,
+      "eval_runtime": 9.4776,
+      "eval_samples_per_second": 10.551,
+      "eval_wer": 0.3459196102314251,
+      "step": 137200
+    },
+    {
+      "epoch": 22.33,
+      "learning_rate": 1.0719530102790015e-05,
+      "loss": NaN,
+      "step": 137300
+    },
+    {
+      "epoch": 22.33,
+      "eval_loss": 0.40922966599464417,
+      "eval_runtime": 7.7162,
+      "eval_samples_per_second": 12.96,
+      "eval_wer": 0.33008526187576126,
+      "step": 137300
+    },
+    {
+      "epoch": 22.35,
+      "learning_rate": 1.0654266601403167e-05,
+      "loss": NaN,
+      "step": 137400
+    },
+    {
+      "epoch": 22.35,
+      "eval_loss": 0.42340758442878723,
+      "eval_runtime": 7.7407,
+      "eval_samples_per_second": 12.919,
+      "eval_wer": 0.3459196102314251,
+      "step": 137400
+    },
+    {
+      "epoch": 22.36,
+      "learning_rate": 1.0589003100016317e-05,
+      "loss": NaN,
+      "step": 137500
+    },
+    {
+      "epoch": 22.36,
+      "eval_loss": 0.43829768896102905,
+      "eval_runtime": 9.0473,
+      "eval_samples_per_second": 11.053,
+      "eval_wer": 0.3471376370280146,
+      "step": 137500
+    },
+    {
+      "epoch": 22.38,
+      "learning_rate": 1.0523739598629467e-05,
+      "loss": NaN,
+      "step": 137600
+    },
+    {
+      "epoch": 22.38,
+      "eval_loss": 0.4190714955329895,
+      "eval_runtime": 7.2713,
+      "eval_samples_per_second": 13.753,
+      "eval_wer": 0.3373934226552984,
+      "step": 137600
+    },
+    {
+      "epoch": 22.39,
+      "learning_rate": 1.0458476097242617e-05,
+      "loss": NaN,
+      "step": 137700
+    },
+    {
+      "epoch": 22.39,
+      "eval_loss": 0.38507279753685,
+      "eval_runtime": 8.2207,
+      "eval_samples_per_second": 12.164,
+      "eval_wer": 0.33617539585870887,
+      "step": 137700
+    },
+    {
+      "epoch": 22.41,
+      "learning_rate": 1.0393212595855767e-05,
+      "loss": NaN,
+      "step": 137800
+    },
+    {
+      "epoch": 22.41,
+      "eval_loss": 0.3674430847167969,
+      "eval_runtime": 9.7115,
+      "eval_samples_per_second": 10.297,
+      "eval_wer": 0.3313032886723508,
+      "step": 137800
+    },
+    {
+      "epoch": 22.43,
+      "learning_rate": 1.0327949094468918e-05,
+      "loss": NaN,
+      "step": 137900
+    },
+    {
+      "epoch": 22.43,
+      "eval_loss": 0.40191754698753357,
+      "eval_runtime": 7.543,
+      "eval_samples_per_second": 13.257,
+      "eval_wer": 0.33008526187576126,
+      "step": 137900
+    },
+    {
+      "epoch": 22.44,
+      "learning_rate": 1.026268559308207e-05,
+      "loss": NaN,
+      "step": 138000
+    },
+    {
+      "epoch": 22.44,
+      "eval_loss": 0.4558006525039673,
+      "eval_runtime": 8.3592,
+      "eval_samples_per_second": 11.963,
+      "eval_wer": 0.3507917174177832,
+      "step": 138000
+    },
+    {
+      "epoch": 22.46,
+      "learning_rate": 1.019742209169522e-05,
+      "loss": NaN,
+      "step": 138100
+    },
+    {
+      "epoch": 22.46,
+      "eval_loss": 0.5849547386169434,
+      "eval_runtime": 8.4615,
+      "eval_samples_per_second": 11.818,
+      "eval_wer": 0.33495736906211937,
+      "step": 138100
+    },
+    {
+      "epoch": 22.48,
+      "learning_rate": 1.013215859030837e-05,
+      "loss": NaN,
+      "step": 138200
+    },
+    {
+      "epoch": 22.48,
+      "eval_loss": 0.45433205366134644,
+      "eval_runtime": 8.487,
+      "eval_samples_per_second": 11.783,
+      "eval_wer": 0.33008526187576126,
+      "step": 138200
+    },
+    {
+      "epoch": 22.49,
+      "learning_rate": 1.0066895088921522e-05,
+      "loss": NaN,
+      "step": 138300
+    },
+    {
+      "epoch": 22.49,
+      "eval_loss": 0.420282781124115,
+      "eval_runtime": 9.2501,
+      "eval_samples_per_second": 10.811,
+      "eval_wer": 0.33617539585870887,
+      "step": 138300
+    },
+    {
+      "epoch": 22.51,
+      "learning_rate": 1.000163158753467e-05,
+      "loss": NaN,
+      "step": 138400
+    },
+    {
+      "epoch": 22.51,
+      "eval_loss": 0.4292939305305481,
+      "eval_runtime": 8.0963,
+      "eval_samples_per_second": 12.351,
+      "eval_wer": 0.3337393422655298,
+      "step": 138400
+    },
+    {
+      "epoch": 22.52,
+      "learning_rate": 9.936368086147822e-06,
+      "loss": NaN,
+      "step": 138500
+    },
+    {
+      "epoch": 22.52,
+      "eval_loss": 0.4376954138278961,
+      "eval_runtime": 8.5678,
+      "eval_samples_per_second": 11.672,
+      "eval_wer": 0.3093788063337393,
+      "step": 138500
+    },
+    {
+      "epoch": 22.54,
+      "learning_rate": 9.871104584760973e-06,
+      "loss": NaN,
+      "step": 138600
+    },
+    {
+      "epoch": 22.54,
+      "eval_loss": 0.4139672815799713,
+      "eval_runtime": 8.398,
+      "eval_samples_per_second": 11.908,
+      "eval_wer": 0.3313032886723508,
+      "step": 138600
+    },
+    {
+      "epoch": 22.56,
+      "learning_rate": 9.805841083374123e-06,
+      "loss": NaN,
+      "step": 138700
+    },
+    {
+      "epoch": 22.56,
+      "eval_loss": 0.4242633581161499,
+      "eval_runtime": 10.5113,
+      "eval_samples_per_second": 9.514,
+      "eval_wer": 0.34835566382460414,
+      "step": 138700
+    },
+    {
+      "epoch": 22.57,
+      "learning_rate": 9.740577581987275e-06,
+      "loss": NaN,
+      "step": 138800
+    },
+    {
+      "epoch": 22.57,
+      "eval_loss": 0.44767504930496216,
+      "eval_runtime": 7.6566,
+      "eval_samples_per_second": 13.061,
+      "eval_wer": 0.3386114494518879,
+      "step": 138800
+    },
+    {
+      "epoch": 22.59,
+      "learning_rate": 9.675314080600425e-06,
+      "loss": NaN,
+      "step": 138900
+    },
+    {
+      "epoch": 22.59,
+      "eval_loss": 0.43390411138534546,
+      "eval_runtime": 8.5202,
+      "eval_samples_per_second": 11.737,
+      "eval_wer": 0.341047503045067,
+      "step": 138900
+    },
+    {
+      "epoch": 22.61,
+      "learning_rate": 9.610050579213575e-06,
+      "loss": NaN,
+      "step": 139000
+    },
+    {
+      "epoch": 22.61,
+      "eval_loss": 0.42713436484336853,
+      "eval_runtime": 7.4028,
+      "eval_samples_per_second": 13.508,
+      "eval_wer": 0.32521315468940315,
+      "step": 139000
+    },
+    {
+      "epoch": 22.62,
+      "learning_rate": 9.544787077826727e-06,
+      "loss": NaN,
+      "step": 139100
+    },
+    {
+      "epoch": 22.62,
+      "eval_loss": 0.4049948751926422,
+      "eval_runtime": 9.4604,
+      "eval_samples_per_second": 10.57,
+      "eval_wer": 0.3276492082825822,
+      "step": 139100
+    },
+    {
+      "epoch": 22.64,
+      "learning_rate": 9.479523576439876e-06,
+      "loss": NaN,
+      "step": 139200
+    },
+    {
+      "epoch": 22.64,
+      "eval_loss": 0.4711925983428955,
+      "eval_runtime": 7.5699,
+      "eval_samples_per_second": 13.21,
+      "eval_wer": 0.341047503045067,
+      "step": 139200
+    },
+    {
+      "epoch": 22.65,
+      "learning_rate": 9.414260075053028e-06,
+      "loss": NaN,
+      "step": 139300
+    },
+    {
+      "epoch": 22.65,
+      "eval_loss": 0.40160369873046875,
+      "eval_runtime": 7.5911,
+      "eval_samples_per_second": 13.173,
+      "eval_wer": 0.32886723507917176,
+      "step": 139300
+    },
+    {
+      "epoch": 22.67,
+      "learning_rate": 9.348996573666178e-06,
+      "loss": NaN,
+      "step": 139400
+    },
+    {
+      "epoch": 22.67,
+      "eval_loss": 0.45362401008605957,
+      "eval_runtime": 6.8691,
+      "eval_samples_per_second": 14.558,
+      "eval_wer": 0.32886723507917176,
+      "step": 139400
+    },
+    {
+      "epoch": 22.69,
+      "learning_rate": 9.283733072279328e-06,
+      "loss": NaN,
+      "step": 139500
+    },
+    {
+      "epoch": 22.69,
+      "eval_loss": 0.4383563995361328,
+      "eval_runtime": 9.4025,
+      "eval_samples_per_second": 10.635,
+      "eval_wer": 0.3386114494518879,
+      "step": 139500
+    },
+    {
+      "epoch": 22.7,
+      "learning_rate": 9.218469570892478e-06,
+      "loss": NaN,
+      "step": 139600
+    },
+    {
+      "epoch": 22.7,
+      "eval_loss": 0.445679634809494,
+      "eval_runtime": 9.7736,
+      "eval_samples_per_second": 10.232,
+      "eval_wer": 0.3386114494518879,
+      "step": 139600
+    },
+    {
+      "epoch": 22.72,
+      "learning_rate": 9.15320606950563e-06,
+      "loss": NaN,
+      "step": 139700
+    },
+    {
+      "epoch": 22.72,
+      "eval_loss": 0.4067118763923645,
+      "eval_runtime": 7.3892,
+      "eval_samples_per_second": 13.533,
+      "eval_wer": 0.3264311814859927,
+      "step": 139700
+    },
+    {
+      "epoch": 22.74,
+      "learning_rate": 9.08794256811878e-06,
+      "loss": NaN,
+      "step": 139800
+    },
+    {
+      "epoch": 22.74,
+      "eval_loss": 0.3995942771434784,
+      "eval_runtime": 7.8855,
+      "eval_samples_per_second": 12.681,
+      "eval_wer": 0.3373934226552984,
+      "step": 139800
+    },
+    {
+      "epoch": 22.75,
+      "learning_rate": 9.02267906673193e-06,
+      "loss": NaN,
+      "step": 139900
+    },
+    {
+      "epoch": 22.75,
+      "eval_loss": 0.39302563667297363,
+      "eval_runtime": 8.6481,
+      "eval_samples_per_second": 11.563,
+      "eval_wer": 0.3398294762484775,
+      "step": 139900
+    },
+    {
+      "epoch": 22.77,
+      "learning_rate": 8.95741556534508e-06,
+      "loss": NaN,
+      "step": 140000
+    },
+    {
+      "epoch": 22.77,
+      "eval_loss": 0.5054168701171875,
+      "eval_runtime": 8.0714,
+      "eval_samples_per_second": 12.389,
+      "eval_wer": 0.3520097442143727,
+      "step": 140000
+    },
+    {
+      "epoch": 22.78,
+      "learning_rate": 8.892152063958231e-06,
+      "loss": NaN,
+      "step": 140100
+    },
+    {
+      "epoch": 22.78,
+      "eval_loss": 0.37638041377067566,
+      "eval_runtime": 7.885,
+      "eval_samples_per_second": 12.682,
+      "eval_wer": 0.3325213154689403,
+      "step": 140100
+    },
+    {
+      "epoch": 22.8,
+      "learning_rate": 8.826888562571383e-06,
+      "loss": NaN,
+      "step": 140200
+    },
+    {
+      "epoch": 22.8,
+      "eval_loss": 0.4191051423549652,
+      "eval_runtime": 8.5703,
+      "eval_samples_per_second": 11.668,
+      "eval_wer": 0.3459196102314251,
+      "step": 140200
+    },
+    {
+      "epoch": 22.82,
+      "learning_rate": 8.761625061184533e-06,
+      "loss": NaN,
+      "step": 140300
+    },
+    {
+      "epoch": 22.82,
+      "eval_loss": 0.47149497270584106,
+      "eval_runtime": 7.6448,
+      "eval_samples_per_second": 13.081,
+      "eval_wer": 0.3520097442143727,
+      "step": 140300
+    },
+    {
+      "epoch": 22.83,
+      "learning_rate": 8.696361559797683e-06,
+      "loss": NaN,
+      "step": 140400
+    },
+    {
+      "epoch": 22.83,
+      "eval_loss": 0.4407516419887543,
+      "eval_runtime": 7.1529,
+      "eval_samples_per_second": 13.98,
+      "eval_wer": 0.3386114494518879,
+      "step": 140400
+    },
+    {
+      "epoch": 22.85,
+      "learning_rate": 8.631098058410834e-06,
+      "loss": NaN,
+      "step": 140500
+    },
+    {
+      "epoch": 22.85,
+      "eval_loss": 0.40118682384490967,
+      "eval_runtime": 8.4283,
+      "eval_samples_per_second": 11.865,
+      "eval_wer": 0.341047503045067,
+      "step": 140500
+    },
+    {
+      "epoch": 22.87,
+      "learning_rate": 8.565834557023984e-06,
+      "loss": NaN,
+      "step": 140600
+    },
+    {
+      "epoch": 22.87,
+      "eval_loss": 0.4191232919692993,
+      "eval_runtime": 9.0572,
+      "eval_samples_per_second": 11.041,
+      "eval_wer": 0.3459196102314251,
+      "step": 140600
+    },
+    {
+      "epoch": 22.88,
+      "learning_rate": 8.500571055637136e-06,
+      "loss": NaN,
+      "step": 140700
+    },
+    {
+      "epoch": 22.88,
+      "eval_loss": 0.39035916328430176,
+      "eval_runtime": 8.5729,
+      "eval_samples_per_second": 11.665,
+      "eval_wer": 0.3520097442143727,
+      "step": 140700
+    },
+    {
+      "epoch": 22.9,
+      "learning_rate": 8.435307554250286e-06,
+      "loss": NaN,
+      "step": 140800
+    },
+    {
+      "epoch": 22.9,
+      "eval_loss": 0.3838728070259094,
+      "eval_runtime": 7.4544,
+      "eval_samples_per_second": 13.415,
+      "eval_wer": 0.32886723507917176,
+      "step": 140800
+    },
+    {
+      "epoch": 22.91,
+      "learning_rate": 8.370044052863436e-06,
+      "loss": NaN,
+      "step": 140900
+    },
+    {
+      "epoch": 22.91,
+      "eval_loss": 0.4352475702762604,
+      "eval_runtime": 8.9386,
+      "eval_samples_per_second": 11.187,
+      "eval_wer": 0.3520097442143727,
+      "step": 140900
+    },
+    {
+      "epoch": 22.93,
+      "learning_rate": 8.304780551476588e-06,
+      "loss": NaN,
+      "step": 141000
+    },
+    {
+      "epoch": 22.93,
+      "eval_loss": 0.37819182872772217,
+      "eval_runtime": 8.645,
+      "eval_samples_per_second": 11.567,
+      "eval_wer": 0.3373934226552984,
+      "step": 141000
+    },
+    {
+      "epoch": 22.95,
+      "learning_rate": 8.239517050089737e-06,
+      "loss": NaN,
+      "step": 141100
+    },
+    {
+      "epoch": 22.95,
+      "eval_loss": 0.3652733266353607,
+      "eval_runtime": 8.9186,
+      "eval_samples_per_second": 11.212,
+      "eval_wer": 0.3471376370280146,
+      "step": 141100
+    },
+    {
+      "epoch": 22.96,
+      "learning_rate": 8.174253548702889e-06,
+      "loss": NaN,
+      "step": 141200
+    },
+    {
+      "epoch": 22.96,
+      "eval_loss": 0.4218634068965912,
+      "eval_runtime": 7.892,
+      "eval_samples_per_second": 12.671,
+      "eval_wer": 0.34226552984165654,
+      "step": 141200
+    },
+    {
+      "epoch": 22.98,
+      "learning_rate": 8.108990047316039e-06,
+      "loss": NaN,
+      "step": 141300
+    },
+    {
+      "epoch": 22.98,
+      "eval_loss": 0.40318989753723145,
+      "eval_runtime": 8.686,
+      "eval_samples_per_second": 11.513,
+      "eval_wer": 0.34835566382460414,
+      "step": 141300
+    },
+    {
+      "epoch": 23.0,
+      "learning_rate": 8.043726545929189e-06,
+      "loss": NaN,
+      "step": 141400
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.4164011478424072,
+      "eval_runtime": 8.8437,
+      "eval_samples_per_second": 11.307,
+      "eval_wer": 0.34835566382460414,
+      "step": 141400
+    },
+    {
+      "epoch": 23.01,
+      "learning_rate": 7.978463044542341e-06,
+      "loss": NaN,
+      "step": 141500
+    },
+    {
+      "epoch": 23.01,
+      "eval_loss": 0.4907635450363159,
+      "eval_runtime": 7.8965,
+      "eval_samples_per_second": 12.664,
+      "eval_wer": 0.33617539585870887,
+      "step": 141500
+    },
+    {
+      "epoch": 23.03,
+      "learning_rate": 7.913199543155491e-06,
+      "loss": NaN,
+      "step": 141600
+    },
+    {
+      "epoch": 23.03,
+      "eval_loss": 0.4023902118206024,
+      "eval_runtime": 8.1256,
+      "eval_samples_per_second": 12.307,
+      "eval_wer": 0.3398294762484775,
+      "step": 141600
+    },
+    {
+      "epoch": 23.04,
+      "learning_rate": 7.847936041768641e-06,
+      "loss": NaN,
+      "step": 141700
+    },
+    {
+      "epoch": 23.04,
+      "eval_loss": 0.4590035676956177,
+      "eval_runtime": 10.0026,
+      "eval_samples_per_second": 9.997,
+      "eval_wer": 0.3386114494518879,
+      "step": 141700
+    },
+    {
+      "epoch": 23.06,
+      "learning_rate": 7.782672540381792e-06,
+      "loss": NaN,
+      "step": 141800
+    },
+    {
+      "epoch": 23.06,
+      "eval_loss": 0.4697200655937195,
+      "eval_runtime": 8.4733,
+      "eval_samples_per_second": 11.802,
+      "eval_wer": 0.3276492082825822,
+      "step": 141800
+    },
+    {
+      "epoch": 23.08,
+      "learning_rate": 7.717409038994942e-06,
+      "loss": NaN,
+      "step": 141900
+    },
+    {
+      "epoch": 23.08,
+      "eval_loss": 0.4211934804916382,
+      "eval_runtime": 8.4528,
+      "eval_samples_per_second": 11.83,
+      "eval_wer": 0.33617539585870887,
+      "step": 141900
+    },
+    {
+      "epoch": 23.09,
+      "learning_rate": 7.652145537608094e-06,
+      "loss": NaN,
+      "step": 142000
+    },
+    {
+      "epoch": 23.09,
+      "eval_loss": 0.39060890674591064,
+      "eval_runtime": 7.5777,
+      "eval_samples_per_second": 13.197,
+      "eval_wer": 0.3373934226552984,
+      "step": 142000
+    },
+    {
+      "epoch": 23.11,
+      "learning_rate": 7.586882036221243e-06,
+      "loss": NaN,
+      "step": 142100
+    },
+    {
+      "epoch": 23.11,
+      "eval_loss": 0.37855765223503113,
+      "eval_runtime": 7.3666,
+      "eval_samples_per_second": 13.575,
+      "eval_wer": 0.29963459196102316,
+      "step": 142100
+    },
+    {
+      "epoch": 23.13,
+      "learning_rate": 7.521618534834394e-06,
+      "loss": NaN,
+      "step": 142200
+    },
+    {
+      "epoch": 23.13,
+      "eval_loss": 0.46709468960762024,
+      "eval_runtime": 7.4759,
+      "eval_samples_per_second": 13.376,
+      "eval_wer": 0.3337393422655298,
+      "step": 142200
+    },
+    {
+      "epoch": 23.14,
+      "learning_rate": 7.456355033447544e-06,
+      "loss": NaN,
+      "step": 142300
+    },
+    {
+      "epoch": 23.14,
+      "eval_loss": 0.3746023178100586,
+      "eval_runtime": 7.6965,
+      "eval_samples_per_second": 12.993,
+      "eval_wer": 0.3325213154689403,
+      "step": 142300
+    },
+    {
+      "epoch": 23.16,
+      "learning_rate": 7.3910915320606955e-06,
+      "loss": NaN,
+      "step": 142400
+    },
+    {
+      "epoch": 23.16,
+      "eval_loss": 0.4183931052684784,
+      "eval_runtime": 10.5082,
+      "eval_samples_per_second": 9.516,
+      "eval_wer": 0.33617539585870887,
+      "step": 142400
+    },
+    {
+      "epoch": 23.17,
+      "learning_rate": 7.3258280306738465e-06,
+      "loss": NaN,
+      "step": 142500
+    },
+    {
+      "epoch": 23.17,
+      "eval_loss": 0.387781023979187,
+      "eval_runtime": 8.2483,
+      "eval_samples_per_second": 12.124,
+      "eval_wer": 0.3337393422655298,
+      "step": 142500
+    },
+    {
+      "epoch": 23.19,
+      "learning_rate": 7.260564529286997e-06,
+      "loss": NaN,
+      "step": 142600
+    },
+    {
+      "epoch": 23.19,
+      "eval_loss": 0.4201037883758545,
+      "eval_runtime": 9.0845,
+      "eval_samples_per_second": 11.008,
+      "eval_wer": 0.33495736906211937,
+      "step": 142600
+    },
+    {
+      "epoch": 23.21,
+      "learning_rate": 7.195301027900148e-06,
+      "loss": NaN,
+      "step": 142700
+    },
+    {
+      "epoch": 23.21,
+      "eval_loss": 0.40640342235565186,
+      "eval_runtime": 8.611,
+      "eval_samples_per_second": 11.613,
+      "eval_wer": 0.33495736906211937,
+      "step": 142700
+    },
+    {
+      "epoch": 23.22,
+      "learning_rate": 7.130037526513297e-06,
+      "loss": NaN,
+      "step": 142800
+    },
+    {
+      "epoch": 23.22,
+      "eval_loss": 0.36859330534935,
+      "eval_runtime": 6.9585,
+      "eval_samples_per_second": 14.371,
+      "eval_wer": 0.33008526187576126,
+      "step": 142800
+    },
+    {
+      "epoch": 23.24,
+      "learning_rate": 7.064774025126448e-06,
+      "loss": NaN,
+      "step": 142900
+    },
+    {
+      "epoch": 23.24,
+      "eval_loss": 0.5641127824783325,
+      "eval_runtime": 9.3783,
+      "eval_samples_per_second": 10.663,
+      "eval_wer": 0.30572472594397077,
+      "step": 142900
+    },
+    {
+      "epoch": 23.26,
+      "learning_rate": 6.9995105237395985e-06,
+      "loss": NaN,
+      "step": 143000
+    },
+    {
+      "epoch": 23.26,
+      "eval_loss": 0.390995591878891,
+      "eval_runtime": 9.1316,
+      "eval_samples_per_second": 10.951,
+      "eval_wer": 0.32886723507917176,
+      "step": 143000
+    },
+    {
+      "epoch": 23.27,
+      "learning_rate": 6.9342470223527496e-06,
+      "loss": NaN,
+      "step": 143100
+    },
+    {
+      "epoch": 23.27,
+      "eval_loss": 0.3884507119655609,
+      "eval_runtime": 7.4684,
+      "eval_samples_per_second": 13.39,
+      "eval_wer": 0.33008526187576126,
+      "step": 143100
+    },
+    {
+      "epoch": 23.29,
+      "learning_rate": 6.868983520965901e-06,
+      "loss": NaN,
+      "step": 143200
+    },
+    {
+      "epoch": 23.29,
+      "eval_loss": 0.37767794728279114,
+      "eval_runtime": 7.8276,
+      "eval_samples_per_second": 12.775,
+      "eval_wer": 0.3337393422655298,
+      "step": 143200
+    },
+    {
+      "epoch": 23.3,
+      "learning_rate": 6.803720019579051e-06,
+      "loss": NaN,
+      "step": 143300
+    },
+    {
+      "epoch": 23.3,
+      "eval_loss": 0.39070072770118713,
+      "eval_runtime": 7.9301,
+      "eval_samples_per_second": 12.61,
+      "eval_wer": 0.3373934226552984,
+      "step": 143300
+    },
+    {
+      "epoch": 23.32,
+      "learning_rate": 6.738456518192202e-06,
+      "loss": NaN,
+      "step": 143400
+    },
+    {
+      "epoch": 23.32,
+      "eval_loss": 0.3968910276889801,
+      "eval_runtime": 8.388,
+      "eval_samples_per_second": 11.922,
+      "eval_wer": 0.33495736906211937,
+      "step": 143400
+    },
+    {
+      "epoch": 23.34,
+      "learning_rate": 6.673193016805351e-06,
+      "loss": NaN,
+      "step": 143500
+    },
+    {
+      "epoch": 23.34,
+      "eval_loss": 0.55922931432724,
+      "eval_runtime": 8.0437,
+      "eval_samples_per_second": 12.432,
+      "eval_wer": 0.3520097442143727,
+      "step": 143500
+    },
+    {
+      "epoch": 23.35,
+      "learning_rate": 6.607929515418502e-06,
+      "loss": NaN,
+      "step": 143600
+    },
+    {
+      "epoch": 23.35,
+      "eval_loss": 0.3922981321811676,
+      "eval_runtime": 7.1209,
+      "eval_samples_per_second": 14.043,
+      "eval_wer": 0.3386114494518879,
+      "step": 143600
+    },
+    {
+      "epoch": 23.37,
+      "learning_rate": 6.5426660140316534e-06,
+      "loss": NaN,
+      "step": 143700
+    },
+    {
+      "epoch": 23.37,
+      "eval_loss": 0.39172208309173584,
+      "eval_runtime": 7.6116,
+      "eval_samples_per_second": 13.138,
+      "eval_wer": 0.3373934226552984,
+      "step": 143700
+    },
+    {
+      "epoch": 23.39,
+      "learning_rate": 6.477402512644804e-06,
+      "loss": NaN,
+      "step": 143800
+    },
+    {
+      "epoch": 23.39,
+      "eval_loss": 0.4471363127231598,
+      "eval_runtime": 8.7619,
+      "eval_samples_per_second": 11.413,
+      "eval_wer": 0.3373934226552984,
+      "step": 143800
+    },
+    {
+      "epoch": 23.4,
+      "learning_rate": 6.412139011257955e-06,
+      "loss": NaN,
+      "step": 143900
+    },
+    {
+      "epoch": 23.4,
+      "eval_loss": 0.44637829065322876,
+      "eval_runtime": 7.6648,
+      "eval_samples_per_second": 13.047,
+      "eval_wer": 0.34226552984165654,
+      "step": 143900
+    },
+    {
+      "epoch": 23.42,
+      "learning_rate": 6.346875509871104e-06,
+      "loss": NaN,
+      "step": 144000
+    },
+    {
+      "epoch": 23.42,
+      "eval_loss": 0.3966550827026367,
+      "eval_runtime": 9.137,
+      "eval_samples_per_second": 10.944,
+      "eval_wer": 0.3373934226552984,
+      "step": 144000
+    },
+    {
+      "epoch": 23.43,
+      "learning_rate": 6.281612008484255e-06,
+      "loss": NaN,
+      "step": 144100
+    },
+    {
+      "epoch": 23.43,
+      "eval_loss": 0.3890346884727478,
+      "eval_runtime": 6.6729,
+      "eval_samples_per_second": 14.986,
+      "eval_wer": 0.33008526187576126,
+      "step": 144100
+    },
+    {
+      "epoch": 23.45,
+      "learning_rate": 6.216348507097406e-06,
+      "loss": NaN,
+      "step": 144200
+    },
+    {
+      "epoch": 23.45,
+      "eval_loss": 0.417468786239624,
+      "eval_runtime": 7.6605,
+      "eval_samples_per_second": 13.054,
+      "eval_wer": 0.3337393422655298,
+      "step": 144200
+    },
+    {
+      "epoch": 23.47,
+      "learning_rate": 6.1510850057105564e-06,
+      "loss": NaN,
+      "step": 144300
+    },
+    {
+      "epoch": 23.47,
+      "eval_loss": 0.47427332401275635,
+      "eval_runtime": 8.9388,
+      "eval_samples_per_second": 11.187,
+      "eval_wer": 0.3264311814859927,
+      "step": 144300
+    },
+    {
+      "epoch": 23.48,
+      "learning_rate": 6.085821504323707e-06,
+      "loss": NaN,
+      "step": 144400
+    },
+    {
+      "epoch": 23.48,
+      "eval_loss": 0.3865101933479309,
+      "eval_runtime": 7.3321,
+      "eval_samples_per_second": 13.639,
+      "eval_wer": 0.33008526187576126,
+      "step": 144400
+    },
+    {
+      "epoch": 23.5,
+      "learning_rate": 6.020558002936858e-06,
+      "loss": NaN,
+      "step": 144500
+    },
+    {
+      "epoch": 23.5,
+      "eval_loss": 0.3971826434135437,
+      "eval_runtime": 9.3902,
+      "eval_samples_per_second": 10.649,
+      "eval_wer": 0.3459196102314251,
+      "step": 144500
+    },
+    {
+      "epoch": 23.52,
+      "learning_rate": 5.955294501550009e-06,
+      "loss": NaN,
+      "step": 144600
+    },
+    {
+      "epoch": 23.52,
+      "eval_loss": 0.5336860418319702,
+      "eval_runtime": 7.7801,
+      "eval_samples_per_second": 12.853,
+      "eval_wer": 0.3276492082825822,
+      "step": 144600
+    },
+    {
+      "epoch": 23.53,
+      "learning_rate": 5.890031000163159e-06,
+      "loss": NaN,
+      "step": 144700
+    },
+    {
+      "epoch": 23.53,
+      "eval_loss": 0.4055691063404083,
+      "eval_runtime": 7.3304,
+      "eval_samples_per_second": 13.642,
+      "eval_wer": 0.3325213154689403,
+      "step": 144700
+    },
+    {
+      "epoch": 23.55,
+      "learning_rate": 5.824767498776309e-06,
+      "loss": NaN,
+      "step": 144800
+    },
+    {
+      "epoch": 23.55,
+      "eval_loss": 0.39876997470855713,
+      "eval_runtime": 8.2514,
+      "eval_samples_per_second": 12.119,
+      "eval_wer": 0.3398294762484775,
+      "step": 144800
+    },
+    {
+      "epoch": 23.56,
+      "learning_rate": 5.75950399738946e-06,
+      "loss": NaN,
+      "step": 144900
+    },
+    {
+      "epoch": 23.56,
+      "eval_loss": 0.46831241250038147,
+      "eval_runtime": 7.8267,
+      "eval_samples_per_second": 12.777,
+      "eval_wer": 0.33495736906211937,
+      "step": 144900
+    },
+    {
+      "epoch": 23.58,
+      "learning_rate": 5.6942404960026105e-06,
+      "loss": NaN,
+      "step": 145000
+    },
+    {
+      "epoch": 23.58,
+      "eval_loss": 0.402251273393631,
+      "eval_runtime": 8.6896,
+      "eval_samples_per_second": 11.508,
+      "eval_wer": 0.341047503045067,
+      "step": 145000
+    },
+    {
+      "epoch": 23.6,
+      "learning_rate": 5.628976994615762e-06,
+      "loss": NaN,
+      "step": 145100
+    },
+    {
+      "epoch": 23.6,
+      "eval_loss": 0.42078322172164917,
+      "eval_runtime": 7.0241,
+      "eval_samples_per_second": 14.237,
+      "eval_wer": 0.3386114494518879,
+      "step": 145100
+    },
+    {
+      "epoch": 23.61,
+      "learning_rate": 5.563713493228912e-06,
+      "loss": NaN,
+      "step": 145200
+    },
+    {
+      "epoch": 23.61,
+      "eval_loss": 0.37739893794059753,
+      "eval_runtime": 7.4681,
+      "eval_samples_per_second": 13.39,
+      "eval_wer": 0.3325213154689403,
+      "step": 145200
+    },
+    {
+      "epoch": 23.63,
+      "learning_rate": 5.498449991842063e-06,
+      "loss": NaN,
+      "step": 145300
+    },
+    {
+      "epoch": 23.63,
+      "eval_loss": 0.38974130153656006,
+      "eval_runtime": 8.1636,
+      "eval_samples_per_second": 12.249,
+      "eval_wer": 0.3325213154689403,
+      "step": 145300
+    },
+    {
+      "epoch": 23.65,
+      "learning_rate": 5.433186490455213e-06,
+      "loss": NaN,
+      "step": 145400
+    },
+    {
+      "epoch": 23.65,
+      "eval_loss": 0.42759647965431213,
+      "eval_runtime": 8.6656,
+      "eval_samples_per_second": 11.54,
+      "eval_wer": 0.3447015834348356,
+      "step": 145400
+    },
+    {
+      "epoch": 23.66,
+      "learning_rate": 5.367922989068363e-06,
+      "loss": NaN,
+      "step": 145500
+    },
+    {
+      "epoch": 23.66,
+      "eval_loss": 0.446329265832901,
+      "eval_runtime": 7.4281,
+      "eval_samples_per_second": 13.462,
+      "eval_wer": 0.3447015834348356,
+      "step": 145500
+    },
+    {
+      "epoch": 23.68,
+      "learning_rate": 5.302659487681514e-06,
+      "loss": NaN,
+      "step": 145600
+    },
+    {
+      "epoch": 23.68,
+      "eval_loss": 0.4557843804359436,
+      "eval_runtime": 8.6796,
+      "eval_samples_per_second": 11.521,
+      "eval_wer": 0.34957369062119364,
+      "step": 145600
+    },
+    {
+      "epoch": 23.69,
+      "learning_rate": 5.2373959862946655e-06,
+      "loss": NaN,
+      "step": 145700
+    },
+    {
+      "epoch": 23.69,
+      "eval_loss": 0.42350074648857117,
+      "eval_runtime": 6.9233,
+      "eval_samples_per_second": 14.444,
+      "eval_wer": 0.3313032886723508,
+      "step": 145700
+    },
+    {
+      "epoch": 23.71,
+      "learning_rate": 5.172132484907816e-06,
+      "loss": NaN,
+      "step": 145800
+    },
+    {
+      "epoch": 23.71,
+      "eval_loss": 0.4503900110721588,
+      "eval_runtime": 9.2067,
+      "eval_samples_per_second": 10.862,
+      "eval_wer": 0.34835566382460414,
+      "step": 145800
+    },
+    {
+      "epoch": 23.73,
+      "learning_rate": 5.106868983520966e-06,
+      "loss": NaN,
+      "step": 145900
+    },
+    {
+      "epoch": 23.73,
+      "eval_loss": 0.38946789503097534,
+      "eval_runtime": 6.7208,
+      "eval_samples_per_second": 14.879,
+      "eval_wer": 0.32521315468940315,
+      "step": 145900
+    },
+    {
+      "epoch": 23.74,
+      "learning_rate": 5.041605482134117e-06,
+      "loss": NaN,
+      "step": 146000
+    },
+    {
+      "epoch": 23.74,
+      "eval_loss": 0.42941275238990784,
+      "eval_runtime": 9.2546,
+      "eval_samples_per_second": 10.805,
+      "eval_wer": 0.3276492082825822,
+      "step": 146000
+    },
+    {
+      "epoch": 23.76,
+      "learning_rate": 4.976341980747267e-06,
+      "loss": NaN,
+      "step": 146100
+    },
+    {
+      "epoch": 23.76,
+      "eval_loss": 0.3988470435142517,
+      "eval_runtime": 8.8515,
+      "eval_samples_per_second": 11.298,
+      "eval_wer": 0.3337393422655298,
+      "step": 146100
+    },
+    {
+      "epoch": 23.78,
+      "learning_rate": 4.911078479360418e-06,
+      "loss": NaN,
+      "step": 146200
+    },
+    {
+      "epoch": 23.78,
+      "eval_loss": 0.37505969405174255,
+      "eval_runtime": 8.8108,
+      "eval_samples_per_second": 11.35,
+      "eval_wer": 0.3264311814859927,
+      "step": 146200
+    },
+    {
+      "epoch": 23.79,
+      "learning_rate": 4.8458149779735685e-06,
+      "loss": NaN,
+      "step": 146300
+    },
+    {
+      "epoch": 23.79,
+      "eval_loss": 0.4064733386039734,
+      "eval_runtime": 8.0955,
+      "eval_samples_per_second": 12.353,
+      "eval_wer": 0.33495736906211937,
+      "step": 146300
+    },
+    {
+      "epoch": 23.81,
+      "learning_rate": 4.7805514765867196e-06,
+      "loss": NaN,
+      "step": 146400
+    },
+    {
+      "epoch": 23.81,
+      "eval_loss": 0.38152438402175903,
+      "eval_runtime": 9.0081,
+      "eval_samples_per_second": 11.101,
+      "eval_wer": 0.3264311814859927,
+      "step": 146400
+    },
+    {
+      "epoch": 23.83,
+      "learning_rate": 4.71528797519987e-06,
+      "loss": NaN,
+      "step": 146500
+    },
+    {
+      "epoch": 23.83,
+      "eval_loss": 0.4286877512931824,
+      "eval_runtime": 34.8815,
+      "eval_samples_per_second": 2.867,
+      "eval_wer": 0.34957369062119364,
+      "step": 146500
+    },
+    {
+      "epoch": 23.84,
+      "learning_rate": 4.65002447381302e-06,
+      "loss": NaN,
+      "step": 146600
+    },
+    {
+      "epoch": 23.84,
+      "eval_loss": 0.3909842371940613,
+      "eval_runtime": 6.7922,
+      "eval_samples_per_second": 14.723,
+      "eval_wer": 0.3215590742996346,
+      "step": 146600
+    },
+    {
+      "epoch": 23.86,
+      "learning_rate": 4.58476097242617e-06,
+      "loss": NaN,
+      "step": 146700
+    },
+    {
+      "epoch": 23.86,
+      "eval_loss": 0.4343806505203247,
+      "eval_runtime": 8.1254,
+      "eval_samples_per_second": 12.307,
+      "eval_wer": 0.33008526187576126,
+      "step": 146700
+    },
+    {
+      "epoch": 23.87,
+      "learning_rate": 4.519497471039322e-06,
+      "loss": NaN,
+      "step": 146800
+    },
+    {
+      "epoch": 23.87,
+      "eval_loss": 0.38777297735214233,
+      "eval_runtime": 8.5033,
+      "eval_samples_per_second": 11.76,
+      "eval_wer": 0.3313032886723508,
+      "step": 146800
+    },
+    {
+      "epoch": 23.89,
+      "learning_rate": 4.454233969652472e-06,
+      "loss": NaN,
+      "step": 146900
+    },
+    {
+      "epoch": 23.89,
+      "eval_loss": 0.40899020433425903,
+      "eval_runtime": 7.6862,
+      "eval_samples_per_second": 13.01,
+      "eval_wer": 0.3227771010962241,
+      "step": 146900
+    },
+    {
+      "epoch": 23.91,
+      "learning_rate": 4.388970468265623e-06,
+      "loss": NaN,
+      "step": 147000
+    },
+    {
+      "epoch": 23.91,
+      "eval_loss": 0.39654624462127686,
+      "eval_runtime": 9.0568,
+      "eval_samples_per_second": 11.041,
+      "eval_wer": 0.3313032886723508,
+      "step": 147000
+    },
+    {
+      "epoch": 23.92,
+      "learning_rate": 4.323706966878773e-06,
+      "loss": NaN,
+      "step": 147100
+    },
+    {
+      "epoch": 23.92,
+      "eval_loss": 0.5828571915626526,
+      "eval_runtime": 9.0588,
+      "eval_samples_per_second": 11.039,
+      "eval_wer": 0.33617539585870887,
+      "step": 147100
+    },
+    {
+      "epoch": 23.94,
+      "learning_rate": 4.258443465491924e-06,
+      "loss": NaN,
+      "step": 147200
+    },
+    {
+      "epoch": 23.94,
+      "eval_loss": 0.4280412793159485,
+      "eval_runtime": 8.3581,
+      "eval_samples_per_second": 11.964,
+      "eval_wer": 0.33495736906211937,
+      "step": 147200
+    },
+    {
+      "epoch": 23.96,
+      "learning_rate": 4.193179964105074e-06,
+      "loss": NaN,
+      "step": 147300
+    },
+    {
+      "epoch": 23.96,
+      "eval_loss": 0.3880465030670166,
+      "eval_runtime": 8.3284,
+      "eval_samples_per_second": 12.007,
+      "eval_wer": 0.3215590742996346,
+      "step": 147300
+    },
+    {
+      "epoch": 23.97,
+      "learning_rate": 4.127916462718225e-06,
+      "loss": NaN,
+      "step": 147400
+    },
+    {
+      "epoch": 23.97,
+      "eval_loss": 0.4489409923553467,
+      "eval_runtime": 8.5866,
+      "eval_samples_per_second": 11.646,
+      "eval_wer": 0.33617539585870887,
+      "step": 147400
+    },
+    {
+      "epoch": 23.99,
+      "learning_rate": 4.062652961331375e-06,
+      "loss": NaN,
+      "step": 147500
+    },
+    {
+      "epoch": 23.99,
+      "eval_loss": 0.41607800126075745,
+      "eval_runtime": 8.1254,
+      "eval_samples_per_second": 12.307,
+      "eval_wer": 0.3471376370280146,
+      "step": 147500
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 3.9973894599445265e-06,
+      "loss": NaN,
+      "step": 147600
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.38375845551490784,
+      "eval_runtime": 8.373,
+      "eval_samples_per_second": 11.943,
+      "eval_wer": 0.3227771010962241,
+      "step": 147600
+    },
+    {
+      "epoch": 24.02,
+      "learning_rate": 3.932125958557677e-06,
+      "loss": NaN,
+      "step": 147700
+    },
+    {
+      "epoch": 24.02,
+      "eval_loss": 0.4201222360134125,
+      "eval_runtime": 8.7128,
+      "eval_samples_per_second": 11.477,
+      "eval_wer": 0.3447015834348356,
+      "step": 147700
+    },
+    {
+      "epoch": 24.04,
+      "learning_rate": 3.866862457170827e-06,
+      "loss": NaN,
+      "step": 147800
+    },
+    {
+      "epoch": 24.04,
+      "eval_loss": 0.3707936108112335,
+      "eval_runtime": 8.5162,
+      "eval_samples_per_second": 11.742,
+      "eval_wer": 0.3215590742996346,
+      "step": 147800
+    },
+    {
+      "epoch": 24.05,
+      "learning_rate": 3.8015989557839784e-06,
+      "loss": NaN,
+      "step": 147900
+    },
+    {
+      "epoch": 24.05,
+      "eval_loss": 0.4147247076034546,
+      "eval_runtime": 7.5178,
+      "eval_samples_per_second": 13.302,
+      "eval_wer": 0.3373934226552984,
+      "step": 147900
+    },
+    {
+      "epoch": 24.07,
+      "learning_rate": 3.7363354543971286e-06,
+      "loss": NaN,
+      "step": 148000
+    },
+    {
+      "epoch": 24.07,
+      "eval_loss": 0.3992792069911957,
+      "eval_runtime": 8.0681,
+      "eval_samples_per_second": 12.395,
+      "eval_wer": 0.3386114494518879,
+      "step": 148000
+    },
+    {
+      "epoch": 24.09,
+      "learning_rate": 3.6710719530102793e-06,
+      "loss": NaN,
+      "step": 148100
+    },
+    {
+      "epoch": 24.09,
+      "eval_loss": 0.4286440312862396,
+      "eval_runtime": 6.9843,
+      "eval_samples_per_second": 14.318,
+      "eval_wer": 0.34348355663824603,
+      "step": 148100
+    },
+    {
+      "epoch": 24.1,
+      "learning_rate": 3.60580845162343e-06,
+      "loss": NaN,
+      "step": 148200
+    },
+    {
+      "epoch": 24.1,
+      "eval_loss": 0.4791194200515747,
+      "eval_runtime": 7.4344,
+      "eval_samples_per_second": 13.451,
+      "eval_wer": 0.3447015834348356,
+      "step": 148200
+    },
+    {
+      "epoch": 24.12,
+      "learning_rate": 3.54054495023658e-06,
+      "loss": NaN,
+      "step": 148300
+    },
+    {
+      "epoch": 24.12,
+      "eval_loss": 0.3939591348171234,
+      "eval_runtime": 7.3768,
+      "eval_samples_per_second": 13.556,
+      "eval_wer": 0.34348355663824603,
+      "step": 148300
+    },
+    {
+      "epoch": 24.13,
+      "learning_rate": 3.4752814488497308e-06,
+      "loss": NaN,
+      "step": 148400
+    },
+    {
+      "epoch": 24.13,
+      "eval_loss": 0.4074297249317169,
+      "eval_runtime": 6.9657,
+      "eval_samples_per_second": 14.356,
+      "eval_wer": 0.3337393422655298,
+      "step": 148400
+    },
+    {
+      "epoch": 24.15,
+      "learning_rate": 3.410017947462882e-06,
+      "loss": NaN,
+      "step": 148500
+    },
+    {
+      "epoch": 24.15,
+      "eval_loss": 0.42010945081710815,
+      "eval_runtime": 7.4953,
+      "eval_samples_per_second": 13.342,
+      "eval_wer": 0.3373934226552984,
+      "step": 148500
+    },
+    {
+      "epoch": 24.17,
+      "learning_rate": 3.3447544460760325e-06,
+      "loss": NaN,
+      "step": 148600
+    },
+    {
+      "epoch": 24.17,
+      "eval_loss": 0.3944063186645508,
+      "eval_runtime": 8.1881,
+      "eval_samples_per_second": 12.213,
+      "eval_wer": 0.3313032886723508,
+      "step": 148600
+    },
+    {
+      "epoch": 24.18,
+      "learning_rate": 3.2794909446891827e-06,
+      "loss": NaN,
+      "step": 148700
+    },
+    {
+      "epoch": 24.18,
+      "eval_loss": 0.38928863406181335,
+      "eval_runtime": 9.1121,
+      "eval_samples_per_second": 10.974,
+      "eval_wer": 0.3325213154689403,
+      "step": 148700
+    },
+    {
+      "epoch": 24.2,
+      "learning_rate": 3.2142274433023334e-06,
+      "loss": NaN,
+      "step": 148800
+    },
+    {
+      "epoch": 24.2,
+      "eval_loss": 0.4040900766849518,
+      "eval_runtime": 7.8824,
+      "eval_samples_per_second": 12.687,
+      "eval_wer": 0.33495736906211937,
+      "step": 148800
+    },
+    {
+      "epoch": 24.22,
+      "learning_rate": 3.1489639419154836e-06,
+      "loss": NaN,
+      "step": 148900
+    },
+    {
+      "epoch": 24.22,
+      "eval_loss": 0.39032647013664246,
+      "eval_runtime": 6.7307,
+      "eval_samples_per_second": 14.857,
+      "eval_wer": 0.3215590742996346,
+      "step": 148900
+    },
+    {
+      "epoch": 24.23,
+      "learning_rate": 3.0837004405286347e-06,
+      "loss": NaN,
+      "step": 149000
+    },
+    {
+      "epoch": 24.23,
+      "eval_loss": 0.40411511063575745,
+      "eval_runtime": 8.2756,
+      "eval_samples_per_second": 12.084,
+      "eval_wer": 0.32886723507917176,
+      "step": 149000
+    },
+    {
+      "epoch": 24.25,
+      "learning_rate": 3.018436939141785e-06,
+      "loss": NaN,
+      "step": 149100
+    },
+    {
+      "epoch": 24.25,
+      "eval_loss": 0.43083474040031433,
+      "eval_runtime": 9.0012,
+      "eval_samples_per_second": 11.11,
+      "eval_wer": 0.3227771010962241,
+      "step": 149100
+    },
+    {
+      "epoch": 24.26,
+      "learning_rate": 2.953173437754936e-06,
+      "loss": NaN,
+      "step": 149200
+    },
+    {
+      "epoch": 24.26,
+      "eval_loss": 0.3937508463859558,
+      "eval_runtime": 7.7288,
+      "eval_samples_per_second": 12.939,
+      "eval_wer": 0.315468940316687,
+      "step": 149200
+    },
+    {
+      "epoch": 24.28,
+      "learning_rate": 2.887909936368086e-06,
+      "loss": NaN,
+      "step": 149300
+    },
+    {
+      "epoch": 24.28,
+      "eval_loss": 0.3944269120693207,
+      "eval_runtime": 6.9338,
+      "eval_samples_per_second": 14.422,
+      "eval_wer": 0.32399512789281365,
+      "step": 149300
+    },
+    {
+      "epoch": 24.3,
+      "learning_rate": 2.822646434981237e-06,
+      "loss": NaN,
+      "step": 149400
+    },
+    {
+      "epoch": 24.3,
+      "eval_loss": 0.5013560652732849,
+      "eval_runtime": 7.8923,
+      "eval_samples_per_second": 12.671,
+      "eval_wer": 0.34957369062119364,
+      "step": 149400
+    },
+    {
+      "epoch": 24.31,
+      "learning_rate": 2.7573829335943875e-06,
+      "loss": NaN,
+      "step": 149500
+    },
+    {
+      "epoch": 24.31,
+      "eval_loss": 0.39637017250061035,
+      "eval_runtime": 8.1021,
+      "eval_samples_per_second": 12.343,
+      "eval_wer": 0.3325213154689403,
+      "step": 149500
+    },
+    {
+      "epoch": 24.33,
+      "learning_rate": 2.692119432207538e-06,
+      "loss": NaN,
+      "step": 149600
+    },
+    {
+      "epoch": 24.33,
+      "eval_loss": 0.4175480306148529,
+      "eval_runtime": 8.4026,
+      "eval_samples_per_second": 11.901,
+      "eval_wer": 0.3325213154689403,
+      "step": 149600
+    },
+    {
+      "epoch": 24.35,
+      "learning_rate": 2.6268559308206883e-06,
+      "loss": NaN,
+      "step": 149700
+    },
+    {
+      "epoch": 24.35,
+      "eval_loss": 0.4383509159088135,
+      "eval_runtime": 8.2617,
+      "eval_samples_per_second": 12.104,
+      "eval_wer": 0.3276492082825822,
+      "step": 149700
+    },
+    {
+      "epoch": 24.36,
+      "learning_rate": 2.5615924294338394e-06,
+      "loss": NaN,
+      "step": 149800
+    },
+    {
+      "epoch": 24.36,
+      "eval_loss": 0.3883654475212097,
+      "eval_runtime": 7.6932,
+      "eval_samples_per_second": 12.999,
+      "eval_wer": 0.32886723507917176,
+      "step": 149800
+    },
+    {
+      "epoch": 24.38,
+      "learning_rate": 2.4963289280469896e-06,
+      "loss": NaN,
+      "step": 149900
+    },
+    {
+      "epoch": 24.38,
+      "eval_loss": 0.42128920555114746,
+      "eval_runtime": 7.3824,
+      "eval_samples_per_second": 13.546,
+      "eval_wer": 0.33008526187576126,
+      "step": 149900
+    },
+    {
+      "epoch": 24.39,
+      "learning_rate": 2.4310654266601403e-06,
+      "loss": NaN,
+      "step": 150000
+    },
+    {
+      "epoch": 24.39,
+      "eval_loss": 0.37016811966896057,
+      "eval_runtime": 7.3966,
+      "eval_samples_per_second": 13.52,
+      "eval_wer": 0.3264311814859927,
+      "step": 150000
+    },
+    {
+      "epoch": 24.41,
+      "learning_rate": 2.365801925273291e-06,
+      "loss": NaN,
+      "step": 150100
+    },
+    {
+      "epoch": 24.41,
+      "eval_loss": 0.4776330888271332,
+      "eval_runtime": 8.1524,
+      "eval_samples_per_second": 12.266,
+      "eval_wer": 0.3276492082825822,
+      "step": 150100
+    },
+    {
+      "epoch": 24.43,
+      "learning_rate": 2.3005384238864416e-06,
+      "loss": NaN,
+      "step": 150200
+    },
+    {
+      "epoch": 24.43,
+      "eval_loss": 0.40871936082839966,
+      "eval_runtime": 7.8643,
+      "eval_samples_per_second": 12.716,
+      "eval_wer": 0.3276492082825822,
+      "step": 150200
+    },
+    {
+      "epoch": 24.44,
+      "learning_rate": 2.235274922499592e-06,
+      "loss": NaN,
+      "step": 150300
+    },
+    {
+      "epoch": 24.44,
+      "eval_loss": 0.4232352375984192,
+      "eval_runtime": 7.5631,
+      "eval_samples_per_second": 13.222,
+      "eval_wer": 0.3325213154689403,
+      "step": 150300
+    },
+    {
+      "epoch": 24.46,
+      "learning_rate": 2.170011421112743e-06,
+      "loss": NaN,
+      "step": 150400
+    },
+    {
+      "epoch": 24.46,
+      "eval_loss": 0.3953474164009094,
+      "eval_runtime": 8.1896,
+      "eval_samples_per_second": 12.211,
+      "eval_wer": 0.32399512789281365,
+      "step": 150400
+    },
+    {
+      "epoch": 24.48,
+      "learning_rate": 2.1047479197258935e-06,
+      "loss": NaN,
+      "step": 150500
+    },
+    {
+      "epoch": 24.48,
+      "eval_loss": 0.40007010102272034,
+      "eval_runtime": 8.6682,
+      "eval_samples_per_second": 11.536,
+      "eval_wer": 0.32886723507917176,
+      "step": 150500
+    },
+    {
+      "epoch": 24.49,
+      "learning_rate": 2.039484418339044e-06,
+      "loss": NaN,
+      "step": 150600
+    },
+    {
+      "epoch": 24.49,
+      "eval_loss": 0.4761078357696533,
+      "eval_runtime": 9.2295,
+      "eval_samples_per_second": 10.835,
+      "eval_wer": 0.32886723507917176,
+      "step": 150600
+    },
+    {
+      "epoch": 24.51,
+      "learning_rate": 1.9742209169521948e-06,
+      "loss": NaN,
+      "step": 150700
+    },
+    {
+      "epoch": 24.51,
+      "eval_loss": 0.4079989194869995,
+      "eval_runtime": 8.3587,
+      "eval_samples_per_second": 11.964,
+      "eval_wer": 0.32886723507917176,
+      "step": 150700
+    },
+    {
+      "epoch": 24.52,
+      "learning_rate": 1.908957415565345e-06,
+      "loss": NaN,
+      "step": 150800
+    },
+    {
+      "epoch": 24.52,
+      "eval_loss": 0.3929882049560547,
+      "eval_runtime": 7.1125,
+      "eval_samples_per_second": 14.06,
+      "eval_wer": 0.33617539585870887,
+      "step": 150800
+    },
+    {
+      "epoch": 24.54,
+      "learning_rate": 1.8436939141784959e-06,
+      "loss": NaN,
+      "step": 150900
+    },
+    {
+      "epoch": 24.54,
+      "eval_loss": 0.44755759835243225,
+      "eval_runtime": 7.8989,
+      "eval_samples_per_second": 12.66,
+      "eval_wer": 0.3373934226552984,
+      "step": 150900
+    },
+    {
+      "epoch": 24.56,
+      "learning_rate": 1.7784304127916463e-06,
+      "loss": NaN,
+      "step": 151000
+    },
+    {
+      "epoch": 24.56,
+      "eval_loss": 0.3977559208869934,
+      "eval_runtime": 8.7185,
+      "eval_samples_per_second": 11.47,
+      "eval_wer": 0.32886723507917176,
+      "step": 151000
+    },
+    {
+      "epoch": 24.57,
+      "learning_rate": 1.713166911404797e-06,
+      "loss": NaN,
+      "step": 151100
+    },
+    {
+      "epoch": 24.57,
+      "eval_loss": 0.4052342176437378,
+      "eval_runtime": 7.8682,
+      "eval_samples_per_second": 12.709,
+      "eval_wer": 0.34226552984165654,
+      "step": 151100
+    },
+    {
+      "epoch": 24.59,
+      "learning_rate": 1.6479034100179476e-06,
+      "loss": NaN,
+      "step": 151200
+    },
+    {
+      "epoch": 24.59,
+      "eval_loss": 0.4712124168872833,
+      "eval_runtime": 8.3125,
+      "eval_samples_per_second": 12.03,
+      "eval_wer": 0.34226552984165654,
+      "step": 151200
+    },
+    {
+      "epoch": 24.61,
+      "learning_rate": 1.5826399086310982e-06,
+      "loss": NaN,
+      "step": 151300
+    },
+    {
+      "epoch": 24.61,
+      "eval_loss": 0.3818945288658142,
+      "eval_runtime": 7.968,
+      "eval_samples_per_second": 12.55,
+      "eval_wer": 0.33495736906211937,
+      "step": 151300
+    },
+    {
+      "epoch": 24.62,
+      "learning_rate": 1.5173764072442489e-06,
+      "loss": NaN,
+      "step": 151400
+    },
+    {
+      "epoch": 24.62,
+      "eval_loss": 0.44341355562210083,
+      "eval_runtime": 8.224,
+      "eval_samples_per_second": 12.16,
+      "eval_wer": 0.341047503045067,
+      "step": 151400
+    },
+    {
+      "epoch": 24.64,
+      "learning_rate": 1.4521129058573993e-06,
+      "loss": NaN,
+      "step": 151500
+    },
+    {
+      "epoch": 24.64,
+      "eval_loss": 0.4101918041706085,
+      "eval_runtime": 6.9383,
+      "eval_samples_per_second": 14.413,
+      "eval_wer": 0.3215590742996346,
+      "step": 151500
+    },
+    {
+      "epoch": 24.65,
+      "learning_rate": 1.38684940447055e-06,
+      "loss": NaN,
+      "step": 151600
+    },
+    {
+      "epoch": 24.65,
+      "eval_loss": 0.39534106850624084,
+      "eval_runtime": 8.9247,
+      "eval_samples_per_second": 11.205,
+      "eval_wer": 0.32886723507917176,
+      "step": 151600
+    },
+    {
+      "epoch": 24.67,
+      "learning_rate": 1.3215859030837006e-06,
+      "loss": NaN,
+      "step": 151700
+    },
+    {
+      "epoch": 24.67,
+      "eval_loss": 0.3738269805908203,
+      "eval_runtime": 7.6097,
+      "eval_samples_per_second": 13.141,
+      "eval_wer": 0.3264311814859927,
+      "step": 151700
+    },
+    {
+      "epoch": 24.69,
+      "learning_rate": 1.256322401696851e-06,
+      "loss": NaN,
+      "step": 151800
+    },
+    {
+      "epoch": 24.69,
+      "eval_loss": 0.5128779411315918,
+      "eval_runtime": 8.2012,
+      "eval_samples_per_second": 12.193,
+      "eval_wer": 0.3313032886723508,
+      "step": 151800
+    },
+    {
+      "epoch": 24.7,
+      "learning_rate": 1.1910589003100017e-06,
+      "loss": NaN,
+      "step": 151900
+    },
+    {
+      "epoch": 24.7,
+      "eval_loss": 0.41557371616363525,
+      "eval_runtime": 10.0221,
+      "eval_samples_per_second": 9.978,
+      "eval_wer": 0.3264311814859927,
+      "step": 151900
+    },
+    {
+      "epoch": 24.72,
+      "learning_rate": 1.1257953989231523e-06,
+      "loss": NaN,
+      "step": 152000
+    },
+    {
+      "epoch": 24.72,
+      "eval_loss": 0.3804296851158142,
+      "eval_runtime": 6.86,
+      "eval_samples_per_second": 14.577,
+      "eval_wer": 0.3166869671132765,
+      "step": 152000
+    },
+    {
+      "epoch": 24.74,
+      "learning_rate": 1.060531897536303e-06,
+      "loss": NaN,
+      "step": 152100
+    },
+    {
+      "epoch": 24.74,
+      "eval_loss": 0.37247443199157715,
+      "eval_runtime": 8.5022,
+      "eval_samples_per_second": 11.762,
+      "eval_wer": 0.31790499390986604,
+      "step": 152100
+    },
+    {
+      "epoch": 24.75,
+      "learning_rate": 9.952683961494534e-07,
+      "loss": NaN,
+      "step": 152200
+    },
+    {
+      "epoch": 24.75,
+      "eval_loss": 0.4154191315174103,
+      "eval_runtime": 7.3705,
+      "eval_samples_per_second": 13.568,
+      "eval_wer": 0.33495736906211937,
+      "step": 152200
+    },
+    {
+      "epoch": 24.77,
+      "learning_rate": 9.30004894762604e-07,
+      "loss": NaN,
+      "step": 152300
+    },
+    {
+      "epoch": 24.77,
+      "eval_loss": 0.46218574047088623,
+      "eval_runtime": 8.1433,
+      "eval_samples_per_second": 12.28,
+      "eval_wer": 0.34226552984165654,
+      "step": 152300
+    },
+    {
+      "epoch": 24.78,
+      "learning_rate": 8.647413933757547e-07,
+      "loss": NaN,
+      "step": 152400
+    },
+    {
+      "epoch": 24.78,
+      "eval_loss": 0.39375588297843933,
+      "eval_runtime": 6.9811,
+      "eval_samples_per_second": 14.324,
+      "eval_wer": 0.29963459196102316,
+      "step": 152400
+    },
+    {
+      "epoch": 24.8,
+      "learning_rate": 7.994778919889051e-07,
+      "loss": NaN,
+      "step": 152500
+    },
+    {
+      "epoch": 24.8,
+      "eval_loss": 0.4095069169998169,
+      "eval_runtime": 7.9503,
+      "eval_samples_per_second": 12.578,
+      "eval_wer": 0.3373934226552984,
+      "step": 152500
+    },
+    {
+      "epoch": 24.82,
+      "learning_rate": 7.342143906020558e-07,
+      "loss": NaN,
+      "step": 152600
+    },
+    {
+      "epoch": 24.82,
+      "eval_loss": 0.431011438369751,
+      "eval_runtime": 7.7649,
+      "eval_samples_per_second": 12.878,
+      "eval_wer": 0.3313032886723508,
+      "step": 152600
+    },
+    {
+      "epoch": 24.83,
+      "learning_rate": 6.689508892152064e-07,
+      "loss": NaN,
+      "step": 152700
+    },
+    {
+      "epoch": 24.83,
+      "eval_loss": 0.39817845821380615,
+      "eval_runtime": 6.8105,
+      "eval_samples_per_second": 14.683,
+      "eval_wer": 0.3264311814859927,
+      "step": 152700
+    },
+    {
+      "epoch": 24.85,
+      "learning_rate": 6.036873878283571e-07,
+      "loss": NaN,
+      "step": 152800
+    },
+    {
+      "epoch": 24.85,
+      "eval_loss": 0.3910774886608124,
+      "eval_runtime": 7.13,
+      "eval_samples_per_second": 14.025,
+      "eval_wer": 0.32034104750304504,
+      "step": 152800
+    },
+    {
+      "epoch": 24.87,
+      "learning_rate": 5.384238864415076e-07,
+      "loss": NaN,
+      "step": 152900
+    },
+    {
+      "epoch": 24.87,
+      "eval_loss": 0.40002116560935974,
+      "eval_runtime": 7.5393,
+      "eval_samples_per_second": 13.264,
+      "eval_wer": 0.31912302070645554,
+      "step": 152900
+    },
+    {
+      "epoch": 24.88,
+      "learning_rate": 4.7316038505465825e-07,
+      "loss": NaN,
+      "step": 153000
+    },
+    {
+      "epoch": 24.88,
+      "eval_loss": 0.40296486020088196,
+      "eval_runtime": 9.5006,
+      "eval_samples_per_second": 10.526,
+      "eval_wer": 0.33617539585870887,
+      "step": 153000
+    },
+    {
+      "epoch": 24.9,
+      "learning_rate": 4.078968836678088e-07,
+      "loss": NaN,
+      "step": 153100
+    },
+    {
+      "epoch": 24.9,
+      "eval_loss": 0.3949245810508728,
+      "eval_runtime": 9.1847,
+      "eval_samples_per_second": 10.888,
+      "eval_wer": 0.3313032886723508,
+      "step": 153100
+    },
+    {
+      "epoch": 24.91,
+      "learning_rate": 3.426333822809594e-07,
+      "loss": NaN,
+      "step": 153200
+    },
+    {
+      "epoch": 24.91,
+      "eval_loss": 0.43339037895202637,
+      "eval_runtime": 7.6951,
+      "eval_samples_per_second": 12.995,
+      "eval_wer": 0.34348355663824603,
+      "step": 153200
+    },
+    {
+      "epoch": 24.93,
+      "learning_rate": 2.7736988089410997e-07,
+      "loss": NaN,
+      "step": 153300
+    },
+    {
+      "epoch": 24.93,
+      "eval_loss": 0.439365416765213,
+      "eval_runtime": 6.9543,
+      "eval_samples_per_second": 14.38,
+      "eval_wer": 0.341047503045067,
+      "step": 153300
+    },
+    {
+      "epoch": 24.95,
+      "learning_rate": 2.121063795072606e-07,
+      "loss": NaN,
+      "step": 153400
+    },
+    {
+      "epoch": 24.95,
+      "eval_loss": 0.4255564510822296,
+      "eval_runtime": 8.4137,
+      "eval_samples_per_second": 11.885,
+      "eval_wer": 0.3373934226552984,
+      "step": 153400
+    },
+    {
+      "epoch": 24.96,
+      "learning_rate": 1.4684287812041115e-07,
+      "loss": NaN,
+      "step": 153500
+    },
+    {
+      "epoch": 24.96,
+      "eval_loss": 0.3864142894744873,
+      "eval_runtime": 9.5624,
+      "eval_samples_per_second": 10.458,
+      "eval_wer": 0.33008526187576126,
+      "step": 153500
+    },
+    {
+      "epoch": 24.98,
+      "learning_rate": 8.157937673356176e-08,
+      "loss": NaN,
+      "step": 153600
+    },
+    {
+      "epoch": 24.98,
+      "eval_loss": 0.4688411056995392,
+      "eval_runtime": 7.8079,
+      "eval_samples_per_second": 12.808,
+      "eval_wer": 0.3325213154689403,
+      "step": 153600
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 1.6315875346712352e-08,
+      "loss": NaN,
+      "step": 153700
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.40519940853118896,
+      "eval_runtime": 8.6405,
+      "eval_samples_per_second": 11.573,
+      "eval_wer": 0.32521315468940315,
+      "step": 153700
+    },
+    {
+      "epoch": 25.0,
+      "step": 153725,
+      "total_flos": 7.526023236355262e+20,
+      "train_runtime": 258038.6163,
+      "train_samples_per_second": 0.596
+    }
+  ],
+  "max_steps": 153725,
+  "num_train_epochs": 25,
+  "total_flos": 7.526023236355262e+20,
+  "trial_name": null,
+  "trial_params": null
+}