End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +7 -7
eval_results.json +3 -3
runs/Sep01_12-20-45_c461da42ad14/events.out.tfevents.1725203622.c461da42ad14.30.1 +3 -0
train_results.json +4 -4
trainer_state.json +215 -215

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
 - Wer: 1.0

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- DewiBrynJones/banc-trawsgrifiadau-bangor-clean-with-ccv
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the DEWIBRYNJONES/BANC-TRAWSGRIFIADAU-BANGOR-CLEAN-WITH-CCV - DEFAULT dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
 - Wer: 1.0

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 0.9619084263178146,
     "eval_loss": NaN,
-    "eval_runtime": 185.8154,
     "eval_samples": 7022,
-    "eval_samples_per_second": 37.79,
-    "eval_steps_per_second": 0.592,
     "eval_wer": 1.0,
     "total_flos": 1.7109669148845115e+19,
-    "train_loss": 0.5128920831044514,
-    "train_runtime": 11433.8652,
     "train_samples": 124748,
-    "train_samples_per_second": 10.495,
-    "train_steps_per_second": 1.312
 }

 {
     "epoch": 0.9619084263178146,
     "eval_loss": NaN,
+    "eval_runtime": 185.5249,
     "eval_samples": 7022,
+    "eval_samples_per_second": 37.849,
+    "eval_steps_per_second": 0.593,
     "eval_wer": 1.0,
     "total_flos": 1.7109669148845115e+19,
+    "train_loss": 0.6328924499511719,
+    "train_runtime": 11517.021,
     "train_samples": 124748,
+    "train_samples_per_second": 10.419,
+    "train_steps_per_second": 1.302
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9619084263178146,
     "eval_loss": NaN,
-    "eval_runtime": 185.8154,
     "eval_samples": 7022,
-    "eval_samples_per_second": 37.79,
-    "eval_steps_per_second": 0.592,
     "eval_wer": 1.0
 }

 {
     "epoch": 0.9619084263178146,
     "eval_loss": NaN,
+    "eval_runtime": 185.5249,
     "eval_samples": 7022,
+    "eval_samples_per_second": 37.849,
+    "eval_steps_per_second": 0.593,
     "eval_wer": 1.0
 }

runs/Sep01_12-20-45_c461da42ad14/events.out.tfevents.1725203622.c461da42ad14.30.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5c2819053c7f08c0ba4802f854bc9f4102a8fef2cadf07fe1f2e665b91ec4ee
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9619084263178146,
     "total_flos": 1.7109669148845115e+19,
-    "train_loss": 0.5128920831044514,
-    "train_runtime": 11433.8652,
     "train_samples": 124748,
-    "train_samples_per_second": 10.495,
-    "train_steps_per_second": 1.312
 }

 {
     "epoch": 0.9619084263178146,
     "total_flos": 1.7109669148845115e+19,
+    "train_loss": 0.6328924499511719,
+    "train_runtime": 11517.021,
     "train_samples": 124748,
+    "train_samples_per_second": 10.419,
+    "train_steps_per_second": 1.302
 }

trainer_state.json CHANGED Viewed

@@ -10,384 +10,384 @@
   "log_history": [
     {
       "epoch": 0.03206361421059382,
-      "grad_norm": 9.123078346252441,
-      "learning_rate": 0.0002465,
-      "loss": 4.6156,
       "step": 500
     },
     {
       "epoch": 0.03206361421059382,
-      "eval_loss": 1.5867419242858887,
-      "eval_runtime": 188.7881,
-      "eval_samples_per_second": 37.195,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.9176576887814082,
       "step": 500
     },
     {
       "epoch": 0.06412722842118763,
-      "grad_norm": 6.654547691345215,
-      "learning_rate": 0.00029181249999999997,
-      "loss": 1.0315,
       "step": 1000
     },
     {
       "epoch": 0.06412722842118763,
-      "eval_loss": 1.1748294830322266,
-      "eval_runtime": 190.3404,
-      "eval_samples_per_second": 36.892,
-      "eval_steps_per_second": 0.578,
-      "eval_wer": 0.7888358867377988,
       "step": 1000
     },
     {
       "epoch": 0.09619084263178146,
-      "grad_norm": 6.171149253845215,
-      "learning_rate": 0.0002813958333333333,
-      "loss": 0.834,
       "step": 1500
     },
     {
       "epoch": 0.09619084263178146,
-      "eval_loss": 1.0392996072769165,
-      "eval_runtime": 189.2832,
-      "eval_samples_per_second": 37.098,
-      "eval_steps_per_second": 0.581,
-      "eval_wer": 0.7219867391275462,
       "step": 1500
     },
     {
       "epoch": 0.12825445684237527,
-      "grad_norm": 6.896900177001953,
-      "learning_rate": 0.00027097916666666666,
-      "loss": 0.7184,
       "step": 2000
     },
     {
       "epoch": 0.12825445684237527,
-      "eval_loss": 0.9616143703460693,
-      "eval_runtime": 190.9944,
-      "eval_samples_per_second": 36.765,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.663747857399115,
       "step": 2000
     },
     {
       "epoch": 0.16031807105296908,
-      "grad_norm": 9.408955574035645,
-      "learning_rate": 0.0002605625,
-      "loss": 0.6655,
       "step": 2500
     },
     {
       "epoch": 0.16031807105296908,
-      "eval_loss": 0.9033711552619934,
-      "eval_runtime": 190.9851,
-      "eval_samples_per_second": 36.767,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.6331335787081944,
       "step": 2500
     },
     {
       "epoch": 0.19238168526356292,
-      "grad_norm": 6.4334211349487305,
-      "learning_rate": 0.0002501458333333333,
-      "loss": 0.6193,
       "step": 3000
     },
     {
       "epoch": 0.19238168526356292,
-      "eval_loss": 0.8614802956581116,
-      "eval_runtime": 191.2463,
-      "eval_samples_per_second": 36.717,
-      "eval_steps_per_second": 0.575,
-      "eval_wer": 0.6238988028009939,
       "step": 3000
     },
     {
       "epoch": 0.22444529947415673,
-      "grad_norm": 3.711681365966797,
-      "learning_rate": 0.00023972916666666665,
-      "loss": 0.5952,
       "step": 3500
     },
     {
       "epoch": 0.22444529947415673,
-      "eval_loss": 0.8161324858665466,
-      "eval_runtime": 191.2031,
-      "eval_samples_per_second": 36.725,
-      "eval_steps_per_second": 0.575,
-      "eval_wer": 0.5866275129884798,
       "step": 3500
     },
     {
       "epoch": 0.25650891368475054,
-      "grad_norm": 7.527787208557129,
-      "learning_rate": 0.00022933333333333332,
-      "loss": 0.5622,
       "step": 4000
     },
     {
       "epoch": 0.25650891368475054,
-      "eval_loss": 0.811023473739624,
-      "eval_runtime": 190.6985,
-      "eval_samples_per_second": 36.823,
-      "eval_steps_per_second": 0.577,
-      "eval_wer": 0.5850728816487065,
       "step": 4000
     },
     {
       "epoch": 0.2885725278953444,
-      "grad_norm": 11.801218032836914,
-      "learning_rate": 0.0002189583333333333,
-      "loss": 0.5341,
       "step": 4500
     },
     {
       "epoch": 0.2885725278953444,
-      "eval_loss": 0.757978618144989,
-      "eval_runtime": 192.268,
-      "eval_samples_per_second": 36.522,
-      "eval_steps_per_second": 0.572,
-      "eval_wer": 0.5546579146680132,
       "step": 4500
     },
     {
       "epoch": 0.32063614210593816,
-      "grad_norm": 9.381750106811523,
-      "learning_rate": 0.00020854166666666664,
-      "loss": 0.522,
       "step": 5000
     },
     {
       "epoch": 0.32063614210593816,
-      "eval_loss": 0.7397128343582153,
-      "eval_runtime": 191.0373,
-      "eval_samples_per_second": 36.757,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.5411711556092959,
       "step": 5000
     },
     {
       "epoch": 0.352699756316532,
-      "grad_norm": 6.341240882873535,
-      "learning_rate": 0.00019812499999999998,
-      "loss": 0.5123,
       "step": 5500
     },
     {
       "epoch": 0.352699756316532,
-      "eval_loss": 0.7228623628616333,
-      "eval_runtime": 191.6536,
-      "eval_samples_per_second": 36.639,
-      "eval_steps_per_second": 0.574,
-      "eval_wer": 0.531737067991868,
       "step": 5500
     },
     {
       "epoch": 0.38476337052712584,
-      "grad_norm": 6.53903341293335,
-      "learning_rate": 0.00018772916666666666,
-      "loss": 0.4884,
       "step": 6000
     },
     {
       "epoch": 0.38476337052712584,
-      "eval_loss": 0.72346431016922,
-      "eval_runtime": 191.4082,
-      "eval_samples_per_second": 36.686,
-      "eval_steps_per_second": 0.575,
-      "eval_wer": 0.5164830784358017,
       "step": 6000
     },
     {
       "epoch": 0.4168269847377196,
-      "grad_norm": 10.402660369873047,
-      "learning_rate": 0.00017731249999999998,
-      "loss": 0.4658,
       "step": 6500
     },
     {
       "epoch": 0.4168269847377196,
-      "eval_loss": 0.681357204914093,
-      "eval_runtime": 191.0697,
-      "eval_samples_per_second": 36.751,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.5116995973903453,
       "step": 6500
     },
     {
       "epoch": 0.44889059894831346,
-      "grad_norm": 11.663326263427734,
-      "learning_rate": 0.00016691666666666667,
-      "loss": 0.4471,
       "step": 7000
     },
     {
       "epoch": 0.44889059894831346,
-      "eval_loss": 0.662290632724762,
-      "eval_runtime": 191.4867,
-      "eval_samples_per_second": 36.671,
-      "eval_steps_per_second": 0.574,
-      "eval_wer": 0.4890577871085186,
       "step": 7000
     },
     {
       "epoch": 0.4809542131589073,
-      "grad_norm": 7.363061428070068,
-      "learning_rate": 0.00015649999999999998,
-      "loss": 0.4338,
       "step": 7500
     },
     {
       "epoch": 0.4809542131589073,
-      "eval_loss": 0.6449915170669556,
-      "eval_runtime": 190.9868,
-      "eval_samples_per_second": 36.767,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.4913830903945043,
       "step": 7500
     },
     {
       "epoch": 0.5130178273695011,
-      "grad_norm": 14.478469848632812,
-      "learning_rate": 0.00014610416666666667,
-      "loss": 0.4267,
       "step": 8000
     },
     {
       "epoch": 0.5130178273695011,
-      "eval_loss": 0.6256160736083984,
-      "eval_runtime": 190.8261,
-      "eval_samples_per_second": 36.798,
-      "eval_steps_per_second": 0.576,
-      "eval_wer": 0.4685419684024502,
       "step": 8000
     },
     {
       "epoch": 0.5450814415800949,
-      "grad_norm": 10.456161499023438,
-      "learning_rate": 0.00013568749999999998,
-      "loss": 0.4283,
       "step": 8500
     },
     {
       "epoch": 0.5450814415800949,
-      "eval_loss": 0.6342806816101074,
-      "eval_runtime": 190.609,
-      "eval_samples_per_second": 36.84,
-      "eval_steps_per_second": 0.577,
-      "eval_wer": 0.4710665833986633,
       "step": 8500
     },
     {
       "epoch": 0.5771450557906888,
-      "grad_norm": 9.847672462463379,
-      "learning_rate": 0.00012527083333333333,
-      "loss": 0.4131,
       "step": 9000
     },
     {
       "epoch": 0.5771450557906888,
-      "eval_loss": 0.5988845229148865,
-      "eval_runtime": 189.2404,
-      "eval_samples_per_second": 37.106,
-      "eval_steps_per_second": 0.581,
-      "eval_wer": 0.4486506597217608,
       "step": 9000
     },
     {
       "epoch": 0.6092086700012825,
-      "grad_norm": 7.610143661499023,
-      "learning_rate": 0.00011485416666666666,
-      "loss": 0.4317,
       "step": 9500
     },
     {
       "epoch": 0.6092086700012825,
-      "eval_loss": 0.7167520523071289,
-      "eval_runtime": 189.8256,
-      "eval_samples_per_second": 36.992,
-      "eval_steps_per_second": 0.579,
-      "eval_wer": 0.4919677380778379,
       "step": 9500
     },
     {
       "epoch": 0.6412722842118763,
-      "grad_norm": NaN,
-      "learning_rate": 0.00010691666666666665,
-      "loss": 0.5904,
       "step": 10000
     },
     {
       "epoch": 0.6412722842118763,
-      "eval_loss": NaN,
-      "eval_runtime": 190.1563,
-      "eval_samples_per_second": 36.928,
-      "eval_steps_per_second": 0.578,
-      "eval_wer": 0.7309956284298224,
       "step": 10000
     },
     {
       "epoch": 0.6733358984224702,
-      "grad_norm": NaN,
-      "learning_rate": 0.000106875,
-      "loss": 0.0513,
       "step": 10500
     },
     {
       "epoch": 0.6733358984224702,
-      "eval_loss": NaN,
-      "eval_runtime": 185.5416,
-      "eval_samples_per_second": 37.846,
-      "eval_steps_per_second": 0.593,
-      "eval_wer": 1.0,
       "step": 10500
     },
     {
       "epoch": 0.705399512633064,
-      "grad_norm": NaN,
-      "learning_rate": 0.000106875,
-      "loss": 0.0,
       "step": 11000
     },
     {
       "epoch": 0.705399512633064,
-      "eval_loss": NaN,
-      "eval_runtime": 185.2695,
-      "eval_samples_per_second": 37.902,
-      "eval_steps_per_second": 0.594,
-      "eval_wer": 1.0,
       "step": 11000
     },
     {
       "epoch": 0.7374631268436578,
-      "grad_norm": NaN,
-      "learning_rate": 0.000106875,
-      "loss": 0.0,
       "step": 11500
     },
     {
       "epoch": 0.7374631268436578,
-      "eval_loss": NaN,
-      "eval_runtime": 185.1794,
-      "eval_samples_per_second": 37.92,
-      "eval_steps_per_second": 0.594,
-      "eval_wer": 1.0,
       "step": 11500
     },
     {
       "epoch": 0.7695267410542517,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
-      "loss": 0.0,
       "step": 12000
     },
     {
       "epoch": 0.7695267410542517,
       "eval_loss": NaN,
-      "eval_runtime": 184.8489,
-      "eval_samples_per_second": 37.988,
       "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 12000
@@ -395,15 +395,15 @@
     {
       "epoch": 0.8015903552648455,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 12500
     },
     {
       "epoch": 0.8015903552648455,
       "eval_loss": NaN,
-      "eval_runtime": 184.8249,
-      "eval_samples_per_second": 37.993,
       "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 12500
@@ -411,80 +411,80 @@
     {
       "epoch": 0.8336539694754392,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 13000
     },
     {
       "epoch": 0.8336539694754392,
       "eval_loss": NaN,
-      "eval_runtime": 185.2964,
-      "eval_samples_per_second": 37.896,
-      "eval_steps_per_second": 0.594,
       "eval_wer": 1.0,
       "step": 13000
     },
     {
       "epoch": 0.8657175836860331,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 13500
     },
     {
       "epoch": 0.8657175836860331,
       "eval_loss": NaN,
-      "eval_runtime": 184.7613,
-      "eval_samples_per_second": 38.006,
-      "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 13500
     },
     {
       "epoch": 0.8977811978966269,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 14000
     },
     {
       "epoch": 0.8977811978966269,
       "eval_loss": NaN,
-      "eval_runtime": 184.7837,
-      "eval_samples_per_second": 38.001,
-      "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 14000
     },
     {
       "epoch": 0.9298448121072207,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 14500
     },
     {
       "epoch": 0.9298448121072207,
       "eval_loss": NaN,
-      "eval_runtime": 184.6054,
-      "eval_samples_per_second": 38.038,
-      "eval_steps_per_second": 0.596,
       "eval_wer": 1.0,
       "step": 14500
     },
     {
       "epoch": 0.9619084263178146,
       "grad_norm": NaN,
-      "learning_rate": 0.000106875,
       "loss": 0.0,
       "step": 15000
     },
     {
       "epoch": 0.9619084263178146,
       "eval_loss": NaN,
-      "eval_runtime": 184.8182,
-      "eval_samples_per_second": 37.994,
-      "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 15000
     },
@@ -492,10 +492,10 @@
       "epoch": 0.9619084263178146,
       "step": 15000,
       "total_flos": 1.7109669148845115e+19,
-      "train_loss": 0.5128920831044514,
-      "train_runtime": 11433.8652,
-      "train_samples_per_second": 10.495,
-      "train_steps_per_second": 1.312
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 0.03206361421059382,
+      "grad_norm": 4.760500431060791,
+      "learning_rate": 9.859999999999998e-05,
+      "loss": 5.7778,
       "step": 500
     },
     {
       "epoch": 0.03206361421059382,
+      "eval_loss": 2.885216236114502,
+      "eval_runtime": 184.1165,
+      "eval_samples_per_second": 38.139,
+      "eval_steps_per_second": 0.597,
+      "eval_wer": 1.0,
       "step": 500
     },
     {
       "epoch": 0.06412722842118763,
+      "grad_norm": 5.567607402801514,
+      "learning_rate": 0.0001986,
+      "loss": 1.4914,
       "step": 1000
     },
     {
       "epoch": 0.06412722842118763,
+      "eval_loss": 1.2011666297912598,
+      "eval_runtime": 186.6136,
+      "eval_samples_per_second": 37.629,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 0.7805710944870381,
       "step": 1000
     },
     {
       "epoch": 0.09619084263178146,
+      "grad_norm": 5.768416881561279,
+      "learning_rate": 0.00029859999999999994,
+      "loss": 0.8803,
       "step": 1500
     },
     {
       "epoch": 0.09619084263178146,
+      "eval_loss": 1.1211999654769897,
+      "eval_runtime": 186.8607,
+      "eval_samples_per_second": 37.579,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 0.7589657050983936,
       "step": 1500
     },
     {
       "epoch": 0.12825445684237527,
+      "grad_norm": 9.690132141113281,
+      "learning_rate": 0.00028904444444444443,
+      "loss": 0.7723,
       "step": 2000
     },
     {
       "epoch": 0.12825445684237527,
+      "eval_loss": 0.9680694937705994,
+      "eval_runtime": 188.1934,
+      "eval_samples_per_second": 37.313,
+      "eval_steps_per_second": 0.585,
+      "eval_wer": 0.6770220173002565,
       "step": 2000
     },
     {
       "epoch": 0.16031807105296908,
+      "grad_norm": 5.588994979858398,
+      "learning_rate": 0.0002779333333333333,
+      "loss": 0.6988,
       "step": 2500
     },
     {
       "epoch": 0.16031807105296908,
+      "eval_loss": 0.9452723860740662,
+      "eval_runtime": 187.5323,
+      "eval_samples_per_second": 37.444,
+      "eval_steps_per_second": 0.587,
+      "eval_wer": 0.6598812102207045,
       "step": 2500
     },
     {
       "epoch": 0.19238168526356292,
+      "grad_norm": 5.276751518249512,
+      "learning_rate": 0.0002668222222222222,
+      "loss": 0.6392,
       "step": 3000
     },
     {
       "epoch": 0.19238168526356292,
+      "eval_loss": 0.8690649271011353,
+      "eval_runtime": 187.6799,
+      "eval_samples_per_second": 37.415,
+      "eval_steps_per_second": 0.586,
+      "eval_wer": 0.6200055807278864,
       "step": 3000
     },
     {
       "epoch": 0.22444529947415673,
+      "grad_norm": 6.366265296936035,
+      "learning_rate": 0.0002557111111111111,
+      "loss": 0.6114,
       "step": 3500
     },
     {
       "epoch": 0.22444529947415673,
+      "eval_loss": 0.8661066293716431,
+      "eval_runtime": 188.4956,
+      "eval_samples_per_second": 37.253,
+      "eval_steps_per_second": 0.584,
+      "eval_wer": 0.619155184097583,
       "step": 3500
     },
     {
       "epoch": 0.25650891368475054,
+      "grad_norm": 11.82204818725586,
+      "learning_rate": 0.0002446222222222222,
+      "loss": 0.5807,
       "step": 4000
     },
     {
       "epoch": 0.25650891368475054,
+      "eval_loss": 0.7884626984596252,
+      "eval_runtime": 188.2678,
+      "eval_samples_per_second": 37.298,
+      "eval_steps_per_second": 0.584,
+      "eval_wer": 0.5793592792888558,
       "step": 4000
     },
     {
       "epoch": 0.2885725278953444,
+      "grad_norm": 14.343709945678711,
+      "learning_rate": 0.00023355555555555553,
+      "loss": 0.5534,
       "step": 4500
     },
     {
       "epoch": 0.2885725278953444,
+      "eval_loss": 0.7738627791404724,
+      "eval_runtime": 188.8344,
+      "eval_samples_per_second": 37.186,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.549037324439602,
       "step": 4500
     },
     {
       "epoch": 0.32063614210593816,
+      "grad_norm": 8.92720890045166,
+      "learning_rate": 0.00022244444444444444,
+      "loss": 0.5358,
       "step": 5000
     },
     {
       "epoch": 0.32063614210593816,
+      "eval_loss": 0.7416187524795532,
+      "eval_runtime": 189.1576,
+      "eval_samples_per_second": 37.122,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.5414767668983111,
       "step": 5000
     },
     {
       "epoch": 0.352699756316532,
+      "grad_norm": 7.230262279510498,
+      "learning_rate": 0.0002113333333333333,
+      "loss": 0.5189,
       "step": 5500
     },
     {
       "epoch": 0.352699756316532,
+      "eval_loss": 0.7361556887626648,
+      "eval_runtime": 188.5731,
+      "eval_samples_per_second": 37.238,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.5303285985729281,
       "step": 5500
     },
     {
       "epoch": 0.38476337052712584,
+      "grad_norm": 7.765280246734619,
+      "learning_rate": 0.0002002444444444444,
+      "loss": 0.4991,
       "step": 6000
     },
     {
       "epoch": 0.38476337052712584,
+      "eval_loss": 0.7187824845314026,
+      "eval_runtime": 188.8496,
+      "eval_samples_per_second": 37.183,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.5065839301611768,
       "step": 6000
     },
     {
       "epoch": 0.4168269847377196,
+      "grad_norm": 5.903895854949951,
+      "learning_rate": 0.00018913333333333331,
+      "loss": 0.48,
       "step": 6500
     },
     {
       "epoch": 0.4168269847377196,
+      "eval_loss": 0.6984608173370361,
+      "eval_runtime": 189.9958,
+      "eval_samples_per_second": 36.959,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.5177719608286052,
       "step": 6500
     },
     {
       "epoch": 0.44889059894831346,
+      "grad_norm": 3.641240358352661,
+      "learning_rate": 0.00017804444444444444,
+      "loss": 0.463,
       "step": 7000
     },
     {
       "epoch": 0.44889059894831346,
+      "eval_loss": 0.6681538820266724,
+      "eval_runtime": 189.2879,
+      "eval_samples_per_second": 37.097,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.49330977026003536,
       "step": 7000
     },
     {
       "epoch": 0.4809542131589073,
+      "grad_norm": 6.733245849609375,
+      "learning_rate": 0.00016693333333333332,
+      "loss": 0.4477,
       "step": 7500
     },
     {
       "epoch": 0.4809542131589073,
+      "eval_loss": 0.6624513268470764,
+      "eval_runtime": 189.8301,
+      "eval_samples_per_second": 36.991,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.48671919637518435,
       "step": 7500
     },
     {
       "epoch": 0.5130178273695011,
+      "grad_norm": 7.44530725479126,
+      "learning_rate": 0.00015584444444444442,
+      "loss": 0.4431,
       "step": 8000
     },
     {
       "epoch": 0.5130178273695011,
+      "eval_loss": 0.6373856663703918,
+      "eval_runtime": 189.4419,
+      "eval_samples_per_second": 37.067,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.47356462350017936,
       "step": 8000
     },
     {
       "epoch": 0.5450814415800949,
+      "grad_norm": 3.664278745651245,
+      "learning_rate": 0.00014473333333333332,
+      "loss": 0.4392,
       "step": 8500
     },
     {
       "epoch": 0.5450814415800949,
+      "eval_loss": 0.6391619443893433,
+      "eval_runtime": 189.4208,
+      "eval_samples_per_second": 37.071,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.4772452464157111,
       "step": 8500
     },
     {
       "epoch": 0.5771450557906888,
+      "grad_norm": 11.637319564819336,
+      "learning_rate": 0.00013362222222222222,
+      "loss": 0.4197,
       "step": 9000
     },
     {
       "epoch": 0.5771450557906888,
+      "eval_loss": 0.6158761978149414,
+      "eval_runtime": 188.8242,
+      "eval_samples_per_second": 37.188,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.45473631060736924,
       "step": 9000
     },
     {
       "epoch": 0.6092086700012825,
+      "grad_norm": 7.102973461151123,
+      "learning_rate": 0.0001225111111111111,
+      "loss": 0.4147,
       "step": 9500
     },
     {
       "epoch": 0.6092086700012825,
+      "eval_loss": 0.5994922518730164,
+      "eval_runtime": 188.4237,
+      "eval_samples_per_second": 37.267,
+      "eval_steps_per_second": 0.584,
+      "eval_wer": 0.45217183326911065,
       "step": 9500
     },
     {
       "epoch": 0.6412722842118763,
+      "grad_norm": 6.166309833526611,
+      "learning_rate": 0.0001114,
+      "loss": 0.3912,
       "step": 10000
     },
     {
       "epoch": 0.6412722842118763,
+      "eval_loss": 0.5847700834274292,
+      "eval_runtime": 188.8879,
+      "eval_samples_per_second": 37.175,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.4285866142255411,
       "step": 10000
     },
     {
       "epoch": 0.6733358984224702,
+      "grad_norm": 8.538312911987305,
+      "learning_rate": 0.00010028888888888889,
+      "loss": 0.3742,
       "step": 10500
     },
     {
       "epoch": 0.6733358984224702,
+      "eval_loss": 0.585001528263092,
+      "eval_runtime": 189.3338,
+      "eval_samples_per_second": 37.088,
+      "eval_steps_per_second": 0.581,
+      "eval_wer": 0.4259025498611462,
       "step": 10500
     },
     {
       "epoch": 0.705399512633064,
+      "grad_norm": 16.837343215942383,
+      "learning_rate": 8.917777777777777e-05,
+      "loss": 0.402,
       "step": 11000
     },
     {
       "epoch": 0.705399512633064,
+      "eval_loss": 0.6351918578147888,
+      "eval_runtime": 188.7345,
+      "eval_samples_per_second": 37.206,
+      "eval_steps_per_second": 0.583,
+      "eval_wer": 0.44894298356342766,
       "step": 11000
     },
     {
       "epoch": 0.7374631268436578,
+      "grad_norm": 4.569055557250977,
+      "learning_rate": 7.806666666666666e-05,
+      "loss": 0.5746,
       "step": 11500
     },
     {
       "epoch": 0.7374631268436578,
+      "eval_loss": 0.7711716294288635,
+      "eval_runtime": 188.4281,
+      "eval_samples_per_second": 37.266,
+      "eval_steps_per_second": 0.584,
+      "eval_wer": 0.5170810135664837,
       "step": 11500
     },
     {
       "epoch": 0.7695267410542517,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
+      "loss": 0.5783,
       "step": 12000
     },
     {
       "epoch": 0.7695267410542517,
       "eval_loss": NaN,
+      "eval_runtime": 184.9484,
+      "eval_samples_per_second": 37.967,
       "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 12000
     {
       "epoch": 0.8015903552648455,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 12500
     },
     {
       "epoch": 0.8015903552648455,
       "eval_loss": NaN,
+      "eval_runtime": 184.8998,
+      "eval_samples_per_second": 37.977,
       "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 12500
     {
       "epoch": 0.8336539694754392,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 13000
     },
     {
       "epoch": 0.8336539694754392,
       "eval_loss": NaN,
+      "eval_runtime": 184.8775,
+      "eval_samples_per_second": 37.982,
+      "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 13000
     },
     {
       "epoch": 0.8657175836860331,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 13500
     },
     {
       "epoch": 0.8657175836860331,
       "eval_loss": NaN,
+      "eval_runtime": 185.2742,
+      "eval_samples_per_second": 37.901,
+      "eval_steps_per_second": 0.594,
       "eval_wer": 1.0,
       "step": 13500
     },
     {
       "epoch": 0.8977811978966269,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 14000
     },
     {
       "epoch": 0.8977811978966269,
       "eval_loss": NaN,
+      "eval_runtime": 185.0536,
+      "eval_samples_per_second": 37.946,
+      "eval_steps_per_second": 0.594,
       "eval_wer": 1.0,
       "step": 14000
     },
     {
       "epoch": 0.9298448121072207,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 14500
     },
     {
       "epoch": 0.9298448121072207,
       "eval_loss": NaN,
+      "eval_runtime": 184.7301,
+      "eval_samples_per_second": 38.012,
+      "eval_steps_per_second": 0.595,
       "eval_wer": 1.0,
       "step": 14500
     },
     {
       "epoch": 0.9619084263178146,
       "grad_norm": NaN,
+      "learning_rate": 7.275555555555556e-05,
       "loss": 0.0,
       "step": 15000
     },
     {
       "epoch": 0.9619084263178146,
       "eval_loss": NaN,
+      "eval_runtime": 185.3079,
+      "eval_samples_per_second": 37.894,
+      "eval_steps_per_second": 0.594,
       "eval_wer": 1.0,
       "step": 15000
     },
       "epoch": 0.9619084263178146,
       "step": 15000,
       "total_flos": 1.7109669148845115e+19,
+      "train_loss": 0.6328924499511719,
+      "train_runtime": 11517.021,
+      "train_samples_per_second": 10.419,
+      "train_steps_per_second": 1.302
     }
   ],
   "logging_steps": 500,