End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +10 -10
eval_results.json +5 -5
runs/Aug16_11-07-52_a142c9bbb9ba/events.out.tfevents.1723813892.a142c9bbb9ba.3157.1 +3 -0
train_results.json +6 -6
trainer_state.json +210 -446

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
 - Wer: 0.3264

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- DewiBrynJones/banc-trawsgrifiadau-bangor-clean-with-ccv
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the DEWIBRYNJONES/BANC-TRAWSGRIFIADAU-BANGOR-CLEAN-WITH-CCV - DEFAULT dataset.
 It achieves the following results on the evaluation set:
 - Loss: inf
 - Wer: 0.3264

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 7.722007722007722,
     "eval_loss": Infinity,
-    "eval_runtime": 195.5606,
     "eval_samples": 7022,
-    "eval_samples_per_second": 35.907,
-    "eval_steps_per_second": 4.49,
-    "eval_wer": 0.9913261397426408,
-    "total_flos": 4.216639119976582e+19,
-    "train_loss": 2.028042752075195,
-    "train_runtime": 21383.256,
     "train_samples": 41435,
-    "train_samples_per_second": 14.965,
-    "train_steps_per_second": 0.468
 }

 {
+    "epoch": 2.3166023166023164,
     "eval_loss": Infinity,
+    "eval_runtime": 194.093,
     "eval_samples": 7022,
+    "eval_samples_per_second": 36.179,
+    "eval_steps_per_second": 0.567,
+    "eval_wer": 0.3263604845935102,
+    "total_flos": 1.2607274134194512e+19,
+    "train_loss": 0.8722912038167318,
+    "train_runtime": 9671.7075,
     "train_samples": 41435,
+    "train_samples_per_second": 9.926,
+    "train_steps_per_second": 0.62
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.722007722007722,
     "eval_loss": Infinity,
-    "eval_runtime": 195.5606,
     "eval_samples": 7022,
-    "eval_samples_per_second": 35.907,
-    "eval_steps_per_second": 4.49,
-    "eval_wer": 0.9913261397426408
 }

 {
+    "epoch": 2.3166023166023164,
     "eval_loss": Infinity,
+    "eval_runtime": 194.093,
     "eval_samples": 7022,
+    "eval_samples_per_second": 36.179,
+    "eval_steps_per_second": 0.567,
+    "eval_wer": 0.3263604845935102
 }

runs/Aug16_11-07-52_a142c9bbb9ba/events.out.tfevents.1723813892.a142c9bbb9ba.3157.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9c5c7f97526d1aeefc4f1d1676844ef4f934ddd7534642bc615c47352742675
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.722007722007722,
-    "total_flos": 4.216639119976582e+19,
-    "train_loss": 2.028042752075195,
-    "train_runtime": 21383.256,
     "train_samples": 41435,
-    "train_samples_per_second": 14.965,
-    "train_steps_per_second": 0.468
 }

 {
+    "epoch": 2.3166023166023164,
+    "total_flos": 1.2607274134194512e+19,
+    "train_loss": 0.8722912038167318,
+    "train_runtime": 9671.7075,
     "train_samples": 41435,
+    "train_samples_per_second": 9.926,
+    "train_steps_per_second": 0.62
 }

trainer_state.json CHANGED Viewed

@@ -1,617 +1,381 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.722007722007722,
   "eval_steps": 200,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.15444015444015444,
       "eval_loss": Infinity,
-      "eval_runtime": 214.0401,
-      "eval_samples_per_second": 32.807,
-      "eval_steps_per_second": 4.102,
       "eval_wer": 1.0,
       "step": 200
     },
     {
-      "epoch": 0.3088803088803089,
       "eval_loss": Infinity,
-      "eval_runtime": 192.4639,
-      "eval_samples_per_second": 36.485,
-      "eval_steps_per_second": 4.562,
-      "eval_wer": 0.8748003583810525,
       "step": 400
     },
     {
-      "epoch": 0.3861003861003861,
-      "grad_norm": 3.6337695121765137,
-      "learning_rate": 0.00029699999999999996,
-      "loss": 3.7622,
       "step": 500
     },
     {
-      "epoch": 0.46332046332046334,
       "eval_loss": Infinity,
-      "eval_runtime": 193.7023,
-      "eval_samples_per_second": 36.251,
-      "eval_steps_per_second": 4.533,
-      "eval_wer": 0.6793917909963253,
       "step": 600
     },
     {
-      "epoch": 0.6177606177606177,
       "eval_loss": Infinity,
-      "eval_runtime": 193.7574,
-      "eval_samples_per_second": 36.241,
-      "eval_steps_per_second": 4.531,
-      "eval_wer": 0.5749289081064236,
       "step": 800
     },
     {
-      "epoch": 0.7722007722007722,
-      "grad_norm": 2.0483286380767822,
-      "learning_rate": 0.00028443157894736843,
-      "loss": 0.8615,
       "step": 1000
     },
     {
-      "epoch": 0.7722007722007722,
       "eval_loss": Infinity,
-      "eval_runtime": 193.3223,
-      "eval_samples_per_second": 36.323,
-      "eval_steps_per_second": 4.542,
-      "eval_wer": 0.5193149208575175,
       "step": 1000
     },
     {
-      "epoch": 0.9266409266409267,
       "eval_loss": Infinity,
-      "eval_runtime": 193.499,
-      "eval_samples_per_second": 36.29,
-      "eval_steps_per_second": 4.537,
-      "eval_wer": 0.5194317842442185,
       "step": 1200
     },
     {
-      "epoch": 1.0810810810810811,
       "eval_loss": Infinity,
-      "eval_runtime": 194.7994,
-      "eval_samples_per_second": 36.047,
-      "eval_steps_per_second": 4.507,
-      "eval_wer": 0.4780491605313389,
       "step": 1400
     },
     {
-      "epoch": 1.1583011583011582,
-      "grad_norm": 0.5093265175819397,
-      "learning_rate": 0.00026864210526315787,
-      "loss": 0.6742,
       "step": 1500
     },
     {
-      "epoch": 1.2355212355212355,
       "eval_loss": Infinity,
-      "eval_runtime": 193.9458,
-      "eval_samples_per_second": 36.206,
-      "eval_steps_per_second": 4.527,
-      "eval_wer": 0.4446911560385909,
       "step": 1600
     },
     {
-      "epoch": 1.3899613899613898,
       "eval_loss": Infinity,
-      "eval_runtime": 194.4956,
-      "eval_samples_per_second": 36.104,
-      "eval_steps_per_second": 4.514,
-      "eval_wer": 0.42839520600418113,
       "step": 1800
     },
     {
-      "epoch": 1.5444015444015444,
-      "grad_norm": 0.8163366317749023,
-      "learning_rate": 0.00025288421052631577,
-      "loss": 0.5813,
       "step": 2000
     },
     {
-      "epoch": 1.5444015444015444,
       "eval_loss": Infinity,
-      "eval_runtime": 196.3165,
-      "eval_samples_per_second": 35.769,
-      "eval_steps_per_second": 4.472,
-      "eval_wer": 0.4189552413228935,
       "step": 2000
     },
     {
-      "epoch": 1.698841698841699,
       "eval_loss": Infinity,
-      "eval_runtime": 194.273,
-      "eval_samples_per_second": 36.145,
-      "eval_steps_per_second": 4.519,
-      "eval_wer": 0.4159687325516471,
       "step": 2200
     },
     {
-      "epoch": 1.8532818532818531,
       "eval_loss": Infinity,
-      "eval_runtime": 194.413,
-      "eval_samples_per_second": 36.119,
-      "eval_steps_per_second": 4.516,
-      "eval_wer": 0.41259267915806425,
       "step": 2400
     },
     {
-      "epoch": 1.9305019305019306,
-      "grad_norm": 0.7404251098632812,
-      "learning_rate": 0.00023718947368421052,
-      "loss": 0.568,
       "step": 2500
     },
     {
-      "epoch": 2.0077220077220077,
       "eval_loss": Infinity,
-      "eval_runtime": 194.5283,
-      "eval_samples_per_second": 36.098,
-      "eval_steps_per_second": 4.513,
-      "eval_wer": 0.3879085349226754,
       "step": 2600
     },
     {
-      "epoch": 2.1621621621621623,
       "eval_loss": Infinity,
-      "eval_runtime": 194.5649,
-      "eval_samples_per_second": 36.091,
-      "eval_steps_per_second": 4.513,
-      "eval_wer": 0.3813382156259333,
       "step": 2800
     },
     {
-      "epoch": 2.3166023166023164,
-      "grad_norm": 0.8203113079071045,
-      "learning_rate": 0.0002214315789473684,
-      "loss": 0.4909,
       "step": 3000
     },
     {
-      "epoch": 2.3166023166023164,
       "eval_loss": Infinity,
-      "eval_runtime": 195.9563,
-      "eval_samples_per_second": 35.835,
-      "eval_steps_per_second": 4.481,
-      "eval_wer": 0.38915507771415214,
       "step": 3000
     },
     {
-      "epoch": 2.471042471042471,
       "eval_loss": Infinity,
-      "eval_runtime": 195.0882,
-      "eval_samples_per_second": 35.994,
-      "eval_steps_per_second": 4.501,
-      "eval_wer": 0.4131899809123135,
       "step": 3200
     },
     {
-      "epoch": 2.6254826254826256,
       "eval_loss": Infinity,
-      "eval_runtime": 195.2925,
-      "eval_samples_per_second": 35.956,
-      "eval_steps_per_second": 4.496,
-      "eval_wer": 0.5341825406100269,
       "step": 3400
     },
     {
-      "epoch": 2.7027027027027026,
-      "grad_norm": 13.376907348632812,
-      "learning_rate": 0.0002057052631578947,
-      "loss": 0.5703,
       "step": 3500
     },
     {
-      "epoch": 2.7799227799227797,
       "eval_loss": Infinity,
-      "eval_runtime": 196.3521,
-      "eval_samples_per_second": 35.762,
-      "eval_steps_per_second": 4.472,
-      "eval_wer": 0.5748769688234454,
       "step": 3600
     },
     {
-      "epoch": 2.9343629343629343,
       "eval_loss": Infinity,
-      "eval_runtime": 195.7385,
-      "eval_samples_per_second": 35.874,
-      "eval_steps_per_second": 4.486,
-      "eval_wer": 0.7368366379702128,
       "step": 3800
     },
     {
-      "epoch": 3.088803088803089,
-      "grad_norm": 6.712296485900879,
-      "learning_rate": 0.00018994736842105263,
-      "loss": 1.1938,
       "step": 4000
     },
     {
-      "epoch": 3.088803088803089,
       "eval_loss": Infinity,
-      "eval_runtime": 195.4685,
-      "eval_samples_per_second": 35.924,
-      "eval_steps_per_second": 4.492,
-      "eval_wer": 0.83566410865698,
       "step": 4000
     },
     {
-      "epoch": 3.2432432432432434,
       "eval_loss": Infinity,
-      "eval_runtime": 196.3276,
-      "eval_samples_per_second": 35.767,
-      "eval_steps_per_second": 4.472,
-      "eval_wer": 0.81303156609923,
       "step": 4200
     },
     {
-      "epoch": 3.3976833976833976,
       "eval_loss": Infinity,
-      "eval_runtime": 196.3772,
-      "eval_samples_per_second": 35.758,
-      "eval_steps_per_second": 4.471,
-      "eval_wer": 0.6570319296742109,
       "step": 4400
     },
     {
-      "epoch": 3.474903474903475,
-      "grad_norm": 1.9403835535049438,
-      "learning_rate": 0.0001741894736842105,
-      "loss": 1.1654,
       "step": 4500
     },
     {
-      "epoch": 3.552123552123552,
       "eval_loss": Infinity,
-      "eval_runtime": 195.2624,
-      "eval_samples_per_second": 35.962,
-      "eval_steps_per_second": 4.497,
-      "eval_wer": 0.5719294145144326,
       "step": 4600
     },
     {
-      "epoch": 3.7065637065637067,
       "eval_loss": Infinity,
-      "eval_runtime": 195.7006,
-      "eval_samples_per_second": 35.881,
-      "eval_steps_per_second": 4.486,
-      "eval_wer": 0.6034176048199654,
       "step": 4800
     },
     {
-      "epoch": 3.861003861003861,
-      "grad_norm": 5.047078609466553,
-      "learning_rate": 0.0001584315789473684,
-      "loss": 1.0408,
       "step": 5000
     },
     {
-      "epoch": 3.861003861003861,
       "eval_loss": Infinity,
-      "eval_runtime": 196.2029,
-      "eval_samples_per_second": 35.789,
-      "eval_steps_per_second": 4.475,
-      "eval_wer": 0.6953371508706322,
       "step": 5000
     },
     {
-      "epoch": 4.015444015444015,
       "eval_loss": Infinity,
-      "eval_runtime": 196.4203,
-      "eval_samples_per_second": 35.75,
-      "eval_steps_per_second": 4.47,
-      "eval_wer": 0.998039292067573,
       "step": 5200
     },
     {
-      "epoch": 4.1698841698841695,
       "eval_loss": Infinity,
-      "eval_runtime": 197.5397,
-      "eval_samples_per_second": 35.547,
-      "eval_steps_per_second": 4.445,
-      "eval_wer": 0.9477101268616986,
       "step": 5400
     },
     {
-      "epoch": 4.2471042471042475,
-      "grad_norm": 0.5360209941864014,
-      "learning_rate": 0.00014270526315789472,
-      "loss": 1.7263,
       "step": 5500
     },
     {
-      "epoch": 4.324324324324325,
       "eval_loss": Infinity,
-      "eval_runtime": 196.1748,
-      "eval_samples_per_second": 35.795,
-      "eval_steps_per_second": 4.476,
-      "eval_wer": 0.9963123109085479,
       "step": 5600
     },
     {
-      "epoch": 4.478764478764479,
       "eval_loss": Infinity,
-      "eval_runtime": 197.0555,
-      "eval_samples_per_second": 35.635,
-      "eval_steps_per_second": 4.456,
-      "eval_wer": 0.9998311973303209,
       "step": 5800
     },
     {
-      "epoch": 4.633204633204633,
-      "grad_norm": 0.9715490341186523,
-      "learning_rate": 0.0001269157894736842,
-      "loss": 2.8212,
       "step": 6000
     },
     {
-      "epoch": 4.633204633204633,
       "eval_loss": Infinity,
-      "eval_runtime": 195.6507,
-      "eval_samples_per_second": 35.89,
-      "eval_steps_per_second": 4.488,
-      "eval_wer": 0.9975848233415138,
       "step": 6000
     },
     {
-      "epoch": 4.787644787644788,
-      "eval_loss": Infinity,
-      "eval_runtime": 194.5522,
-      "eval_samples_per_second": 36.093,
-      "eval_steps_per_second": 4.513,
-      "eval_wer": 0.9958578421824886,
-      "step": 6200
-    },
-    {
-      "epoch": 4.942084942084942,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.551,
-      "eval_samples_per_second": 35.909,
-      "eval_steps_per_second": 4.49,
-      "eval_wer": 0.9917416540064664,
-      "step": 6400
-    },
-    {
-      "epoch": 5.019305019305019,
-      "grad_norm": 1.0234254598617554,
-      "learning_rate": 0.00011125263157894737,
-      "loss": 2.7652,
-      "step": 6500
-    },
-    {
-      "epoch": 5.096525096525096,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.4433,
-      "eval_samples_per_second": 35.746,
-      "eval_steps_per_second": 4.469,
-      "eval_wer": 0.9897290067910612,
-      "step": 6600
-    },
-    {
-      "epoch": 5.250965250965251,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.3652,
-      "eval_samples_per_second": 35.943,
-      "eval_steps_per_second": 4.494,
-      "eval_wer": 0.9902094451586095,
-      "step": 6800
-    },
-    {
-      "epoch": 5.405405405405405,
-      "grad_norm": 0.9109746217727661,
-      "learning_rate": 9.549473684210525e-05,
-      "loss": 2.7358,
-      "step": 7000
-    },
-    {
-      "epoch": 5.405405405405405,
-      "eval_loss": Infinity,
-      "eval_runtime": 194.6043,
-      "eval_samples_per_second": 36.083,
-      "eval_steps_per_second": 4.512,
-      "eval_wer": 0.9889499175463883,
-      "step": 7000
-    },
-    {
-      "epoch": 5.559845559845559,
-      "eval_loss": Infinity,
-      "eval_runtime": 193.7693,
-      "eval_samples_per_second": 36.239,
-      "eval_steps_per_second": 4.531,
-      "eval_wer": 0.990456156752756,
-      "step": 7200
-    },
-    {
-      "epoch": 5.714285714285714,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.6666,
-      "eval_samples_per_second": 35.888,
-      "eval_steps_per_second": 4.487,
-      "eval_wer": 0.9887161907729863,
-      "step": 7400
-    },
-    {
-      "epoch": 5.7915057915057915,
-      "grad_norm": 1.3490198850631714,
-      "learning_rate": 7.973684210526315e-05,
-      "loss": 2.7122,
-      "step": 7500
-    },
-    {
-      "epoch": 5.8687258687258685,
-      "eval_loss": Infinity,
-      "eval_runtime": 194.1989,
-      "eval_samples_per_second": 36.159,
-      "eval_steps_per_second": 4.521,
-      "eval_wer": 0.9878202381416125,
-      "step": 7600
-    },
-    {
-      "epoch": 6.023166023166024,
-      "eval_loss": Infinity,
-      "eval_runtime": 194.0207,
-      "eval_samples_per_second": 36.192,
-      "eval_steps_per_second": 4.525,
-      "eval_wer": 0.9847298508044097,
-      "step": 7800
-    },
-    {
-      "epoch": 6.177606177606178,
-      "grad_norm": 2.4652857780456543,
-      "learning_rate": 6.401052631578946e-05,
-      "loss": 2.7345,
-      "step": 8000
-    },
-    {
-      "epoch": 6.177606177606178,
-      "eval_loss": Infinity,
-      "eval_runtime": 193.3926,
-      "eval_samples_per_second": 36.31,
-      "eval_steps_per_second": 4.54,
-      "eval_wer": 0.9842494124368613,
-      "step": 8000
-    },
-    {
-      "epoch": 6.332046332046332,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.2901,
-      "eval_samples_per_second": 35.957,
-      "eval_steps_per_second": 4.496,
-      "eval_wer": 0.9882227675846935,
-      "step": 8200
-    },
-    {
-      "epoch": 6.486486486486487,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.6895,
-      "eval_samples_per_second": 35.883,
-      "eval_steps_per_second": 4.487,
-      "eval_wer": 0.9871580122836404,
-      "step": 8400
-    },
-    {
-      "epoch": 6.563706563706564,
-      "grad_norm": 2.1805906295776367,
-      "learning_rate": 4.828421052631579e-05,
-      "loss": 3.035,
-      "step": 8500
-    },
-    {
-      "epoch": 6.640926640926641,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.9379,
-      "eval_samples_per_second": 35.656,
-      "eval_steps_per_second": 4.458,
-      "eval_wer": 0.9920532897043356,
-      "step": 8600
-    },
-    {
-      "epoch": 6.795366795366795,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.3085,
-      "eval_samples_per_second": 35.77,
-      "eval_steps_per_second": 4.473,
-      "eval_wer": 0.990573020139457,
-      "step": 8800
-    },
-    {
-      "epoch": 6.94980694980695,
-      "grad_norm": 0.7723463177680969,
-      "learning_rate": 3.25578947368421e-05,
-      "loss": 3.688,
-      "step": 9000
-    },
-    {
-      "epoch": 6.94980694980695,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.6042,
-      "eval_samples_per_second": 35.716,
-      "eval_steps_per_second": 4.466,
-      "eval_wer": 0.9915858361575318,
-      "step": 9000
-    },
-    {
-      "epoch": 7.104247104247104,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.2386,
-      "eval_samples_per_second": 35.966,
-      "eval_steps_per_second": 4.497,
-      "eval_wer": 0.990573020139457,
-      "step": 9200
-    },
-    {
-      "epoch": 7.258687258687258,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.3464,
-      "eval_samples_per_second": 35.763,
-      "eval_steps_per_second": 4.472,
-      "eval_wer": 0.9908067469128589,
-      "step": 9400
-    },
-    {
-      "epoch": 7.335907335907336,
-      "grad_norm": 0.0,
-      "learning_rate": 1.6831578947368418e-05,
-      "loss": 3.7017,
-      "step": 9500
-    },
-    {
-      "epoch": 7.413127413127413,
-      "eval_loss": Infinity,
-      "eval_runtime": 196.9124,
-      "eval_samples_per_second": 35.661,
-      "eval_steps_per_second": 4.459,
-      "eval_wer": 0.9911962915351954,
-      "step": 9600
-    },
-    {
-      "epoch": 7.5675675675675675,
-      "eval_loss": Infinity,
-      "eval_runtime": 195.3324,
-      "eval_samples_per_second": 35.949,
-      "eval_steps_per_second": 4.495,
-      "eval_wer": 0.9913001701011518,
-      "step": 9800
-    },
-    {
-      "epoch": 7.722007722007722,
-      "grad_norm": 0.0,
-      "learning_rate": 1.1052631578947367e-06,
-      "loss": 3.7327,
-      "step": 10000
-    },
-    {
-      "epoch": 7.722007722007722,
-      "eval_loss": Infinity,
-      "eval_runtime": 198.1495,
-      "eval_samples_per_second": 35.438,
-      "eval_steps_per_second": 4.431,
-      "eval_wer": 0.9913261397426408,
-      "step": 10000
-    },
-    {
-      "epoch": 7.722007722007722,
-      "step": 10000,
-      "total_flos": 4.216639119976582e+19,
-      "train_loss": 2.028042752075195,
-      "train_runtime": 21383.256,
-      "train_samples_per_second": 14.965,
-      "train_steps_per_second": 0.468
     }
   ],
   "logging_steps": 500,
-  "max_steps": 10000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -625,8 +389,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.216639119976582e+19,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3166023166023164,
   "eval_steps": 200,
+  "global_step": 6000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.07722007722007722,
       "eval_loss": Infinity,
+      "eval_runtime": 223.773,
+      "eval_samples_per_second": 31.38,
+      "eval_steps_per_second": 0.492,
       "eval_wer": 1.0,
       "step": 200
     },
     {
+      "epoch": 0.15444015444015444,
       "eval_loss": Infinity,
+      "eval_runtime": 201.0458,
+      "eval_samples_per_second": 34.927,
+      "eval_steps_per_second": 0.547,
+      "eval_wer": 0.8963291911755158,
       "step": 400
     },
     {
+      "epoch": 0.19305019305019305,
+      "grad_norm": 4.3846588134765625,
+      "learning_rate": 0.00024799999999999996,
+      "loss": 3.9177,
       "step": 500
     },
     {
+      "epoch": 0.23166023166023167,
       "eval_loss": Infinity,
+      "eval_runtime": 194.7647,
+      "eval_samples_per_second": 36.054,
+      "eval_steps_per_second": 0.565,
+      "eval_wer": 0.7594821653487074,
       "step": 600
     },
     {
+      "epoch": 0.3088803088803089,
       "eval_loss": Infinity,
+      "eval_runtime": 194.859,
+      "eval_samples_per_second": 36.036,
+      "eval_steps_per_second": 0.565,
+      "eval_wer": 0.7512108345344293,
       "step": 800
     },
     {
+      "epoch": 0.3861003861003861,
+      "grad_norm": 3.36423921585083,
+      "learning_rate": 0.00027805555555555553,
+      "loss": 0.9791,
       "step": 1000
     },
     {
+      "epoch": 0.3861003861003861,
       "eval_loss": Infinity,
+      "eval_runtime": 195.6019,
+      "eval_samples_per_second": 35.899,
+      "eval_steps_per_second": 0.562,
+      "eval_wer": 0.598444418474803,
       "step": 1000
     },
     {
+      "epoch": 0.46332046332046334,
       "eval_loss": Infinity,
+      "eval_runtime": 197.8836,
+      "eval_samples_per_second": 35.486,
+      "eval_steps_per_second": 0.556,
+      "eval_wer": 0.5867710646254528,
       "step": 1200
     },
     {
+      "epoch": 0.5405405405405406,
       "eval_loss": Infinity,
+      "eval_runtime": 203.8782,
+      "eval_samples_per_second": 34.442,
+      "eval_steps_per_second": 0.54,
+      "eval_wer": 0.5255476348149014,
       "step": 1400
     },
     {
+      "epoch": 0.5791505791505791,
+      "grad_norm": 2.6850786209106445,
+      "learning_rate": 0.0002503333333333333,
+      "loss": 0.805,
       "step": 1500
     },
     {
+      "epoch": 0.6177606177606177,
       "eval_loss": Infinity,
+      "eval_runtime": 199.2388,
+      "eval_samples_per_second": 35.244,
+      "eval_steps_per_second": 0.552,
+      "eval_wer": 0.5281575837845559,
       "step": 1600
     },
     {
+      "epoch": 0.694980694980695,
       "eval_loss": Infinity,
+      "eval_runtime": 194.9574,
+      "eval_samples_per_second": 36.018,
+      "eval_steps_per_second": 0.564,
+      "eval_wer": 0.4768805266643294,
       "step": 1800
     },
     {
+      "epoch": 0.7722007722007722,
+      "grad_norm": 2.9242658615112305,
+      "learning_rate": 0.0002226111111111111,
+      "loss": 0.7184,
       "step": 2000
     },
     {
+      "epoch": 0.7722007722007722,
       "eval_loss": Infinity,
+      "eval_runtime": 198.941,
+      "eval_samples_per_second": 35.297,
+      "eval_steps_per_second": 0.553,
+      "eval_wer": 0.4743095321569086,
       "step": 2000
     },
     {
+      "epoch": 0.8494208494208494,
       "eval_loss": Infinity,
+      "eval_runtime": 207.8762,
+      "eval_samples_per_second": 33.78,
+      "eval_steps_per_second": 0.529,
+      "eval_wer": 0.46802487891654654,
       "step": 2200
     },
     {
+      "epoch": 0.9266409266409267,
       "eval_loss": Infinity,
+      "eval_runtime": 215.534,
+      "eval_samples_per_second": 32.58,
+      "eval_steps_per_second": 0.51,
+      "eval_wer": 0.457026735745913,
       "step": 2400
     },
     {
+      "epoch": 0.9652509652509652,
+      "grad_norm": 3.865280866622925,
+      "learning_rate": 0.00019483333333333332,
+      "loss": 0.6704,
       "step": 2500
     },
     {
+      "epoch": 1.0038610038610039,
       "eval_loss": Infinity,
+      "eval_runtime": 212.4212,
+      "eval_samples_per_second": 33.057,
+      "eval_steps_per_second": 0.518,
+      "eval_wer": 0.4252528793840001,
       "step": 2600
     },
     {
+      "epoch": 1.0810810810810811,
       "eval_loss": Infinity,
+      "eval_runtime": 211.2545,
+      "eval_samples_per_second": 33.24,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.4163972316362173,
       "step": 2800
     },
     {
+      "epoch": 1.1583011583011582,
+      "grad_norm": 0.6646206974983215,
+      "learning_rate": 0.00016716666666666665,
+      "loss": 0.5664,
       "step": 3000
     },
     {
+      "epoch": 1.1583011583011582,
       "eval_loss": Infinity,
+      "eval_runtime": 202.1583,
+      "eval_samples_per_second": 34.735,
+      "eval_steps_per_second": 0.544,
+      "eval_wer": 0.41592977808941345,
       "step": 3000
     },
     {
+      "epoch": 1.2355212355212355,
       "eval_loss": Infinity,
+      "eval_runtime": 198.8952,
+      "eval_samples_per_second": 35.305,
+      "eval_steps_per_second": 0.553,
+      "eval_wer": 0.3995039798475582,
       "step": 3200
     },
     {
+      "epoch": 1.3127413127413128,
       "eval_loss": Infinity,
+      "eval_runtime": 197.172,
+      "eval_samples_per_second": 35.614,
+      "eval_steps_per_second": 0.558,
+      "eval_wer": 0.3940633399555919,
       "step": 3400
     },
     {
+      "epoch": 1.3513513513513513,
+      "grad_norm": 1.06748366355896,
+      "learning_rate": 0.00013944444444444442,
+      "loss": 0.5359,
       "step": 3500
     },
     {
+      "epoch": 1.3899613899613898,
       "eval_loss": Infinity,
+      "eval_runtime": 194.4658,
+      "eval_samples_per_second": 36.109,
+      "eval_steps_per_second": 0.566,
+      "eval_wer": 0.38185760845571526,
       "step": 3600
     },
     {
+      "epoch": 1.4671814671814671,
       "eval_loss": Infinity,
+      "eval_runtime": 201.7117,
+      "eval_samples_per_second": 34.812,
+      "eval_steps_per_second": 0.545,
+      "eval_wer": 0.3810785192110423,
       "step": 3800
     },
     {
+      "epoch": 1.5444015444015444,
+      "grad_norm": 0.8601678013801575,
+      "learning_rate": 0.00011166666666666667,
+      "loss": 0.5172,
       "step": 4000
     },
     {
+      "epoch": 1.5444015444015444,
       "eval_loss": Infinity,
+      "eval_runtime": 196.5164,
+      "eval_samples_per_second": 35.732,
+      "eval_steps_per_second": 0.56,
+      "eval_wer": 0.36905457520158935,
       "step": 4000
     },
     {
+      "epoch": 1.6216216216216215,
       "eval_loss": Infinity,
+      "eval_runtime": 193.7969,
+      "eval_samples_per_second": 36.234,
+      "eval_steps_per_second": 0.568,
+      "eval_wer": 0.36086115331177854,
       "step": 4200
     },
     {
+      "epoch": 1.698841698841699,
       "eval_loss": Infinity,
+      "eval_runtime": 196.3411,
+      "eval_samples_per_second": 35.764,
+      "eval_steps_per_second": 0.56,
+      "eval_wer": 0.3599652006804046,
       "step": 4400
     },
     {
+      "epoch": 1.7374517374517375,
+      "grad_norm": 0.6527121663093567,
+      "learning_rate": 8.394444444444443e-05,
+      "loss": 0.4817,
       "step": 4500
     },
     {
+      "epoch": 1.776061776061776,
       "eval_loss": Infinity,
+      "eval_runtime": 194.384,
+      "eval_samples_per_second": 36.124,
+      "eval_steps_per_second": 0.566,
+      "eval_wer": 0.35086284133847534,
       "step": 4600
     },
     {
+      "epoch": 1.8532818532818531,
       "eval_loss": Infinity,
+      "eval_runtime": 196.7828,
+      "eval_samples_per_second": 35.684,
+      "eval_steps_per_second": 0.559,
+      "eval_wer": 0.3529663822990924,
       "step": 4800
     },
     {
+      "epoch": 1.9305019305019306,
+      "grad_norm": 0.7631692886352539,
+      "learning_rate": 5.6166666666666665e-05,
+      "loss": 0.4818,
       "step": 5000
     },
     {
+      "epoch": 1.9305019305019306,
       "eval_loss": Infinity,
+      "eval_runtime": 194.6791,
+      "eval_samples_per_second": 36.07,
+      "eval_steps_per_second": 0.565,
+      "eval_wer": 0.34340955423110386,
       "step": 5000
     },
     {
+      "epoch": 2.0077220077220077,
       "eval_loss": Infinity,
+      "eval_runtime": 200.454,
+      "eval_samples_per_second": 35.03,
+      "eval_steps_per_second": 0.549,
+      "eval_wer": 0.336254918000857,
       "step": 5200
     },
     {
+      "epoch": 2.0849420849420848,
       "eval_loss": Infinity,
+      "eval_runtime": 193.7233,
+      "eval_samples_per_second": 36.248,
+      "eval_steps_per_second": 0.568,
+      "eval_wer": 0.33718982509446455,
       "step": 5400
     },
     {
+      "epoch": 2.1235521235521237,
+      "grad_norm": 1.005771279335022,
+      "learning_rate": 2.844444444444444e-05,
+      "loss": 0.4196,
       "step": 5500
     },
     {
+      "epoch": 2.1621621621621623,
       "eval_loss": Infinity,
+      "eval_runtime": 198.8274,
+      "eval_samples_per_second": 35.317,
+      "eval_steps_per_second": 0.553,
+      "eval_wer": 0.3320348512588784,
       "step": 5600
     },
     {
+      "epoch": 2.2393822393822393,
       "eval_loss": Infinity,
+      "eval_runtime": 197.3434,
+      "eval_samples_per_second": 35.583,
+      "eval_steps_per_second": 0.557,
+      "eval_wer": 0.3292690844402893,
       "step": 5800
     },
     {
+      "epoch": 2.3166023166023164,
+      "grad_norm": 1.702697515487671,
+      "learning_rate": 7.222222222222222e-07,
+      "loss": 0.3743,
       "step": 6000
     },
     {
+      "epoch": 2.3166023166023164,
       "eval_loss": Infinity,
+      "eval_runtime": 192.6595,
+      "eval_samples_per_second": 36.448,
+      "eval_steps_per_second": 0.571,
+      "eval_wer": 0.3263604845935102,
       "step": 6000
     },
     {
+      "epoch": 2.3166023166023164,
+      "step": 6000,
+      "total_flos": 1.2607274134194512e+19,
+      "train_loss": 0.8722912038167318,
+      "train_runtime": 9671.7075,
+      "train_samples_per_second": 9.926,
+      "train_steps_per_second": 0.62
     }
   ],
   "logging_steps": 500,
+  "max_steps": 6000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2607274134194512e+19,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }