End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +11 -11
eval_results.json +6 -6
runs/May30_10-39-26_af3b5d38d2a2/events.out.tfevents.1717069998.af3b5d38d2a2.398.1 +3 -0
train_results.json +6 -6
trainer_state.json +120 -432

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4200
 - Wer: 0.3227

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- DewiBrynJones/banc-trawsgrifiadau-bangor-clean-with-ccv
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the DEWIBRYNJONES/BANC-TRAWSGRIFIADAU-BANGOR-CLEAN-WITH-CCV - DEFAULT dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4200
 - Wer: 0.3227

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 7.739938080495356,
-    "eval_loss": 1.6955511569976807,
-    "eval_runtime": 160.3719,
     "eval_samples": 5656,
-    "eval_samples_per_second": 35.268,
-    "eval_steps_per_second": 4.409,
-    "eval_wer": 0.7701529424981143,
-    "total_flos": 4.528229347801944e+19,
-    "train_loss": 1.3220068420410156,
-    "train_runtime": 20543.6538,
     "train_samples": 41326,
-    "train_samples_per_second": 15.577,
-    "train_steps_per_second": 0.243
 }

 {
+    "epoch": 3.0959752321981426,
+    "eval_loss": 0.42000359296798706,
+    "eval_runtime": 155.5667,
     "eval_samples": 5656,
+    "eval_samples_per_second": 36.357,
+    "eval_steps_per_second": 4.545,
+    "eval_wer": 0.3226557108696699,
+    "total_flos": 1.8144283373471887e+19,
+    "train_loss": 1.2569797668457032,
+    "train_runtime": 7798.4407,
     "train_samples": 41326,
+    "train_samples_per_second": 16.414,
+    "train_steps_per_second": 0.256
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.739938080495356,
-    "eval_loss": 1.6955511569976807,
-    "eval_runtime": 160.3719,
     "eval_samples": 5656,
-    "eval_samples_per_second": 35.268,
-    "eval_steps_per_second": 4.409,
-    "eval_wer": 0.7701529424981143
 }

 {
+    "epoch": 3.0959752321981426,
+    "eval_loss": 0.42000359296798706,
+    "eval_runtime": 155.5667,
     "eval_samples": 5656,
+    "eval_samples_per_second": 36.357,
+    "eval_steps_per_second": 4.545,
+    "eval_wer": 0.3226557108696699
 }

runs/May30_10-39-26_af3b5d38d2a2/events.out.tfevents.1717069998.af3b5d38d2a2.398.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faf6cdb9a9752b9a5ce7a92c91c336d2f1c7c687c4872f789aeb796f8efd74a0
+size 406

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 7.739938080495356,
-    "total_flos": 4.528229347801944e+19,
-    "train_loss": 1.3220068420410156,
-    "train_runtime": 20543.6538,
     "train_samples": 41326,
-    "train_samples_per_second": 15.577,
-    "train_steps_per_second": 0.243
 }

 {
+    "epoch": 3.0959752321981426,
+    "total_flos": 1.8144283373471887e+19,
+    "train_loss": 1.2569797668457032,
+    "train_runtime": 7798.4407,
     "train_samples": 41326,
+    "train_samples_per_second": 16.414,
+    "train_steps_per_second": 0.256
 }

trainer_state.json CHANGED Viewed

@@ -1,549 +1,237 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.739938080495356,
   "eval_steps": 100,
-  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15479876160990713,
-      "eval_loss": 3.5586698055267334,
-      "eval_runtime": 163.4718,
-      "eval_samples_per_second": 34.599,
-      "eval_steps_per_second": 4.325,
       "eval_wer": 1.0,
       "step": 100
     },
     {
       "epoch": 0.30959752321981426,
-      "eval_loss": 3.2505505084991455,
-      "eval_runtime": 161.1897,
-      "eval_samples_per_second": 35.089,
-      "eval_steps_per_second": 4.386,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.46439628482972134,
-      "eval_loss": 2.774010181427002,
-      "eval_runtime": 161.9005,
-      "eval_samples_per_second": 34.935,
-      "eval_steps_per_second": 4.367,
       "eval_wer": 0.9999518544077289,
       "step": 300
     },
     {
       "epoch": 0.6191950464396285,
-      "eval_loss": 1.11959707736969,
-      "eval_runtime": 162.1425,
-      "eval_samples_per_second": 34.883,
-      "eval_steps_per_second": 4.36,
-      "eval_wer": 0.7807449727977404,
       "step": 400
     },
     {
       "epoch": 0.7739938080495357,
-      "grad_norm": 2.676631212234497,
       "learning_rate": 0.00029699999999999996,
-      "loss": 3.6484,
       "step": 500
     },
     {
       "epoch": 0.7739938080495357,
-      "eval_loss": 0.9134386777877808,
-      "eval_runtime": 162.7792,
-      "eval_samples_per_second": 34.746,
-      "eval_steps_per_second": 4.343,
-      "eval_wer": 0.6538813371635827,
       "step": 500
     },
     {
       "epoch": 0.9287925696594427,
-      "eval_loss": 0.7674785256385803,
-      "eval_runtime": 162.7057,
-      "eval_samples_per_second": 34.762,
-      "eval_steps_per_second": 4.345,
-      "eval_wer": 0.5923191731796954,
       "step": 600
     },
     {
       "epoch": 1.08359133126935,
-      "eval_loss": 0.7207810282707214,
-      "eval_runtime": 163.9828,
-      "eval_samples_per_second": 34.491,
-      "eval_steps_per_second": 4.311,
-      "eval_wer": 0.5289595737510231,
       "step": 700
     },
     {
       "epoch": 1.238390092879257,
-      "eval_loss": 0.6209472417831421,
-      "eval_runtime": 163.6218,
-      "eval_samples_per_second": 34.568,
-      "eval_steps_per_second": 4.321,
-      "eval_wer": 0.4744748118309769,
       "step": 800
     },
     {
       "epoch": 1.3931888544891642,
-      "eval_loss": 0.6220189332962036,
-      "eval_runtime": 162.6081,
-      "eval_samples_per_second": 34.783,
-      "eval_steps_per_second": 4.348,
-      "eval_wer": 0.47879186660461237,
       "step": 900
     },
     {
       "epoch": 1.5479876160990713,
-      "grad_norm": 0.3950090706348419,
-      "learning_rate": 0.0002672,
-      "loss": 0.6286,
       "step": 1000
     },
     {
       "epoch": 1.5479876160990713,
-      "eval_loss": 0.5738953351974487,
-      "eval_runtime": 162.8483,
-      "eval_samples_per_second": 34.732,
-      "eval_steps_per_second": 4.341,
-      "eval_wer": 0.4588114458121359,
       "step": 1000
     },
     {
       "epoch": 1.7027863777089784,
-      "eval_loss": 0.564153790473938,
-      "eval_runtime": 164.0752,
-      "eval_samples_per_second": 34.472,
-      "eval_steps_per_second": 4.309,
-      "eval_wer": 0.4262008313138932,
       "step": 1100
     },
     {
       "epoch": 1.8575851393188856,
-      "eval_loss": 0.5511888265609741,
-      "eval_runtime": 164.5846,
-      "eval_samples_per_second": 34.365,
-      "eval_steps_per_second": 4.296,
-      "eval_wer": 0.42080852497953813,
       "step": 1200
     },
     {
       "epoch": 2.0123839009287927,
-      "eval_loss": 0.527522623538971,
-      "eval_runtime": 162.1572,
-      "eval_samples_per_second": 34.88,
-      "eval_steps_per_second": 4.36,
-      "eval_wer": 0.38652886328256647,
       "step": 1300
     },
     {
       "epoch": 2.1671826625387,
-      "eval_loss": 0.4955059587955475,
-      "eval_runtime": 160.6015,
-      "eval_samples_per_second": 35.218,
-      "eval_steps_per_second": 4.402,
-      "eval_wer": 0.37545537706023013,
       "step": 1400
     },
     {
       "epoch": 2.321981424148607,
-      "grad_norm": 0.4153783619403839,
-      "learning_rate": 0.00023393333333333332,
-      "loss": 0.4816,
       "step": 1500
     },
     {
       "epoch": 2.321981424148607,
-      "eval_loss": 0.4908938407897949,
-      "eval_runtime": 160.2948,
-      "eval_samples_per_second": 35.285,
-      "eval_steps_per_second": 4.411,
-      "eval_wer": 0.37325672834651985,
       "step": 1500
     },
     {
       "epoch": 2.476780185758514,
-      "eval_loss": 0.4982919991016388,
-      "eval_runtime": 162.1379,
-      "eval_samples_per_second": 34.884,
-      "eval_steps_per_second": 4.36,
-      "eval_wer": 0.37279132095456663,
       "step": 1600
     },
     {
       "epoch": 2.6315789473684212,
-      "eval_loss": 0.48909762501716614,
-      "eval_runtime": 161.7559,
-      "eval_samples_per_second": 34.966,
-      "eval_steps_per_second": 4.371,
-      "eval_wer": 0.36550528799088444,
       "step": 1700
     },
     {
       "epoch": 2.7863777089783284,
-      "eval_loss": 0.47961312532424927,
-      "eval_runtime": 160.2886,
-      "eval_samples_per_second": 35.286,
-      "eval_steps_per_second": 4.411,
-      "eval_wer": 0.3570958578742116,
       "step": 1800
     },
     {
       "epoch": 2.9411764705882355,
-      "eval_loss": 0.46432051062583923,
-      "eval_runtime": 162.1185,
-      "eval_samples_per_second": 34.888,
-      "eval_steps_per_second": 4.361,
-      "eval_wer": 0.3591982154033798,
       "step": 1900
     },
     {
       "epoch": 3.0959752321981426,
-      "grad_norm": 0.8931769728660583,
-      "learning_rate": 0.00020079999999999997,
-      "loss": 0.4017,
       "step": 2000
     },
     {
       "epoch": 3.0959752321981426,
-      "eval_loss": 0.5084750652313232,
-      "eval_runtime": 162.3398,
-      "eval_samples_per_second": 34.841,
-      "eval_steps_per_second": 4.355,
-      "eval_wer": 0.3697902457030059,
       "step": 2000
     },
     {
-      "epoch": 3.2507739938080498,
-      "eval_loss": 0.6755269169807434,
-      "eval_runtime": 163.0508,
-      "eval_samples_per_second": 34.689,
-      "eval_steps_per_second": 4.336,
-      "eval_wer": 0.4530018776780986,
-      "step": 2100
-    },
-    {
-      "epoch": 3.405572755417957,
-      "eval_loss": 0.710012674331665,
-      "eval_runtime": 161.8251,
-      "eval_samples_per_second": 34.951,
-      "eval_steps_per_second": 4.369,
-      "eval_wer": 0.5108247339956027,
-      "step": 2200
-    },
-    {
-      "epoch": 3.560371517027864,
-      "eval_loss": 0.8310704231262207,
-      "eval_runtime": 162.1264,
-      "eval_samples_per_second": 34.886,
-      "eval_steps_per_second": 4.361,
-      "eval_wer": 0.5642984384779574,
-      "step": 2300
-    },
-    {
-      "epoch": 3.715170278637771,
-      "eval_loss": 0.7031980156898499,
-      "eval_runtime": 166.0393,
-      "eval_samples_per_second": 34.064,
-      "eval_steps_per_second": 4.258,
-      "eval_wer": 0.5028807112708832,
-      "step": 2400
-    },
-    {
-      "epoch": 3.8699690402476783,
-      "grad_norm": 4.817399024963379,
-      "learning_rate": 0.00016766666666666666,
-      "loss": 0.6839,
-      "step": 2500
-    },
-    {
-      "epoch": 3.8699690402476783,
-      "eval_loss": 0.7070674896240234,
-      "eval_runtime": 164.0683,
-      "eval_samples_per_second": 34.473,
-      "eval_steps_per_second": 4.309,
-      "eval_wer": 0.5006660140264159,
-      "step": 2500
-    },
-    {
-      "epoch": 4.024767801857585,
-      "eval_loss": 0.8223607540130615,
-      "eval_runtime": 164.3114,
-      "eval_samples_per_second": 34.422,
-      "eval_steps_per_second": 4.303,
-      "eval_wer": 0.5069409895524065,
-      "step": 2600
-    },
-    {
-      "epoch": 4.179566563467493,
-      "eval_loss": 0.8343736529350281,
-      "eval_runtime": 163.8342,
-      "eval_samples_per_second": 34.523,
-      "eval_steps_per_second": 4.315,
-      "eval_wer": 0.5162491373914718,
-      "step": 2700
-    },
-    {
-      "epoch": 4.3343653250774,
-      "eval_loss": 0.9089197516441345,
-      "eval_runtime": 162.2031,
-      "eval_samples_per_second": 34.87,
-      "eval_steps_per_second": 4.359,
-      "eval_wer": 0.5620195471104621,
-      "step": 2800
-    },
-    {
-      "epoch": 4.489164086687307,
-      "eval_loss": 0.9664539098739624,
-      "eval_runtime": 163.3849,
-      "eval_samples_per_second": 34.618,
-      "eval_steps_per_second": 4.327,
-      "eval_wer": 0.5640095649243312,
-      "step": 2900
-    },
-    {
-      "epoch": 4.643962848297214,
-      "grad_norm": 7.185929775238037,
-      "learning_rate": 0.00013446666666666666,
-      "loss": 0.8292,
-      "step": 3000
-    },
-    {
-      "epoch": 4.643962848297214,
-      "eval_loss": 0.9127740859985352,
-      "eval_runtime": 162.7094,
-      "eval_samples_per_second": 34.761,
-      "eval_steps_per_second": 4.345,
-      "eval_wer": 0.5414774277414902,
-      "step": 3000
-    },
-    {
-      "epoch": 4.798761609907121,
-      "eval_loss": 1.1924536228179932,
-      "eval_runtime": 161.8545,
-      "eval_samples_per_second": 34.945,
-      "eval_steps_per_second": 4.368,
-      "eval_wer": 0.5938598321323683,
-      "step": 3100
-    },
-    {
-      "epoch": 4.953560371517028,
-      "eval_loss": 1.4327375888824463,
-      "eval_runtime": 167.5589,
-      "eval_samples_per_second": 33.755,
-      "eval_steps_per_second": 4.219,
-      "eval_wer": 0.6999406204361991,
-      "step": 3200
-    },
-    {
-      "epoch": 5.108359133126935,
-      "eval_loss": 1.2741221189498901,
-      "eval_runtime": 166.0465,
-      "eval_samples_per_second": 34.063,
-      "eval_steps_per_second": 4.258,
-      "eval_wer": 0.7826707964885815,
-      "step": 3300
-    },
-    {
-      "epoch": 5.2631578947368425,
-      "eval_loss": 1.9348175525665283,
-      "eval_runtime": 163.4154,
-      "eval_samples_per_second": 34.611,
-      "eval_steps_per_second": 4.326,
-      "eval_wer": 0.8741795188650479,
-      "step": 3400
-    },
-    {
-      "epoch": 5.41795665634675,
-      "grad_norm": 0.6057500839233398,
-      "learning_rate": 0.00010126666666666666,
-      "loss": 1.4131,
-      "step": 3500
-    },
-    {
-      "epoch": 5.41795665634675,
-      "eval_loss": 1.9216177463531494,
-      "eval_runtime": 161.6687,
-      "eval_samples_per_second": 34.985,
-      "eval_steps_per_second": 4.373,
-      "eval_wer": 0.9870167386175795,
-      "step": 3500
-    },
-    {
-      "epoch": 5.572755417956657,
-      "eval_loss": 1.8565247058868408,
-      "eval_runtime": 164.0672,
-      "eval_samples_per_second": 34.474,
-      "eval_steps_per_second": 4.309,
-      "eval_wer": 0.9367045946943557,
-      "step": 3600
-    },
-    {
-      "epoch": 5.727554179566564,
-      "eval_loss": 1.7827845811843872,
-      "eval_runtime": 163.0587,
-      "eval_samples_per_second": 34.687,
-      "eval_steps_per_second": 4.336,
-      "eval_wer": 0.8240278602493941,
-      "step": 3700
-    },
-    {
-      "epoch": 5.882352941176471,
-      "eval_loss": 1.6846531629562378,
-      "eval_runtime": 162.8654,
-      "eval_samples_per_second": 34.728,
-      "eval_steps_per_second": 4.341,
-      "eval_wer": 0.8059090690247308,
-      "step": 3800
-    },
-    {
-      "epoch": 6.037151702786378,
-      "eval_loss": 1.6440324783325195,
-      "eval_runtime": 163.0292,
-      "eval_samples_per_second": 34.693,
-      "eval_steps_per_second": 4.337,
-      "eval_wer": 0.7983823080996935,
-      "step": 3900
-    },
-    {
-      "epoch": 6.191950464396285,
-      "grad_norm": 0.5905019640922546,
-      "learning_rate": 6.806666666666666e-05,
-      "loss": 1.7728,
-      "step": 4000
-    },
-    {
-      "epoch": 6.191950464396285,
-      "eval_loss": 1.6765395402908325,
-      "eval_runtime": 166.4929,
-      "eval_samples_per_second": 33.971,
-      "eval_steps_per_second": 4.246,
-      "eval_wer": 0.8053313219174785,
-      "step": 4000
-    },
-    {
-      "epoch": 6.346749226006192,
-      "eval_loss": 1.6733070611953735,
-      "eval_runtime": 163.1125,
-      "eval_samples_per_second": 34.675,
-      "eval_steps_per_second": 4.334,
-      "eval_wer": 0.8024265378504598,
-      "step": 4100
-    },
-    {
-      "epoch": 6.5015479876160995,
-      "eval_loss": 1.6601324081420898,
-      "eval_runtime": 163.6995,
-      "eval_samples_per_second": 34.551,
-      "eval_steps_per_second": 4.319,
-      "eval_wer": 0.7899568294522636,
-      "step": 4200
-    },
-    {
-      "epoch": 6.656346749226007,
-      "eval_loss": 1.6604827642440796,
-      "eval_runtime": 162.8495,
-      "eval_samples_per_second": 34.731,
-      "eval_steps_per_second": 4.341,
-      "eval_wer": 0.7972910080082168,
-      "step": 4300
-    },
-    {
-      "epoch": 6.811145510835914,
-      "eval_loss": 1.6598834991455078,
-      "eval_runtime": 163.8109,
-      "eval_samples_per_second": 34.528,
-      "eval_steps_per_second": 4.316,
-      "eval_wer": 0.7804560992441142,
-      "step": 4400
-    },
-    {
-      "epoch": 6.965944272445821,
-      "grad_norm": 0.9840993881225586,
-      "learning_rate": 3.493333333333333e-05,
-      "loss": 1.6777,
-      "step": 4500
-    },
-    {
-      "epoch": 6.965944272445821,
-      "eval_loss": 1.635949730873108,
-      "eval_runtime": 163.8566,
-      "eval_samples_per_second": 34.518,
-      "eval_steps_per_second": 4.315,
-      "eval_wer": 0.7693184188987499,
-      "step": 4500
-    },
-    {
-      "epoch": 7.120743034055727,
-      "eval_loss": 1.6399564743041992,
-      "eval_runtime": 164.6612,
-      "eval_samples_per_second": 34.349,
-      "eval_steps_per_second": 4.294,
-      "eval_wer": 0.7651137038404134,
-      "step": 4600
-    },
-    {
-      "epoch": 7.275541795665634,
-      "eval_loss": 1.6759086847305298,
-      "eval_runtime": 161.5503,
-      "eval_samples_per_second": 35.011,
-      "eval_steps_per_second": 4.376,
-      "eval_wer": 0.7672481584310956,
-      "step": 4700
-    },
-    {
-      "epoch": 7.430340557275541,
-      "eval_loss": 1.6848710775375366,
-      "eval_runtime": 162.0136,
-      "eval_samples_per_second": 34.911,
-      "eval_steps_per_second": 4.364,
-      "eval_wer": 0.7686283320761984,
-      "step": 4800
-    },
-    {
-      "epoch": 7.585139318885449,
-      "eval_loss": 1.6857717037200928,
-      "eval_runtime": 161.3723,
-      "eval_samples_per_second": 35.049,
-      "eval_steps_per_second": 4.381,
-      "eval_wer": 0.7689974482836096,
-      "step": 4900
-    },
-    {
-      "epoch": 7.739938080495356,
-      "grad_norm": 1.753746747970581,
-      "learning_rate": 1.8e-06,
-      "loss": 1.683,
-      "step": 5000
-    },
-    {
-      "epoch": 7.739938080495356,
-      "eval_loss": 1.6955511569976807,
-      "eval_runtime": 160.8529,
-      "eval_samples_per_second": 35.163,
-      "eval_steps_per_second": 4.395,
-      "eval_wer": 0.7701529424981143,
-      "step": 5000
-    },
-    {
-      "epoch": 7.739938080495356,
-      "step": 5000,
-      "total_flos": 4.528229347801944e+19,
-      "train_loss": 1.3220068420410156,
-      "train_runtime": 20543.6538,
-      "train_samples_per_second": 15.577,
-      "train_steps_per_second": 0.243
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 400,
-  "total_flos": 4.528229347801944e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0959752321981426,
   "eval_steps": 100,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.15479876160990713,
+      "eval_loss": 3.5622992515563965,
+      "eval_runtime": 158.441,
+      "eval_samples_per_second": 35.698,
+      "eval_steps_per_second": 4.462,
       "eval_wer": 1.0,
       "step": 100
     },
     {
       "epoch": 0.30959752321981426,
+      "eval_loss": 3.2967281341552734,
+      "eval_runtime": 153.6671,
+      "eval_samples_per_second": 36.807,
+      "eval_steps_per_second": 4.601,
       "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.46439628482972134,
+      "eval_loss": 2.648355722427368,
+      "eval_runtime": 153.3096,
+      "eval_samples_per_second": 36.893,
+      "eval_steps_per_second": 4.612,
       "eval_wer": 0.9999518544077289,
       "step": 300
     },
     {
       "epoch": 0.6191950464396285,
+      "eval_loss": 1.060172200202942,
+      "eval_runtime": 153.5019,
+      "eval_samples_per_second": 36.846,
+      "eval_steps_per_second": 4.606,
+      "eval_wer": 0.7315080804352362,
       "step": 400
     },
     {
       "epoch": 0.7739938080495357,
+      "grad_norm": 2.8772997856140137,
       "learning_rate": 0.00029699999999999996,
+      "loss": 3.6398,
       "step": 500
     },
     {
       "epoch": 0.7739938080495357,
+      "eval_loss": 0.8942204713821411,
+      "eval_runtime": 154.5421,
+      "eval_samples_per_second": 36.598,
+      "eval_steps_per_second": 4.575,
+      "eval_wer": 0.6695607517131806,
       "step": 500
     },
     {
       "epoch": 0.9287925696594427,
+      "eval_loss": 0.7115893959999084,
+      "eval_runtime": 155.1607,
+      "eval_samples_per_second": 36.453,
+      "eval_steps_per_second": 4.557,
+      "eval_wer": 0.5361172184686492,
       "step": 600
     },
     {
       "epoch": 1.08359133126935,
+      "eval_loss": 0.6647589802742004,
+      "eval_runtime": 154.7086,
+      "eval_samples_per_second": 36.559,
+      "eval_steps_per_second": 4.57,
+      "eval_wer": 0.5100704530500233,
       "step": 700
     },
     {
       "epoch": 1.238390092879257,
+      "eval_loss": 0.5869073867797852,
+      "eval_runtime": 154.314,
+      "eval_samples_per_second": 36.653,
+      "eval_steps_per_second": 4.582,
+      "eval_wer": 0.45284139237052845,
       "step": 800
     },
     {
       "epoch": 1.3931888544891642,
+      "eval_loss": 0.5697966814041138,
+      "eval_runtime": 153.6252,
+      "eval_samples_per_second": 36.817,
+      "eval_steps_per_second": 4.602,
+      "eval_wer": 0.43589414389112674,
       "step": 900
     },
     {
       "epoch": 1.5479876160990713,
+      "grad_norm": 0.41244009137153625,
+      "learning_rate": 0.0002016,
+      "loss": 0.5976,
       "step": 1000
     },
     {
       "epoch": 1.5479876160990713,
+      "eval_loss": 0.54075688123703,
+      "eval_runtime": 154.0436,
+      "eval_samples_per_second": 36.717,
+      "eval_steps_per_second": 4.59,
+      "eval_wer": 0.41122755211760365,
       "step": 1000
     },
     {
       "epoch": 1.7027863777089784,
+      "eval_loss": 0.5229234099388123,
+      "eval_runtime": 154.4025,
+      "eval_samples_per_second": 36.632,
+      "eval_steps_per_second": 4.579,
+      "eval_wer": 0.41960488517276245,
       "step": 1100
     },
     {
       "epoch": 1.8575851393188856,
+      "eval_loss": 0.5054619312286377,
+      "eval_runtime": 154.4414,
+      "eval_samples_per_second": 36.622,
+      "eval_steps_per_second": 4.578,
+      "eval_wer": 0.39546789491422063,
       "step": 1200
     },
     {
       "epoch": 2.0123839009287927,
+      "eval_loss": 0.48077496886253357,
+      "eval_runtime": 154.8241,
+      "eval_samples_per_second": 36.532,
+      "eval_steps_per_second": 4.566,
+      "eval_wer": 0.3708815457944825,
       "step": 1300
     },
     {
       "epoch": 2.1671826625387,
+      "eval_loss": 0.46668991446495056,
+      "eval_runtime": 154.4804,
+      "eval_samples_per_second": 36.613,
+      "eval_steps_per_second": 4.577,
+      "eval_wer": 0.3579785270658471,
       "step": 1400
     },
     {
       "epoch": 2.321981424148607,
+      "grad_norm": 0.45199868083000183,
+      "learning_rate": 0.00010179999999999998,
+      "loss": 0.443,
       "step": 1500
     },
     {
       "epoch": 2.321981424148607,
+      "eval_loss": 0.45730867981910706,
+      "eval_runtime": 154.0073,
+      "eval_samples_per_second": 36.726,
+      "eval_steps_per_second": 4.591,
+      "eval_wer": 0.35817110943493125,
       "step": 1500
     },
     {
       "epoch": 2.476780185758514,
+      "eval_loss": 0.44747394323349,
+      "eval_runtime": 156.828,
+      "eval_samples_per_second": 36.065,
+      "eval_steps_per_second": 4.508,
+      "eval_wer": 0.3452199451140248,
       "step": 1600
     },
     {
       "epoch": 2.6315789473684212,
+      "eval_loss": 0.43689531087875366,
+      "eval_runtime": 155.5732,
+      "eval_samples_per_second": 36.356,
+      "eval_steps_per_second": 4.544,
+      "eval_wer": 0.3477877100351463,
       "step": 1700
     },
     {
       "epoch": 2.7863777089783284,
+      "eval_loss": 0.4227137863636017,
+      "eval_runtime": 156.702,
+      "eval_samples_per_second": 36.094,
+      "eval_steps_per_second": 4.512,
+      "eval_wer": 0.32978125852578194,
       "step": 1800
     },
     {
       "epoch": 2.9411764705882355,
+      "eval_loss": 0.4168964922428131,
+      "eval_runtime": 153.7827,
+      "eval_samples_per_second": 36.779,
+      "eval_steps_per_second": 4.597,
+      "eval_wer": 0.3270690568278474,
       "step": 1900
     },
     {
       "epoch": 3.0959752321981426,
+      "grad_norm": 0.4056684672832489,
+      "learning_rate": 2.4e-06,
+      "loss": 0.3475,
       "step": 2000
     },
     {
       "epoch": 3.0959752321981426,
+      "eval_loss": 0.42000359296798706,
+      "eval_runtime": 154.6879,
+      "eval_samples_per_second": 36.564,
+      "eval_steps_per_second": 4.57,
+      "eval_wer": 0.3226557108696699,
       "step": 2000
     },
     {
+      "epoch": 3.0959752321981426,
+      "step": 2000,
+      "total_flos": 1.8144283373471887e+19,
+      "train_loss": 1.2569797668457032,
+      "train_runtime": 7798.4407,
+      "train_samples_per_second": 16.414,
+      "train_steps_per_second": 0.256
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 400,
+  "total_flos": 1.8144283373471887e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null