End of training

Browse files

Files changed (10) hide show

all_results.json +17 -17
config.json +1 -1
eval_pretrained_results.json +4 -4
generation_config.json +1 -1
pytorch_model.bin +1 -1
test_finetuned_results.json +5 -5
test_pretrained_results.json +4 -4
train_results.json +4 -4
trainer_state.json +124 -124
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,33 +1,33 @@
 {
     "epoch": 2.33,
     "eval_loss": 1.6191972494125366,
-    "eval_pretrained_loss": 1.7155802249908447,
-    "eval_pretrained_runtime": 130.3147,
-    "eval_pretrained_samples_per_second": 2.532,
-    "eval_pretrained_steps_per_second": 0.322,
     "eval_pretrained_wer": 264.42599393262014,
     "eval_runtime": 56.3363,
     "eval_samples_per_second": 0.071,
     "eval_steps_per_second": 0.036,
     "eval_wer": 153.2258064516129,
-    "test_finetuned_loss": 1.0018900632858276,
-    "test_finetuned_runtime": 230.5902,
-    "test_finetuned_samples_per_second": 3.292,
-    "test_finetuned_steps_per_second": 0.412,
-    "test_finetuned_wer": 172.070636659364,
     "test_loss": 1.7568330764770508,
-    "test_pretrained_loss": 1.724961757659912,
-    "test_pretrained_runtime": 272.5213,
-    "test_pretrained_samples_per_second": 2.785,
-    "test_pretrained_steps_per_second": 0.349,
     "test_pretrained_wer": 261.9066587001262,
     "test_runtime": 37.8582,
     "test_samples_per_second": 0.106,
     "test_steps_per_second": 0.053,
     "test_wer": 138.5964912280702,
     "total_flos": 1.7572960198656e+17,
-    "train_loss": 0.8751970188958305,
-    "train_runtime": 2136.6213,
-    "train_samples_per_second": 3.355,
-    "train_steps_per_second": 0.21
 }

 {
     "epoch": 2.33,
     "eval_loss": 1.6191972494125366,
+    "eval_pretrained_loss": 1.71565842628479,
+    "eval_pretrained_runtime": 197.0203,
+    "eval_pretrained_samples_per_second": 1.675,
+    "eval_pretrained_steps_per_second": 0.213,
     "eval_pretrained_wer": 264.42599393262014,
     "eval_runtime": 56.3363,
     "eval_samples_per_second": 0.071,
     "eval_steps_per_second": 0.036,
     "eval_wer": 153.2258064516129,
+    "test_finetuned_loss": 1.0018519163131714,
+    "test_finetuned_runtime": 237.997,
+    "test_finetuned_samples_per_second": 3.189,
+    "test_finetuned_steps_per_second": 0.399,
+    "test_finetuned_wer": 172.96023368518888,
     "test_loss": 1.7568330764770508,
+    "test_pretrained_loss": 1.7249696254730225,
+    "test_pretrained_runtime": 273.2544,
+    "test_pretrained_samples_per_second": 2.778,
+    "test_pretrained_steps_per_second": 0.348,
     "test_pretrained_wer": 261.9066587001262,
     "test_runtime": 37.8582,
     "test_samples_per_second": 0.106,
     "test_steps_per_second": 0.053,
     "test_wer": 138.5964912280702,
     "total_flos": 1.7572960198656e+17,
+    "train_loss": 0.8751586728862354,
+    "train_runtime": 2260.8457,
+    "train_samples_per_second": 3.17,
+    "train_steps_per_second": 0.198
 }

config.json CHANGED Viewed

@@ -146,7 +146,7 @@
     50362
   ],
   "torch_dtype": "float32",
-  "transformers_version": "4.27.3",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

     50362
   ],
   "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
   "use_cache": true,
   "use_weighted_layer_sum": false,
   "vocab_size": 51865

eval_pretrained_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "eval_pretrained_loss": 1.7155802249908447,
-    "eval_pretrained_runtime": 130.3147,
-    "eval_pretrained_samples_per_second": 2.532,
-    "eval_pretrained_steps_per_second": 0.322,
     "eval_pretrained_wer": 264.42599393262014
 }

 {
+    "eval_pretrained_loss": 1.71565842628479,
+    "eval_pretrained_runtime": 197.0203,
+    "eval_pretrained_samples_per_second": 1.675,
+    "eval_pretrained_steps_per_second": 0.213,
     "eval_pretrained_wer": 264.42599393262014
 }

generation_config.json CHANGED Viewed

@@ -221,5 +221,5 @@
     "transcribe": 50359,
     "translate": 50358
   },
-  "transformers_version": "4.27.3"
 }

     "transcribe": 50359,
     "translate": 50358
   },
+  "transformers_version": "4.29.2"
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8451cf9e0f3b232b59003dac8b3033e1d7ef4a8bf8b4bd868cd1aa95b092f45
 size 151098921

 version https://git-lfs.github.com/spec/v1
+oid sha256:e347b86221199e0a86cf1f1e77515b57a801546e73d0951d67d6f1773a1ddfee
 size 151098921

test_finetuned_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.33,
-    "test_finetuned_loss": 1.0018900632858276,
-    "test_finetuned_runtime": 230.5902,
-    "test_finetuned_samples_per_second": 3.292,
-    "test_finetuned_steps_per_second": 0.412,
-    "test_finetuned_wer": 172.070636659364
 }

 {
     "epoch": 2.33,
+    "test_finetuned_loss": 1.0018519163131714,
+    "test_finetuned_runtime": 237.997,
+    "test_finetuned_samples_per_second": 3.189,
+    "test_finetuned_steps_per_second": 0.399,
+    "test_finetuned_wer": 172.96023368518888
 }

test_pretrained_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "test_pretrained_loss": 1.724961757659912,
-    "test_pretrained_runtime": 272.5213,
-    "test_pretrained_samples_per_second": 2.785,
-    "test_pretrained_steps_per_second": 0.349,
     "test_pretrained_wer": 261.9066587001262
 }

 {
+    "test_pretrained_loss": 1.7249696254730225,
+    "test_pretrained_runtime": 273.2544,
+    "test_pretrained_samples_per_second": 2.778,
+    "test_pretrained_steps_per_second": 0.348,
     "test_pretrained_wer": 261.9066587001262
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.33,
     "total_flos": 1.7572960198656e+17,
-    "train_loss": 0.8751970188958305,
-    "train_runtime": 2136.6213,
-    "train_samples_per_second": 3.355,
-    "train_steps_per_second": 0.21
 }

 {
     "epoch": 2.33,
     "total_flos": 1.7572960198656e+17,
+    "train_loss": 0.8751586728862354,
+    "train_runtime": 2260.8457,
+    "train_samples_per_second": 3.17,
+    "train_steps_per_second": 0.198
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 160.91330033530258,
   "best_model_checkpoint": "./whisper-training-blog/checkpoint-396",
   "epoch": 2.330357142857143,
   "global_step": 448,
@@ -22,7 +22,7 @@
     {
       "epoch": 0.03,
       "learning_rate": 5.555555555555555e-07,
-      "loss": 1.712,
       "step": 12
     },
     {
@@ -34,25 +34,25 @@
     {
       "epoch": 0.04,
       "learning_rate": 1e-06,
-      "loss": 1.6091,
       "step": 20
     },
     {
       "epoch": 0.05,
       "learning_rate": 1.2222222222222223e-06,
-      "loss": 1.5657,
       "step": 24
     },
     {
       "epoch": 0.06,
       "learning_rate": 1.4444444444444445e-06,
-      "loss": 1.6081,
       "step": 28
     },
     {
       "epoch": 0.07,
       "learning_rate": 1.6666666666666667e-06,
-      "loss": 1.5076,
       "step": 32
     },
     {
@@ -64,28 +64,28 @@
     {
       "epoch": 0.09,
       "learning_rate": 2.1111111111111114e-06,
-      "loss": 1.4948,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 2.3333333333333336e-06,
-      "loss": 1.4112,
       "step": 44
     },
     {
       "epoch": 0.1,
-      "eval_loss": 1.4919402599334717,
-      "eval_runtime": 119.3982,
-      "eval_samples_per_second": 2.764,
-      "eval_steps_per_second": 0.352,
       "eval_wer": 245.34568098355422,
       "step": 44
     },
     {
       "epoch": 0.11,
       "learning_rate": 2.5555555555555557e-06,
-      "loss": 1.3193,
       "step": 48
     },
     {
@@ -103,7 +103,7 @@
     {
       "epoch": 0.13,
       "learning_rate": 3.2222222222222222e-06,
-      "loss": 1.2749,
       "step": 60
     },
     {
@@ -121,13 +121,13 @@
     {
       "epoch": 0.16,
       "learning_rate": 3.888888888888889e-06,
-      "loss": 1.2185,
       "step": 72
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.111111111111111e-06,
-      "loss": 1.1663,
       "step": 76
     },
     {
@@ -139,28 +139,28 @@
     {
       "epoch": 0.19,
       "learning_rate": 4.555555555555555e-06,
-      "loss": 1.0731,
       "step": 84
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.777777777777778e-06,
-      "loss": 1.0502,
       "step": 88
     },
     {
       "epoch": 0.2,
-      "eval_loss": 1.2254914045333862,
-      "eval_runtime": 123.9853,
-      "eval_samples_per_second": 2.662,
-      "eval_steps_per_second": 0.339,
-      "eval_wer": 220.1500878173399,
       "step": 88
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.9999999999999996e-06,
-      "loss": 1.128,
       "step": 92
     },
     {
@@ -172,19 +172,19 @@
     {
       "epoch": 0.22,
       "learning_rate": 5.444444444444445e-06,
-      "loss": 0.993,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 5.666666666666667e-06,
-      "loss": 1.0879,
       "step": 104
     },
     {
       "epoch": 0.24,
       "learning_rate": 5.888888888888889e-06,
-      "loss": 1.0417,
       "step": 108
     },
     {
@@ -196,40 +196,40 @@
     {
       "epoch": 0.26,
       "learning_rate": 6.333333333333333e-06,
-      "loss": 0.9687,
       "step": 116
     },
     {
       "epoch": 0.27,
       "learning_rate": 6.555555555555556e-06,
-      "loss": 0.9558,
       "step": 120
     },
     {
       "epoch": 0.28,
       "learning_rate": 6.777777777777778e-06,
-      "loss": 1.0192,
       "step": 124
     },
     {
       "epoch": 0.29,
       "learning_rate": 7e-06,
-      "loss": 0.8509,
       "step": 128
     },
     {
       "epoch": 0.29,
       "learning_rate": 7.222222222222222e-06,
-      "loss": 0.9033,
       "step": 132
     },
     {
       "epoch": 0.29,
-      "eval_loss": 1.1202749013900757,
-      "eval_runtime": 108.7054,
-      "eval_samples_per_second": 3.036,
-      "eval_steps_per_second": 0.386,
-      "eval_wer": 206.24301452977804,
       "step": 132
     },
     {
@@ -247,7 +247,7 @@
     {
       "epoch": 0.32,
       "learning_rate": 7.332268370607029e-06,
-      "loss": 0.8927,
       "step": 144
     },
     {
@@ -259,13 +259,13 @@
     {
       "epoch": 1.0,
       "learning_rate": 7.140575079872205e-06,
-      "loss": 1.2391,
       "step": 152
     },
     {
       "epoch": 1.01,
       "learning_rate": 7.044728434504793e-06,
-      "loss": 0.9148,
       "step": 156
     },
     {
@@ -277,13 +277,13 @@
     {
       "epoch": 1.03,
       "learning_rate": 6.853035143769968e-06,
-      "loss": 0.9082,
       "step": 164
     },
     {
       "epoch": 1.04,
       "learning_rate": 6.7571884984025565e-06,
-      "loss": 0.8434,
       "step": 168
     },
     {
@@ -300,17 +300,17 @@
     },
     {
       "epoch": 1.06,
-      "eval_loss": 1.067484736442566,
-      "eval_runtime": 108.347,
-      "eval_samples_per_second": 3.046,
-      "eval_steps_per_second": 0.388,
-      "eval_wer": 201.96391505668208,
       "step": 176
     },
     {
       "epoch": 1.07,
       "learning_rate": 6.469648562300319e-06,
-      "loss": 0.8329,
       "step": 180
     },
     {
@@ -340,13 +340,13 @@
     {
       "epoch": 1.11,
       "learning_rate": 5.990415335463259e-06,
-      "loss": 0.7814,
       "step": 200
     },
     {
       "epoch": 1.12,
       "learning_rate": 5.894568690095847e-06,
-      "loss": 0.7542,
       "step": 204
     },
     {
@@ -358,13 +358,13 @@
     {
       "epoch": 1.14,
       "learning_rate": 5.702875399361023e-06,
-      "loss": 0.8181,
       "step": 212
     },
     {
       "epoch": 1.15,
       "learning_rate": 5.607028753993611e-06,
-      "loss": 0.7462,
       "step": 216
     },
     {
@@ -375,17 +375,17 @@
     },
     {
       "epoch": 1.16,
-      "eval_loss": 1.0393874645233154,
-      "eval_runtime": 100.1655,
-      "eval_samples_per_second": 3.295,
-      "eval_steps_per_second": 0.419,
-      "eval_wer": 178.36500079833945,
       "step": 220
     },
     {
       "epoch": 1.17,
       "learning_rate": 5.415335463258786e-06,
-      "loss": 0.754,
       "step": 224
     },
     {
@@ -397,25 +397,25 @@
     {
       "epoch": 1.18,
       "learning_rate": 5.223642172523962e-06,
-      "loss": 0.7254,
       "step": 232
     },
     {
       "epoch": 1.19,
       "learning_rate": 5.127795527156549e-06,
-      "loss": 0.6944,
       "step": 236
     },
     {
       "epoch": 1.2,
       "learning_rate": 5.031948881789138e-06,
-      "loss": 0.7281,
       "step": 240
     },
     {
       "epoch": 1.21,
       "learning_rate": 4.936102236421725e-06,
-      "loss": 0.7842,
       "step": 244
     },
     {
@@ -427,7 +427,7 @@
     {
       "epoch": 1.23,
       "learning_rate": 4.744408945686901e-06,
-      "loss": 0.7075,
       "step": 252
     },
     {
@@ -445,22 +445,22 @@
     {
       "epoch": 1.25,
       "learning_rate": 4.456869009584665e-06,
-      "loss": 0.6324,
       "step": 264
     },
     {
       "epoch": 1.25,
-      "eval_loss": 1.030145525932312,
-      "eval_runtime": 114.3297,
-      "eval_samples_per_second": 2.886,
-      "eval_steps_per_second": 0.367,
-      "eval_wer": 221.2996966310075,
       "step": 264
     },
     {
       "epoch": 1.26,
       "learning_rate": 4.361022364217253e-06,
-      "loss": 0.6826,
       "step": 268
     },
     {
@@ -472,19 +472,19 @@
     {
       "epoch": 1.28,
       "learning_rate": 4.169329073482428e-06,
-      "loss": 0.6698,
       "step": 276
     },
     {
       "epoch": 1.29,
       "learning_rate": 4.0734824281150155e-06,
-      "loss": 0.5678,
       "step": 280
     },
     {
       "epoch": 1.3,
       "learning_rate": 3.977635782747604e-06,
-      "loss": 0.6833,
       "step": 284
     },
     {
@@ -496,64 +496,64 @@
     {
       "epoch": 1.32,
       "learning_rate": 3.7859424920127796e-06,
-      "loss": 0.672,
       "step": 292
     },
     {
       "epoch": 1.33,
       "learning_rate": 3.6900958466453675e-06,
-      "loss": 0.7121,
       "step": 296
     },
     {
       "epoch": 1.33,
       "learning_rate": 3.5942492012779555e-06,
-      "loss": 0.8765,
       "step": 300
     },
     {
       "epoch": 2.01,
       "learning_rate": 3.4984025559105434e-06,
-      "loss": 0.6726,
       "step": 304
     },
     {
       "epoch": 2.02,
       "learning_rate": 3.4025559105431313e-06,
-      "loss": 0.6972,
       "step": 308
     },
     {
       "epoch": 2.02,
-      "eval_loss": 1.0134402513504028,
-      "eval_runtime": 102.1008,
-      "eval_samples_per_second": 3.232,
-      "eval_steps_per_second": 0.411,
-      "eval_wer": 176.67252115599553,
       "step": 308
     },
     {
       "epoch": 2.03,
       "learning_rate": 3.306709265175719e-06,
-      "loss": 0.7431,
       "step": 312
     },
     {
       "epoch": 2.04,
       "learning_rate": 3.2108626198083067e-06,
-      "loss": 0.6265,
       "step": 316
     },
     {
       "epoch": 2.04,
       "learning_rate": 3.1150159744408946e-06,
-      "loss": 0.6606,
       "step": 320
     },
     {
       "epoch": 2.05,
       "learning_rate": 3.0191693290734825e-06,
-      "loss": 0.6409,
       "step": 324
     },
     {
@@ -571,19 +571,19 @@
     {
       "epoch": 2.08,
       "learning_rate": 2.7316293929712462e-06,
-      "loss": 0.6828,
       "step": 336
     },
     {
       "epoch": 2.09,
       "learning_rate": 2.635782747603834e-06,
-      "loss": 0.6499,
       "step": 340
     },
     {
       "epoch": 2.1,
       "learning_rate": 2.539936102236422e-06,
-      "loss": 0.6643,
       "step": 344
     },
     {
@@ -595,22 +595,22 @@
     {
       "epoch": 2.12,
       "learning_rate": 2.3482428115015974e-06,
-      "loss": 0.6052,
       "step": 352
     },
     {
       "epoch": 2.12,
-      "eval_loss": 1.006484866142273,
-      "eval_runtime": 105.4228,
-      "eval_samples_per_second": 3.13,
-      "eval_steps_per_second": 0.398,
       "eval_wer": 194.7149928149449,
       "step": 352
     },
     {
       "epoch": 2.12,
       "learning_rate": 2.2523961661341854e-06,
-      "loss": 0.6237,
       "step": 356
     },
     {
@@ -628,37 +628,37 @@
     {
       "epoch": 2.15,
       "learning_rate": 1.964856230031949e-06,
-      "loss": 0.6017,
       "step": 368
     },
     {
       "epoch": 2.16,
       "learning_rate": 1.8690095846645368e-06,
-      "loss": 0.622,
       "step": 372
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.7731629392971245e-06,
-      "loss": 0.6289,
       "step": 376
     },
     {
       "epoch": 2.18,
       "learning_rate": 1.6773162939297124e-06,
-      "loss": 0.608,
       "step": 380
     },
     {
       "epoch": 2.19,
       "learning_rate": 1.5814696485623003e-06,
-      "loss": 0.5888,
       "step": 384
     },
     {
       "epoch": 2.2,
       "learning_rate": 1.4856230031948882e-06,
-      "loss": 0.5932,
       "step": 388
     },
     {
@@ -675,17 +675,17 @@
     },
     {
       "epoch": 2.21,
-      "eval_loss": 1.002995491027832,
-      "eval_runtime": 93.4309,
-      "eval_samples_per_second": 3.532,
-      "eval_steps_per_second": 0.45,
-      "eval_wer": 160.91330033530258,
       "step": 396
     },
     {
       "epoch": 2.22,
       "learning_rate": 1.1980830670926517e-06,
-      "loss": 0.5772,
       "step": 400
     },
     {
@@ -697,25 +697,25 @@
     {
       "epoch": 2.24,
       "learning_rate": 1.0063897763578274e-06,
-      "loss": 0.601,
       "step": 408
     },
     {
       "epoch": 2.25,
       "learning_rate": 9.105431309904153e-07,
-      "loss": 0.5617,
       "step": 412
     },
     {
       "epoch": 2.26,
       "learning_rate": 8.146964856230032e-07,
-      "loss": 0.5728,
       "step": 416
     },
     {
       "epoch": 2.27,
       "learning_rate": 7.188498402555911e-07,
-      "loss": 0.5755,
       "step": 420
     },
     {
@@ -739,22 +739,22 @@
     {
       "epoch": 2.3,
       "learning_rate": 3.3546325878594247e-07,
-      "loss": 0.5608,
       "step": 436
     },
     {
       "epoch": 2.31,
       "learning_rate": 2.3961661341853033e-07,
-      "loss": 0.5849,
       "step": 440
     },
     {
       "epoch": 2.31,
-      "eval_loss": 1.0050277709960938,
-      "eval_runtime": 101.6428,
-      "eval_samples_per_second": 3.247,
-      "eval_steps_per_second": 0.413,
-      "eval_wer": 180.05748044068338,
       "step": 440
     },
     {
@@ -766,17 +766,17 @@
     {
       "epoch": 2.33,
       "learning_rate": 4.792332268370607e-08,
-      "loss": 0.6387,
       "step": 448
     },
     {
       "epoch": 2.33,
       "step": 448,
       "total_flos": 1.7572960198656e+17,
-      "train_loss": 0.8751970188958305,
-      "train_runtime": 2136.6213,
-      "train_samples_per_second": 3.355,
-      "train_steps_per_second": 0.21
     }
   ],
   "max_steps": 448,

 {
+  "best_metric": 166.9327798179786,
   "best_model_checkpoint": "./whisper-training-blog/checkpoint-396",
   "epoch": 2.330357142857143,
   "global_step": 448,
     {
       "epoch": 0.03,
       "learning_rate": 5.555555555555555e-07,
+      "loss": 1.7119,
       "step": 12
     },
     {
     {
       "epoch": 0.04,
       "learning_rate": 1e-06,
+      "loss": 1.609,
       "step": 20
     },
     {
       "epoch": 0.05,
       "learning_rate": 1.2222222222222223e-06,
+      "loss": 1.5656,
       "step": 24
     },
     {
       "epoch": 0.06,
       "learning_rate": 1.4444444444444445e-06,
+      "loss": 1.6078,
       "step": 28
     },
     {
       "epoch": 0.07,
       "learning_rate": 1.6666666666666667e-06,
+      "loss": 1.5075,
       "step": 32
     },
     {
     {
       "epoch": 0.09,
       "learning_rate": 2.1111111111111114e-06,
+      "loss": 1.4949,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 2.3333333333333336e-06,
+      "loss": 1.4111,
       "step": 44
     },
     {
       "epoch": 0.1,
+      "eval_loss": 1.491944432258606,
+      "eval_runtime": 119.9494,
+      "eval_samples_per_second": 2.751,
+      "eval_steps_per_second": 0.35,
       "eval_wer": 245.34568098355422,
       "step": 44
     },
     {
       "epoch": 0.11,
       "learning_rate": 2.5555555555555557e-06,
+      "loss": 1.3192,
       "step": 48
     },
     {
     {
       "epoch": 0.13,
       "learning_rate": 3.2222222222222222e-06,
+      "loss": 1.2748,
       "step": 60
     },
     {
     {
       "epoch": 0.16,
       "learning_rate": 3.888888888888889e-06,
+      "loss": 1.2186,
       "step": 72
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.111111111111111e-06,
+      "loss": 1.1661,
       "step": 76
     },
     {
     {
       "epoch": 0.19,
       "learning_rate": 4.555555555555555e-06,
+      "loss": 1.0729,
       "step": 84
     },
     {
       "epoch": 0.2,
       "learning_rate": 4.777777777777778e-06,
+      "loss": 1.0501,
       "step": 88
     },
     {
       "epoch": 0.2,
+      "eval_loss": 1.225460410118103,
+      "eval_runtime": 124.4384,
+      "eval_samples_per_second": 2.652,
+      "eval_steps_per_second": 0.338,
+      "eval_wer": 225.88216509659907,
       "step": 88
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.9999999999999996e-06,
+      "loss": 1.1278,
       "step": 92
     },
     {
     {
       "epoch": 0.22,
       "learning_rate": 5.444444444444445e-06,
+      "loss": 0.9929,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 5.666666666666667e-06,
+      "loss": 1.0878,
       "step": 104
     },
     {
       "epoch": 0.24,
       "learning_rate": 5.888888888888889e-06,
+      "loss": 1.0416,
       "step": 108
     },
     {
     {
       "epoch": 0.26,
       "learning_rate": 6.333333333333333e-06,
+      "loss": 0.9686,
       "step": 116
     },
     {
       "epoch": 0.27,
       "learning_rate": 6.555555555555556e-06,
+      "loss": 0.9557,
       "step": 120
     },
     {
       "epoch": 0.28,
       "learning_rate": 6.777777777777778e-06,
+      "loss": 1.0193,
       "step": 124
     },
     {
       "epoch": 0.29,
       "learning_rate": 7e-06,
+      "loss": 0.851,
       "step": 128
     },
     {
       "epoch": 0.29,
       "learning_rate": 7.222222222222222e-06,
+      "loss": 0.9032,
       "step": 132
     },
     {
       "epoch": 0.29,
+      "eval_loss": 1.1202839612960815,
+      "eval_runtime": 115.008,
+      "eval_samples_per_second": 2.869,
+      "eval_steps_per_second": 0.365,
+      "eval_wer": 211.65575602746287,
       "step": 132
     },
     {
     {
       "epoch": 0.32,
       "learning_rate": 7.332268370607029e-06,
+      "loss": 0.8926,
       "step": 144
     },
     {
     {
       "epoch": 1.0,
       "learning_rate": 7.140575079872205e-06,
+      "loss": 1.239,
       "step": 152
     },
     {
       "epoch": 1.01,
       "learning_rate": 7.044728434504793e-06,
+      "loss": 0.9147,
       "step": 156
     },
     {
     {
       "epoch": 1.03,
       "learning_rate": 6.853035143769968e-06,
+      "loss": 0.9081,
       "step": 164
     },
     {
       "epoch": 1.04,
       "learning_rate": 6.7571884984025565e-06,
+      "loss": 0.8435,
       "step": 168
     },
     {
     },
     {
       "epoch": 1.06,
+      "eval_loss": 1.0674982070922852,
+      "eval_runtime": 102.5987,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 0.409,
+      "eval_wer": 184.62398211719625,
       "step": 176
     },
     {
       "epoch": 1.07,
       "learning_rate": 6.469648562300319e-06,
+      "loss": 0.8328,
       "step": 180
     },
     {
     {
       "epoch": 1.11,
       "learning_rate": 5.990415335463259e-06,
+      "loss": 0.7813,
       "step": 200
     },
     {
       "epoch": 1.12,
       "learning_rate": 5.894568690095847e-06,
+      "loss": 0.7541,
       "step": 204
     },
     {
     {
       "epoch": 1.14,
       "learning_rate": 5.702875399361023e-06,
+      "loss": 0.818,
       "step": 212
     },
     {
       "epoch": 1.15,
       "learning_rate": 5.607028753993611e-06,
+      "loss": 0.7461,
       "step": 216
     },
     {
     },
     {
       "epoch": 1.16,
+      "eval_loss": 1.0393612384796143,
+      "eval_runtime": 103.1889,
+      "eval_samples_per_second": 3.198,
+      "eval_steps_per_second": 0.407,
+      "eval_wer": 178.4129011655756,
       "step": 220
     },
     {
       "epoch": 1.17,
       "learning_rate": 5.415335463258786e-06,
+      "loss": 0.7541,
       "step": 224
     },
     {
     {
       "epoch": 1.18,
       "learning_rate": 5.223642172523962e-06,
+      "loss": 0.7253,
       "step": 232
     },
     {
       "epoch": 1.19,
       "learning_rate": 5.127795527156549e-06,
+      "loss": 0.6943,
       "step": 236
     },
     {
       "epoch": 1.2,
       "learning_rate": 5.031948881789138e-06,
+      "loss": 0.728,
       "step": 240
     },
     {
       "epoch": 1.21,
       "learning_rate": 4.936102236421725e-06,
+      "loss": 0.784,
       "step": 244
     },
     {
     {
       "epoch": 1.23,
       "learning_rate": 4.744408945686901e-06,
+      "loss": 0.7076,
       "step": 252
     },
     {
     {
       "epoch": 1.25,
       "learning_rate": 4.456869009584665e-06,
+      "loss": 0.6325,
       "step": 264
     },
     {
       "epoch": 1.25,
+      "eval_loss": 1.0301399230957031,
+      "eval_runtime": 117.4437,
+      "eval_samples_per_second": 2.81,
+      "eval_steps_per_second": 0.358,
+      "eval_wer": 216.63739422002237,
       "step": 264
     },
     {
       "epoch": 1.26,
       "learning_rate": 4.361022364217253e-06,
+      "loss": 0.6825,
       "step": 268
     },
     {
     {
       "epoch": 1.28,
       "learning_rate": 4.169329073482428e-06,
+      "loss": 0.6699,
       "step": 276
     },
     {
       "epoch": 1.29,
       "learning_rate": 4.0734824281150155e-06,
+      "loss": 0.5677,
       "step": 280
     },
     {
       "epoch": 1.3,
       "learning_rate": 3.977635782747604e-06,
+      "loss": 0.6832,
       "step": 284
     },
     {
     {
       "epoch": 1.32,
       "learning_rate": 3.7859424920127796e-06,
+      "loss": 0.6719,
       "step": 292
     },
     {
       "epoch": 1.33,
       "learning_rate": 3.6900958466453675e-06,
+      "loss": 0.712,
       "step": 296
     },
     {
       "epoch": 1.33,
       "learning_rate": 3.5942492012779555e-06,
+      "loss": 0.8767,
       "step": 300
     },
     {
       "epoch": 2.01,
       "learning_rate": 3.4984025559105434e-06,
+      "loss": 0.6725,
       "step": 304
     },
     {
       "epoch": 2.02,
       "learning_rate": 3.4025559105431313e-06,
+      "loss": 0.6971,
       "step": 308
     },
     {
       "epoch": 2.02,
+      "eval_loss": 1.0135136842727661,
+      "eval_runtime": 114.2748,
+      "eval_samples_per_second": 2.888,
+      "eval_steps_per_second": 0.368,
+      "eval_wer": 184.4004470700942,
       "step": 308
     },
     {
       "epoch": 2.03,
       "learning_rate": 3.306709265175719e-06,
+      "loss": 0.7433,
       "step": 312
     },
     {
       "epoch": 2.04,
       "learning_rate": 3.2108626198083067e-06,
+      "loss": 0.6264,
       "step": 316
     },
     {
       "epoch": 2.04,
       "learning_rate": 3.1150159744408946e-06,
+      "loss": 0.6605,
       "step": 320
     },
     {
       "epoch": 2.05,
       "learning_rate": 3.0191693290734825e-06,
+      "loss": 0.6411,
       "step": 324
     },
     {
     {
       "epoch": 2.08,
       "learning_rate": 2.7316293929712462e-06,
+      "loss": 0.6827,
       "step": 336
     },
     {
       "epoch": 2.09,
       "learning_rate": 2.635782747603834e-06,
+      "loss": 0.6498,
       "step": 340
     },
     {
       "epoch": 2.1,
       "learning_rate": 2.539936102236422e-06,
+      "loss": 0.6641,
       "step": 344
     },
     {
     {
       "epoch": 2.12,
       "learning_rate": 2.3482428115015974e-06,
+      "loss": 0.6051,
       "step": 352
     },
     {
       "epoch": 2.12,
+      "eval_loss": 1.0065311193466187,
+      "eval_runtime": 110.2985,
+      "eval_samples_per_second": 2.992,
+      "eval_steps_per_second": 0.381,
       "eval_wer": 194.7149928149449,
       "step": 352
     },
     {
       "epoch": 2.12,
       "learning_rate": 2.2523961661341854e-06,
+      "loss": 0.6236,
       "step": 356
     },
     {
     {
       "epoch": 2.15,
       "learning_rate": 1.964856230031949e-06,
+      "loss": 0.6014,
       "step": 368
     },
     {
       "epoch": 2.16,
       "learning_rate": 1.8690095846645368e-06,
+      "loss": 0.6221,
       "step": 372
     },
     {
       "epoch": 2.17,
       "learning_rate": 1.7731629392971245e-06,
+      "loss": 0.6288,
       "step": 376
     },
     {
       "epoch": 2.18,
       "learning_rate": 1.6773162939297124e-06,
+      "loss": 0.6081,
       "step": 380
     },
     {
       "epoch": 2.19,
       "learning_rate": 1.5814696485623003e-06,
+      "loss": 0.5887,
       "step": 384
     },
     {
       "epoch": 2.2,
       "learning_rate": 1.4856230031948882e-06,
+      "loss": 0.5933,
       "step": 388
     },
     {
     },
     {
       "epoch": 2.21,
+      "eval_loss": 1.0029499530792236,
+      "eval_runtime": 97.7372,
+      "eval_samples_per_second": 3.376,
+      "eval_steps_per_second": 0.43,
+      "eval_wer": 166.9327798179786,
       "step": 396
     },
     {
       "epoch": 2.22,
       "learning_rate": 1.1980830670926517e-06,
+      "loss": 0.5773,
       "step": 400
     },
     {
     {
       "epoch": 2.24,
       "learning_rate": 1.0063897763578274e-06,
+      "loss": 0.6009,
       "step": 408
     },
     {
       "epoch": 2.25,
       "learning_rate": 9.105431309904153e-07,
+      "loss": 0.5616,
       "step": 412
     },
     {
       "epoch": 2.26,
       "learning_rate": 8.146964856230032e-07,
+      "loss": 0.5729,
       "step": 416
     },
     {
       "epoch": 2.27,
       "learning_rate": 7.188498402555911e-07,
+      "loss": 0.5754,
       "step": 420
     },
     {
     {
       "epoch": 2.3,
       "learning_rate": 3.3546325878594247e-07,
+      "loss": 0.5607,
       "step": 436
     },
     {
       "epoch": 2.31,
       "learning_rate": 2.3961661341853033e-07,
+      "loss": 0.585,
       "step": 440
     },
     {
       "epoch": 2.31,
+      "eval_loss": 1.0049597024917603,
+      "eval_runtime": 112.1305,
+      "eval_samples_per_second": 2.943,
+      "eval_steps_per_second": 0.375,
+      "eval_wer": 191.23423279578478,
       "step": 440
     },
     {
     {
       "epoch": 2.33,
       "learning_rate": 4.792332268370607e-08,
+      "loss": 0.6385,
       "step": 448
     },
     {
       "epoch": 2.33,
       "step": 448,
       "total_flos": 1.7572960198656e+17,
+      "train_loss": 0.8751586728862354,
+      "train_runtime": 2260.8457,
+      "train_samples_per_second": 3.17,
+      "train_steps_per_second": 0.198
     }
   ],
   "max_steps": 448,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fb52f407e48481c35659717bd5c261226233eadb5d658c9543eba6275568644
-size 3707

 version https://git-lfs.github.com/spec/v1
+oid sha256:55dadabd854c053224338d1d5bf08deab9f76b217d00da7ec8d1fd3f5f27f892
+size 4091