End of training

Browse files

Files changed (6) hide show

README.md +6 -4
all_results.json +11 -11
eval_results.json +7 -7
runs/Jan16_13-07-53_vorace/events.out.tfevents.1705415718.vorace.502984.1 +3 -0
train_results.json +5 -5
trainer_state.json +1078 -94

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: mit
 base_model: facebook/w2v-bert-2.0
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,11 +17,11 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-bert-CV16-en-libri
-This model is a fine-tuned version of [facebook/w2v-bert-2.0](https://huggingface.co/facebook/w2v-bert-2.0) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1490
-- Wer: 0.1163
-- Cer: 0.0298
 ## Model description

 license: mit
 base_model: facebook/w2v-bert-2.0
 tags:
+- automatic-speech-recognition
+- librispeech_asr
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-bert-CV16-en-libri
+This model is a fine-tuned version of [facebook/w2v-bert-2.0](https://huggingface.co/facebook/w2v-bert-2.0) on the LIBRISPEECH_ASR - CLEAN dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1331
+- Wer: 0.0997
+- Cer: 0.0264
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_cer": 0.04829169911539767,
-    "eval_loss": 0.22062508761882782,
-    "eval_runtime": 59.6361,
     "eval_samples": 2528,
-    "eval_samples_per_second": 42.39,
-    "eval_steps_per_second": 1.191,
-    "eval_wer": 0.1923713703515028,
-    "train_loss": 1.5876106701113961,
-    "train_runtime": 5725.9395,
     "train_samples": 28538,
-    "train_samples_per_second": 14.952,
-    "train_steps_per_second": 0.207
 }

 {
+    "epoch": 5.0,
+    "eval_cer": 0.02643822760039138,
+    "eval_loss": 0.13311129808425903,
+    "eval_runtime": 59.8158,
     "eval_samples": 2528,
+    "eval_samples_per_second": 42.263,
+    "eval_steps_per_second": 1.187,
+    "eval_wer": 0.09965613856342333,
+    "train_loss": 0.09581804365822763,
+    "train_runtime": 4900.8909,
     "train_samples": 28538,
+    "train_samples_per_second": 29.115,
+    "train_steps_per_second": 0.404
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 3.0,
-    "eval_cer": 0.04829169911539767,
-    "eval_loss": 0.22062508761882782,
-    "eval_runtime": 59.6361,
     "eval_samples": 2528,
-    "eval_samples_per_second": 42.39,
-    "eval_steps_per_second": 1.191,
-    "eval_wer": 0.1923713703515028
 }

 {
+    "epoch": 5.0,
+    "eval_cer": 0.02643822760039138,
+    "eval_loss": 0.13311129808425903,
+    "eval_runtime": 59.8158,
     "eval_samples": 2528,
+    "eval_samples_per_second": 42.263,
+    "eval_steps_per_second": 1.187,
+    "eval_wer": 0.09965613856342333
 }

runs/Jan16_13-07-53_vorace/events.out.tfevents.1705415718.vorace.502984.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dd9555772ff7031c1763a0f0080c729251887efd088d16d480fd9fec99c0d7e
+size 405

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 1.5876106701113961,
-    "train_runtime": 5725.9395,
     "train_samples": 28538,
-    "train_samples_per_second": 14.952,
-    "train_steps_per_second": 0.207
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.09581804365822763,
+    "train_runtime": 4900.8909,
     "train_samples": 28538,
+    "train_samples_per_second": 29.115,
+    "train_steps_per_second": 0.404
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9962168978562422,
   "eval_steps": 250,
-  "global_step": 1188,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1249,243 +1249,1227 @@
       "step": 1000
     },
     {
-      "epoch": 2.53,
       "learning_rate": 3.006e-06,
-      "loss": 0.306,
       "step": 1005
     },
     {
       "epoch": 2.55,
-      "learning_rate": 3.021e-06,
-      "loss": 0.3832,
       "step": 1010
     },
     {
       "epoch": 2.56,
-      "learning_rate": 3.036e-06,
-      "loss": 0.2945,
       "step": 1015
     },
     {
-      "epoch": 2.57,
-      "learning_rate": 3.051e-06,
-      "loss": 0.2986,
       "step": 1020
     },
     {
       "epoch": 2.59,
-      "learning_rate": 3.066e-06,
-      "loss": 0.328,
       "step": 1025
     },
     {
       "epoch": 2.6,
-      "learning_rate": 3.0810000000000002e-06,
-      "loss": 0.341,
       "step": 1030
     },
     {
       "epoch": 2.61,
-      "learning_rate": 3.096e-06,
-      "loss": 0.2928,
       "step": 1035
     },
     {
-      "epoch": 2.62,
-      "learning_rate": 3.111e-06,
-      "loss": 0.3032,
       "step": 1040
     },
     {
       "epoch": 2.64,
-      "learning_rate": 3.1260000000000002e-06,
-      "loss": 0.3132,
       "step": 1045
     },
     {
       "epoch": 2.65,
-      "learning_rate": 3.141e-06,
-      "loss": 0.2795,
       "step": 1050
     },
     {
       "epoch": 2.66,
-      "learning_rate": 3.156e-06,
-      "loss": 0.3074,
       "step": 1055
     },
     {
-      "epoch": 2.67,
-      "learning_rate": 3.1710000000000002e-06,
-      "loss": 0.3546,
       "step": 1060
     },
     {
       "epoch": 2.69,
-      "learning_rate": 3.186e-06,
-      "loss": 0.2661,
       "step": 1065
     },
     {
       "epoch": 2.7,
-      "learning_rate": 3.2010000000000004e-06,
-      "loss": 0.2756,
       "step": 1070
     },
     {
       "epoch": 2.71,
-      "learning_rate": 3.216e-06,
-      "loss": 0.3041,
       "step": 1075
     },
     {
-      "epoch": 2.72,
-      "learning_rate": 3.231e-06,
-      "loss": 0.3163,
       "step": 1080
     },
     {
       "epoch": 2.74,
-      "learning_rate": 3.2460000000000003e-06,
-      "loss": 0.2646,
       "step": 1085
     },
     {
       "epoch": 2.75,
-      "learning_rate": 3.261e-06,
-      "loss": 0.2772,
       "step": 1090
     },
     {
       "epoch": 2.76,
-      "learning_rate": 3.276e-06,
-      "loss": 0.3198,
       "step": 1095
     },
     {
-      "epoch": 2.77,
-      "learning_rate": 3.2910000000000003e-06,
-      "loss": 0.2586,
       "step": 1100
     },
     {
       "epoch": 2.79,
-      "learning_rate": 3.306e-06,
-      "loss": 0.2671,
       "step": 1105
     },
     {
       "epoch": 2.8,
-      "learning_rate": 3.3210000000000005e-06,
-      "loss": 0.3135,
       "step": 1110
     },
     {
       "epoch": 2.81,
-      "learning_rate": 3.336e-06,
-      "loss": 0.2482,
       "step": 1115
     },
     {
-      "epoch": 2.82,
-      "learning_rate": 3.3509999999999998e-06,
-      "loss": 0.2427,
       "step": 1120
     },
     {
       "epoch": 2.84,
-      "learning_rate": 3.366e-06,
-      "loss": 0.2821,
       "step": 1125
     },
     {
       "epoch": 2.85,
-      "learning_rate": 3.381e-06,
-      "loss": 0.2651,
       "step": 1130
     },
     {
-      "epoch": 2.86,
-      "learning_rate": 3.3959999999999998e-06,
-      "loss": 0.2517,
       "step": 1135
     },
     {
       "epoch": 2.88,
-      "learning_rate": 3.411e-06,
-      "loss": 0.2528,
       "step": 1140
     },
     {
       "epoch": 2.89,
-      "learning_rate": 3.426e-06,
-      "loss": 0.3223,
       "step": 1145
     },
     {
       "epoch": 2.9,
-      "learning_rate": 3.441e-06,
-      "loss": 0.2383,
       "step": 1150
     },
     {
-      "epoch": 2.91,
-      "learning_rate": 3.456e-06,
-      "loss": 0.2402,
       "step": 1155
     },
     {
       "epoch": 2.93,
-      "learning_rate": 3.471e-06,
-      "loss": 0.2866,
       "step": 1160
     },
     {
       "epoch": 2.94,
-      "learning_rate": 3.486e-06,
-      "loss": 0.2316,
       "step": 1165
     },
     {
       "epoch": 2.95,
-      "learning_rate": 3.501e-06,
-      "loss": 0.2293,
       "step": 1170
     },
     {
-      "epoch": 2.96,
-      "learning_rate": 3.516e-06,
-      "loss": 0.2607,
       "step": 1175
     },
     {
       "epoch": 2.98,
-      "learning_rate": 3.531e-06,
-      "loss": 0.2492,
       "step": 1180
     },
     {
       "epoch": 2.99,
-      "learning_rate": 3.546e-06,
-      "loss": 0.2366,
       "step": 1185
     },
     {
       "epoch": 3.0,
-      "step": 1188,
-      "total_flos": 3.172956745754896e+19,
-      "train_loss": 1.5876106701113961,
-      "train_runtime": 5725.9395,
-      "train_samples_per_second": 14.952,
-      "train_steps_per_second": 0.207
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1188,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 3.172956745754896e+19,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.996216897856242,
   "eval_steps": 250,
+  "global_step": 1980,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 1000
     },
     {
+      "epoch": 2.54,
       "learning_rate": 3.006e-06,
+      "loss": 0.292,
       "step": 1005
     },
     {
       "epoch": 2.55,
+      "learning_rate": 3.0179999999999997e-06,
+      "loss": 0.3656,
       "step": 1010
     },
     {
       "epoch": 2.56,
+      "learning_rate": 3.033e-06,
+      "loss": 0.3029,
       "step": 1015
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 3.048e-06,
+      "loss": 0.2976,
       "step": 1020
     },
     {
       "epoch": 2.59,
+      "learning_rate": 3.063e-06,
+      "loss": 0.3674,
       "step": 1025
     },
     {
       "epoch": 2.6,
+      "learning_rate": 3.078e-06,
+      "loss": 0.3063,
       "step": 1030
     },
     {
       "epoch": 2.61,
+      "learning_rate": 3.093e-06,
+      "loss": 0.2821,
       "step": 1035
     },
     {
+      "epoch": 2.63,
+      "learning_rate": 3.108e-06,
+      "loss": 0.2804,
       "step": 1040
     },
     {
       "epoch": 2.64,
+      "learning_rate": 3.123e-06,
+      "loss": 0.3475,
       "step": 1045
     },
     {
       "epoch": 2.65,
+      "learning_rate": 3.138e-06,
+      "loss": 0.2895,
       "step": 1050
     },
     {
       "epoch": 2.66,
+      "learning_rate": 3.153e-06,
+      "loss": 0.278,
       "step": 1055
     },
     {
+      "epoch": 2.68,
+      "learning_rate": 3.168e-06,
+      "loss": 0.3217,
       "step": 1060
     },
     {
       "epoch": 2.69,
+      "learning_rate": 3.1830000000000003e-06,
+      "loss": 0.2822,
       "step": 1065
     },
     {
       "epoch": 2.7,
+      "learning_rate": 3.198e-06,
+      "loss": 0.2736,
       "step": 1070
     },
     {
       "epoch": 2.71,
+      "learning_rate": 3.213e-06,
+      "loss": 0.3326,
       "step": 1075
     },
     {
+      "epoch": 2.73,
+      "learning_rate": 3.2280000000000003e-06,
+      "loss": 0.2738,
       "step": 1080
     },
     {
       "epoch": 2.74,
+      "learning_rate": 3.243e-06,
+      "loss": 0.2712,
       "step": 1085
     },
     {
       "epoch": 2.75,
+      "learning_rate": 3.258e-06,
+      "loss": 0.2858,
       "step": 1090
     },
     {
       "epoch": 2.76,
+      "learning_rate": 3.2730000000000003e-06,
+      "loss": 0.2962,
       "step": 1095
     },
     {
+      "epoch": 2.78,
+      "learning_rate": 3.288e-06,
+      "loss": 0.2485,
       "step": 1100
     },
     {
       "epoch": 2.79,
+      "learning_rate": 3.3030000000000004e-06,
+      "loss": 0.2566,
       "step": 1105
     },
     {
       "epoch": 2.8,
+      "learning_rate": 3.315e-06,
+      "loss": 0.2978,
       "step": 1110
     },
     {
       "epoch": 2.81,
+      "learning_rate": 3.3300000000000003e-06,
+      "loss": 0.2629,
       "step": 1115
     },
     {
+      "epoch": 2.83,
+      "learning_rate": 3.345e-06,
+      "loss": 0.2559,
       "step": 1120
     },
     {
       "epoch": 2.84,
+      "learning_rate": 3.36e-06,
+      "loss": 0.2628,
       "step": 1125
     },
     {
       "epoch": 2.85,
+      "learning_rate": 3.3750000000000003e-06,
+      "loss": 0.2455,
       "step": 1130
     },
     {
+      "epoch": 2.87,
+      "learning_rate": 3.39e-06,
+      "loss": 0.2501,
       "step": 1135
     },
     {
       "epoch": 2.88,
+      "learning_rate": 3.405e-06,
+      "loss": 0.265,
       "step": 1140
     },
     {
       "epoch": 2.89,
+      "learning_rate": 3.417e-06,
+      "loss": 0.2922,
       "step": 1145
     },
     {
       "epoch": 2.9,
+      "learning_rate": 3.4320000000000003e-06,
+      "loss": 0.2492,
       "step": 1150
     },
     {
+      "epoch": 2.92,
+      "learning_rate": 3.447e-06,
+      "loss": 0.2417,
       "step": 1155
     },
     {
       "epoch": 2.93,
+      "learning_rate": 3.462e-06,
+      "loss": 0.27,
       "step": 1160
     },
     {
       "epoch": 2.94,
+      "learning_rate": 3.4770000000000003e-06,
+      "loss": 0.2335,
       "step": 1165
     },
     {
       "epoch": 2.95,
+      "learning_rate": 3.492e-06,
+      "loss": 0.2327,
       "step": 1170
     },
     {
+      "epoch": 2.97,
+      "learning_rate": 3.507e-06,
+      "loss": 0.2634,
       "step": 1175
     },
     {
       "epoch": 2.98,
+      "learning_rate": 3.5220000000000003e-06,
+      "loss": 0.2389,
       "step": 1180
     },
     {
       "epoch": 2.99,
+      "learning_rate": 3.537e-06,
+      "loss": 0.223,
       "step": 1185
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.552e-06,
+      "loss": 0.2773,
+      "step": 1190
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 3.5670000000000003e-06,
+      "loss": 0.2285,
+      "step": 1195
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 3.582e-06,
+      "loss": 0.2183,
+      "step": 1200
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 3.5970000000000005e-06,
+      "loss": 0.2967,
+      "step": 1205
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 3.612e-06,
+      "loss": 0.2179,
+      "step": 1210
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 3.6269999999999997e-06,
+      "loss": 0.231,
+      "step": 1215
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 3.642e-06,
+      "loss": 0.2366,
+      "step": 1220
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 3.657e-06,
+      "loss": 0.2462,
+      "step": 1225
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 3.6719999999999997e-06,
+      "loss": 0.2151,
+      "step": 1230
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 3.687e-06,
+      "loss": 0.2162,
+      "step": 1235
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 3.702e-06,
+      "loss": 0.2532,
+      "step": 1240
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 3.717e-06,
+      "loss": 0.2035,
+      "step": 1245
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 3.732e-06,
+      "loss": 0.2089,
+      "step": 1250
+    },
+    {
+      "epoch": 3.16,
+      "eval_cer": 0.044489706264102716,
+      "eval_loss": 0.2078969031572342,
+      "eval_runtime": 113.5687,
+      "eval_samples_per_second": 22.26,
+      "eval_steps_per_second": 0.625,
+      "eval_wer": 0.17657921548650027,
+      "step": 1250
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 3.747e-06,
+      "loss": 0.2531,
+      "step": 1255
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 3.7620000000000006e-06,
+      "loss": 0.2165,
+      "step": 1260
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 3.7770000000000004e-06,
+      "loss": 0.212,
+      "step": 1265
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 3.7920000000000003e-06,
+      "loss": 0.2218,
+      "step": 1270
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 3.8070000000000006e-06,
+      "loss": 0.2297,
+      "step": 1275
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 3.822000000000001e-06,
+      "loss": 0.2095,
+      "step": 1280
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 3.837000000000001e-06,
+      "loss": 0.2028,
+      "step": 1285
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 3.852e-06,
+      "loss": 0.2619,
+      "step": 1290
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 3.8669999999999996e-06,
+      "loss": 0.1918,
+      "step": 1295
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 3.8819999999999994e-06,
+      "loss": 0.1945,
+      "step": 1300
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 3.897e-06,
+      "loss": 0.2347,
+      "step": 1305
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 3.912e-06,
+      "loss": 0.2111,
+      "step": 1310
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 3.927e-06,
+      "loss": 0.207,
+      "step": 1315
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 3.942e-06,
+      "loss": 0.2281,
+      "step": 1320
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 3.9569999999999996e-06,
+      "loss": 0.2334,
+      "step": 1325
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 3.971999999999999e-06,
+      "loss": 0.1804,
+      "step": 1330
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 3.987e-06,
+      "loss": 0.1943,
+      "step": 1335
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 4.002e-06,
+      "loss": 0.2298,
+      "step": 1340
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 4.017e-06,
+      "loss": 0.1911,
+      "step": 1345
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 4.032e-06,
+      "loss": 0.1967,
+      "step": 1350
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 4.0469999999999995e-06,
+      "loss": 0.2311,
+      "step": 1355
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 4.062e-06,
+      "loss": 0.201,
+      "step": 1360
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 4.077e-06,
+      "loss": 0.1956,
+      "step": 1365
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 4.092e-06,
+      "loss": 0.2068,
+      "step": 1370
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 4.107e-06,
+      "loss": 0.2211,
+      "step": 1375
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 4.122e-06,
+      "loss": 0.187,
+      "step": 1380
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 4.137e-06,
+      "loss": 0.1901,
+      "step": 1385
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 4.152e-06,
+      "loss": 0.2077,
+      "step": 1390
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 4.167e-06,
+      "loss": 0.1781,
+      "step": 1395
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 4.182e-06,
+      "loss": 0.1806,
+      "step": 1400
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 4.197e-06,
+      "loss": 0.2346,
+      "step": 1405
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 4.212e-06,
+      "loss": 0.1864,
+      "step": 1410
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 4.227e-06,
+      "loss": 0.1682,
+      "step": 1415
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 4.242e-06,
+      "loss": 0.1944,
+      "step": 1420
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 4.257e-06,
+      "loss": 0.2108,
+      "step": 1425
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 4.272e-06,
+      "loss": 0.1731,
+      "step": 1430
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 4.287e-06,
+      "loss": 0.1734,
+      "step": 1435
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 4.3020000000000005e-06,
+      "loss": 0.2366,
+      "step": 1440
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 4.317e-06,
+      "loss": 0.1858,
+      "step": 1445
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 4.332e-06,
+      "loss": 0.1837,
+      "step": 1450
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 4.347e-06,
+      "loss": 0.2047,
+      "step": 1455
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 4.362e-06,
+      "loss": 0.1838,
+      "step": 1460
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 4.377e-06,
+      "loss": 0.1684,
+      "step": 1465
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 4.3920000000000005e-06,
+      "loss": 0.1965,
+      "step": 1470
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 4.407e-06,
+      "loss": 0.2069,
+      "step": 1475
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 4.422e-06,
+      "loss": 0.1751,
+      "step": 1480
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 4.437e-06,
+      "loss": 0.1724,
+      "step": 1485
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 4.452e-06,
+      "loss": 0.2224,
+      "step": 1490
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 4.467000000000001e-06,
+      "loss": 0.1684,
+      "step": 1495
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 4.4820000000000005e-06,
+      "loss": 0.1634,
+      "step": 1500
+    },
+    {
+      "epoch": 3.79,
+      "eval_cer": 0.03657820643383454,
+      "eval_loss": 0.16873595118522644,
+      "eval_runtime": 60.2617,
+      "eval_samples_per_second": 41.95,
+      "eval_steps_per_second": 1.178,
+      "eval_wer": 0.14106809305484802,
+      "step": 1500
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 4.497e-06,
+      "loss": 0.2137,
+      "step": 1505
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 4.5089999999999995e-06,
+      "loss": 0.1759,
+      "step": 1510
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 4.524e-06,
+      "loss": 0.1698,
+      "step": 1515
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 4.539e-06,
+      "loss": 0.1703,
+      "step": 1520
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 4.554e-06,
+      "loss": 0.1841,
+      "step": 1525
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 4.569e-06,
+      "loss": 0.1783,
+      "step": 1530
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.584e-06,
+      "loss": 0.1633,
+      "step": 1535
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 4.5989999999999995e-06,
+      "loss": 0.1839,
+      "step": 1540
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 4.614e-06,
+      "loss": 0.153,
+      "step": 1545
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.629e-06,
+      "loss": 0.1553,
+      "step": 1550
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 4.644e-06,
+      "loss": 0.1834,
+      "step": 1555
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 4.659e-06,
+      "loss": 0.1582,
+      "step": 1560
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 4.674e-06,
+      "loss": 0.1592,
+      "step": 1565
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 4.689e-06,
+      "loss": 0.1823,
+      "step": 1570
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 4.704e-06,
+      "loss": 0.1782,
+      "step": 1575
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 4.719e-06,
+      "loss": 0.1543,
+      "step": 1580
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.734e-06,
+      "loss": 0.1943,
+      "step": 1585
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.749e-06,
+      "loss": 0.1491,
+      "step": 1590
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 4.764e-06,
+      "loss": 0.1656,
+      "step": 1595
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 4.779e-06,
+      "loss": 0.1507,
+      "step": 1600
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 4.794e-06,
+      "loss": 0.1589,
+      "step": 1605
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 4.809e-06,
+      "loss": 0.1443,
+      "step": 1610
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 4.824e-06,
+      "loss": 0.1487,
+      "step": 1615
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 4.839e-06,
+      "loss": 0.1766,
+      "step": 1620
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 4.8540000000000005e-06,
+      "loss": 0.1548,
+      "step": 1625
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 4.869e-06,
+      "loss": 0.1494,
+      "step": 1630
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 4.884e-06,
+      "loss": 0.1793,
+      "step": 1635
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 4.899e-06,
+      "loss": 0.1417,
+      "step": 1640
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 4.914e-06,
+      "loss": 0.1399,
+      "step": 1645
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 4.929000000000001e-06,
+      "loss": 0.166,
+      "step": 1650
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 4.9440000000000004e-06,
+      "loss": 0.1748,
+      "step": 1655
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 4.959e-06,
+      "loss": 0.1378,
+      "step": 1660
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 4.974e-06,
+      "loss": 0.144,
+      "step": 1665
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 4.989e-06,
+      "loss": 0.1794,
+      "step": 1670
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 5.004e-06,
+      "loss": 0.146,
+      "step": 1675
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 5.0190000000000006e-06,
+      "loss": 0.141,
+      "step": 1680
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5.034e-06,
+      "loss": 0.1757,
+      "step": 1685
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 5.049e-06,
+      "loss": 0.1423,
+      "step": 1690
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 5.064e-06,
+      "loss": 0.1414,
+      "step": 1695
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 5.079e-06,
+      "loss": 0.1556,
+      "step": 1700
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 5.094000000000001e-06,
+      "loss": 0.1599,
+      "step": 1705
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 5.1090000000000006e-06,
+      "loss": 0.1436,
+      "step": 1710
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 5.124e-06,
+      "loss": 0.1346,
+      "step": 1715
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 5.139e-06,
+      "loss": 0.1702,
+      "step": 1720
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 5.154e-06,
+      "loss": 0.1397,
+      "step": 1725
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 5.169e-06,
+      "loss": 0.1373,
+      "step": 1730
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5.184000000000001e-06,
+      "loss": 0.1929,
+      "step": 1735
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 5.1990000000000005e-06,
+      "loss": 0.1426,
+      "step": 1740
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 5.214e-06,
+      "loss": 0.1481,
+      "step": 1745
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 5.229e-06,
+      "loss": 0.163,
+      "step": 1750
+    },
+    {
+      "epoch": 4.42,
+      "eval_cer": 0.029768965035244312,
+      "eval_loss": 0.1489591896533966,
+      "eval_runtime": 60.6618,
+      "eval_samples_per_second": 41.674,
+      "eval_steps_per_second": 1.17,
+      "eval_wer": 0.1163397860417728,
+      "step": 1750
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 5.244e-06,
+      "loss": 0.1816,
+      "step": 1755
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 5.259000000000001e-06,
+      "loss": 0.1444,
+      "step": 1760
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 5.274000000000001e-06,
+      "loss": 0.1423,
+      "step": 1765
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 5.2890000000000005e-06,
+      "loss": 0.1605,
+      "step": 1770
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 5.304e-06,
+      "loss": 0.1355,
+      "step": 1775
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 5.319e-06,
+      "loss": 0.1401,
+      "step": 1780
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 5.334000000000001e-06,
+      "loss": 0.1593,
+      "step": 1785
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5.349e-06,
+      "loss": 0.1361,
+      "step": 1790
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 5.364e-06,
+      "loss": 0.1363,
+      "step": 1795
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5.379e-06,
+      "loss": 0.1527,
+      "step": 1800
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 5.3939999999999995e-06,
+      "loss": 0.1645,
+      "step": 1805
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 5.408999999999999e-06,
+      "loss": 0.1285,
+      "step": 1810
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 5.424e-06,
+      "loss": 0.1366,
+      "step": 1815
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 5.439e-06,
+      "loss": 0.1808,
+      "step": 1820
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 5.454e-06,
+      "loss": 0.1428,
+      "step": 1825
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 5.469e-06,
+      "loss": 0.1314,
+      "step": 1830
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 5.4839999999999995e-06,
+      "loss": 0.1479,
+      "step": 1835
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 5.499e-06,
+      "loss": 0.135,
+      "step": 1840
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 5.514e-06,
+      "loss": 0.1253,
+      "step": 1845
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 5.529e-06,
+      "loss": 0.13,
+      "step": 1850
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 5.544e-06,
+      "loss": 0.1484,
+      "step": 1855
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 5.559e-06,
+      "loss": 0.1201,
+      "step": 1860
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 5.574e-06,
+      "loss": 0.1263,
+      "step": 1865
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 5.589e-06,
+      "loss": 0.1493,
+      "step": 1870
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 5.604e-06,
+      "loss": 0.1276,
+      "step": 1875
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 5.619e-06,
+      "loss": 0.1236,
+      "step": 1880
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 5.634e-06,
+      "loss": 0.1718,
+      "step": 1885
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 5.649e-06,
+      "loss": 0.1292,
+      "step": 1890
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5.664e-06,
+      "loss": 0.1175,
+      "step": 1895
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 5.679e-06,
+      "loss": 0.1317,
+      "step": 1900
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 5.694e-06,
+      "loss": 0.1412,
+      "step": 1905
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 5.709e-06,
+      "loss": 0.1222,
+      "step": 1910
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 5.724e-06,
+      "loss": 0.1193,
+      "step": 1915
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 5.7390000000000004e-06,
+      "loss": 0.16,
+      "step": 1920
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 5.754e-06,
+      "loss": 0.1228,
+      "step": 1925
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 5.769e-06,
+      "loss": 0.1195,
+      "step": 1930
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 5.784e-06,
+      "loss": 0.1608,
+      "step": 1935
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 5.799e-06,
+      "loss": 0.1234,
+      "step": 1940
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 5.814e-06,
+      "loss": 0.1265,
+      "step": 1945
+    },
+    {
+      "epoch": 4.92,
+      "learning_rate": 5.8290000000000004e-06,
+      "loss": 0.1431,
+      "step": 1950
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 5.844e-06,
+      "loss": 0.1366,
+      "step": 1955
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 5.859e-06,
+      "loss": 0.1091,
+      "step": 1960
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 5.874e-06,
+      "loss": 0.139,
+      "step": 1965
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 5.886000000000001e-06,
+      "loss": 0.1726,
+      "step": 1970
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 5.901000000000001e-06,
+      "loss": 0.1148,
+      "step": 1975
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 5.916e-06,
+      "loss": 0.1296,
+      "step": 1980
+    },
+    {
+      "epoch": 5.0,
+      "step": 1980,
+      "total_flos": 5.2867996741439324e+19,
+      "train_loss": 0.09581804365822763,
+      "train_runtime": 4900.8909,
+      "train_samples_per_second": 29.115,
+      "train_steps_per_second": 0.404
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1980,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 5.2867996741439324e+19,
   "train_batch_size": 12,
   "trial_name": null,
   "trial_params": null