model upd

Browse files

Files changed (16) hide show

all_results.json +12 -12
config.json +1 -1
eval_results.json +7 -7
log_mozilla-foundation_common_voice_8_0_uk_test_predictions.txt +0 -0
mozilla-foundation_common_voice_8_0_uk_test_eval_results.txt +2 -2
pytorch_model.bin +1 -1
run.sh +7 -6
run_speech_recognition_ctc.py +3 -3
runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1644080998.635567/events.out.tfevents.1644080998.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.1 +3 -0
runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1644080998.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.0 +3 -0
runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1644214441.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.2 +3 -0
special_tokens_map.json +1 -1
speech-recognition-community-v2_dev_data_uk_validation_eval_results.txt +2 -0
train_results.json +6 -6
trainer_state.json +614 -454
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 64.51,
-    "eval_cer": 0.034204238520673176,
-    "eval_loss": 0.12852737307548523,
-    "eval_runtime": 199.2512,
     "eval_samples": 5802,
-    "eval_samples_per_second": 29.119,
-    "eval_steps_per_second": 0.457,
-    "eval_wer": 0.18207560526688377,
-    "train_loss": 0.5247637950897217,
-    "train_runtime": 62085.4852,
-    "train_samples": 19948,
-    "train_samples_per_second": 20.617,
-    "train_steps_per_second": 0.161
 }

 {
+    "epoch": 38.59,
+    "eval_cer": 0.032260099136267845,
+    "eval_loss": 0.10924588888883591,
+    "eval_runtime": 200.0507,
     "eval_samples": 5802,
+    "eval_samples_per_second": 29.003,
+    "eval_steps_per_second": 0.455,
+    "eval_wer": 0.17520883477275945,
+    "train_loss": 1.0786900800069172,
+    "train_runtime": 133237.4383,
+    "train_samples": 39803,
+    "train_samples_per_second": 11.528,
+    "train_steps_per_second": 0.09
 }

config.json CHANGED Viewed

@@ -64,7 +64,7 @@
   "mask_feature_prob": 0.25,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
-  "mask_time_prob": 0.55,
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,

   "mask_feature_prob": 0.25,
   "mask_time_length": 10,
   "mask_time_min_masks": 2,
+  "mask_time_prob": 0.7,
   "model_type": "wav2vec2",
   "num_adapter_layers": 3,
   "num_attention_heads": 16,

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 64.51,
-    "eval_cer": 0.034204238520673176,
-    "eval_loss": 0.12852737307548523,
-    "eval_runtime": 199.2512,
     "eval_samples": 5802,
-    "eval_samples_per_second": 29.119,
-    "eval_steps_per_second": 0.457,
-    "eval_wer": 0.18207560526688377
 }

 {
+    "epoch": 38.59,
+    "eval_cer": 0.032260099136267845,
+    "eval_loss": 0.10924588888883591,
+    "eval_runtime": 200.0507,
     "eval_samples": 5802,
+    "eval_samples_per_second": 29.003,
+    "eval_steps_per_second": 0.455,
+    "eval_wer": 0.17520883477275945
 }

log_mozilla-foundation_common_voice_8_0_uk_test_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

mozilla-foundation_common_voice_8_0_uk_test_eval_results.txt CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- WER: 0.~~11251120864599556~~
2	- CER: 0.~~02284734795642753~~


1	+ WER: 0.10406342913776016
2	+ CER: 0.020387492208601702

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7ce482acb12c018f40d2be671022e2737f85e54bfc9edacc3c203ce66819ee3
 size 3850512561

 version https://git-lfs.github.com/spec/v1
+oid sha256:0899f4d43292dcdf2428937a08f0be20d919e37589599d1f33fbd667896e6296
 size 3850512561

run.sh CHANGED Viewed

@@ -1,9 +1,10 @@
 python run_speech_recognition_ctc.py \
-	--dataset_name /workspace/data/uk/noizy_student_1/ \
 	--train_split_name train \
 	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
-	--output_dir="./" \
-	--max_steps 10000 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
 	--gradient_accumulation_steps="8" \
@@ -18,12 +19,12 @@ python run_speech_recognition_ctc.py \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \
-	--save_total_limit 5 \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
 	--activation_dropout="0.1" \
 	--feat_proj_dropout="0.0" \
-	--mask_time_prob="0.55" \
 	--mask_time_length="10" \
 	--mask_feature_prob="0.25" \
 	--mask_feature_length="64" \
@@ -34,6 +35,6 @@ python run_speech_recognition_ctc.py \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
-	--run_name="xlsr-uk-ns-1b-1" \
 	--wandb_project="xlsr-uk" \
 	--bnb --tristage_sched

 python run_speech_recognition_ctc.py \
+	--dataset_name /workspace/data/uk/composed_dataset/ \
 	--train_split_name train \
 	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
+	--output_dir ./ \
+	--overwrite_output_dir \
+	--max_steps 12000 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
 	--gradient_accumulation_steps="8" \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \
+	--save_total_limit 10 \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
 	--activation_dropout="0.1" \
 	--feat_proj_dropout="0.0" \
+	--mask_time_prob="0.7" \
 	--mask_time_length="10" \
 	--mask_feature_prob="0.25" \
 	--mask_feature_length="64" \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
+	--run_name="xlsr-uk-1b-1" \
 	--wandb_project="xlsr-uk" \
 	--bnb --tristage_sched

run_speech_recognition_ctc.py CHANGED Viewed

@@ -438,7 +438,7 @@ def main():
     raw_datasets = DatasetDict()
     if training_args.do_train:
-        if data_args.dataset_name.endswith("/"):
             raw_datasets["train"] = load_from_disk(f"{data_args.dataset_name}/{data_args.train_split_name}")
         else:
             raw_datasets["train"] = load_dataset(
@@ -466,7 +466,7 @@ def main():
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
     if training_args.do_eval:
-        if data_args.dataset_name.endswith("/"):
             raw_datasets["eval"] = load_from_disk(f"{data_args.dataset_name}/{data_args.eval_split_name}")
         else:
             raw_datasets["eval"] = load_dataset(
@@ -744,7 +744,7 @@ def main():
             eps=training_args.adam_epsilon,
         )
     if extra_args.tristage_sched:
-        scheduler = get_tri_stage_schedule(optimizer, training_args.max_steps)
     else:
         scheduler = None
     optimizers = (optimizer, scheduler)

     raw_datasets = DatasetDict()
     if training_args.do_train:
+        if os.path.isdir(data_args.dataset_name):
             raw_datasets["train"] = load_from_disk(f"{data_args.dataset_name}/{data_args.train_split_name}")
         else:
             raw_datasets["train"] = load_dataset(
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
     if training_args.do_eval:
+        if os.path.isdir(data_args.dataset_name):
             raw_datasets["eval"] = load_from_disk(f"{data_args.dataset_name}/{data_args.eval_split_name}")
         else:
             raw_datasets["eval"] = load_dataset(
             eps=training_args.adam_epsilon,
         )
     if extra_args.tristage_sched:
+        scheduler = get_tri_stage_schedule(optimizer, training_args.max_steps, ratios=[0.1,0.3,0.6])
     else:
         scheduler = None
     optimizers = (optimizer, scheduler)

runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1644080998.635567/events.out.tfevents.1644080998.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14269093cd8a901cf553b343358bb3a6e11d7e016a5e3089a4fbef9e16f15342
+size 4769

runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1644080998.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5aebc5b8ec89626c05af71d1ad757ef5ae42fef6c33928134292765606f21235
+size 32651

runs/Feb05_17-03-38_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1644214441.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.1687777.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0e5e8b6387cfca950c01f1519bcfc4e021fb5b5c49e87204947a35d11ba276b
+size 405

special_tokens_map.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

speech-recognition-community-v2_dev_data_uk_validation_eval_results.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ WER: 0.39531368102796677
2	+ CER: 0.20685439144902693

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 64.51,
-    "train_loss": 0.5247637950897217,
-    "train_runtime": 62085.4852,
-    "train_samples": 19948,
-    "train_samples_per_second": 20.617,
-    "train_steps_per_second": 0.161
 }

 {
+    "epoch": 38.59,
+    "train_loss": 1.0786900800069172,
+    "train_runtime": 133237.4383,
+    "train_samples": 39803,
+    "train_samples_per_second": 11.528,
+    "train_steps_per_second": 0.09
 }

trainer_state.json CHANGED Viewed

@@ -1,825 +1,985 @@
 {
-  "best_metric": 0.12852737307548523,
-  "best_model_checkpoint": "./checkpoint-10000",
-  "epoch": 64.51323175621492,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.64,
-      "learning_rate": 8.4824e-06,
-      "loss": 6.9402,
       "step": 100
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 1.6402400000000004e-05,
-      "loss": 3.2608,
       "step": 200
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 2.4322400000000003e-05,
-      "loss": 2.4251,
       "step": 300
     },
     {
-      "epoch": 2.58,
-      "learning_rate": 3.22424e-05,
-      "loss": 1.4757,
       "step": 400
     },
     {
-      "epoch": 3.22,
-      "learning_rate": 4.01624e-05,
-      "loss": 1.2323,
       "step": 500
     },
     {
-      "epoch": 3.22,
-      "eval_cer": 0.07965777210531003,
-      "eval_loss": 0.28158774971961975,
-      "eval_runtime": 197.0167,
-      "eval_samples_per_second": 29.449,
-      "eval_steps_per_second": 0.462,
-      "eval_wer": 0.41325687856906884,
       "step": 500
     },
     {
-      "epoch": 3.87,
-      "learning_rate": 4.80824e-05,
-      "loss": 1.1608,
       "step": 600
     },
     {
-      "epoch": 4.51,
-      "learning_rate": 5.600240000000001e-05,
-      "loss": 1.1297,
       "step": 700
     },
     {
-      "epoch": 5.16,
-      "learning_rate": 6.39224e-05,
-      "loss": 1.0738,
       "step": 800
     },
     {
-      "epoch": 5.8,
-      "learning_rate": 7.184240000000001e-05,
-      "loss": 1.0863,
       "step": 900
     },
     {
-      "epoch": 6.45,
-      "learning_rate": 7.97624e-05,
-      "loss": 0.9826,
       "step": 1000
     },
     {
-      "epoch": 6.45,
-      "eval_cer": 0.05135273515182096,
-      "eval_loss": 0.19702914357185364,
-      "eval_runtime": 195.781,
-      "eval_samples_per_second": 29.635,
-      "eval_steps_per_second": 0.465,
-      "eval_wer": 0.26877153239888624,
       "step": 1000
     },
     {
-      "epoch": 7.1,
-      "learning_rate": 8e-05,
-      "loss": 0.9708,
       "step": 1100
     },
     {
-      "epoch": 7.74,
-      "learning_rate": 8e-05,
-      "loss": 0.917,
       "step": 1200
     },
     {
-      "epoch": 8.38,
-      "learning_rate": 8e-05,
-      "loss": 0.888,
       "step": 1300
     },
     {
-      "epoch": 9.03,
-      "learning_rate": 8e-05,
-      "loss": 0.9048,
       "step": 1400
     },
     {
-      "epoch": 9.67,
-      "learning_rate": 8e-05,
-      "loss": 0.8628,
       "step": 1500
     },
     {
-      "epoch": 9.67,
-      "eval_cer": 0.04743848505535603,
-      "eval_loss": 0.16490551829338074,
-      "eval_runtime": 196.0899,
-      "eval_samples_per_second": 29.588,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.24850158100901412,
       "step": 1500
     },
     {
-      "epoch": 10.32,
-      "learning_rate": 8e-05,
-      "loss": 0.8616,
       "step": 1600
     },
     {
-      "epoch": 10.96,
-      "learning_rate": 8e-05,
-      "loss": 0.8517,
       "step": 1700
     },
     {
-      "epoch": 11.61,
-      "learning_rate": 8e-05,
-      "loss": 0.8455,
       "step": 1800
     },
     {
-      "epoch": 12.26,
-      "learning_rate": 8e-05,
-      "loss": 0.8436,
       "step": 1900
     },
     {
-      "epoch": 12.9,
-      "learning_rate": 8e-05,
-      "loss": 0.8348,
       "step": 2000
     },
     {
-      "epoch": 12.9,
-      "eval_cer": 0.046703867501706686,
-      "eval_loss": 0.16045768558979034,
-      "eval_runtime": 196.1747,
-      "eval_samples_per_second": 29.576,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.24604747746472228,
       "step": 2000
     },
     {
-      "epoch": 13.55,
-      "learning_rate": 8e-05,
-      "loss": 0.844,
       "step": 2100
     },
     {
-      "epoch": 14.19,
-      "learning_rate": 8e-05,
-      "loss": 0.8369,
       "step": 2200
     },
     {
-      "epoch": 14.83,
-      "learning_rate": 8e-05,
-      "loss": 0.8241,
       "step": 2300
     },
     {
-      "epoch": 15.48,
-      "learning_rate": 8e-05,
-      "loss": 0.8235,
       "step": 2400
     },
     {
-      "epoch": 16.13,
-      "learning_rate": 8e-05,
-      "loss": 0.8186,
       "step": 2500
     },
     {
-      "epoch": 16.13,
-      "eval_cer": 0.04690421774361105,
-      "eval_loss": 0.1608021855354309,
-      "eval_runtime": 196.173,
-      "eval_samples_per_second": 29.576,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.24692057199490303,
       "step": 2500
     },
     {
-      "epoch": 16.77,
-      "learning_rate": 8e-05,
-      "loss": 0.8355,
       "step": 2600
     },
     {
-      "epoch": 17.42,
-      "learning_rate": 8e-05,
-      "loss": 0.8157,
       "step": 2700
     },
     {
-      "epoch": 18.06,
-      "learning_rate": 8e-05,
-      "loss": 0.8175,
       "step": 2800
     },
     {
-      "epoch": 18.71,
-      "learning_rate": 8e-05,
-      "loss": 0.801,
       "step": 2900
     },
     {
-      "epoch": 19.35,
-      "learning_rate": 8e-05,
-      "loss": 0.8011,
       "step": 3000
     },
     {
-      "epoch": 19.35,
-      "eval_cer": 0.046789201863999284,
-      "eval_loss": 0.1620311141014099,
-      "eval_runtime": 197.3892,
-      "eval_samples_per_second": 29.394,
-      "eval_steps_per_second": 0.461,
-      "eval_wer": 0.24118646467506724,
       "step": 3000
     },
     {
-      "epoch": 19.99,
-      "learning_rate": 8e-05,
-      "loss": 0.7888,
       "step": 3100
     },
     {
-      "epoch": 20.64,
-      "learning_rate": 8e-05,
-      "loss": 0.8008,
       "step": 3200
     },
     {
-      "epoch": 21.29,
-      "learning_rate": 8e-05,
-      "loss": 0.8197,
       "step": 3300
     },
     {
-      "epoch": 21.93,
-      "learning_rate": 8e-05,
-      "loss": 0.8065,
       "step": 3400
     },
     {
-      "epoch": 22.58,
-      "learning_rate": 8e-05,
-      "loss": 0.807,
       "step": 3500
     },
     {
-      "epoch": 22.58,
-      "eval_cer": 0.049805586061559465,
-      "eval_loss": 0.17369326949119568,
-      "eval_runtime": 196.0869,
-      "eval_samples_per_second": 29.589,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.252395110670631,
       "step": 3500
     },
     {
-      "epoch": 23.22,
-      "learning_rate": 8e-05,
-      "loss": 0.8045,
       "step": 3600
     },
     {
-      "epoch": 23.87,
-      "learning_rate": 8e-05,
-      "loss": 0.7925,
       "step": 3700
     },
     {
-      "epoch": 24.51,
-      "learning_rate": 8e-05,
-      "loss": 0.8046,
       "step": 3800
     },
     {
-      "epoch": 25.16,
-      "learning_rate": 8e-05,
-      "loss": 0.8102,
       "step": 3900
     },
     {
-      "epoch": 25.8,
-      "learning_rate": 8e-05,
-      "loss": 0.7758,
       "step": 4000
     },
     {
-      "epoch": 25.8,
-      "eval_cer": 0.04979074530289988,
-      "eval_loss": 0.1708839237689972,
-      "eval_runtime": 196.4196,
-      "eval_samples_per_second": 29.539,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.2535985652933126,
       "step": 4000
     },
     {
-      "epoch": 26.45,
-      "learning_rate": 8e-05,
-      "loss": 0.7968,
       "step": 4100
     },
     {
-      "epoch": 27.1,
-      "learning_rate": 8e-05,
-      "loss": 0.7904,
       "step": 4200
     },
     {
-      "epoch": 27.74,
-      "learning_rate": 8e-05,
-      "loss": 0.8001,
       "step": 4300
     },
     {
-      "epoch": 28.38,
-      "learning_rate": 8e-05,
-      "loss": 0.7869,
       "step": 4400
     },
     {
-      "epoch": 29.03,
-      "learning_rate": 8e-05,
-      "loss": 0.7923,
       "step": 4500
     },
     {
-      "epoch": 29.03,
-      "eval_cer": 0.04736799145172301,
-      "eval_loss": 0.16446976363658905,
-      "eval_runtime": 196.4759,
-      "eval_samples_per_second": 29.53,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.24356977677096606,
       "step": 4500
     },
     {
-      "epoch": 29.67,
-      "learning_rate": 8e-05,
-      "loss": 0.772,
       "step": 4600
     },
     {
-      "epoch": 30.32,
-      "learning_rate": 8e-05,
-      "loss": 0.7702,
       "step": 4700
     },
     {
-      "epoch": 30.96,
-      "learning_rate": 8e-05,
-      "loss": 0.7797,
       "step": 4800
     },
     {
-      "epoch": 31.61,
-      "learning_rate": 8e-05,
-      "loss": 0.7759,
       "step": 4900
     },
     {
-      "epoch": 32.26,
-      "learning_rate": 8e-05,
-      "loss": 0.7717,
       "step": 5000
     },
     {
-      "epoch": 32.26,
-      "eval_cer": 0.052350776171677896,
-      "eval_loss": 0.1811000257730484,
-      "eval_runtime": 196.7068,
-      "eval_samples_per_second": 29.496,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.26355656236726605,
       "step": 5000
     },
     {
-      "epoch": 32.9,
-      "learning_rate": 7.852560000000001e-05,
-      "loss": 0.7608,
       "step": 5100
     },
     {
-      "epoch": 33.55,
-      "learning_rate": 7.700560000000001e-05,
-      "loss": 0.763,
       "step": 5200
     },
     {
-      "epoch": 34.19,
-      "learning_rate": 7.54856e-05,
-      "loss": 0.7712,
       "step": 5300
     },
     {
-      "epoch": 34.83,
-      "learning_rate": 7.39656e-05,
-      "loss": 0.7478,
       "step": 5400
     },
     {
-      "epoch": 35.48,
-      "learning_rate": 7.24456e-05,
-      "loss": 0.7447,
       "step": 5500
     },
     {
-      "epoch": 35.48,
-      "eval_cer": 0.04679662224332908,
-      "eval_loss": 0.16353937983512878,
-      "eval_runtime": 196.1767,
-      "eval_samples_per_second": 29.575,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.2404785501911369,
       "step": 5500
     },
     {
-      "epoch": 36.13,
-      "learning_rate": 7.09256e-05,
-      "loss": 0.7544,
       "step": 5600
     },
     {
-      "epoch": 36.77,
-      "learning_rate": 6.94056e-05,
-      "loss": 0.7438,
       "step": 5700
     },
     {
-      "epoch": 37.42,
-      "learning_rate": 6.79008e-05,
-      "loss": 0.742,
       "step": 5800
     },
     {
-      "epoch": 38.06,
-      "learning_rate": 6.638080000000001e-05,
-      "loss": 0.7441,
       "step": 5900
     },
     {
-      "epoch": 38.71,
-      "learning_rate": 6.486080000000001e-05,
-      "loss": 0.7267,
       "step": 6000
     },
     {
-      "epoch": 38.71,
-      "eval_cer": 0.046236383603929836,
-      "eval_loss": 0.15783575177192688,
-      "eval_runtime": 197.1092,
-      "eval_samples_per_second": 29.435,
-      "eval_steps_per_second": 0.462,
-      "eval_wer": 0.23542876020576714,
       "step": 6000
     },
     {
-      "epoch": 39.35,
-      "learning_rate": 6.33408e-05,
-      "loss": 0.7112,
       "step": 6100
     },
     {
-      "epoch": 39.99,
-      "learning_rate": 6.18208e-05,
-      "loss": 0.7052,
       "step": 6200
     },
     {
-      "epoch": 40.64,
-      "learning_rate": 6.0300800000000004e-05,
-      "loss": 0.7105,
       "step": 6300
     },
     {
-      "epoch": 41.29,
-      "learning_rate": 5.878080000000001e-05,
-      "loss": 0.7107,
       "step": 6400
     },
     {
-      "epoch": 41.93,
-      "learning_rate": 5.72608e-05,
-      "loss": 0.7046,
       "step": 6500
     },
     {
-      "epoch": 41.93,
-      "eval_cer": 0.044429521237125645,
-      "eval_loss": 0.15552951395511627,
-      "eval_runtime": 196.7222,
-      "eval_samples_per_second": 29.493,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.22957666713860966,
       "step": 6500
     },
     {
-      "epoch": 42.58,
-      "learning_rate": 5.574080000000001e-05,
-      "loss": 0.7035,
       "step": 6600
     },
     {
-      "epoch": 43.22,
-      "learning_rate": 5.422080000000001e-05,
-      "loss": 0.6967,
       "step": 6700
     },
     {
-      "epoch": 43.87,
-      "learning_rate": 5.271600000000001e-05,
-      "loss": 0.687,
       "step": 6800
     },
     {
-      "epoch": 44.51,
-      "learning_rate": 5.1196e-05,
-      "loss": 0.6875,
       "step": 6900
     },
     {
-      "epoch": 45.16,
-      "learning_rate": 4.967600000000001e-05,
-      "loss": 0.6896,
       "step": 7000
     },
     {
-      "epoch": 45.16,
-      "eval_cer": 0.043932355822029624,
-      "eval_loss": 0.15479956567287445,
-      "eval_runtime": 196.5953,
-      "eval_samples_per_second": 29.512,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.2271697578932465,
       "step": 7000
     },
     {
-      "epoch": 45.8,
-      "learning_rate": 4.8156000000000004e-05,
-      "loss": 0.6722,
       "step": 7100
     },
     {
-      "epoch": 46.45,
-      "learning_rate": 4.663600000000001e-05,
-      "loss": 0.6816,
       "step": 7200
     },
     {
-      "epoch": 47.1,
-      "learning_rate": 4.5116000000000006e-05,
-      "loss": 0.6658,
       "step": 7300
     },
     {
-      "epoch": 47.74,
-      "learning_rate": 4.359600000000001e-05,
-      "loss": 0.6507,
       "step": 7400
     },
     {
-      "epoch": 48.38,
-      "learning_rate": 4.207600000000001e-05,
-      "loss": 0.6575,
       "step": 7500
     },
     {
-      "epoch": 48.38,
-      "eval_cer": 0.03991422041494761,
-      "eval_loss": 0.14319901168346405,
-      "eval_runtime": 196.3465,
-      "eval_samples_per_second": 29.55,
-      "eval_steps_per_second": 0.463,
-      "eval_wer": 0.2096370758412384,
       "step": 7500
     },
     {
-      "epoch": 49.03,
-      "learning_rate": 4.0556e-05,
-      "loss": 0.6524,
       "step": 7600
     },
     {
-      "epoch": 49.67,
-      "learning_rate": 3.9036000000000004e-05,
-      "loss": 0.6336,
       "step": 7700
     },
     {
-      "epoch": 50.32,
-      "learning_rate": 3.751600000000001e-05,
-      "loss": 0.6335,
       "step": 7800
     },
     {
-      "epoch": 50.96,
-      "learning_rate": 3.5996000000000006e-05,
-      "loss": 0.6356,
       "step": 7900
     },
     {
-      "epoch": 51.61,
-      "learning_rate": 3.447600000000001e-05,
-      "loss": 0.6264,
       "step": 8000
     },
     {
-      "epoch": 51.61,
-      "eval_cer": 0.039750972069692206,
-      "eval_loss": 0.14660798013210297,
-      "eval_runtime": 197.4423,
-      "eval_samples_per_second": 29.386,
-      "eval_steps_per_second": 0.461,
-      "eval_wer": 0.20560196328283542,
       "step": 8000
     },
     {
-      "epoch": 52.26,
-      "learning_rate": 3.295600000000001e-05,
-      "loss": 0.6151,
       "step": 8100
     },
     {
-      "epoch": 52.9,
-      "learning_rate": 3.1436e-05,
-      "loss": 0.6138,
       "step": 8200
     },
     {
-      "epoch": 53.55,
-      "learning_rate": 2.9916000000000003e-05,
-      "loss": 0.6066,
       "step": 8300
     },
     {
-      "epoch": 54.19,
-      "learning_rate": 2.839600000000001e-05,
-      "loss": 0.6091,
       "step": 8400
     },
     {
-      "epoch": 54.83,
-      "learning_rate": 2.687600000000001e-05,
-      "loss": 0.589,
       "step": 8500
     },
     {
-      "epoch": 54.83,
-      "eval_cer": 0.03713528835594076,
-      "eval_loss": 0.1351083666086197,
-      "eval_runtime": 196.1992,
-      "eval_samples_per_second": 29.572,
-      "eval_steps_per_second": 0.464,
-      "eval_wer": 0.19427533153994997,
       "step": 8500
     },
     {
-      "epoch": 55.48,
-      "learning_rate": 2.5356000000000006e-05,
-      "loss": 0.59,
       "step": 8600
     },
     {
-      "epoch": 56.13,
-      "learning_rate": 2.3836000000000007e-05,
-      "loss": 0.5954,
       "step": 8700
     },
     {
-      "epoch": 56.77,
-      "learning_rate": 2.2316000000000005e-05,
-      "loss": 0.5886,
       "step": 8800
     },
     {
-      "epoch": 57.42,
-      "learning_rate": 2.0796000000000002e-05,
-      "loss": 0.5923,
       "step": 8900
     },
     {
-      "epoch": 58.06,
-      "learning_rate": 1.927600000000001e-05,
-      "loss": 0.573,
       "step": 9000
     },
     {
-      "epoch": 58.06,
-      "eval_cer": 0.03653794781989255,
-      "eval_loss": 0.13869842886924744,
-      "eval_runtime": 197.6459,
-      "eval_samples_per_second": 29.356,
-      "eval_steps_per_second": 0.46,
-      "eval_wer": 0.19342583415923356,
       "step": 9000
     },
     {
-      "epoch": 58.71,
-      "learning_rate": 1.7756000000000008e-05,
-      "loss": 0.5681,
       "step": 9100
     },
     {
-      "epoch": 59.35,
-      "learning_rate": 1.623600000000001e-05,
-      "loss": 0.5749,
       "step": 9200
     },
     {
-      "epoch": 59.99,
-      "learning_rate": 1.4716000000000006e-05,
-      "loss": 0.5649,
       "step": 9300
     },
     {
-      "epoch": 60.64,
-      "learning_rate": 1.3196000000000004e-05,
-      "loss": 0.5649,
       "step": 9400
     },
     {
-      "epoch": 61.29,
-      "learning_rate": 1.1676000000000003e-05,
-      "loss": 0.5537,
       "step": 9500
     },
     {
-      "epoch": 61.29,
-      "eval_cer": 0.035276483333828025,
-      "eval_loss": 0.132797509431839,
-      "eval_runtime": 197.1347,
-      "eval_samples_per_second": 29.432,
-      "eval_steps_per_second": 0.462,
-      "eval_wer": 0.18825805842654209,
       "step": 9500
     },
     {
-      "epoch": 61.93,
-      "learning_rate": 1.015600000000001e-05,
-      "loss": 0.5551,
       "step": 9600
     },
     {
-      "epoch": 62.58,
-      "learning_rate": 8.636000000000008e-06,
-      "loss": 0.5563,
       "step": 9700
     },
     {
-      "epoch": 63.22,
-      "learning_rate": 7.116000000000008e-06,
-      "loss": 0.5469,
       "step": 9800
     },
     {
-      "epoch": 63.87,
-      "learning_rate": 5.596000000000006e-06,
-      "loss": 0.5431,
       "step": 9900
     },
     {
-      "epoch": 64.51,
-      "learning_rate": 4.076000000000005e-06,
-      "loss": 0.544,
       "step": 10000
     },
     {
-      "epoch": 64.51,
-      "eval_cer": 0.034204238520673176,
-      "eval_loss": 0.12852737307548523,
-      "eval_runtime": 197.3431,
-      "eval_samples_per_second": 29.401,
-      "eval_steps_per_second": 0.461,
-      "eval_wer": 0.18207560526688377,
       "step": 10000
     },
     {
-      "epoch": 64.51,
-      "step": 10000,
-      "total_flos": 6.715892353150186e+20,
-      "train_loss": 0.5247637950897217,
-      "train_runtime": 62085.4852,
-      "train_samples_per_second": 20.617,
-      "train_steps_per_second": 0.161
     }
   ],
-  "max_steps": 10000,
-  "num_train_epochs": 65,
-  "total_flos": 6.715892353150186e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.10924588888883591,
+  "best_model_checkpoint": "./checkpoint-12000",
+  "epoch": 38.58520900321543,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.32,
+      "learning_rate": 4.50125e-06,
+      "loss": 8.0884,
       "step": 100
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 8.62625e-06,
+      "loss": 3.2246,
       "step": 200
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 1.2751250000000001e-05,
+      "loss": 3.1607,
       "step": 300
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 1.6876250000000003e-05,
+      "loss": 2.3964,
       "step": 400
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 2.100125e-05,
+      "loss": 1.7005,
       "step": 500
     },
     {
+      "epoch": 1.61,
+      "eval_cer": 0.11636638864978778,
+      "eval_loss": 0.4082379639148712,
+      "eval_runtime": 199.3377,
+      "eval_samples_per_second": 29.106,
+      "eval_steps_per_second": 0.457,
+      "eval_wer": 0.5583793477747888,
       "step": 500
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 2.512625e-05,
+      "loss": 1.4874,
       "step": 600
     },
     {
+      "epoch": 2.25,
+      "learning_rate": 2.9251250000000002e-05,
+      "loss": 1.3431,
       "step": 700
     },
     {
+      "epoch": 2.57,
+      "learning_rate": 3.3376250000000004e-05,
+      "loss": 1.2316,
       "step": 800
     },
     {
+      "epoch": 2.89,
+      "learning_rate": 3.750125e-05,
+      "loss": 1.187,
       "step": 900
     },
     {
+      "epoch": 3.22,
+      "learning_rate": 4.162625e-05,
+      "loss": 1.1555,
       "step": 1000
     },
     {
+      "epoch": 3.22,
+      "eval_cer": 0.05566026535276483,
+      "eval_loss": 0.2020130306482315,
+      "eval_runtime": 199.2116,
+      "eval_samples_per_second": 29.125,
+      "eval_steps_per_second": 0.457,
+      "eval_wer": 0.29534192269573833,
       "step": 1000
     },
     {
+      "epoch": 3.54,
+      "learning_rate": 4.575125e-05,
+      "loss": 1.1286,
       "step": 1100
     },
     {
+      "epoch": 3.86,
+      "learning_rate": 4.9876250000000005e-05,
+      "loss": 1.1143,
       "step": 1200
     },
     {
+      "epoch": 4.18,
+      "learning_rate": 5e-05,
+      "loss": 1.1067,
       "step": 1300
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 5e-05,
+      "loss": 1.0992,
       "step": 1400
     },
     {
+      "epoch": 4.82,
+      "learning_rate": 5e-05,
+      "loss": 1.0927,
       "step": 1500
     },
     {
+      "epoch": 4.82,
+      "eval_cer": 0.04799130331542548,
+      "eval_loss": 0.1707664430141449,
+      "eval_runtime": 197.8453,
+      "eval_samples_per_second": 29.326,
+      "eval_steps_per_second": 0.46,
+      "eval_wer": 0.25843598093350323,
       "step": 1500
     },
     {
+      "epoch": 5.14,
+      "learning_rate": 5e-05,
+      "loss": 1.0907,
       "step": 1600
     },
     {
+      "epoch": 5.47,
+      "learning_rate": 5e-05,
+      "loss": 1.0765,
       "step": 1700
     },
     {
+      "epoch": 5.79,
+      "learning_rate": 5e-05,
+      "loss": 1.0693,
       "step": 1800
     },
     {
+      "epoch": 6.11,
+      "learning_rate": 5e-05,
+      "loss": 1.0547,
       "step": 1900
     },
     {
+      "epoch": 6.43,
+      "learning_rate": 5e-05,
+      "loss": 1.0707,
       "step": 2000
     },
     {
+      "epoch": 6.43,
+      "eval_cer": 0.04497120892820041,
+      "eval_loss": 0.15630319714546204,
+      "eval_runtime": 197.159,
+      "eval_samples_per_second": 29.428,
+      "eval_steps_per_second": 0.462,
+      "eval_wer": 0.24054934163952996,
       "step": 2000
     },
     {
+      "epoch": 6.75,
+      "learning_rate": 5e-05,
+      "loss": 1.0647,
       "step": 2100
     },
     {
+      "epoch": 7.07,
+      "learning_rate": 5e-05,
+      "loss": 1.054,
       "step": 2200
     },
     {
+      "epoch": 7.4,
+      "learning_rate": 5e-05,
+      "loss": 1.0478,
       "step": 2300
     },
     {
+      "epoch": 7.72,
+      "learning_rate": 5e-05,
+      "loss": 1.0611,
       "step": 2400
     },
     {
+      "epoch": 8.04,
+      "learning_rate": 5e-05,
+      "loss": 1.0728,
       "step": 2500
     },
     {
+      "epoch": 8.04,
+      "eval_cer": 0.04629574663856816,
+      "eval_loss": 0.16203930974006653,
+      "eval_runtime": 196.804,
+      "eval_samples_per_second": 29.481,
+      "eval_steps_per_second": 0.462,
+      "eval_wer": 0.2442304969559677,
       "step": 2500
     },
     {
+      "epoch": 8.36,
+      "learning_rate": 5e-05,
+      "loss": 1.0563,
       "step": 2600
     },
     {
+      "epoch": 8.68,
+      "learning_rate": 5e-05,
+      "loss": 1.0404,
       "step": 2700
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 5e-05,
+      "loss": 1.0791,
       "step": 2800
     },
     {
+      "epoch": 9.32,
+      "learning_rate": 5e-05,
+      "loss": 1.0535,
       "step": 2900
     },
     {
+      "epoch": 9.65,
+      "learning_rate": 5e-05,
+      "loss": 1.0268,
       "step": 3000
     },
     {
+      "epoch": 9.65,
+      "eval_cer": 0.04575776913715829,
+      "eval_loss": 0.15875375270843506,
+      "eval_runtime": 201.4769,
+      "eval_samples_per_second": 28.797,
+      "eval_steps_per_second": 0.452,
+      "eval_wer": 0.2377884751522016,
       "step": 3000
     },
     {
+      "epoch": 9.97,
+      "learning_rate": 5e-05,
+      "loss": 1.0322,
       "step": 3100
     },
     {
+      "epoch": 10.29,
+      "learning_rate": 5e-05,
+      "loss": 1.0208,
       "step": 3200
     },
     {
+      "epoch": 10.61,
+      "learning_rate": 5e-05,
+      "loss": 1.0172,
       "step": 3300
     },
     {
+      "epoch": 10.93,
+      "learning_rate": 5e-05,
+      "loss": 1.019,
       "step": 3400
     },
     {
+      "epoch": 11.25,
+      "learning_rate": 5e-05,
+      "loss": 1.0328,
       "step": 3500
     },
     {
+      "epoch": 11.25,
+      "eval_cer": 0.04419206909857232,
+      "eval_loss": 0.14661966264247894,
+      "eval_runtime": 196.9894,
+      "eval_samples_per_second": 29.453,
+      "eval_steps_per_second": 0.462,
+      "eval_wer": 0.23516919156165936,
       "step": 3500
     },
     {
+      "epoch": 11.58,
+      "learning_rate": 5e-05,
+      "loss": 1.0153,
       "step": 3600
     },
     {
+      "epoch": 11.9,
+      "learning_rate": 5e-05,
+      "loss": 1.0206,
       "step": 3700
     },
     {
+      "epoch": 12.22,
+      "learning_rate": 5e-05,
+      "loss": 1.0168,
       "step": 3800
     },
     {
+      "epoch": 12.54,
+      "learning_rate": 5e-05,
+      "loss": 1.0269,
       "step": 3900
     },
     {
+      "epoch": 12.86,
+      "learning_rate": 5e-05,
+      "loss": 1.0249,
       "step": 4000
     },
     {
+      "epoch": 12.86,
+      "eval_cer": 0.04486361342791843,
+      "eval_loss": 0.15519459545612335,
+      "eval_runtime": 197.5966,
+      "eval_samples_per_second": 29.363,
+      "eval_steps_per_second": 0.461,
+      "eval_wer": 0.23413091698522817,
       "step": 4000
     },
     {
+      "epoch": 13.18,
+      "learning_rate": 5e-05,
+      "loss": 1.022,
       "step": 4100
     },
     {
+      "epoch": 13.5,
+      "learning_rate": 5e-05,
+      "loss": 1.0219,
       "step": 4200
     },
     {
+      "epoch": 13.83,
+      "learning_rate": 5e-05,
+      "loss": 1.0203,
       "step": 4300
     },
     {
+      "epoch": 14.15,
+      "learning_rate": 5e-05,
+      "loss": 1.0171,
       "step": 4400
     },
     {
+      "epoch": 14.47,
+      "learning_rate": 5e-05,
+      "loss": 1.016,
       "step": 4500
     },
     {
+      "epoch": 14.47,
+      "eval_cer": 0.047286367279095305,
+      "eval_loss": 0.16016805171966553,
+      "eval_runtime": 197.4133,
+      "eval_samples_per_second": 29.39,
+      "eval_steps_per_second": 0.461,
+      "eval_wer": 0.2435461796215017,
       "step": 4500
     },
     {
+      "epoch": 14.79,
+      "learning_rate": 5e-05,
+      "loss": 1.0233,
       "step": 4600
     },
     {
+      "epoch": 15.11,
+      "learning_rate": 5e-05,
+      "loss": 1.0139,
       "step": 4700
     },
     {
+      "epoch": 15.43,
+      "learning_rate": 5e-05,
+      "loss": 1.0252,
       "step": 4800
     },
     {
+      "epoch": 15.76,
+      "learning_rate": 4.936666666666667e-05,
+      "loss": 1.0305,
       "step": 4900
     },
     {
+      "epoch": 16.08,
+      "learning_rate": 4.870694444444445e-05,
+      "loss": 1.0164,
       "step": 5000
     },
     {
+      "epoch": 16.08,
+      "eval_cer": 0.044392419340476684,
+      "eval_loss": 0.14910832047462463,
+      "eval_runtime": 205.8325,
+      "eval_samples_per_second": 28.188,
+      "eval_steps_per_second": 0.442,
+      "eval_wer": 0.23372976544433433,
       "step": 5000
     },
     {
+      "epoch": 16.4,
+      "learning_rate": 4.804722222222223e-05,
+      "loss": 1.0029,
       "step": 5100
     },
     {
+      "epoch": 16.72,
+      "learning_rate": 4.73875e-05,
+      "loss": 0.9924,
       "step": 5200
     },
     {
+      "epoch": 17.04,
+      "learning_rate": 4.672777777777778e-05,
+      "loss": 1.0058,
       "step": 5300
     },
     {
+      "epoch": 17.36,
+      "learning_rate": 4.606805555555556e-05,
+      "loss": 0.996,
       "step": 5400
     },
     {
+      "epoch": 17.68,
+      "learning_rate": 4.540833333333334e-05,
+      "loss": 0.9935,
       "step": 5500
     },
     {
+      "epoch": 17.68,
+      "eval_cer": 0.045754058947493396,
+      "eval_loss": 0.15390604734420776,
+      "eval_runtime": 206.7044,
+      "eval_samples_per_second": 28.069,
+      "eval_steps_per_second": 0.44,
+      "eval_wer": 0.23729293501345036,
       "step": 5500
     },
     {
+      "epoch": 18.01,
+      "learning_rate": 4.4748611111111116e-05,
+      "loss": 0.9993,
       "step": 5600
     },
     {
+      "epoch": 18.33,
+      "learning_rate": 4.408888888888889e-05,
+      "loss": 0.983,
       "step": 5700
     },
     {
+      "epoch": 18.65,
+      "learning_rate": 4.342916666666667e-05,
+      "loss": 0.9794,
       "step": 5800
     },
     {
+      "epoch": 18.97,
+      "learning_rate": 4.2769444444444447e-05,
+      "loss": 0.9719,
       "step": 5900
     },
     {
+      "epoch": 19.29,
+      "learning_rate": 4.2109722222222226e-05,
+      "loss": 0.9626,
       "step": 6000
     },
     {
+      "epoch": 19.29,
+      "eval_cer": 0.04342777002760381,
+      "eval_loss": 0.1458132266998291,
+      "eval_runtime": 201.2355,
+      "eval_samples_per_second": 28.832,
+      "eval_steps_per_second": 0.452,
+      "eval_wer": 0.2305441502666478,
       "step": 6000
     },
     {
+      "epoch": 19.61,
+      "learning_rate": 4.145e-05,
+      "loss": 0.9542,
       "step": 6100
     },
     {
+      "epoch": 19.94,
+      "learning_rate": 4.079027777777778e-05,
+      "loss": 0.978,
       "step": 6200
     },
     {
+      "epoch": 20.26,
+      "learning_rate": 4.013055555555556e-05,
+      "loss": 0.9536,
       "step": 6300
     },
     {
+      "epoch": 20.58,
+      "learning_rate": 3.9470833333333335e-05,
+      "loss": 0.9627,
       "step": 6400
     },
     {
+      "epoch": 20.9,
+      "learning_rate": 3.8811111111111114e-05,
+      "loss": 0.9505,
       "step": 6500
     },
     {
+      "epoch": 20.9,
+      "eval_cer": 0.04073046214122466,
+      "eval_loss": 0.13684287667274475,
+      "eval_runtime": 202.0319,
+      "eval_samples_per_second": 28.718,
+      "eval_steps_per_second": 0.45,
+      "eval_wer": 0.21565434895464627,
       "step": 6500
     },
     {
+      "epoch": 21.22,
+      "learning_rate": 3.815138888888889e-05,
+      "loss": 0.9395,
       "step": 6600
     },
     {
+      "epoch": 21.54,
+      "learning_rate": 3.749166666666667e-05,
+      "loss": 0.9393,
       "step": 6700
     },
     {
+      "epoch": 21.86,
+      "learning_rate": 3.6831944444444444e-05,
+      "loss": 0.9541,
       "step": 6800
     },
     {
+      "epoch": 22.19,
+      "learning_rate": 3.6172222222222224e-05,
+      "loss": 0.9538,
       "step": 6900
     },
     {
+      "epoch": 22.51,
+      "learning_rate": 3.55125e-05,
+      "loss": 0.9389,
       "step": 7000
     },
     {
+      "epoch": 22.51,
+      "eval_cer": 0.042626369059986347,
+      "eval_loss": 0.14371351897716522,
+      "eval_runtime": 197.7954,
+      "eval_samples_per_second": 29.333,
+      "eval_steps_per_second": 0.46,
+      "eval_wer": 0.22306385388645053,
       "step": 7000
     },
     {
+      "epoch": 22.83,
+      "learning_rate": 3.485277777777778e-05,
+      "loss": 0.9429,
       "step": 7100
     },
     {
+      "epoch": 23.15,
+      "learning_rate": 3.419965277777778e-05,
+      "loss": 0.9407,
       "step": 7200
     },
     {
+      "epoch": 23.47,
+      "learning_rate": 3.353993055555556e-05,
+      "loss": 0.9224,
       "step": 7300
     },
     {
+      "epoch": 23.79,
+      "learning_rate": 3.288020833333334e-05,
+      "loss": 0.9197,
       "step": 7400
     },
     {
+      "epoch": 24.12,
+      "learning_rate": 3.2220486111111115e-05,
+      "loss": 0.9129,
       "step": 7500
     },
     {
+      "epoch": 24.12,
+      "eval_cer": 0.039372532723872845,
+      "eval_loss": 0.13133755326271057,
+      "eval_runtime": 209.4773,
+      "eval_samples_per_second": 27.698,
+      "eval_steps_per_second": 0.434,
+      "eval_wer": 0.20760772098730473,
       "step": 7500
     },
     {
+      "epoch": 24.44,
+      "learning_rate": 3.156076388888889e-05,
+      "loss": 0.9169,
       "step": 7600
     },
     {
+      "epoch": 24.76,
+      "learning_rate": 3.090763888888889e-05,
+      "loss": 0.9133,
       "step": 7700
     },
     {
+      "epoch": 25.08,
+      "learning_rate": 3.024791666666667e-05,
+      "loss": 0.9068,
       "step": 7800
     },
     {
+      "epoch": 25.4,
+      "learning_rate": 2.958819444444445e-05,
+      "loss": 0.9137,
       "step": 7900
     },
     {
+      "epoch": 25.72,
+      "learning_rate": 2.8928472222222224e-05,
+      "loss": 0.9118,
       "step": 8000
     },
     {
+      "epoch": 25.72,
+      "eval_cer": 0.03844869549731382,
+      "eval_loss": 0.12918178737163544,
+      "eval_runtime": 197.6149,
+      "eval_samples_per_second": 29.36,
+      "eval_steps_per_second": 0.46,
+      "eval_wer": 0.2040445514181887,
       "step": 8000
     },
     {
+      "epoch": 26.05,
+      "learning_rate": 2.826875e-05,
+      "loss": 0.9057,
       "step": 8100
     },
     {
+      "epoch": 26.37,
+      "learning_rate": 2.7609027777777785e-05,
+      "loss": 0.8956,
       "step": 8200
     },
     {
+      "epoch": 26.69,
+      "learning_rate": 2.694930555555556e-05,
+      "loss": 0.9088,
       "step": 8300
     },
     {
+      "epoch": 27.01,
+      "learning_rate": 2.6289583333333333e-05,
+      "loss": 0.8997,
       "step": 8400
     },
     {
+      "epoch": 27.33,
+      "learning_rate": 2.5629861111111116e-05,
+      "loss": 0.8848,
       "step": 8500
     },
     {
+      "epoch": 27.33,
+      "eval_cer": 0.03840788341099997,
+      "eval_loss": 0.1298777312040329,
+      "eval_runtime": 197.318,
+      "eval_samples_per_second": 29.404,
+      "eval_steps_per_second": 0.461,
+      "eval_wer": 0.20281749964604276,
       "step": 8500
     },
     {
+      "epoch": 27.65,
+      "learning_rate": 2.4970138888888895e-05,
+      "loss": 0.8926,
       "step": 8600
     },
     {
+      "epoch": 27.97,
+      "learning_rate": 2.431041666666667e-05,
+      "loss": 0.8802,
       "step": 8700
     },
     {
+      "epoch": 28.3,
+      "learning_rate": 2.365069444444445e-05,
+      "loss": 0.8784,
       "step": 8800
     },
     {
+      "epoch": 28.62,
+      "learning_rate": 2.2990972222222225e-05,
+      "loss": 0.8749,
       "step": 8900
     },
     {
+      "epoch": 28.94,
+      "learning_rate": 2.2331250000000004e-05,
+      "loss": 0.8667,
       "step": 9000
     },
     {
+      "epoch": 28.94,
+      "eval_cer": 0.03673829806179692,
+      "eval_loss": 0.12283530086278915,
+      "eval_runtime": 199.3855,
+      "eval_samples_per_second": 29.099,
+      "eval_steps_per_second": 0.456,
+      "eval_wer": 0.1945113030345934,
       "step": 9000
     },
     {
+      "epoch": 29.26,
+      "learning_rate": 2.1671527777777783e-05,
+      "loss": 0.8628,
       "step": 9100
     },
     {
+      "epoch": 29.58,
+      "learning_rate": 2.101180555555556e-05,
+      "loss": 0.8775,
       "step": 9200
     },
     {
+      "epoch": 29.9,
+      "learning_rate": 2.0352083333333338e-05,
+      "loss": 0.8661,
       "step": 9300
     },
     {
+      "epoch": 30.23,
+      "learning_rate": 1.9692361111111114e-05,
+      "loss": 0.8624,
       "step": 9400
     },
     {
+      "epoch": 30.55,
+      "learning_rate": 1.9032638888888893e-05,
+      "loss": 0.8641,
       "step": 9500
     },
     {
+      "epoch": 30.55,
+      "eval_cer": 0.036352438336647766,
+      "eval_loss": 0.12234856933355331,
+      "eval_runtime": 202.2537,
+      "eval_samples_per_second": 28.687,
+      "eval_steps_per_second": 0.45,
+      "eval_wer": 0.19385058284959178,
       "step": 9500
     },
     {
+      "epoch": 30.87,
+      "learning_rate": 1.837291666666667e-05,
+      "loss": 0.8637,
       "step": 9600
     },
     {
+      "epoch": 31.19,
+      "learning_rate": 1.7713194444444447e-05,
+      "loss": 0.8608,
       "step": 9700
     },
     {
+      "epoch": 31.51,
+      "learning_rate": 1.7053472222222226e-05,
+      "loss": 0.8556,
       "step": 9800
     },
     {
+      "epoch": 31.83,
+      "learning_rate": 1.6393750000000002e-05,
+      "loss": 0.854,
       "step": 9900
     },
     {
+      "epoch": 32.15,
+      "learning_rate": 1.573402777777778e-05,
+      "loss": 0.8516,
       "step": 10000
     },
     {
+      "epoch": 32.15,
+      "eval_cer": 0.03494627645365231,
+      "eval_loss": 0.11841931194067001,
+      "eval_runtime": 199.2371,
+      "eval_samples_per_second": 29.121,
+      "eval_steps_per_second": 0.457,
+      "eval_wer": 0.18762093539100477,
       "step": 10000
     },
     {
+      "epoch": 32.48,
+      "learning_rate": 1.5074305555555557e-05,
+      "loss": 0.8433,
+      "step": 10100
+    },
+    {
+      "epoch": 32.8,
+      "learning_rate": 1.4414583333333338e-05,
+      "loss": 0.8507,
+      "step": 10200
+    },
+    {
+      "epoch": 33.12,
+      "learning_rate": 1.3754861111111117e-05,
+      "loss": 0.8419,
+      "step": 10300
+    },
+    {
+      "epoch": 33.44,
+      "learning_rate": 1.3095138888888892e-05,
+      "loss": 0.8344,
+      "step": 10400
+    },
+    {
+      "epoch": 33.76,
+      "learning_rate": 1.2435416666666671e-05,
+      "loss": 0.8379,
+      "step": 10500
+    },
+    {
+      "epoch": 33.76,
+      "eval_cer": 0.03375159538155591,
+      "eval_loss": 0.11372008919715881,
+      "eval_runtime": 199.4785,
+      "eval_samples_per_second": 29.086,
+      "eval_steps_per_second": 0.456,
+      "eval_wer": 0.18207560526688377,
+      "step": 10500
+    },
+    {
+      "epoch": 34.08,
+      "learning_rate": 1.1782291666666672e-05,
+      "loss": 0.8302,
+      "step": 10600
+    },
+    {
+      "epoch": 34.41,
+      "learning_rate": 1.1122569444444448e-05,
+      "loss": 0.8294,
+      "step": 10700
+    },
+    {
+      "epoch": 34.73,
+      "learning_rate": 1.0462847222222227e-05,
+      "loss": 0.8225,
+      "step": 10800
+    },
+    {
+      "epoch": 35.05,
+      "learning_rate": 9.803125000000001e-06,
+      "loss": 0.8237,
+      "step": 10900
+    },
+    {
+      "epoch": 35.37,
+      "learning_rate": 9.143402777777782e-06,
+      "loss": 0.8235,
+      "step": 11000
+    },
+    {
+      "epoch": 35.37,
+      "eval_cer": 0.03308005105220979,
+      "eval_loss": 0.11269930005073547,
+      "eval_runtime": 198.8276,
+      "eval_samples_per_second": 29.181,
+      "eval_steps_per_second": 0.458,
+      "eval_wer": 0.1778753126622304,
+      "step": 11000
+    },
+    {
+      "epoch": 35.69,
+      "learning_rate": 8.483680555555563e-06,
+      "loss": 0.8205,
+      "step": 11100
+    },
+    {
+      "epoch": 36.01,
+      "learning_rate": 7.823958333333337e-06,
+      "loss": 0.826,
+      "step": 11200
+    },
+    {
+      "epoch": 36.33,
+      "learning_rate": 7.1642361111111165e-06,
+      "loss": 0.8207,
+      "step": 11300
+    },
+    {
+      "epoch": 36.66,
+      "learning_rate": 6.504513888888891e-06,
+      "loss": 0.8129,
+      "step": 11400
+    },
+    {
+      "epoch": 36.98,
+      "learning_rate": 5.844791666666671e-06,
+      "loss": 0.8112,
+      "step": 11500
+    },
+    {
+      "epoch": 36.98,
+      "eval_cer": 0.03268677094773085,
+      "eval_loss": 0.11033473163843155,
+      "eval_runtime": 201.8103,
+      "eval_samples_per_second": 28.75,
+      "eval_steps_per_second": 0.451,
+      "eval_wer": 0.17662466374062014,
+      "step": 11500
+    },
+    {
+      "epoch": 37.3,
+      "learning_rate": 5.185069444444451e-06,
+      "loss": 0.805,
+      "step": 11600
+    },
+    {
+      "epoch": 37.62,
+      "learning_rate": 4.525347222222226e-06,
+      "loss": 0.8108,
+      "step": 11700
+    },
+    {
+      "epoch": 37.94,
+      "learning_rate": 3.865625000000006e-06,
+      "loss": 0.8025,
+      "step": 11800
+    },
+    {
+      "epoch": 38.26,
+      "learning_rate": 3.2059027777777807e-06,
+      "loss": 0.8018,
+      "step": 11900
+    },
+    {
+      "epoch": 38.59,
+      "learning_rate": 2.5461805555555606e-06,
+      "loss": 0.8069,
+      "step": 12000
+    },
+    {
+      "epoch": 38.59,
+      "eval_cer": 0.032260099136267845,
+      "eval_loss": 0.10924588888883591,
+      "eval_runtime": 199.7196,
+      "eval_samples_per_second": 29.051,
+      "eval_steps_per_second": 0.456,
+      "eval_wer": 0.17520883477275945,
+      "step": 12000
+    },
+    {
+      "epoch": 38.59,
+      "step": 12000,
+      "total_flos": 1.0363087195555613e+21,
+      "train_loss": 1.0786900800069172,
+      "train_runtime": 133237.4383,
+      "train_samples_per_second": 11.528,
+      "train_steps_per_second": 0.09
     }
   ],
+  "max_steps": 12000,
+  "num_train_epochs": 39,
+  "total_flos": 1.0363087195555613e+21,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:004085d8188230d36e53e873905f4d0b969a1ce5224f8a4bcbea3db77af402c8
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bc1a8adc9b904ef39fbc4de06d5ac7b060a28d098cdb7eb65adcb5cd1d34935
 size 3055