iter 2

Browse files

Files changed (14) hide show

README.md +20 -37
added_tokens.json +1 -1
all_results.json +12 -12
eval_results.json +7 -7
mozilla-foundation_common_voice_8_0_ka_test_eval_results.txt +2 -2
pytorch_model.bin +1 -1
runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643866983.4955742/events.out.tfevents.1643866983.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.1 +3 -0
runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643866983.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.0 +3 -0
runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643907131.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.2 +3 -0
special_tokens_map.json +1 -1
tokenizer_config.json +1 -1
train_results.json +6 -6
trainer_state.json +293 -129
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,43 +1,24 @@
 ---
-language:
-- ka
 license: apache-2.0
 tags:
 - automatic-speech-recognition
-- mozilla-foundation/common_voice_8_0
 - generated_from_trainer
-- robust-speech-event
-datasets:
-- common_voice
 model-index:
-- name: wav2vec2-xls-r-1b-hy-cv
-  results:
-  - task:
-      type: automatic-speech-recognition
-      name: Speech Recognition
-    dataset:
-      type: mozilla-foundation/common_voice_8_0
-      name: Common Voice ka
-      args: ka
-    metrics:
-      - type: wer
-        value: 8.56742977106868
-        name: WER LM
-      - type: cer
-        value: 1.3535041383688478
-        name: CER LM
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# wav2vec2-xls-r-1b-ka-1
-This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the /WORKSPACE/DATA/KA/NOIZY_STUDENT_1/ - KA dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1251
-- Wer: 0.1830
-- Cer: 0.0267
 ## Model description
@@ -56,7 +37,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 8e-05
 - train_batch_size: 16
 - eval_batch_size: 64
 - seed: 42
@@ -65,21 +46,23 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 1600
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
-| 2.6823        | 6.25  | 200  | 0.4796          | 0.7190 | 0.1225 |
-| 1.1553        | 12.5  | 400  | 0.1749          | 0.2955 | 0.0428 |
-| 0.9692        | 18.75 | 600  | 0.1581          | 0.2483 | 0.0361 |
-| 0.8875        | 25.0  | 800  | 0.1558          | 0.2254 | 0.0338 |
-| 0.8311        | 31.25 | 1000 | 0.1394          | 0.2196 | 0.0324 |
-| 0.7729        | 37.5  | 1200 | 0.1378          | 0.2001 | 0.0295 |
-| 0.7317        | 43.75 | 1400 | 0.1271          | 0.1865 | 0.0272 |
-| 0.6902        | 50.0  | 1600 | 0.1251          | 0.1830 | 0.0267 |
 ### Framework versions

 ---
 license: apache-2.0
 tags:
 - automatic-speech-recognition
+- /workspace/data/ka/noizy_student_2/
 - generated_from_trainer
 model-index:
+- name: wav2vec2-xls-r-1b-ka-2
+  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# wav2vec2-xls-r-1b-ka-2
+This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the /WORKSPACE/DATA/KA/NOIZY_STUDENT_2/ - KA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1022
+- Wer: 0.1527
+- Cer: 0.0221
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 7e-05
 - train_batch_size: 16
 - eval_batch_size: 64
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 4000
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
+| 1.2839        | 6.45  | 400  | 0.2229          | 0.3609 | 0.0557 |
+| 0.9775        | 12.9  | 800  | 0.1271          | 0.2202 | 0.0317 |
+| 0.9045        | 19.35 | 1200 | 0.1268          | 0.2030 | 0.0294 |
+| 0.8652        | 25.8  | 1600 | 0.1211          | 0.1940 | 0.0287 |
+| 0.8505        | 32.26 | 2000 | 0.1192          | 0.1912 | 0.0276 |
+| 0.8168        | 38.7  | 2400 | 0.1086          | 0.1763 | 0.0260 |
+| 0.7737        | 45.16 | 2800 | 0.1098          | 0.1753 | 0.0256 |
+| 0.744         | 51.61 | 3200 | 0.1054          | 0.1646 | 0.0239 |
+| 0.7114        | 58.06 | 3600 | 0.1034          | 0.1573 | 0.0228 |
+| 0.6773        | 64.51 | 4000 | 0.1022          | 0.1527 | 0.0221 |
 ### Framework versions

added_tokens.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<s>": 36, "</s>": 37}


1	+ {"<s>": 36, "</s>": 37}

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 50.0,
-    "eval_cer": 0.02666283373459341,
-    "eval_loss": 0.1251150518655777,
-    "eval_runtime": 50.9985,
     "eval_samples": 1345,
-    "eval_samples_per_second": 26.373,
-    "eval_steps_per_second": 0.431,
-    "eval_wer": 0.1830450864740578,
-    "train_loss": 1.2369191074371337,
-    "train_runtime": 14120.9559,
-    "train_samples": 4101,
-    "train_samples_per_second": 14.503,
-    "train_steps_per_second": 0.113
 }

 {
+    "epoch": 64.51,
+    "eval_cer": 0.02207529315941404,
+    "eval_loss": 0.10217397660017014,
+    "eval_runtime": 49.9764,
     "eval_samples": 1345,
+    "eval_samples_per_second": 26.913,
+    "eval_steps_per_second": 0.44,
+    "eval_wer": 0.15265420373887834,
+    "train_loss": 1.020361618041992,
+    "train_runtime": 40092.8966,
+    "train_samples": 7995,
+    "train_samples_per_second": 12.77,
+    "train_steps_per_second": 0.1
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 50.0,
-    "eval_cer": 0.02666283373459341,
-    "eval_loss": 0.1251150518655777,
-    "eval_runtime": 50.9985,
     "eval_samples": 1345,
-    "eval_samples_per_second": 26.373,
-    "eval_steps_per_second": 0.431,
-    "eval_wer": 0.1830450864740578
 }

 {
+    "epoch": 64.51,
+    "eval_cer": 0.02207529315941404,
+    "eval_loss": 0.10217397660017014,
+    "eval_runtime": 49.9764,
     "eval_samples": 1345,
+    "eval_samples_per_second": 26.913,
+    "eval_steps_per_second": 0.44,
+    "eval_wer": 0.15265420373887834
 }

mozilla-foundation_common_voice_8_0_ka_test_eval_results.txt CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- WER: 0.~~0856742977106868~~
2	- CER: 0.~~013535041383688478~~


1	+ WER: 0.0739778066580026
2	+ CER: 0.011882089427096435

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:355fea7b30d8d97df6519c345a8c3ab79bdbb339af16b3067db6a7a37effd8e2
 size 3850507441

 version https://git-lfs.github.com/spec/v1
+oid sha256:212f57547af3137f2f8ebac216bdca410c0a8c54c3af522454fe65cb767037da
 size 3850507441

runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643866983.4955742/events.out.tfevents.1643866983.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbbd70e17524b8db520c51e194742bc48c0e1c5ece7e88765ee328aa890bc377
+size 4855

runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643866983.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48b8012aff64a7500532e11a6d9e29d0f4350f5f7da93441ed907a03f4dd1b66
+size 15066

runs/Feb03_05-41-12_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643907131.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.318691.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c40c51ab1d5964fca06b7ba440d656d3b475bbb5d1e88768e80ed43c3e139f7b
+size 405

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "~~tokenizer_class~~": "~~Wav2Vec2CTCTokenizer~~", "~~processor_class~~": "~~Wav2Vec2ProcessorWithLM~~"}


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "/workspace/output/ka/wav2vec2-xls-r-1b-ka-2", "tokenizer_class": "Wav2Vec2CTCTokenizer"}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "train_loss": 1.2369191074371337,
-    "train_runtime": 14120.9559,
-    "train_samples": 4101,
-    "train_samples_per_second": 14.503,
-    "train_steps_per_second": 0.113
 }

 {
+    "epoch": 64.51,
+    "train_loss": 1.020361618041992,
+    "train_runtime": 40092.8966,
+    "train_samples": 7995,
+    "train_samples_per_second": 12.77,
+    "train_steps_per_second": 0.1
 }

trainer_state.json CHANGED Viewed

@@ -1,201 +1,365 @@
 {
-  "best_metric": 0.1251150518655777,
-  "best_model_checkpoint": "/workspace/output/ka/wav2vec2-xls-r-1b-ka-1/checkpoint-1600",
-  "epoch": 49.99610894941634,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 3.12,
-      "learning_rate": 4.931000000000001e-05,
-      "loss": 4.6003,
       "step": 100
     },
     {
-      "epoch": 6.25,
-      "learning_rate": 8e-05,
-      "loss": 2.6823,
       "step": 200
     },
     {
-      "epoch": 6.25,
-      "eval_cer": 0.12246217974055841,
-      "eval_loss": 0.47962790727615356,
-      "eval_runtime": 52.422,
-      "eval_samples_per_second": 25.657,
-      "eval_steps_per_second": 0.42,
-      "eval_wer": 0.7189843047085874,
-      "step": 200
-    },
-    {
-      "epoch": 9.37,
-      "learning_rate": 8e-05,
-      "loss": 1.3181,
       "step": 300
     },
     {
-      "epoch": 12.5,
-      "learning_rate": 8e-05,
-      "loss": 1.1553,
       "step": 400
     },
     {
-      "epoch": 12.5,
-      "eval_cer": 0.04279708218045923,
-      "eval_loss": 0.1748698353767395,
-      "eval_runtime": 52.0532,
-      "eval_samples_per_second": 25.839,
-      "eval_steps_per_second": 0.423,
-      "eval_wer": 0.2955113465960212,
       "step": 400
     },
     {
-      "epoch": 15.62,
-      "learning_rate": 8e-05,
-      "loss": 1.0934,
       "step": 500
     },
     {
-      "epoch": 18.75,
-      "learning_rate": 8e-05,
-      "loss": 0.9692,
       "step": 600
     },
     {
-      "epoch": 18.75,
-      "eval_cer": 0.03611340687771749,
-      "eval_loss": 0.15810930728912354,
-      "eval_runtime": 51.9193,
-      "eval_samples_per_second": 25.906,
-      "eval_steps_per_second": 0.424,
-      "eval_wer": 0.2483255023492952,
-      "step": 600
-    },
-    {
-      "epoch": 21.87,
-      "learning_rate": 8e-05,
-      "loss": 0.9144,
       "step": 700
     },
     {
-      "epoch": 25.0,
-      "learning_rate": 8e-05,
-      "loss": 0.8875,
       "step": 800
     },
     {
-      "epoch": 25.0,
-      "eval_cer": 0.0338376034592212,
-      "eval_loss": 0.15575425326824188,
-      "eval_runtime": 51.4228,
-      "eval_samples_per_second": 26.156,
-      "eval_steps_per_second": 0.428,
-      "eval_wer": 0.22543237028891333,
       "step": 800
     },
     {
-      "epoch": 28.12,
-      "learning_rate": 7.069e-05,
-      "loss": 0.8567,
       "step": 900
     },
     {
-      "epoch": 31.25,
-      "learning_rate": 6.119e-05,
-      "loss": 0.8311,
-      "step": 1000
-    },
-    {
-      "epoch": 31.25,
-      "eval_cer": 0.03241223184447878,
-      "eval_loss": 0.13941511511802673,
-      "eval_runtime": 51.753,
-      "eval_samples_per_second": 25.989,
-      "eval_steps_per_second": 0.425,
-      "eval_wer": 0.21963410976706987,
       "step": 1000
     },
     {
-      "epoch": 34.37,
-      "learning_rate": 5.169000000000001e-05,
-      "loss": 0.8158,
       "step": 1100
     },
     {
-      "epoch": 37.5,
-      "learning_rate": 4.219000000000001e-05,
-      "loss": 0.7729,
       "step": 1200
     },
     {
-      "epoch": 37.5,
-      "eval_cer": 0.029477643225891456,
-      "eval_loss": 0.1377694308757782,
-      "eval_runtime": 51.963,
-      "eval_samples_per_second": 25.884,
-      "eval_steps_per_second": 0.423,
-      "eval_wer": 0.2001399580125962,
       "step": 1200
     },
     {
-      "epoch": 40.62,
-      "learning_rate": 3.269000000000001e-05,
-      "loss": 0.7678,
       "step": 1300
     },
     {
-      "epoch": 43.75,
-      "learning_rate": 2.319e-05,
-      "loss": 0.7317,
       "step": 1400
     },
     {
-      "epoch": 43.75,
-      "eval_cer": 0.02722579563285302,
-      "eval_loss": 0.1270754188299179,
-      "eval_runtime": 51.6918,
-      "eval_samples_per_second": 26.02,
-      "eval_steps_per_second": 0.426,
-      "eval_wer": 0.1865440367889633,
-      "step": 1400
     },
     {
-      "epoch": 46.87,
-      "learning_rate": 1.369e-05,
-      "loss": 0.704,
-      "step": 1500
     },
     {
-      "epoch": 50.0,
-      "learning_rate": 4.190000000000005e-06,
-      "loss": 0.6902,
       "step": 1600
     },
     {
-      "epoch": 50.0,
-      "eval_cer": 0.02666283373459341,
-      "eval_loss": 0.1251150518655777,
-      "eval_runtime": 50.9819,
-      "eval_samples_per_second": 26.382,
       "eval_steps_per_second": 0.432,
-      "eval_wer": 0.1830450864740578,
-      "step": 1600
     },
     {
-      "epoch": 50.0,
-      "step": 1600,
-      "total_flos": 1.1709422914453347e+20,
-      "train_loss": 1.2369191074371337,
-      "train_runtime": 14120.9559,
-      "train_samples_per_second": 14.503,
-      "train_steps_per_second": 0.113
     }
   ],
-  "max_steps": 1600,
-  "num_train_epochs": 50,
-  "total_flos": 1.1709422914453347e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.10217397660017014,
+  "best_model_checkpoint": "/workspace/output/ka/wav2vec2-xls-r-1b-ka-2/checkpoint-4000",
+  "epoch": 64.512,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.61,
+      "learning_rate": 1.7678499999999997e-05,
+      "loss": 5.1431,
       "step": 100
     },
     {
+      "epoch": 3.22,
+      "learning_rate": 3.500349999999999e-05,
+      "loss": 2.6801,
       "step": 200
     },
     {
+      "epoch": 4.83,
+      "learning_rate": 5.232849999999999e-05,
+      "loss": 1.4529,
       "step": 300
     },
     {
+      "epoch": 6.45,
+      "learning_rate": 6.965349999999999e-05,
+      "loss": 1.2839,
       "step": 400
     },
     {
+      "epoch": 6.45,
+      "eval_cer": 0.05568531627678561,
+      "eval_loss": 0.22294116020202637,
+      "eval_runtime": 52.1848,
+      "eval_samples_per_second": 25.774,
+      "eval_steps_per_second": 0.422,
+      "eval_wer": 0.3608917324802559,
       "step": 400
     },
     {
+      "epoch": 8.06,
+      "learning_rate": 7e-05,
+      "loss": 1.2486,
       "step": 500
     },
     {
+      "epoch": 9.67,
+      "learning_rate": 7e-05,
+      "loss": 1.139,
       "step": 600
     },
     {
+      "epoch": 11.29,
+      "learning_rate": 7e-05,
+      "loss": 1.0481,
       "step": 700
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 7e-05,
+      "loss": 0.9775,
       "step": 800
     },
     {
+      "epoch": 12.9,
+      "eval_cer": 0.03166960125528526,
+      "eval_loss": 0.127132385969162,
+      "eval_runtime": 50.7158,
+      "eval_samples_per_second": 26.52,
+      "eval_steps_per_second": 0.434,
+      "eval_wer": 0.2202339298210537,
       "step": 800
     },
     {
+      "epoch": 14.51,
+      "learning_rate": 7e-05,
+      "loss": 0.9449,
       "step": 900
     },
     {
+      "epoch": 16.13,
+      "learning_rate": 7e-05,
+      "loss": 0.9374,
       "step": 1000
     },
     {
+      "epoch": 17.74,
+      "learning_rate": 7e-05,
+      "loss": 0.9197,
       "step": 1100
     },
     {
+      "epoch": 19.35,
+      "learning_rate": 7e-05,
+      "loss": 0.9045,
       "step": 1200
     },
     {
+      "epoch": 19.35,
+      "eval_cer": 0.02939379783678896,
+      "eval_loss": 0.12676405906677246,
+      "eval_runtime": 50.6864,
+      "eval_samples_per_second": 26.536,
+      "eval_steps_per_second": 0.434,
+      "eval_wer": 0.20303908827351794,
       "step": 1200
     },
     {
+      "epoch": 20.96,
+      "learning_rate": 7e-05,
+      "loss": 0.8889,
       "step": 1300
     },
     {
+      "epoch": 22.58,
+      "learning_rate": 7e-05,
+      "loss": 0.8873,
       "step": 1400
     },
     {
+      "epoch": 24.19,
+      "learning_rate": 7e-05,
+      "loss": 0.8828,
+      "step": 1500
     },
     {
+      "epoch": 25.8,
+      "learning_rate": 7e-05,
+      "loss": 0.8652,
+      "step": 1600
     },
     {
+      "epoch": 25.8,
+      "eval_cer": 0.028746990549426858,
+      "eval_loss": 0.12111534923315048,
+      "eval_runtime": 50.502,
+      "eval_samples_per_second": 26.633,
+      "eval_steps_per_second": 0.436,
+      "eval_wer": 0.19404178746376088,
       "step": 1600
     },
     {
+      "epoch": 27.42,
+      "learning_rate": 7e-05,
+      "loss": 0.8775,
+      "step": 1700
+    },
+    {
+      "epoch": 29.03,
+      "learning_rate": 7e-05,
+      "loss": 0.8587,
+      "step": 1800
+    },
+    {
+      "epoch": 30.64,
+      "learning_rate": 7e-05,
+      "loss": 0.8518,
+      "step": 1900
+    },
+    {
+      "epoch": 32.26,
+      "learning_rate": 7e-05,
+      "loss": 0.8505,
+      "step": 2000
+    },
+    {
+      "epoch": 32.26,
+      "eval_cer": 0.027573155101991927,
+      "eval_loss": 0.11918943375349045,
+      "eval_runtime": 50.5112,
+      "eval_samples_per_second": 26.628,
+      "eval_steps_per_second": 0.436,
+      "eval_wer": 0.19124262721183644,
+      "step": 2000
+    },
+    {
+      "epoch": 33.86,
+      "learning_rate": 6.67415e-05,
+      "loss": 0.8436,
+      "step": 2100
+    },
+    {
+      "epoch": 35.48,
+      "learning_rate": 6.34165e-05,
+      "loss": 0.8399,
+      "step": 2200
+    },
+    {
+      "epoch": 37.1,
+      "learning_rate": 6.009149999999999e-05,
+      "loss": 0.8258,
+      "step": 2300
+    },
+    {
+      "epoch": 38.7,
+      "learning_rate": 5.679975e-05,
+      "loss": 0.8168,
+      "step": 2400
+    },
+    {
+      "epoch": 38.7,
+      "eval_cer": 0.025956136883586667,
+      "eval_loss": 0.10860513150691986,
+      "eval_runtime": 51.1919,
+      "eval_samples_per_second": 26.274,
+      "eval_steps_per_second": 0.43,
+      "eval_wer": 0.17634709587123862,
+      "step": 2400
+    },
+    {
+      "epoch": 40.32,
+      "learning_rate": 5.3474749999999995e-05,
+      "loss": 0.8068,
+      "step": 2500
+    },
+    {
+      "epoch": 41.93,
+      "learning_rate": 5.0149749999999995e-05,
+      "loss": 0.7971,
+      "step": 2600
+    },
+    {
+      "epoch": 43.54,
+      "learning_rate": 4.6824749999999996e-05,
+      "loss": 0.7893,
+      "step": 2700
+    },
+    {
+      "epoch": 45.16,
+      "learning_rate": 4.3499749999999996e-05,
+      "loss": 0.7737,
+      "step": 2800
+    },
+    {
+      "epoch": 45.16,
+      "eval_cer": 0.025620755327176687,
+      "eval_loss": 0.10982357710599899,
+      "eval_runtime": 50.6716,
+      "eval_samples_per_second": 26.543,
+      "eval_steps_per_second": 0.434,
+      "eval_wer": 0.17534739578126562,
+      "step": 2800
+    },
+    {
+      "epoch": 46.77,
+      "learning_rate": 4.017475e-05,
+      "loss": 0.7748,
+      "step": 2900
+    },
+    {
+      "epoch": 48.38,
+      "learning_rate": 3.684974999999999e-05,
+      "loss": 0.762,
+      "step": 3000
+    },
+    {
+      "epoch": 49.99,
+      "learning_rate": 3.352475e-05,
+      "loss": 0.753,
+      "step": 3100
+    },
+    {
+      "epoch": 51.61,
+      "learning_rate": 3.0199749999999995e-05,
+      "loss": 0.744,
+      "step": 3200
+    },
+    {
+      "epoch": 51.61,
+      "eval_cer": 0.02391989171966893,
+      "eval_loss": 0.10541926324367523,
+      "eval_runtime": 50.5525,
+      "eval_samples_per_second": 26.606,
+      "eval_steps_per_second": 0.435,
+      "eval_wer": 0.16455063480955714,
+      "step": 3200
+    },
+    {
+      "epoch": 53.22,
+      "learning_rate": 2.6874749999999995e-05,
+      "loss": 0.7233,
+      "step": 3300
+    },
+    {
+      "epoch": 54.83,
+      "learning_rate": 2.3549749999999996e-05,
+      "loss": 0.725,
+      "step": 3400
+    },
+    {
+      "epoch": 56.45,
+      "learning_rate": 2.0224749999999996e-05,
+      "loss": 0.7158,
+      "step": 3500
+    },
+    {
+      "epoch": 58.06,
+      "learning_rate": 1.6899749999999997e-05,
+      "loss": 0.7114,
+      "step": 3600
+    },
+    {
+      "epoch": 58.06,
+      "eval_cer": 0.022829901661336496,
+      "eval_loss": 0.10338227450847626,
+      "eval_runtime": 51.0232,
+      "eval_samples_per_second": 26.361,
+      "eval_steps_per_second": 0.431,
+      "eval_wer": 0.15725282415275418,
+      "step": 3600
+    },
+    {
+      "epoch": 59.67,
+      "learning_rate": 1.3574749999999999e-05,
+      "loss": 0.696,
+      "step": 3700
+    },
+    {
+      "epoch": 61.29,
+      "learning_rate": 1.0249750000000001e-05,
+      "loss": 0.7046,
+      "step": 3800
+    },
+    {
+      "epoch": 62.9,
+      "learning_rate": 6.924750000000003e-06,
+      "loss": 0.6915,
+      "step": 3900
+    },
+    {
+      "epoch": 64.51,
+      "learning_rate": 3.5997500000000035e-06,
+      "loss": 0.6773,
+      "step": 4000
+    },
+    {
+      "epoch": 64.51,
+      "eval_cer": 0.02207529315941404,
+      "eval_loss": 0.10217397660017014,
+      "eval_runtime": 50.9761,
+      "eval_samples_per_second": 26.385,
       "eval_steps_per_second": 0.432,
+      "eval_wer": 0.15265420373887834,
+      "step": 4000
     },
     {
+      "epoch": 64.51,
+      "step": 4000,
+      "total_flos": 3.3884437885491655e+20,
+      "train_loss": 1.020361618041992,
+      "train_runtime": 40092.8966,
+      "train_samples_per_second": 12.77,
+      "train_steps_per_second": 0.1
     }
   ],
+  "max_steps": 4000,
+  "num_train_epochs": 65,
+  "total_flos": 3.3884437885491655e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1b6cc2990bd0687f73755e708596b517d41421a5be67db5a0a46176699e2b96
 size 3119

 version https://git-lfs.github.com/spec/v1
+oid sha256:33d410e2e8f54573045bed2df4cfad2a10091c914e24b2b2aa846ae8cce08cbe
 size 3119