arampacha commited on Feb 3, 2022

Commit

cfb8a5f

1 Parent(s): 63015e3

iter 1

Browse files

Files changed (20) hide show

README.md +16 -22
added_tokens.json +1 -1
all_results.json +11 -11
alphabet.json +1 -1
config.json +2 -2
eval_results.json +7 -7
mozilla-foundation_common_voice_8_0_ka_test_eval_results.txt +2 -2
pytorch_model.bin +2 -2
run_speech_recognition_ctc.py +21 -15
runs/Feb02_23-04-29_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643843167.034302/events.out.tfevents.1643843167.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.161204.1 +3 -0
runs/Feb02_23-04-29_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643843167.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.161204.0 +3 -0
runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643843401.97478/events.out.tfevents.1643843401.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.1 +3 -0
runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643843401.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.0 +3 -0
runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643857578.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.2 +3 -0
special_tokens_map.json +1 -1
tokenizer_config.json +1 -1
train_results.json +5 -5
trainer_state.json +139 -123
training_args.bin +2 -2
vocab.json +1 -1

README.md CHANGED Viewed

@@ -1,28 +1,24 @@
 ---
-language:
-- ka
 license: apache-2.0
 tags:
 - automatic-speech-recognition
-- mozilla-foundation/common_voice_8_0
 - generated_from_trainer
-datasets:
-- common_voice
 model-index:
-- name: ''
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-#
-This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - KA dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1571
-- Wer: 0.2265
-- Cer: 0.0326
 ## Model description
@@ -50,23 +46,21 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 1000
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
-| 4.7215        | 4.34  | 100  | 3.0456          | 1.0    | 1.0    |
-| 2.428         | 8.68  | 200  | 0.4395          | 0.6962 | 0.1158 |
-| 1.413         | 13.04 | 300  | 0.2565          | 0.4309 | 0.0664 |
-| 1.1361        | 17.38 | 400  | 0.2040          | 0.3242 | 0.0494 |
-| 0.9734        | 21.72 | 500  | 0.1883          | 0.2891 | 0.0428 |
-| 0.9093        | 26.09 | 600  | 0.1819          | 0.2732 | 0.0411 |
-| 0.8579        | 30.43 | 700  | 0.1649          | 0.2517 | 0.0368 |
-| 0.815         | 34.77 | 800  | 0.1676          | 0.2447 | 0.0366 |
-| 0.7764        | 39.13 | 900  | 0.1616          | 0.2345 | 0.0343 |
-| 0.7437        | 43.47 | 1000 | 0.1571          | 0.2265 | 0.0326 |
 ### Framework versions

 ---
 license: apache-2.0
 tags:
 - automatic-speech-recognition
+- /workspace/data/ka/noizy_student_1/
 - generated_from_trainer
 model-index:
+- name: wav2vec2-xls-r-1b-ka-1
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# wav2vec2-xls-r-1b-ka-1
+This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the /WORKSPACE/DATA/KA/NOIZY_STUDENT_1/ - KA dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1251
+- Wer: 0.1830
+- Cer: 0.0267
 ## Model description
 - optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 1600
 - mixed_precision_training: Native AMP
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Wer    | Cer    |
 |:-------------:|:-----:|:----:|:---------------:|:------:|:------:|
+| 2.6823        | 6.25  | 200  | 0.4796          | 0.7190 | 0.1225 |
+| 1.1553        | 12.5  | 400  | 0.1749          | 0.2955 | 0.0428 |
+| 0.9692        | 18.75 | 600  | 0.1581          | 0.2483 | 0.0361 |
+| 0.8875        | 25.0  | 800  | 0.1558          | 0.2254 | 0.0338 |
+| 0.8311        | 31.25 | 1000 | 0.1394          | 0.2196 | 0.0324 |
+| 0.7729        | 37.5  | 1200 | 0.1378          | 0.2001 | 0.0295 |
+| 0.7317        | 43.75 | 1400 | 0.1271          | 0.1865 | 0.0272 |
+| 0.6902        | 50.0  | 1600 | 0.1251          | 0.1830 | 0.0267 |
 ### Framework versions

added_tokens.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<s>": 37, "</s>": 38}


1	+ {"<s>": 36, "</s>": 37}

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 43.47,
-    "eval_cer": 0.03260192593302352,
-    "eval_loss": 0.15712039172649384,
-    "eval_runtime": 51.6527,
     "eval_samples": 1345,
-    "eval_samples_per_second": 26.039,
-    "eval_steps_per_second": 0.426,
-    "eval_wer": 0.22653204038788363,
-    "train_loss": 1.477442985534668,
-    "train_runtime": 8848.2722,
-    "train_samples": 3003,
-    "train_samples_per_second": 14.466,
     "train_steps_per_second": 0.113
 }

 {
+    "epoch": 50.0,
+    "eval_cer": 0.02666283373459341,
+    "eval_loss": 0.1251150518655777,
+    "eval_runtime": 50.9985,
     "eval_samples": 1345,
+    "eval_samples_per_second": 26.373,
+    "eval_steps_per_second": 0.431,
+    "eval_wer": 0.1830450864740578,
+    "train_loss": 1.2369191074371337,
+    "train_runtime": 14120.9559,
+    "train_samples": 4101,
+    "train_samples_per_second": 14.503,
     "train_steps_per_second": 0.113
 }

alphabet.json CHANGED Viewed

@@ -1 +1 @@

- {"labels": [" ", "\u10d0", "\u10d1", "\u10d2", "\u10d3", "\u10d4", "\u10d5", "\u10d6", "\u10d7", "\u10d8", "\u10d9", "\u10da", "\u10db", "\u10dc", "\u10dd", "\u10de", "\u10df", "\u10e0", "\u10e1", "\u10e2", "\u10e3", "\u10e4", "\u10e5", "\u10e6", "\u10e7", "\u10e8", "\u10e9", "\u10ea", "\u10eb", "\u10ec", "\u10ed", "\u10ee", "\u10ef", "\u10f0", "\~~u2013", "\~~u2047", "", "<s>", "</s>"], "is_bpe": false}


1	+ {"labels": [" ", "\u10d0", "\u10d1", "\u10d2", "\u10d3", "\u10d4", "\u10d5", "\u10d6", "\u10d7", "\u10d8", "\u10d9", "\u10da", "\u10db", "\u10dc", "\u10dd", "\u10de", "\u10df", "\u10e0", "\u10e1", "\u10e2", "\u10e3", "\u10e4", "\u10e5", "\u10e6", "\u10e7", "\u10e8", "\u10e9", "\u10ea", "\u10eb", "\u10ec", "\u10ed", "\u10ee", "\u10ef", "\u10f0", "\u2047", "", "<s>", "</s>"], "is_bpe": false}

config.json CHANGED Viewed

@@ -76,7 +76,7 @@
   "num_hidden_layers": 48,
   "num_negatives": 100,
   "output_hidden_size": 1280,
-  "pad_token_id": 36,
   "proj_codevector_dim": 1024,
   "tdnn_dilation": [
     1,
@@ -102,6 +102,6 @@
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
   "use_weighted_layer_sum": false,
-  "vocab_size": 39,
   "xvector_output_dim": 512
 }

   "num_hidden_layers": 48,
   "num_negatives": 100,
   "output_hidden_size": 1280,
+  "pad_token_id": 35,
   "proj_codevector_dim": 1024,
   "tdnn_dilation": [
     1,
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
   "use_weighted_layer_sum": false,
+  "vocab_size": 38,
   "xvector_output_dim": 512
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 43.47,
-    "eval_cer": 0.03260192593302352,
-    "eval_loss": 0.15712039172649384,
-    "eval_runtime": 51.6527,
     "eval_samples": 1345,
-    "eval_samples_per_second": 26.039,
-    "eval_steps_per_second": 0.426,
-    "eval_wer": 0.22653204038788363
 }

 {
+    "epoch": 50.0,
+    "eval_cer": 0.02666283373459341,
+    "eval_loss": 0.1251150518655777,
+    "eval_runtime": 50.9985,
     "eval_samples": 1345,
+    "eval_samples_per_second": 26.373,
+    "eval_steps_per_second": 0.431,
+    "eval_wer": 0.1830450864740578
 }

mozilla-foundation_common_voice_8_0_ka_test_eval_results.txt CHANGED Viewed

	@@ -1,2 +1,2 @@
1	- WER: 0.~~10356892932120364~~
2	- CER: 0.~~016409740438631165~~


1	+ WER: 0.0856742977106868
2	+ CER: 0.013535041383688478

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6b9030bbfece754b2aac8f6231ca9d4ca67354ec5f933ec74593c0a998181a7
-size 3850512561

 version https://git-lfs.github.com/spec/v1
+oid sha256:355fea7b30d8d97df6519c345a8c3ab79bdbb339af16b3067db6a7a37effd8e2
+size 3850507441

run_speech_recognition_ctc.py CHANGED Viewed

@@ -29,7 +29,7 @@ import datasets
 import numpy as np
 import torch
 from torch.optim.lr_scheduler import LambdaLR
-from datasets import DatasetDict, load_dataset, load_metric
 import bitsandbytes as bnb
 import transformers
@@ -438,12 +438,15 @@ def main():
     raw_datasets = DatasetDict()
     if training_args.do_train:
-        raw_datasets["train"] = load_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
-            split=data_args.train_split_name,
-            use_auth_token=data_args.use_auth_token,
-        )
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
             raise ValueError(
@@ -463,13 +466,16 @@ def main():
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
     if training_args.do_eval:
-        raw_datasets["eval"] = load_dataset(
-            data_args.dataset_name,
-            data_args.dataset_config_name,
-            split=data_args.eval_split_name,
-            use_auth_token=data_args.use_auth_token,
-        )
         if data_args.max_eval_samples is not None:
             raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
@@ -548,7 +554,7 @@ def main():
             "pad_token": pad_token,
             "word_delimiter_token": word_delimiter_token,
         }
     # 5. Now we can instantiate the feature extractor, tokenizer and model
     # Note for distributed training, the .from_pretrained methods guarantee that only
     # one local process can concurrently download model & vocab.

 import numpy as np
 import torch
 from torch.optim.lr_scheduler import LambdaLR
+from datasets import DatasetDict, load_dataset, load_metric, load_from_disk
 import bitsandbytes as bnb
 import transformers
     raw_datasets = DatasetDict()
     if training_args.do_train:
+        if data_args.dataset_name.endswith("/"):
+            raw_datasets["train"] = load_from_disk(f"{data_args.dataset_name}/{data_args.train_split_name}")
+        else:
+            raw_datasets["train"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=data_args.train_split_name,
+                use_auth_token=data_args.use_auth_token,
+            )
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
             raise ValueError(
             raw_datasets["train"] = raw_datasets["train"].select(range(data_args.max_train_samples))
     if training_args.do_eval:
+        if data_args.dataset_name.endswith("/"):
+            raw_datasets["eval"] = load_from_disk(f"{data_args.dataset_name}/{data_args.eval_split_name}")
+        else:
+            raw_datasets["eval"] = load_dataset(
+                data_args.dataset_name,
+                data_args.dataset_config_name,
+                split=data_args.eval_split_name,
+                use_auth_token=data_args.use_auth_token,
+            )
         if data_args.max_eval_samples is not None:
             raw_datasets["eval"] = raw_datasets["eval"].select(range(data_args.max_eval_samples))
             "pad_token": pad_token,
             "word_delimiter_token": word_delimiter_token,
         }
     # 5. Now we can instantiate the feature extractor, tokenizer and model
     # Note for distributed training, the .from_pretrained methods guarantee that only
     # one local process can concurrently download model & vocab.

runs/Feb02_23-04-29_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643843167.034302/events.out.tfevents.1643843167.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.161204.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5004ec32260c06591a2a063a65ae4a223e77ba8762de29289e0219d51f389392
+size 4855

runs/Feb02_23-04-29_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643843167.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.161204.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:446833ef85f19b98d904c93525191972245ad014a598f5b4f82daa517476c662
+size 4785

runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/1643843401.97478/events.out.tfevents.1643843401.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5602e053a55e7bad2cc5b1c3e38c2ad0a31dd3be7508234f9d8245248ee69e8b
+size 4855

runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643843401.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29e8fae2587a9d344557ca4595b8db8bb6aab926900eac35c0fcf8d005ec1201
+size 10568

runs/Feb02_23-08-27_job-680ae191-b2c7-4b97-adaf-cb186b6c96a6/events.out.tfevents.1643857578.job-680ae191-b2c7-4b97-adaf-cb186b6c96a6.163401.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71b13685f5167b655827e808d04afa893d1a02e0c2d8a59a496104a0b69d47e4
+size 405

special_tokens_map.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"~~, "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true~~}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "~~special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "/workspace/output/ka/wav2vec2-xls-r-1b-ka", "~~tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 43.47,
-    "train_loss": 1.477442985534668,
-    "train_runtime": 8848.2722,
-    "train_samples": 3003,
-    "train_samples_per_second": 14.466,
     "train_steps_per_second": 0.113
 }

 {
+    "epoch": 50.0,
+    "train_loss": 1.2369191074371337,
+    "train_runtime": 14120.9559,
+    "train_samples": 4101,
+    "train_samples_per_second": 14.503,
     "train_steps_per_second": 0.113
 }

trainer_state.json CHANGED Viewed

@@ -1,185 +1,201 @@
 {
-  "best_metric": 0.15712039172649384,
-  "best_model_checkpoint": "./checkpoint-1000",
-  "epoch": 43.46808510638298,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 4.34,
-      "learning_rate": 7.8416e-05,
-      "loss": 4.7215,
       "step": 100
     },
     {
-      "epoch": 4.34,
-      "eval_cer": 1.0,
-      "eval_loss": 3.0456290245056152,
-      "eval_runtime": 53.9897,
-      "eval_samples_per_second": 24.912,
-      "eval_steps_per_second": 0.407,
-      "eval_wer": 1.0,
-      "step": 100
-    },
-    {
-      "epoch": 8.68,
       "learning_rate": 8e-05,
-      "loss": 2.428,
       "step": 200
     },
     {
-      "epoch": 8.68,
-      "eval_cer": 0.11583145690605087,
-      "eval_loss": 0.4395165741443634,
-      "eval_runtime": 51.7468,
-      "eval_samples_per_second": 25.992,
-      "eval_steps_per_second": 0.425,
-      "eval_wer": 0.6961911426572028,
       "step": 200
     },
     {
-      "epoch": 13.04,
       "learning_rate": 8e-05,
-      "loss": 1.413,
-      "step": 300
-    },
-    {
-      "epoch": 13.04,
-      "eval_cer": 0.06643750299429886,
-      "eval_loss": 0.25652211904525757,
-      "eval_runtime": 51.6775,
-      "eval_samples_per_second": 26.027,
-      "eval_steps_per_second": 0.426,
-      "eval_wer": 0.4308707387783665,
       "step": 300
     },
     {
-      "epoch": 17.38,
       "learning_rate": 8e-05,
-      "loss": 1.1361,
       "step": 400
     },
     {
-      "epoch": 17.38,
-      "eval_cer": 0.049381976716332106,
-      "eval_loss": 0.20400136709213257,
-      "eval_runtime": 51.2823,
-      "eval_samples_per_second": 26.227,
-      "eval_steps_per_second": 0.429,
-      "eval_wer": 0.32420273917824655,
       "step": 400
     },
     {
-      "epoch": 21.72,
       "learning_rate": 8e-05,
-      "loss": 0.9734,
       "step": 500
     },
     {
-      "epoch": 21.72,
-      "eval_cer": 0.042842428017055526,
-      "eval_loss": 0.1882503181695938,
-      "eval_runtime": 51.4224,
-      "eval_samples_per_second": 26.156,
-      "eval_steps_per_second": 0.428,
-      "eval_wer": 0.28911326602019394,
-      "step": 500
-    },
-    {
-      "epoch": 26.09,
-      "learning_rate": 6.5104e-05,
-      "loss": 0.9093,
       "step": 600
     },
     {
-      "epoch": 26.09,
-      "eval_cer": 0.04109375748574714,
-      "eval_loss": 0.18192020058631897,
-      "eval_runtime": 51.6867,
-      "eval_samples_per_second": 26.022,
-      "eval_steps_per_second": 0.426,
-      "eval_wer": 0.2732180345896231,
       "step": 600
     },
     {
-      "epoch": 30.43,
-      "learning_rate": 4.990400000000001e-05,
-      "loss": 0.8579,
-      "step": 700
-    },
-    {
-      "epoch": 30.43,
-      "eval_cer": 0.03682987591625545,
-      "eval_loss": 0.16494964063167572,
-      "eval_runtime": 50.7748,
-      "eval_samples_per_second": 26.49,
-      "eval_steps_per_second": 0.433,
-      "eval_wer": 0.2517244826552034,
       "step": 700
     },
     {
-      "epoch": 34.77,
-      "learning_rate": 3.4704e-05,
-      "loss": 0.815,
       "step": 800
     },
     {
-      "epoch": 34.77,
-      "eval_cer": 0.03659033200785704,
-      "eval_loss": 0.16763731837272644,
-      "eval_runtime": 50.6745,
-      "eval_samples_per_second": 26.542,
-      "eval_steps_per_second": 0.434,
-      "eval_wer": 0.24472658202539238,
       "step": 800
     },
     {
-      "epoch": 39.13,
-      "learning_rate": 1.9504e-05,
-      "loss": 0.7764,
       "step": 900
     },
     {
-      "epoch": 39.13,
-      "eval_cer": 0.03427873329181239,
-      "eval_loss": 0.1615939736366272,
-      "eval_runtime": 51.1064,
-      "eval_samples_per_second": 26.318,
-      "eval_steps_per_second": 0.43,
-      "eval_wer": 0.2345296411076677,
-      "step": 900
     },
     {
-      "epoch": 43.47,
-      "learning_rate": 4.303999999999997e-06,
-      "loss": 0.7437,
       "step": 1000
     },
     {
-      "epoch": 43.47,
-      "eval_cer": 0.03260192593302352,
-      "eval_loss": 0.15712039172649384,
-      "eval_runtime": 51.9314,
-      "eval_samples_per_second": 25.9,
-      "eval_steps_per_second": 0.424,
-      "eval_wer": 0.22653204038788363,
-      "step": 1000
     },
     {
-      "epoch": 43.47,
-      "step": 1000,
-      "total_flos": 7.038871624634921e+19,
-      "train_loss": 1.477442985534668,
-      "train_runtime": 8848.2722,
-      "train_samples_per_second": 14.466,
       "train_steps_per_second": 0.113
     }
   ],
-  "max_steps": 1000,
-  "num_train_epochs": 44,
-  "total_flos": 7.038871624634921e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.1251150518655777,
+  "best_model_checkpoint": "/workspace/output/ka/wav2vec2-xls-r-1b-ka-1/checkpoint-1600",
+  "epoch": 49.99610894941634,
+  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 3.12,
+      "learning_rate": 4.931000000000001e-05,
+      "loss": 4.6003,
       "step": 100
     },
     {
+      "epoch": 6.25,
       "learning_rate": 8e-05,
+      "loss": 2.6823,
       "step": 200
     },
     {
+      "epoch": 6.25,
+      "eval_cer": 0.12246217974055841,
+      "eval_loss": 0.47962790727615356,
+      "eval_runtime": 52.422,
+      "eval_samples_per_second": 25.657,
+      "eval_steps_per_second": 0.42,
+      "eval_wer": 0.7189843047085874,
       "step": 200
     },
     {
+      "epoch": 9.37,
       "learning_rate": 8e-05,
+      "loss": 1.3181,
       "step": 300
     },
     {
+      "epoch": 12.5,
       "learning_rate": 8e-05,
+      "loss": 1.1553,
       "step": 400
     },
     {
+      "epoch": 12.5,
+      "eval_cer": 0.04279708218045923,
+      "eval_loss": 0.1748698353767395,
+      "eval_runtime": 52.0532,
+      "eval_samples_per_second": 25.839,
+      "eval_steps_per_second": 0.423,
+      "eval_wer": 0.2955113465960212,
       "step": 400
     },
     {
+      "epoch": 15.62,
       "learning_rate": 8e-05,
+      "loss": 1.0934,
       "step": 500
     },
     {
+      "epoch": 18.75,
+      "learning_rate": 8e-05,
+      "loss": 0.9692,
       "step": 600
     },
     {
+      "epoch": 18.75,
+      "eval_cer": 0.03611340687771749,
+      "eval_loss": 0.15810930728912354,
+      "eval_runtime": 51.9193,
+      "eval_samples_per_second": 25.906,
+      "eval_steps_per_second": 0.424,
+      "eval_wer": 0.2483255023492952,
       "step": 600
     },
     {
+      "epoch": 21.87,
+      "learning_rate": 8e-05,
+      "loss": 0.9144,
       "step": 700
     },
     {
+      "epoch": 25.0,
+      "learning_rate": 8e-05,
+      "loss": 0.8875,
       "step": 800
     },
     {
+      "epoch": 25.0,
+      "eval_cer": 0.0338376034592212,
+      "eval_loss": 0.15575425326824188,
+      "eval_runtime": 51.4228,
+      "eval_samples_per_second": 26.156,
+      "eval_steps_per_second": 0.428,
+      "eval_wer": 0.22543237028891333,
       "step": 800
     },
     {
+      "epoch": 28.12,
+      "learning_rate": 7.069e-05,
+      "loss": 0.8567,
       "step": 900
     },
     {
+      "epoch": 31.25,
+      "learning_rate": 6.119e-05,
+      "loss": 0.8311,
+      "step": 1000
     },
     {
+      "epoch": 31.25,
+      "eval_cer": 0.03241223184447878,
+      "eval_loss": 0.13941511511802673,
+      "eval_runtime": 51.753,
+      "eval_samples_per_second": 25.989,
+      "eval_steps_per_second": 0.425,
+      "eval_wer": 0.21963410976706987,
       "step": 1000
     },
     {
+      "epoch": 34.37,
+      "learning_rate": 5.169000000000001e-05,
+      "loss": 0.8158,
+      "step": 1100
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 4.219000000000001e-05,
+      "loss": 0.7729,
+      "step": 1200
+    },
+    {
+      "epoch": 37.5,
+      "eval_cer": 0.029477643225891456,
+      "eval_loss": 0.1377694308757782,
+      "eval_runtime": 51.963,
+      "eval_samples_per_second": 25.884,
+      "eval_steps_per_second": 0.423,
+      "eval_wer": 0.2001399580125962,
+      "step": 1200
+    },
+    {
+      "epoch": 40.62,
+      "learning_rate": 3.269000000000001e-05,
+      "loss": 0.7678,
+      "step": 1300
+    },
+    {
+      "epoch": 43.75,
+      "learning_rate": 2.319e-05,
+      "loss": 0.7317,
+      "step": 1400
+    },
+    {
+      "epoch": 43.75,
+      "eval_cer": 0.02722579563285302,
+      "eval_loss": 0.1270754188299179,
+      "eval_runtime": 51.6918,
+      "eval_samples_per_second": 26.02,
+      "eval_steps_per_second": 0.426,
+      "eval_wer": 0.1865440367889633,
+      "step": 1400
+    },
+    {
+      "epoch": 46.87,
+      "learning_rate": 1.369e-05,
+      "loss": 0.704,
+      "step": 1500
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 4.190000000000005e-06,
+      "loss": 0.6902,
+      "step": 1600
+    },
+    {
+      "epoch": 50.0,
+      "eval_cer": 0.02666283373459341,
+      "eval_loss": 0.1251150518655777,
+      "eval_runtime": 50.9819,
+      "eval_samples_per_second": 26.382,
+      "eval_steps_per_second": 0.432,
+      "eval_wer": 0.1830450864740578,
+      "step": 1600
     },
     {
+      "epoch": 50.0,
+      "step": 1600,
+      "total_flos": 1.1709422914453347e+20,
+      "train_loss": 1.2369191074371337,
+      "train_runtime": 14120.9559,
+      "train_samples_per_second": 14.503,
       "train_steps_per_second": 0.113
     }
   ],
+  "max_steps": 1600,
+  "num_train_epochs": 50,
+  "total_flos": 1.1709422914453347e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a733750263c87104e6dec4c554595669314ae4d6841bc81e4aab477ce8f38a1
-size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1b6cc2990bd0687f73755e708596b517d41421a5be67db5a0a46176699e2b96
+size 3119

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"ა": 1, "ბ": 2, "გ": 3, "დ": 4, "ე": 5, "ვ": 6, "ზ": 7, "თ": 8, "ი": 9, "კ": 10, "ლ": 11, "მ": 12, "ნ": 13, "ო": 14, "პ": 15, "ჟ": 16, "რ": 17, "ს": 18, "ტ": 19, "უ": 20, "ფ": 21, "ქ": 22, "ღ": 23, "ყ": 24, "შ": 25, "ჩ": 26, "ც": 27, "ძ": 28, "წ": 29, "ჭ": 30, "ხ": 31, "ჯ": 32, "ჰ": 33, "~~–": 34, "~~|": 0, "[UNK]": 35, "[PAD]": 36}


1	+ {"ა": 1, "ბ": 2, "გ": 3, "დ": 4, "ე": 5, "ვ": 6, "ზ": 7, "თ": 8, "ი": 9, "კ": 10, "ლ": 11, "მ": 12, "ნ": 13, "ო": 14, "პ": 15, "ჟ": 16, "რ": 17, "ს": 18, "ტ": 19, "უ": 20, "ფ": 21, "ქ": 22, "ღ": 23, "ყ": 24, "შ": 25, "ჩ": 26, "ც": 27, "ძ": 28, "წ": 29, "ჭ": 30, "ხ": 31, "ჯ": 32, "ჰ": 33, "\|": 0, "[UNK]": 34, "[PAD]": 35}