Training in progress, step 500

Browse files

Files changed (13) hide show

.ipynb_checkpoints/run-checkpoint.sh +1 -1
.ipynb_checkpoints/run_speech_recognition_ctc-checkpoint.py +5 -1
added_tokens.json +1 -1
config.json +2 -2
pytorch_model.bin +2 -2
run.sh +1 -1
run_speech_recognition_ctc.py +5 -1
runs/Feb02_06-54-25_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/events.out.tfevents.1643785646.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.33872.0 +2 -2
runs/Feb02_16-57-51_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/1643821174.2161925/events.out.tfevents.1643821174.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.271825.1 +3 -0
runs/Feb02_16-57-51_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/events.out.tfevents.1643821174.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.271825.0 +3 -0
special_tokens_map.json +1 -1
training_args.bin +1 -1
vocab.json +1 -1

.ipynb_checkpoints/run-checkpoint.sh CHANGED Viewed

@@ -13,7 +13,7 @@ python xls-r-uzbek-cv8/run_speech_recognition_ctc.py \
 	--length_column_name="input_length" \
 	--evaluation_strategy="steps" \
 	--text_column_name="sentence" \
-	--eval_metrics="wer cer" \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \

 	--length_column_name="input_length" \
 	--evaluation_strategy="steps" \
 	--text_column_name="sentence" \
+	--eval_metrics="cer" \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \

.ipynb_checkpoints/run_speech_recognition_ctc-checkpoint.py CHANGED Viewed

@@ -448,7 +448,11 @@ def main():
             batch["target_text"] = re.sub(
                 chars_to_ignore_regex,
                 "",
-                re.sub("([og])['`´]", "\g<1>‘", unidecode.unidecode(batch[text_column_name]).lower())
             ) + " "
         else:
             batch["target_text"] = batch[text_column_name].lower() + " "

             batch["target_text"] = re.sub(
                 chars_to_ignore_regex,
                 "",
+                re.sub("['`´]", "’",   # elsewhere probably meant as glottal stop
+                       re.sub("([og])['`´]", "\g<1>‘",  # after o/g indicate modified char
+                              unidecode.unidecode(batch[text_column_name]).lower()
+                             )
+                      )
             ) + " "
         else:
             batch["target_text"] = batch[text_column_name].lower() + " "

added_tokens.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<s>": 30, "</s>": 31}


1	+ {"<s>": 31, "</s>": 32}

config.json CHANGED Viewed

@@ -76,7 +76,7 @@
   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
-  "pad_token_id": 29,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
@@ -102,7 +102,7 @@
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
   "use_weighted_layer_sum": false,
-  "vocab_size": 32,
   "xvector_output_dim": 512,
   "zero_infinity": true
 }

   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
+  "pad_token_id": 30,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
   "use_weighted_layer_sum": false,
+  "vocab_size": 33,
   "xvector_output_dim": 512,
   "zero_infinity": true
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f689c3b43e7accddfbf1c878981304fb35a8fda3697417b055373360d619b1f9
-size 1262054897

 version https://git-lfs.github.com/spec/v1
+oid sha256:92ce1b47197250ba9b80105b9b3a57164fd5eaa1d25043e6b5dfbc5b22589270
+size 1262058993

run.sh CHANGED Viewed

@@ -13,7 +13,7 @@ python xls-r-uzbek-cv8/run_speech_recognition_ctc.py \
 	--length_column_name="input_length" \
 	--evaluation_strategy="steps" \
 	--text_column_name="sentence" \
-	--eval_metrics="wer cer" \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \

 	--length_column_name="input_length" \
 	--evaluation_strategy="steps" \
 	--text_column_name="sentence" \
+	--eval_metrics="cer" \
 	--save_steps="500" \
 	--eval_steps="500" \
 	--logging_steps="100" \

run_speech_recognition_ctc.py CHANGED Viewed

@@ -448,7 +448,11 @@ def main():
             batch["target_text"] = re.sub(
                 chars_to_ignore_regex,
                 "",
-                re.sub("([og])['`´]", "\g<1>‘", unidecode.unidecode(batch[text_column_name]).lower())
             ) + " "
         else:
             batch["target_text"] = batch[text_column_name].lower() + " "

             batch["target_text"] = re.sub(
                 chars_to_ignore_regex,
                 "",
+                re.sub("['`´]", "’",   # elsewhere probably meant as glottal stop
+                       re.sub("([og])['`´]", "\g<1>‘",  # after o/g indicate modified char
+                              unidecode.unidecode(batch[text_column_name]).lower()
+                             )
+                      )
             ) + " "
         else:
             batch["target_text"] = batch[text_column_name].lower() + " "

runs/Feb02_06-54-25_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/events.out.tfevents.1643785646.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.33872.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bfb25063b5867cf7f135ddda4b7a60d77bbba1529b01cbea6229852aeae77d78
-size 24603

 version https://git-lfs.github.com/spec/v1
+oid sha256:3190230d80b210fe7ddda30f0da221c3e1e50ac2b1ebc18be513c0c83f125c18
+size 25074

runs/Feb02_16-57-51_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/1643821174.2161925/events.out.tfevents.1643821174.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.271825.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32ca394f643571fa583c586ad18d3e1795498896953804e4db092cacc760025f
+size 4799

runs/Feb02_16-57-51_job-699ba53c-fea9-4eb2-81af-a97f440eaa45/events.out.tfevents.1643821174.job-699ba53c-fea9-4eb2-81af-a97f440eaa45.271825.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b09a06724cb8553a167b2b4f99d617b29d0c715672c69066c343e058abb1088
+size 5852

special_tokens_map.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39c0625450d0afa8d2e897190721a9173256a42e1f889cdecc94feee325632c3
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:ade06333b9174b6ec9ef767b07b6738941cd04e17f17deb11ad4726836e129b6
 size 3055

vocab.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "q": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "‘": 27, "\|": 0, "[UNK]": 28, "[PAD]": 29}


1	+ {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "q": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "‘": 27, "’": 28, "\|": 0, "[UNK]": 29, "[PAD]": 30}