Version 2.27

Browse files

Files changed (7) hide show

.DS_Store +0 -0
README.md +223 -14
added_tokens.json +0 -1
config.json +5 -5
pytorch_model.bin +2 -2
tokenizer_config.json +1 -1
vocab.json +1 -1

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

README.md CHANGED Viewed

@@ -42,6 +42,115 @@ import torchaudio
 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 test_dataset = load_dataset("common_voice", "vi", split="test[:2%]")
 processor = Wav2Vec2Processor.from_pretrained("Nhut/wav2vec2-large-xlsr-vietnamese")
@@ -63,7 +172,7 @@ with torch.no_grad():
 predicted_ids = torch.argmax(logits, dim=-1)
-print("Prediction:", processor.batch_decode(predicted_ids))
 print("Reference:", test_dataset["sentence"][:2])
 ```
@@ -80,26 +189,125 @@ from datasets import load_dataset, load_metric
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
 test_dataset = load_dataset("common_voice", "vi", split="test")
 wer = load_metric("wer")
-processor = Wav2Vec2Processor.from_pretrained("Nhut/wav2vec2-large-xlsr-vietnamese")
-model = Wav2Vec2ForCTC.from_pretrained("Nhut/wav2vec2-large-xlsr-vietnamese")
 model.to("cuda")
 chars_to_ignore_regex = '[\\\+\@\ǀ\,\?\.\!\-\;\:\"\“\%\‘\”\�]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
-# Preprocessing the datasets.
-# We need to read the aduio files as arrays
-def speech_file_to_array_fn(batch):
-  batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
-  speech_array, sampling_rate = torchaudio.load(batch["path"])
-  batch["speech"] = resampler(speech_array).squeeze().numpy()
-  return batch
-test_dataset = test_dataset.map(speech_file_to_array_fn)
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
 def evaluate(batch):
@@ -110,10 +318,11 @@ def evaluate(batch):
   pred_ids = torch.argmax(logits, dim=-1)
   batch["pred_strings"] = processor.batch_decode(pred_ids)
   return batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```

 from datasets import load_dataset
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+ENCODER = {
+    "ia ": "iê ",
+    "ìa ": "iề ",
+    "ía ": "iế ",
+    "ỉa ": "iể ",
+    "ĩa ": "iễ ",
+    "ịa ": "iệ ",
+    "ya ": "yê ",
+    "ỳa ": "yề ",
+    "ýa ": "yế ",
+    "ỷa ": "yể ",
+    "ỹa ": "yễ ",
+    "ỵa ": "yệ ",
+    "ua ": "uô ",
+    "ùa ": "uồ ",
+    "úa ": "uố ",
+    "ủa ": "uổ ",
+    "ũa ": "uỗ ",
+    "ụa ": "uộ ",
+    "ưa ": "ươ ",
+    "ừa ": "ườ ",
+    "ứa ": "ướ ",
+    "ửa ": "ưở ",
+    "ữa ": "ưỡ ",
+    "ựa ": "ượ ",
+    "ke": "ce",
+    "kè": "cè",
+    "ké": "cé",
+    "kẻ": "cẻ",
+    "kẽ": "cẽ",
+    "kẹ": "cẹ",
+    "kê": "cê",
+    "kề": "cề",
+    "kế": "cế",
+    "kể": "cể",
+    "kễ": "cễ",
+    "kệ": "cệ",
+    "ki": "ci",
+    "kì": "cì",
+    "kí": "cí",
+    "kỉ": "cỉ",
+    "kĩ": "cĩ",
+    "kị": "cị",
+    "ky": "cy",
+    "kỳ": "cỳ",
+    "ký": "cý",
+    "kỷ": "cỷ",
+    "kỹ": "cỹ",
+    "kỵ": "cỵ",
+    "ghe": "ge",
+    "ghè": "gè",
+    "ghé": "gé",
+    "ghẻ": "gẻ",
+    "ghẽ": "gẽ",
+    "ghẹ": "gẹ",
+    "ghê": "gê",
+    "ghề": "gề",
+    "ghế": "gế",
+    "ghể": "gể",
+    "ghễ": "gễ",
+    "ghệ": "gệ",
+    "ngh": "\x80",
+    "uyê": "\x96",
+    "uyề": "\x97",
+    "uyế": "\x98",
+    "uyể": "\x99",
+    "uyễ": "\x9a",
+    "uyệ": "\x9b",
+    "ng": "\x81",
+    "ch": "\x82",
+    "gh": "\x83",
+    "nh": "\x84",
+    "gi": "\x85",
+    "ph": "\x86",
+    "kh": "\x87",
+    "th": "\x88",
+    "tr": "\x89",
+    "uy": "\x8a",
+    "uỳ": "\x8b",
+    "uý": "\x8c",
+    "uỷ": "\x8d",
+    "uỹ": "\x8e",
+    "uỵ": "\x8f",
+    "iê": "\x90",
+    "iề": "\x91",
+    "iế": "\x92",
+    "iể": "\x93",
+    "iễ": "\x94",
+    "iệ": "\x95",
+    "uô": "\x9c",
+    "uồ": "\x9d",
+    "uố": "\x9e",
+    "uổ": "\x9f",
+    "uỗ": "\xa0",
+    "uộ": "\xa1",
+    "ươ": "\xa2",
+    "ườ": "\xa3",
+    "ướ": "\xa4",
+    "ưở": "\xa5",
+    "ưỡ": "\xa6",
+    "ượ": "\xa7",
+}
+def decode_string(x):
+  for k, v in list(reversed(list(ENCODER.items()))):
+    x = x.replace(v, k)
+  return x
 test_dataset = load_dataset("common_voice", "vi", split="test[:2%]")
 processor = Wav2Vec2Processor.from_pretrained("Nhut/wav2vec2-large-xlsr-vietnamese")
 predicted_ids = torch.argmax(logits, dim=-1)
+print("Prediction:", decode_string(processor.batch_decode(predicted_ids)))
 print("Reference:", test_dataset["sentence"][:2])
 ```
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 import re
+ENCODER = {
+    "ia ": "iê ",
+    "ìa ": "iề ",
+    "ía ": "iế ",
+    "ỉa ": "iể ",
+    "ĩa ": "iễ ",
+    "ịa ": "iệ ",
+    "ya ": "yê ",
+    "ỳa ": "yề ",
+    "ýa ": "yế ",
+    "ỷa ": "yể ",
+    "ỹa ": "yễ ",
+    "ỵa ": "yệ ",
+    "ua ": "uô ",
+    "ùa ": "uồ ",
+    "úa ": "uố ",
+    "ủa ": "uổ ",
+    "ũa ": "uỗ ",
+    "ụa ": "uộ ",
+    "ưa ": "ươ ",
+    "ừa ": "ườ ",
+    "ứa ": "ướ ",
+    "ửa ": "ưở ",
+    "ữa ": "ưỡ ",
+    "ựa ": "ượ ",
+    "ke": "ce",
+    "kè": "cè",
+    "ké": "cé",
+    "kẻ": "cẻ",
+    "kẽ": "cẽ",
+    "kẹ": "cẹ",
+    "kê": "cê",
+    "kề": "cề",
+    "kế": "cế",
+    "kể": "cể",
+    "kễ": "cễ",
+    "kệ": "cệ",
+    "ki": "ci",
+    "kì": "cì",
+    "kí": "cí",
+    "kỉ": "cỉ",
+    "kĩ": "cĩ",
+    "kị": "cị",
+    "ky": "cy",
+    "kỳ": "cỳ",
+    "ký": "cý",
+    "kỷ": "cỷ",
+    "kỹ": "cỹ",
+    "kỵ": "cỵ",
+    "ghe": "ge",
+    "ghè": "gè",
+    "ghé": "gé",
+    "ghẻ": "gẻ",
+    "ghẽ": "gẽ",
+    "ghẹ": "gẹ",
+    "ghê": "gê",
+    "ghề": "gề",
+    "ghế": "gế",
+    "ghể": "gể",
+    "ghễ": "gễ",
+    "ghệ": "gệ",
+    "ngh": "\x80",
+    "uyê": "\x96",
+    "uyề": "\x97",
+    "uyế": "\x98",
+    "uyể": "\x99",
+    "uyễ": "\x9a",
+    "uyệ": "\x9b",
+    "ng": "\x81",
+    "ch": "\x82",
+    "gh": "\x83",
+    "nh": "\x84",
+    "gi": "\x85",
+    "ph": "\x86",
+    "kh": "\x87",
+    "th": "\x88",
+    "tr": "\x89",
+    "uy": "\x8a",
+    "uỳ": "\x8b",
+    "uý": "\x8c",
+    "uỷ": "\x8d",
+    "uỹ": "\x8e",
+    "uỵ": "\x8f",
+    "iê": "\x90",
+    "iề": "\x91",
+    "iế": "\x92",
+    "iể": "\x93",
+    "iễ": "\x94",
+    "iệ": "\x95",
+    "uô": "\x9c",
+    "uồ": "\x9d",
+    "uố": "\x9e",
+    "uổ": "\x9f",
+    "uỗ": "\xa0",
+    "uộ": "\xa1",
+    "ươ": "\xa2",
+    "ườ": "\xa3",
+    "ướ": "\xa4",
+    "ưở": "\xa5",
+    "ưỡ": "\xa6",
+    "ượ": "\xa7",
+}
+def decode_string(x):
+  for k, v in list(reversed(list(ENCODER.items()))):
+    x = x.replace(v, k)
+  return x
 test_dataset = load_dataset("common_voice", "vi", split="test")
 wer = load_metric("wer")
+processor = Wav2Vec2Processor.from_pretrained(MODEL)
+model = Wav2Vec2ForCTC.from_pretrained(MODEL)
 model.to("cuda")
 chars_to_ignore_regex = '[\\\+\@\ǀ\,\?\.\!\-\;\:\"\“\%\‘\”\�]'
 resampler = torchaudio.transforms.Resample(48_000, 16_000)
 # Preprocessing the datasets.
 # We need to read the aduio files as arrays
 def evaluate(batch):
   pred_ids = torch.argmax(logits, dim=-1)
   batch["pred_strings"] = processor.batch_decode(pred_ids)
+  # decode_string: We replace the encoded letter with the initial letters
+  batch["pred_strings"] = [decode_string(x) for x in batch["pred_strings"]]
   return batch
 result = test_dataset.map(evaluate, batched=True, batch_size=8)
 print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
 ```

added_tokens.json DELETED Viewed

	@@ -1 +0,0 @@
1	- {"<s>": 91, "</s>": 92}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/content/gdrive/MyDrive/Colab\\ Notebooks/XLSR_V54/wav2vec-large-xlsr-vietnamese-demo",
   "activation_dropout": 0.0,
   "apply_spec_augment": true,
   "architectures": [
@@ -51,7 +51,7 @@
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
-  "layerdrop": 0.05,
   "mask_channel_length": 10,
   "mask_channel_min_space": 1,
   "mask_channel_other": 0.0,
@@ -62,7 +62,7 @@
   "mask_time_length": 10,
   "mask_time_min_space": 1,
   "mask_time_other": 0.0,
-  "mask_time_prob": 0.06,
   "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
@@ -70,7 +70,7 @@
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
-  "pad_token_id": 90,
   "transformers_version": "4.4.0",
-  "vocab_size": 93
 }

 {
+  "_name_or_path": "/content/gdrive/MyDrive/Colab\\ Notebooks/XLSR_V2_26/wav2vec-large-xlsr-vietnamese-demo",
   "activation_dropout": 0.0,
   "apply_spec_augment": true,
   "architectures": [
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
   "mask_channel_length": 10,
   "mask_channel_min_space": 1,
   "mask_channel_other": 0.0,
   "mask_time_length": 10,
   "mask_time_min_space": 1,
   "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
   "mask_time_selection": "static",
   "model_type": "wav2vec2",
   "num_attention_heads": 16,
   "num_conv_pos_embeddings": 128,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 24,
+  "pad_token_id": 135,
   "transformers_version": "4.4.0",
+  "vocab_size": 136
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1c863c1992ca852a12be2ff3944828de77e69478a28613f9f050ffe3a6aa0c7
-size 1262315159

 version https://git-lfs.github.com/spec/v1
+oid sha256:27f8edf2f10fc71c73bf8fb234cd46e66a7ddb59dd0778094aa6c70b750c3e4b
+size 1262491415

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "|", "special_tokens_map_file": "/content/gdrive/MyDrive/Colab\\ Notebooks/XLSR_24_1938-0.71+0/wav2vec-large-xlsr-vietnamese-demo/special_tokens_map.json", "tokenizer_file": null, "name_or_path": "/content/gdrive/MyDrive/Colab\\ Notebooks/XLSR_V54/wav2vec-large-xlsr-vietnamese-demo"}


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|"}

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"|": ~~0, "ồ":~~ 1, "ẳ": 2, "ử": 3, "ụ": 4, "ê": 5, "ự": 6, "s": 7, "ơ": 8, "h": 9, "ẹ": 10, "ế": 11, "ẫ": 12, "ứ": 13, "ỷ": 14, "ý": 15, "ỏ": 16, "ò": 17, "ả": 18, "ề": 19, "g": 20, "ố": 21, "e": 22, "d": 23, "ẽ": 24, "ủ": 25, "ễ": 26, "ậ": 27, "ù": 28, "i": 29, "ổ": 30, "v": 31, "p": 32, "ắ": 33, "x": 34, "a": 35, "r": 36, "m": 37, "ẵ": 38, "ị": 39, "y": 40, "ỹ": 41, "ú": 42, "ấ": 43, "n": 44, "ể": 45, "ợ": 46, "ừ": 47, "ó": 48, "ộ": 49, "ì": 50, "à": 51, "ũ": 52, "đ": 53, "ỡ": 54, "ờ": 55, "é": 56, "ớ": 57, "ỗ": 58, "ẩ": 59, "ữ": 60, "õ": 61, "t": 62, "ã": 63, "â": 64, "í": 65, "ô": 66, "ư": 67, "ỉ": 68, "ở": 70, "u": 71, "o": 72, "k": 73, "ằ": 74, "ọ": 75, "ă": 76, "á": 77, "ệ": 78, "ĩ": 79, "ầ": 80, "ỳ": 81, "ặ": 82, "c": 83, "b": 84, "q": 85, "ẻ": 86, "l": 87, "è": 88, "ạ": 69, "[UNK]": 89, "[PAD]": 90}

+ {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "q": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "": 27, "": 28, "": 29, "": 30, "": 31, "": 32, "": 33, "": 34, "": 35, "": 36, "": 37, "": 38, "": 39, "": 40, "": 41, "": 42, "": 43, "": 44, "": 45, "": 46, "": 47, "": 48, "": 49, "": 50, "": 51, "": 52, "": 53, "": 54, "": 55, "": 56, "": 57, "": 58, " ": 59, "¡": 60, "¢": 61, "£": 62, "¤": 63, "¥": 64, "¦": 65, "§": 66, "à": 67, "á": 68, "â": 69, "ã": 70, "è": 71, "é": 72, "ê": 73, "ì": 74, "í": 75, "ò": 76, "ó": 77, "ô": 78, "õ": 79, "ù": 80, "ú": 81, "ý": 82, "ă": 83, "đ": 84, "ĩ": 85, "ũ": 86, "ơ": 87, "ư": 88, "ạ": 89, "ả": 90, "ấ": 91, "ầ": 92, "ẩ": 93, "ẫ": 94, "ậ": 95, "ắ": 96, "ằ": 97, "ẳ": 98, "ẵ": 99, "ặ": 100, "ẹ": 101, "ẻ": 102, "ẽ": 103, "ế": 104, "ề": 105, "ể": 106, "ễ": 107, "ệ": 108, "ỉ": 109, "ị": 110, "ọ": 111, "ỏ": 112, "ố": 113, "ồ": 114, "ổ": 115, "ỗ": 116, "ộ": 117, "ớ": 118, "ờ": 119, "ở": 120, "ỡ": 121, "ợ": 122, "ụ": 123, "ủ": 124, "ứ": 125, "ừ": 126, "ử": 127, "ữ": 128, "ự": 129, "ỳ": 130, "ỵ": 131, "ỷ": 132, "ỹ": 133, "|": 0, "[UNK]": 134, "[PAD]": 135}