Upload lm-boosted decoder

Browse files

Files changed (8) hide show

alphabet.json +1 -0
language_model/5gram.bin +3 -0
language_model/attrs.json +1 -0
language_model/unigrams.txt +0 -0
preprocessor_config.json +1 -0
special_tokens_map.json +6 -1
tokenizer_config.json +13 -1
vocab.json +44 -1

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": ["", "<s>", "</s>", "\u2047", " ", "\u0621", "\u0622", "\u0626", "\u0627", "\u0628", "\u062a", "\u062b", "\u062c", "\u062d", "\u062e", "\u062f", "\u0630", "\u0631", "\u0632", "\u0633", "\u0634", "\u0635", "\u0636", "\u0637", "\u0638", "\u0639", "\u063a", "\u0641", "\u0642", "\u0644", "\u0645", "\u0646", "\u0647", "\u0648", "\u067e", "\u0686", "\u0698", "\u06a9", "\u06af", "\u06cc", "\u2047", ""], "is_bpe": false}

language_model/5gram.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5564796f7a94c64ef62fc3cbe11f6d10f7bfaed5873c74aeff22e852f1c860c9
+size 273054853

language_model/attrs.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}

language_model/unigrams.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

preprocessor_config.json CHANGED Viewed

@@ -4,6 +4,7 @@
   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,
   "return_attention_mask": false,
   "sampling_rate": 16000
 }

   "feature_size": 1,
   "padding_side": "right",
   "padding_value": 0.0,
+  "processor_class": "Wav2Vec2ProcessorWithLM",
   "return_attention_mask": false,
   "sampling_rate": 16000
 }

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,6 @@
1	- {~~"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}~~

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,13 @@
1	- {~~"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "tokenizer_class": "Wav2Vec2CTCTokenizer"}~~

+{
+  "bos_token": "<s>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "name_or_path": "zoha/wav2vec2-base-common-voice-50p-persian-colab",
+  "pad_token": "[PAD]",
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "replace_word_delimiter_char": " ",
+  "special_tokens_map_file": "/root/.cache/huggingface/transformers/e8fc8f751946357607e4b7d6e48b62a26d808f5d6efc2c20f739d7505368d22c.a21d51735cf8667bcd610f057e88548d5d6a381401f6b4501a8bc6c1a9dc8498",
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

vocab.json CHANGED Viewed

	@@ -1 +1,44 @@
1	- {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "\|": 4, "ء": 5, "آ": 6, "ئ": 7, "ا": 8, "ب": 9, "ت": 10, "ث": 11, "ج": 12, "ح": 13, "خ": 14, "د": 15, "ذ": 16, "ر": 17, "ز": 18, "س": 19, "ش": 20, "ص": 21, "ض": 22, "ط": 23, "ظ": 24, "ع": 25, "غ": 26, "ف": 27, "ق": 28, "ل": 29, "م": 30, "ن": 31, "ه": 32, "و": 33, "پ": 34, "چ": 35, "ژ": 36, "ک": 37, "گ": 38, "ی": 39, "[UNK]": 40, "[PAD]": 41}

+{
+  "</s>": 2,
+  "<pad>": 0,
+  "<s>": 1,
+  "<unk>": 3,
+  "[PAD]": 41,
+  "[UNK]": 40,
+  "|": 4,
+  "ء": 5,
+  "آ": 6,
+  "ئ": 7,
+  "ا": 8,
+  "ب": 9,
+  "ت": 10,
+  "ث": 11,
+  "ج": 12,
+  "ح": 13,
+  "خ": 14,
+  "د": 15,
+  "ذ": 16,
+  "ر": 17,
+  "ز": 18,
+  "س": 19,
+  "ش": 20,
+  "ص": 21,
+  "ض": 22,
+  "ط": 23,
+  "ظ": 24,
+  "ع": 25,
+  "غ": 26,
+  "ف": 27,
+  "ق": 28,
+  "ل": 29,
+  "م": 30,
+  "ن": 31,
+  "ه": 32,
+  "و": 33,
+  "پ": 34,
+  "چ": 35,
+  "ژ": 36,
+  "ک": 37,
+  "گ": 38,
+  "ی": 39
+}