Upload lm-boosted decoder

Browse files

Files changed (9) hide show

.gitattributes +1 -0
added_tokens.json +4 -1
alphabet.json +1 -0
language_model/6gram.bin +3 -0
language_model/attrs.json +1 -0
language_model/unigrams.txt +3 -0
special_tokens_map.json +106 -1
tokenizer_config.json +14 -1
vocab.json +112 -1

.gitattributes CHANGED Viewed

@@ -29,3 +29,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+language_model/unigrams.txt filter=lfs diff=lfs merge=lfs -text

added_tokens.json CHANGED Viewed

	@@ -1 +1,4 @@
1	- {~~"<s>": 110, "</s>": 111}~~

+{
+  "</s>": 111,
+  "<s>": 110
+}

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": [" ", "_", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u", "v", "w", "x", "y", "z", "\u0093", "\u0094", "\u0153", "\u0964", "\u0981", "\u0982", "\u0983", "\u0985", "\u0986", "\u0987", "\u0988", "\u0989", "\u098a", "\u098b", "\u098f", "\u0990", "\u0993", "\u0994", "\u0995", "\u0996", "\u0997", "\u0998", "\u0999", "\u099a", "\u099b", "\u099c", "\u099d", "\u099e", "\u099f", "\u09a0", "\u09a1", "\u09a2", "\u09a3", "\u09a4", "\u09a5", "\u09a6", "\u09a7", "\u09a8", "\u09aa", "\u09ab", "\u09ac", "\u09ad", "\u09ae", "\u09af", "\u09b0", "\u09b2", "\u09b6", "\u09b7", "\u09b8", "\u09b9", "\u09bc", "\u09be", "\u09bf", "\u09c0", "\u09c1", "\u09c2", "\u09c3", "\u09c7", "\u09c8", "\u09cb", "\u09cc", "\u09cd", "\u09ce", "\u09d7", "\u09dc", "\u09dd", "\u09df", "\u09e6", "\u09e7", "\u09e8", "\u09e9", "\u09ea", "\u09eb", "\u09ec", "\u09ed", "\u09ee", "\u09ef", "\u09f0", "\u200c", "\u200d", "\u200e", "\u2047", "", "<s>", "</s>"], "is_bpe": false}

language_model/6gram.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9529db6e465c8d7f27cbeec9d3dc16a77513383e923d404770908bb21753ee74
+size 3005190229

language_model/attrs.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}

language_model/unigrams.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50128d5d0c760a8c8e2095916414c14bbb54e72c1859bfbf18c5214bb99fd7cb
+size 29505850

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,106 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

+{
+  "additional_special_tokens": [
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json CHANGED Viewed

	@@ -1 +1,14 @@
1	- {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "replace_word_delimiter_char": " ", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "Anas2000/hope", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}

+{
+  "bos_token": "<s>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "name_or_path": "Anas2000/hope",
+  "pad_token": "[PAD]",
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "replace_word_delimiter_char": " ",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "tokenizer_file": null,
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

vocab.json CHANGED Viewed

	@@ -1 +1,112 @@
1	- {"_": 1, "a": 2, "b": 3, "c": 4, "d": 5, "e": 6, "f": 7, "g": 8, "h": 9, "i": 10, "j": 11, "k": 12, "l": 13, "m": 14, "n": 15, "o": 16, "p": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "": 27, "": 28, "œ": 29, "।": 30, "ঁ": 31, "ং": 32, "ঃ": 33, "অ": 34, "আ": 35, "ই": 36, "ঈ": 37, "উ": 38, "ঊ": 39, "ঋ": 40, "এ": 41, "ঐ": 42, "ও": 43, "ঔ": 44, "ক": 45, "খ": 46, "গ": 47, "ঘ": 48, "ঙ": 49, "চ": 50, "ছ": 51, "জ": 52, "ঝ": 53, "ঞ": 54, "ট": 55, "ঠ": 56, "ড": 57, "ঢ": 58, "ণ": 59, "ত": 60, "থ": 61, "দ": 62, "ধ": 63, "ন": 64, "প": 65, "ফ": 66, "ব": 67, "ভ": 68, "ম": 69, "য": 70, "র": 71, "ল": 72, "শ": 73, "ষ": 74, "স": 75, "হ": 76, "়": 77, "া": 78, "ি": 79, "ী": 80, "ু": 81, "ূ": 82, "ৃ": 83, "ে": 84, "ৈ": 85, "ো": 86, "ৌ": 87, "্": 88, "ৎ": 89, "ৗ": 90, "ড়": 91, "ঢ়": 92, "য়": 93, "০": 94, "১": 95, "২": 96, "৩": 97, "৪": 98, "৫": 99, "৬": 100, "৭": 101, "৮": 102, "৯": 103, "ৰ": 104, "‌": 105, "‍": 106, "‎": 107, "\|": 0, "[UNK]": 108, "[PAD]": 109}

+{
+  "[PAD]": 109,
+  "[UNK]": 108,
+  "_": 1,
+  "a": 2,
+  "b": 3,
+  "c": 4,
+  "d": 5,
+  "e": 6,
+  "f": 7,
+  "g": 8,
+  "h": 9,
+  "i": 10,
+  "j": 11,
+  "k": 12,
+  "l": 13,
+  "m": 14,
+  "n": 15,
+  "o": 16,
+  "p": 17,
+  "r": 18,
+  "s": 19,
+  "t": 20,
+  "u": 21,
+  "v": 22,
+  "w": 23,
+  "x": 24,
+  "y": 25,
+  "z": 26,
+  "|": 0,
+  "": 27,
+  "": 28,
+  "œ": 29,
+  "।": 30,
+  "ঁ": 31,
+  "ং": 32,
+  "ঃ": 33,
+  "অ": 34,
+  "আ": 35,
+  "ই": 36,
+  "ঈ": 37,
+  "উ": 38,
+  "ঊ": 39,
+  "ঋ": 40,
+  "এ": 41,
+  "ঐ": 42,
+  "ও": 43,
+  "ঔ": 44,
+  "ক": 45,
+  "খ": 46,
+  "গ": 47,
+  "ঘ": 48,
+  "ঙ": 49,
+  "চ": 50,
+  "ছ": 51,
+  "জ": 52,
+  "ঝ": 53,
+  "ঞ": 54,
+  "ট": 55,
+  "ঠ": 56,
+  "ড": 57,
+  "ঢ": 58,
+  "ণ": 59,
+  "ত": 60,
+  "থ": 61,
+  "দ": 62,
+  "ধ": 63,
+  "ন": 64,
+  "প": 65,
+  "ফ": 66,
+  "ব": 67,
+  "ভ": 68,
+  "ম": 69,
+  "য": 70,
+  "র": 71,
+  "ল": 72,
+  "শ": 73,
+  "ষ": 74,
+  "স": 75,
+  "হ": 76,
+  "়": 77,
+  "া": 78,
+  "ি": 79,
+  "ী": 80,
+  "ু": 81,
+  "ূ": 82,
+  "ৃ": 83,
+  "ে": 84,
+  "ৈ": 85,
+  "ো": 86,
+  "ৌ": 87,
+  "্": 88,
+  "ৎ": 89,
+  "ৗ": 90,
+  "ড়": 91,
+  "ঢ়": 92,
+  "য়": 93,
+  "০": 94,
+  "১": 95,
+  "২": 96,
+  "৩": 97,
+  "৪": 98,
+  "৫": 99,
+  "৬": 100,
+  "৭": 101,
+  "৮": 102,
+  "৯": 103,
+  "ৰ": 104,
+  "‌": 105,
+  "‍": 106,
+  "‎": 107
+}