Upload decoder with 6-gram lm

Browse files

Files changed (9) hide show

added_tokens.json +4 -0
alphabet.json +1 -0
language_model/6gram.bin +3 -0
language_model/attrs.json +1 -0
language_model/unigrams.txt +0 -0
preprocessor_config.json +10 -0
special_tokens_map.json +162 -0
tokenizer_config.json +13 -0
vocab.json +56 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "</s>": 55,
+  "<s>": 54
+}

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": [" ", "a", "e", "g", "h", "m", "n", "o", "r", "t", "v", "\u00ab", "\u00b4", "\u00b7", "\u00bb", "\u0301", "\u0390", "\u03ac", "\u03ad", "\u03ae", "\u03af", "\u03b1", "\u03b2", "\u03b3", "\u03b4", "\u03b5", "\u03b6", "\u03b7", "\u03b8", "\u03b9", "\u03ba", "\u03bb", "\u03bc", "\u03bd", "\u03be", "\u03bf", "\u03c0", "\u03c1", "\u03c2", "\u03c3", "\u03c4", "\u03c5", "\u03c6", "\u03c7", "\u03c8", "\u03c9", "\u03ca", "\u03cb", "\u03cc", "\u03cd", "\u03ce", "\u2019", "\u2047", "", "<s>", "</s>"], "is_bpe": false}

language_model/6gram.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76a745bf0a1ea09b2e4b40e680adf45f75c8136189a44958d2e74410c37eb461
+size 2220116062

language_model/attrs.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}

language_model/unigrams.txt ADDED Viewed

File without changes

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "[UNK]"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token": "<s>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "name_or_path": "/content/drive/MyDrive/GREEK-HUBERT/checkpoint-4960",
+  "pad_token": "[PAD]",
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "replace_word_delimiter_char": " ",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "[UNK]",
+  "word_delimiter_token": "|"
+}

vocab.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "[PAD]": 53,
+  "[UNK]": 52,
+  "a": 1,
+  "e": 2,
+  "g": 3,
+  "h": 4,
+  "m": 5,
+  "n": 6,
+  "o": 7,
+  "r": 8,
+  "t": 9,
+  "v": 10,
+  "|": 0,
+  "«": 11,
+  "´": 12,
+  "·": 13,
+  "»": 14,
+  "́": 15,
+  "ΐ": 16,
+  "ά": 17,
+  "έ": 18,
+  "ή": 19,
+  "ί": 20,
+  "α": 21,
+  "β": 22,
+  "γ": 23,
+  "δ": 24,
+  "ε": 25,
+  "ζ": 26,
+  "η": 27,
+  "θ": 28,
+  "ι": 29,
+  "κ": 30,
+  "λ": 31,
+  "μ": 32,
+  "ν": 33,
+  "ξ": 34,
+  "ο": 35,
+  "π": 36,
+  "ρ": 37,
+  "ς": 38,
+  "σ": 39,
+  "τ": 40,
+  "υ": 41,
+  "φ": 42,
+  "χ": 43,
+  "ψ": 44,
+  "ω": 45,
+  "ϊ": 46,
+  "ϋ": 47,
+  "ό": 48,
+  "ύ": 49,
+  "ώ": 50,
+  "’": 51
+}