add model

Browse files

Files changed (8) hide show

alphabet.json +1 -0
language_model/attrs.json +1 -0
language_model/language_model_4m_5gram.bin +3 -0
language_model/unigrams.txt +0 -0
preprocessor_config.json +10 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
vocab.json +1 -0

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": ["", "", " ", "chen", "sche", "lich", "isch", "icht", "iche", "eine", "rden", "tion", "urde", "haft", "eich", "rung", "chte", "ssen", "chaf", "nder", "tlic", "tung", "eite", "iert", "sich", "ngen", "erde", "scha", "nden", "unge", "lung", "mmen", "eren", "ende", "inde", "erun", "sten", "iese", "igen", "erte", "iner", "tsch", "keit", "der", "die", "ter", "und", "ein", "ist", "den", "ten", "ber", "ver", "sch", "ung", "ste", "ent", "ach", "nte", "auf", "ben", "eit", "des", "ers", "aus", "das", "von", "ren", "gen", "nen", "lle", "hre", "mit", "iel", "uch", "lte", "ann", "lie", "men", "dem", "and", "ind", "als", "sta", "elt", "ges", "tte", "ern", "wir", "ell", "war", "ere", "rch", "abe", "len", "ige", "ied", "ger", "nnt", "wei", "ele", "och", "sse", "end", "all", "ahr", "bei", "sie", "ede", "ion", "ieg", "ege", "auc", "che", "rie", "eis", "vor", "her", "ang", "f\u00fcr", "ass", "uss", "tel", "er", "in", "ge", "en", "st", "ie", "an", "te", "be", "re", "zu", "ar", "es", "ra", "al", "or", "ch", "et", "ei", "un", "le", "rt", "se", "is", "ha", "we", "at", "me", "ne", "ur", "he", "au", "ro", "ti", "li", "ri", "eh", "im", "ma", "tr", "ig", "el", "um", "la", "am", "de", "so", "ol", "tz", "il", "on", "it", "sc", "sp", "ko", "na", "pr", "ni", "si", "fe", "wi", "ns", "ke", "ut", "da", "gr", "eu", "mi", "hr", "ze", "hi", "ta", "ss", "ng", "sa", "us", "ba", "ck", "em", "kt", "ka", "ve", "fr", "bi", "wa", "ah", "gt", "di", "ab", "fo", "to", "rk", "as", "ag", "gi", "hn", "s", "t", "n", "m", "r", "l", "f", "e", "a", "b", "d", "h", "k", "g", "o", "i", "u", "w", "p", "z", "\u00e4", "\u00fc", "v", "\u00f6", "j", "c", "y", "x", "q", "\u00e1", "\u00ed", "\u014d", "\u00f3", "\u0161", "\u00e9", "\u010d", "?"], "is_bpe": false}

language_model/attrs.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"alpha": 0.7, "beta": 0.75, "unk_score_offset": -10.0, "score_boundary": true}

language_model/language_model_4m_5gram.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b9dac7345793134a6b541480fb5c277be54ab4a0a67b4b2784602f569676424
+size 1530839014

language_model/unigrams.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "\|", "replace_word_delimiter_char": " ", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}

vocab.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"a": "0"}