fxtentacle
commited on
Commit
•
b9ad96a
1
Parent(s):
a2194e4
add model
Browse files- alphabet.json +1 -0
- language_model/attrs.json +1 -0
- language_model/language_model_4m_5gram.bin +3 -0
- language_model/unigrams.txt +0 -0
- preprocessor_config.json +10 -0
- special_tokens_map.json +1 -0
- tokenizer_config.json +1 -0
- vocab.json +1 -0
alphabet.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"labels": ["", "", " ", "chen", "sche", "lich", "isch", "icht", "iche", "eine", "rden", "tion", "urde", "haft", "eich", "rung", "chte", "ssen", "chaf", "nder", "tlic", "tung", "eite", "iert", "sich", "ngen", "erde", "scha", "nden", "unge", "lung", "mmen", "eren", "ende", "inde", "erun", "sten", "iese", "igen", "erte", "iner", "tsch", "keit", "der", "die", "ter", "und", "ein", "ist", "den", "ten", "ber", "ver", "sch", "ung", "ste", "ent", "ach", "nte", "auf", "ben", "eit", "des", "ers", "aus", "das", "von", "ren", "gen", "nen", "lle", "hre", "mit", "iel", "uch", "lte", "ann", "lie", "men", "dem", "and", "ind", "als", "sta", "elt", "ges", "tte", "ern", "wir", "ell", "war", "ere", "rch", "abe", "len", "ige", "ied", "ger", "nnt", "wei", "ele", "och", "sse", "end", "all", "ahr", "bei", "sie", "ede", "ion", "ieg", "ege", "auc", "che", "rie", "eis", "vor", "her", "ang", "f\u00fcr", "ass", "uss", "tel", "er", "in", "ge", "en", "st", "ie", "an", "te", "be", "re", "zu", "ar", "es", "ra", "al", "or", "ch", "et", "ei", "un", "le", "rt", "se", "is", "ha", "we", "at", "me", "ne", "ur", "he", "au", "ro", "ti", "li", "ri", "eh", "im", "ma", "tr", "ig", "el", "um", "la", "am", "de", "so", "ol", "tz", "il", "on", "it", "sc", "sp", "ko", "na", "pr", "ni", "si", "fe", "wi", "ns", "ke", "ut", "da", "gr", "eu", "mi", "hr", "ze", "hi", "ta", "ss", "ng", "sa", "us", "ba", "ck", "em", "kt", "ka", "ve", "fr", "bi", "wa", "ah", "gt", "di", "ab", "fo", "to", "rk", "as", "ag", "gi", "hn", "s", "t", "n", "m", "r", "l", "f", "e", "a", "b", "d", "h", "k", "g", "o", "i", "u", "w", "p", "z", "\u00e4", "\u00fc", "v", "\u00f6", "j", "c", "y", "x", "q", "\u00e1", "\u00ed", "\u014d", "\u00f3", "\u0161", "\u00e9", "\u010d", "?"], "is_bpe": false}
|
language_model/attrs.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"alpha": 0.7, "beta": 0.75, "unk_score_offset": -10.0, "score_boundary": true}
|
language_model/language_model_4m_5gram.bin
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:5b9dac7345793134a6b541480fb5c277be54ab4a0a67b4b2784602f569676424
|
3 |
+
size 1530839014
|
language_model/unigrams.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
preprocessor_config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"do_normalize": true,
|
3 |
+
"feature_extractor_type": "Wav2Vec2FeatureExtractor",
|
4 |
+
"feature_size": 1,
|
5 |
+
"padding_side": "right",
|
6 |
+
"padding_value": 0.0,
|
7 |
+
"processor_class": "Wav2Vec2ProcessorWithLM",
|
8 |
+
"return_attention_mask": true,
|
9 |
+
"sampling_rate": 16000
|
10 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}
|
tokenizer_config.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "|", "replace_word_delimiter_char": " ", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}
|
vocab.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"a": "0"}
|