Init: Model config

Browse files

Files changed (6) hide show

alphabet.json +1 -0
language_model/attrs.json +1 -0
preprocessor_config.json +10 -0
special_tokens_map.json +6 -0
tokenizer_config.json +13 -0
vocab.json +74 -0

alphabet.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"labels": ["", "\u2047", "<s>", "</s>", " ", "\u1171", "\u11b4", "\u1165", "\u11ae", "\u110c", "\u116a", "\u110e", "\u11b3", "\u11bf", "\u116b", "\u11c1", "\u1163", "\u11aa", "\u110d", "\u1173", "\u11ba", "\u1169", "\u1174", "\u1112", "\u11c2", "\u11ab", "\u11b5", "\u1167", "\u11b6", "\u1168", "\u1161", "\u11ad", "\u1170", "\u11bd", "\u11b8", "\u11b1", "\u1109", "\u11bb", "\u11af", "\u116d", "\u1103", "\u11a9", "\u1175", "\u1101", "\u1111", "\u1162", "\u1110", "\u1164", "\u1108", "\u116e", "\u1104", "\u1102", "\u116f", "\u110a", "\u1105", "\u11b7", "\u1106", "\u11b9", "\u116c", "\u1100", "\u11ac", "\u1107", "\u1166", "\u11b0", "\u11bc", "\u11b2", "\u11be", "\u110b", "\u11c0", "\u11a8", "\u110f", "\u1172"], "is_bpe": false}

language_model/attrs.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": false}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token": "<s>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "name_or_path": "/data_raid0/TADEV_BIG_DATA/ASR/STT/model/fine-tuning/42maru/wav2vec2-base-4data",
+  "pad_token": "<pad>",
+  "processor_class": "Wav2Vec2ProcessorWithLM",
+  "replace_word_delimiter_char": " ",
+  "special_tokens_map_file": "/DATA01/bart/workspace/stt/output_dir/special_tokens_map.json",
+  "tokenizer_class": "Wav2Vec2CTCTokenizer",
+  "unk_token": "<unk>",
+  "word_delimiter_token": "|"
+}

vocab.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+    "<pad>": 0,
+    "<unk>": 1,
+    "<s>": 2,
+    "</s>": 3,
+    "|": 4,
+    "\u1171": 5,
+    "\u11b4": 6,
+    "\u1165": 7,
+    "\u11ae": 8,
+    "\u110c": 9,
+    "\u116a": 10,
+    "\u110e": 11,
+    "\u11b3": 12,
+    "\u11bf": 13,
+    "\u116b": 14,
+    "\u11c1": 15,
+    "\u1163": 16,
+    "\u11aa": 17,
+    "\u110d": 18,
+    "\u1173": 19,
+    "\u11ba": 20,
+    "\u1169": 21,
+    "\u1174": 22,
+    "\u1112": 23,
+    "\u11c2": 24,
+    "\u11ab": 25,
+    "\u11b5": 26,
+    "\u1167": 27,
+    "\u11b6": 28,
+    "\u1168": 29,
+    "\u1161": 30,
+    "\u11ad": 31,
+    "\u1170": 32,
+    "\u11bd": 33,
+    "\u11b8": 34,
+    "\u11b1": 35,
+    "\u1109": 36,
+    "\u11bb": 37,
+    "\u11af": 38,
+    "\u116d": 39,
+    "\u1103": 40,
+    "\u11a9": 41,
+    "\u1175": 42,
+    "\u1101": 43,
+    "\u1111": 44,
+    "\u1162": 45,
+    "\u1110": 46,
+    "\u1164": 47,
+    "\u1108": 48,
+    "\u116e": 49,
+    "\u1104": 50,
+    "\u1102": 51,
+    "\u116f": 52,
+    "\u110a": 53,
+    "\u1105": 54,
+    "\u11b7": 55,
+    "\u1106": 56,
+    "\u11b9": 57,
+    "\u116c": 58,
+    "\u1100": 59,
+    "\u11ac": 60,
+    "\u1107": 61,
+    "\u1166": 62,
+    "\u11b0": 63,
+    "\u11bc": 64,
+    "\u11b2": 65,
+    "\u11be": 66,
+    "\u110b": 67,
+    "\u11c0": 68,
+    "\u11a8": 69,
+    "\u110f": 70,
+    "\u1172": 71
+}