add tokenizer

Files changed (3) hide show

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1 @@
-{
-  "bos_token": "<s>",
-  "eos_token": "</s>",
-  "pad_token": "[PAD]",
-  "unk_token": "[UNK]"
-}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}

tokenizer_config.json CHANGED Viewed

@@ -1,10 +1 @@
-{
-  "bos_token": "<s>",
-  "do_lower_case": false,
-  "eos_token": "</s>",
-  "pad_token": "[PAD]",
-  "replace_word_delimiter_char": " ",
-  "tokenizer_class": "Wav2Vec2CTCTokenizer",
-  "unk_token": "[UNK]",
-  "word_delimiter_token": "|"
-}


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "tokenizer_class": "Wav2Vec2CTCTokenizer"}

vocab.json CHANGED Viewed

@@ -1,32 +1 @@
-{
-  "'": 15,
-  "[PAD]": 29,
-  "[UNK]": 28,
-  "a": 0,
-  "b": 11,
-  "c": 1,
-  "d": 6,
-  "e": 20,
-  "f": 14,
-  "g": 4,
-  "h": 13,
-  "i": 5,
-  "j": 22,
-  "k": 27,
-  "l": 8,
-  "m": 24,
-  "n": 25,
-  "o": 7,
-  "p": 17,
-  "q": 19,
-  "r": 9,
-  "s": 21,
-  "t": 18,
-  "u": 2,
-  "v": 16,
-  "w": 26,
-  "x": 10,
-  "y": 3,
-  "z": 23,
-  "|": 12
-}


1	+ {"'": 1, "a": 2, "b": 3, "c": 4, "d": 5, "e": 6, "f": 7, "g": 8, "h": 9, "i": 10, "j": 11, "k": 12, "l": 13, "m": 14, "n": 15, "o": 16, "p": 17, "q": 18, "r": 19, "s": 20, "t": 21, "u": 22, "v": 23, "w": 24, "x": 25, "y": 26, "z": 27, "\|": 0, "[UNK]": 28, "[PAD]": 29}