add tokenizer

Browse files

Files changed (1) hide show

vocab.json +1 -1

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"फ": 0, "y": 1, "व": 2, "झ": 3, "o": 4, "ड": 5, "ड़": 6, "v": 7, "ु": 8, "छ": 10, "य": 11, "ो": 12, "'": 13, "न": 14, "ऊ": 15, "ँ": 16, "m": 17, "ढ़": 18, "क़": 19, "स": 20, "ट": 21, "d": 22, "ई": 23, "उ": 24, "क": 25, "ण": 26, "ओ": 27, "z": 28, "h": 29, "ल": 30, "आ": 31, "ऐ": 32, "e": 33, "ष": 34, "द": 35, "श": 36, "b": 37, "ञ": 38, "p": 39, "्": 40, "l": 41, "u": 42, "g": 43, "ए": 44, "n": 45, "s": 46, "म": 47, "त": 48, "ज": 49, "ृ": 50, "ौ": ~~51, "ह":~~ 52, "अ": 53, "ध": 54, "t": 55, "k": 56, "ॉ": 57, "ः": 58, "ऑ": 59, "ठ": 60, "थ": 61, "ॅ": 62, "र": 63, "ऋ": 64, "i": 65, "च": 66, "ै": 67, "f": 68, "प": 69, "ज़": 70, "a": 71, "j": 72, "ि": 73, "इ": 74, "ख": 75, "औ": 76, "w": 77, "ब": 78, "ग़": 79, "ढ": 80, "c": 81, "ं": 82, "े": 83, "भ": 84, "ग": 85, "r": 86, "ा": 87, "x": 88, "ू": 89, "ी": 90, "घ": 91, "़": 92, "|": 9, "[UNK]": 93, "[PAD]": 94}

+ {"ऊ": 0, "g": 1, "ए": 2, "फ": 3, "क": 4, "श": 5, "f": 6, "t": 7, "व": 8, "क़": 9, "c": 10, "ट": 11, "ष": 12, "v": 13, "झ": 14, "ल": 15, "आ": 16, "j": 17, "ह": 18, "ृ": 19, "l": 20, "z": 21, "ू": 22, "a": 23, "अ": 24, "s": 25, "ॅ": 26, "ज़": 27, "o": 28, "ः": 29, "n": 30, "k": 31, "र": 32, "x": 33, "्": 34, "य": 35, "u": 36, "i": 37, "ढ": 38, "ा": 39, "r": 40, "इ": 41, "p": 42, "छ": 43, "ॉ": 44, "थ": 45, "ओ": 46, "े": 47, "च": 48, "ब": 49, "ऑ": 50, "m": 52, "ठ": 53, "ि": 54, "ख": 55, "ं": 56, "ु": 57, "ो": 58, "ौ": 59, "y": 60, "उ": 61, "न": 62, "ज": 63, "ण": 64, "ड़": 65, "w": 66, "ञ": 67, "द": 68, "त": 69, "e": 70, "ध": 71, "'": 72, "़": 73, "ग": 74, "म": 75, "ऋ": 76, "ी": 77, "भ": 78, "प": 79, "d": 80, "ै": 81, "ऐ": 82, "ग़": 83, "घ": 84, "ई": 85, "ँ": 86, "स": 87, "h": 88, "औ": 89, "ढ़": 90, "b": 91, "ड": 92, "|": 51, "[UNK]": 93, "[PAD]": 94}