In [1]:
from transformers import PreTrainedTokenizerFast
from phonemizer import phonemize
from phonemizer.backend import EspeakBackend
from phonemizer.separator import Separator

test_string = 'इसरो ने चंद्रयान-3 मिशन के लिए तीन मुख्य उद्देश्य निर्धारित किए हैं, जिनमें शामिल हैं: लैंडर की चंद्रमा की सतह पर सुरक्षित और सॉफ्ट लैंडिंग कराना। चंद्रमा पर रोवर की विचरण क्षमताओं का अवलोकन और प्रदर्शन। चंद्रमा की संरचना को बेहतर ढंग से समझने और उसके विज्ञान को अभ्यास में लाने के लिए चंद्रमा की सतह पर उपलब्ध रासायनिक और प्राकृतिक तत्वों, मिट्टी, पानी आदि पर वैज्ञानिक प्रयोग करना।'

phonemized = phonemize(
            [test_string],
            language = 'hi',
            backend = 'espeak',
            separator = Separator(phone = None, word = ' ', syllable = None),
            strip = True,
            preserve_punctuation = True,
            njobs = 1
        )

In [2]:
words = test_string.split()
phn_words = phonemized[0].split()
print(len(words))
print(len(phn_words))

69
70


### Scratch Unigram Tokenizer

In [3]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_UnigramTokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_UnigramTokenizer/")

In [4]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

79
['▁इसरो', '▁ने', '▁चंद्र', 'यान', '-', '3', '▁मिशन', '▁के', '▁लिए', '▁तीन', '▁मुख्य', '▁उद्देश्य', '▁निर्धारित', '▁किए', '▁हैं,', '▁जिनमें', '▁शामिल', '▁हैं:', '▁लैंड', 'र', '▁की', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁सुरक्षित', '▁और', '▁सॉफ्ट', '▁लैंडिंग', '▁कराना', '।', '▁चंद्रमा', '▁पर', '▁रोवर', '▁की', '▁विचरण', '▁क्षमताओं', '▁का', '▁अवलोकन', '▁और', '▁प्रदर्शन', '।', '▁चंद्रमा', '▁की', '▁संरचना', '▁को', '▁बेहतर', '▁ढंग', '▁से', '▁समझने', '▁और', '▁उसके', '▁विज्ञान', '▁को', '▁अभ्यास', '▁में', '▁लाने', '▁के', '▁लिए', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁उपलब्ध', '▁रासायनिक', '▁और', '▁प्राकृतिक', '▁तत्वों', ',', '▁मिट्टी', ',', '▁पानी', '▁आदि', '▁पर', '▁वैज्ञानिक', '▁प्रयोग', '▁करना।']


In [5]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

82
['▁ɪs', 'ɾoː', '▁neː', '▁cəndɾəjaːn', '▁tiːn', '▁mɪʃən', '▁keː', '▁lɪeː', '▁tiːn', '▁mʊkhjə', '▁ʊdːeːʃjə', '▁nɪɾdhaːɾɪt', '▁kɪeː', '▁hɛ̃', ',', '▁ɟɪnmẽː', '▁ʃaːmɪl', '▁hɛ̃', ':', '▁', 'lɛ̃ɖəɾ', '▁ki', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁sʊɾʌkʃɪt', '▁ɔːɾ', '▁sɔphʈ', '▁lɛ̃ɖĩɡ', '▁', 'kəɾaːnaː', '▁cʌndɾəmaː', '▁pʌɾ', '▁', 'ɾoːʋəɾ', '▁ki', '▁ʋɪcəɾəɳ', '▁', 'kʃəmtaːw', '▁kaː', '▁ʌʋloːkən', '▁ɔːɾ', '▁pɾədʌrʃən', '▁cʌndɾəmaː', '▁ki', '▁sʌnɾəcnaː', '▁koː', '▁beːhətəɾ', '▁ɖhʌŋɡ', '▁seː', '▁sʌməɟhneː', '▁ɔːɾ', '▁ʊskeː', '▁ʋɪɡjaːn', '▁koː', '▁ʌbhjaːs', '▁mẽː', '▁laːneː', '▁keː', '▁lɪeː', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁ʊpəlʌbdh', '▁ɾaːsaːjnɪk', '▁ɔːɾ', '▁pɾaːkɾɪtɪk', '▁', 'tʌtʋõ', ',', '▁mɪʈʈi', ',', '▁paːni', '▁aːdɪ', '▁pʌɾ', '▁ʋɛːɡjaːnɪk', '▁pɾəjoːɡ', '▁kʌɾnaː']


### Scratch WordPiece Tokenizer

In [6]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_WordPieceTokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_WordPieceTokenizer/")

In [7]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

82
['इसरो', 'ने', 'चंद्र', '##यान', '-', '3', 'मिशन', 'के', 'लिए', 'तीन', 'मुख्य', 'उद्देश्य', 'निर्धारित', 'किए', 'हैं', ',', 'जिनमें', 'शामिल', 'हैं', ':', 'लैंड', '##र', 'की', 'चंद्रमा', 'की', 'सतह', 'पर', 'सुरक्षित', 'और', 'सॉफ्ट', 'लैंडिंग', 'कराना', '।', 'चंद्रमा', 'पर', 'रोवर', 'की', 'विचरण', 'क्षमताओं', 'का', 'अवलोकन', 'और', 'प्रदर्शन', '।', 'चंद्रमा', 'की', 'संरचना', 'को', 'बेहतर', 'ढंग', 'से', 'समझने', 'और', 'उसके', 'विज्ञान', 'को', 'अभ्यास', 'में', 'लाने', 'के', 'लिए', 'चंद्रमा', 'की', 'सतह', 'पर', 'उपलब्ध', 'रासायनिक', 'और', 'प्राकृतिक', 'तत्वों', ',', 'मिट्टी', ',', 'पानी', 'आदि', 'पर', 'वैज्ञानिक', 'प्रयोग', 'करना', '।']


In [8]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

78
['ɪsɾoː', 'neː', 'cəndɾə', '##jaːn', 'tiːn', 'mɪʃən', 'keː', 'lɪeː', 'tiːn', 'mʊkʰjə', 'ʊdːeːʃjə', 'nɪɾdʰaːɾɪt', 'kɪeː', 'hɛ̃', '[UNK]', 'ɟɪnmẽː', 'ʃaːmɪl', 'hɛ̃', '[UNK]', 'lɛ̃ɖ', '##əɾ', 'ki', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'sʊɾʌkʃɪt', 'ɔːɾ', 'sɔpʰʈ', 'lɛ̃ɖĩɡ', 'kəɾaːnaː', 'cʌndɾəmaː', 'pʌɾ', 'ɾoːʋəɾ', 'ki', 'ʋɪcəɾəɳ', 'kʃəmtaːw', 'kaː', 'ʌʋloːkən', 'ɔːɾ', 'pɾədʌrʃən', 'cʌndɾəmaː', 'ki', 'sʌnɾəcnaː', 'koː', 'beːhətəɾ', 'ɖʰʌŋɡ', 'seː', 'sʌməɟʰneː', 'ɔːɾ', 'ʊskeː', 'ʋɪɡjaːn', 'koː', 'ʌbʰjaːs', 'mẽː', 'laːneː', 'keː', 'lɪeː', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'ʊpəlʌbdʰ', 'ɾaːsaːjnɪk', 'ɔːɾ', 'pɾaːkɾɪtɪk', 'tʌtʋõ', '[UNK]', 'mɪʈʈi', '[UNK]', 'paːni', 'aːdɪ', 'pʌɾ', 'ʋɛːɡjaːnɪk', 'pɾəjoːɡ', 'kʌɾnaː']


### Scratch BPE Tokenizer

In [9]:
hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_scratch_BPETokenizer/")
hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained("trained_tokenizers/hindi_phonemized_scratch_BPETokenizer/")

In [10]:
print(len(hin_scratch_tokenizer.encode(test_string)))
print(hin_scratch_tokenizer.tokenize(test_string))

246
['à¤ĩà¤¸à¤°', 'à¥ĭ', 'Ġà¤¨', 'à¥ĩ', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤¯', 'à¤¾', 'à¤¨', '-', '3', 'Ġà¤®', 'à¤¿', 'à¤¶à¤¨', 'Ġà¤ķ', 'à¥ĩ', 'Ġà¤²', 'à¤¿', 'à¤ı', 'Ġà¤¤', 'à¥Ģ', 'à¤¨', 'Ġà¤®', 'à¥ģ', 'à¤ĸ', 'à¥į', 'à¤¯', 'Ġà¤īà¤¦', 'à¥į', 'à¤¦', 'à¥ĩ', 'à¤¶', 'à¥į', 'à¤¯', 'Ġà¤¨', 'à¤¿', 'à¤°', 'à¥į', 'à¤§', 'à¤¾', 'à¤°', 'à¤¿', 'à¤¤', 'Ġà¤ķ', 'à¤¿', 'à¤ı', 'Ġà¤¹', 'à¥Īà¤Ĥ,', 'Ġà¤ľ', 'à¤¿', 'à¤¨à¤®', 'à¥ĩà¤Ĥ', 'Ġà¤¶', 'à¤¾', 'à¤®', 'à¤¿', 'à¤²', 'Ġà¤¹', 'à¥Īà¤Ĥ:', 'Ġà¤²', 'à¥Īà¤Ĥ', 'à¤¡à¤°', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤¸à¤¤à¤¹', 'Ġà¤ªà¤°', 'Ġà¤¸', 'à¥ģ', 'à¤°à¤ķ', 'à¥į', 'à¤·', 'à¤¿', 'à¤¤', 'Ġà¤Ķà¤°', 'Ġà¤¸', 'à¥ī', 'à¤«', 'à¥į', 'à¤Ł', 'Ġà¤²', 'à¥Īà¤Ĥ', 'à¤¡', 'à¤¿à¤Ĥ', 'à¤Ĺ', 'Ġà¤ķà¤°', 'à¤¾', 'à¤¨', 'à¤¾à¥¤', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ªà¤°', 'Ġà¤°', 'à¥ĭ', 'à¤µà¤°', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤µ', 'à¤¿', 'à¤ļà¤°à¤£', 'Ġà¤ķ', 'à¥į', 'à¤·à¤®à¤¤', 'à¤¾', 'à¤ĵ', 'à¤Ĥ', 'Ġà¤ķ', 'à¤¾', 'Ġà¤ħà¤µà¤²', 'à¥ĭ', 'à¤ķà¤¨', 'Ġà

In [11]:
print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))
print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))

85
['Éªs', 'É¾oËĲ', 'ĠneËĲ', 'ĠcÉĻndÉ¾ÉĻ', 'jaËĲn', 'ĠtiËĲn', 'ĠmÉªÊĥÉĻn', 'ĠkeËĲ', 'ĠlÉªeËĲ', 'ĠtiËĲn', 'ĠmÊĬkÊ°jÉĻ', 'ĠÊĬdËĲeËĲÊĥjÉĻ', 'ĠnÉªÉ¾dÊ°aËĲÉ¾Éªt', 'ĠkÉªeËĲ', 'ĠhÉĽ', 'Ìĥ', 'ĠÉŁÉªnme', 'Ìĥ', 'ËĲ', 'ĠÊĥaËĲmÉªl', 'ĠhÉĽ', 'Ìĥ', 'ĠlÉĽ', 'Ìĥ', 'ÉĸÉĻÉ¾', 'Ġki', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮÉ¾', 'ĠsÊĬÉ¾ÊĮkÊĥÉªt', 'ĠÉĶËĲÉ¾', 'ĠsÉĶpÊ°ÊĪ', 'ĠlÉĽ', 'Ìĥ', 'Éĸi', 'Ìĥ', 'É¡', 'ĠkÉĻÉ¾aËĲnaËĲ', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'ĠpÊĮÉ¾', 'ĠÉ¾oËĲÊĭÉĻÉ¾', 'Ġki', 'ĠÊĭÉªcÉĻÉ¾ÉĻÉ³', 'ĠkÊĥÉĻmtaËĲw', 'ĠkaËĲ', 'ĠÊĮÊĭloËĲkÉĻn', 'ĠÉĶËĲÉ¾', 'ĠpÉ¾ÉĻdÊĮrÊĥÉĻn', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮnÉ¾ÉĻcnaËĲ', 'ĠkoËĲ', 'ĠbeËĲhÉĻtÉĻÉ¾', 'ĠÉĸÊ°ÊĮÅĭÉ¡', 'ĠseËĲ', 'ĠsÊĮmÉĻÉŁÊ°neËĲ', 'ĠÉĶËĲÉ¾', 'ĠÊĬskeËĲ', 'ĠÊĭÉªÉ¡jaËĲn', 'ĠkoËĲ', 'ĠÊĮbÊ°jaËĲs', 'Ġme', 'Ìĥ', 'ËĲ', 'ĠlaËĲneËĲ', 'ĠkeËĲ', 'ĠlÉªeËĲ', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮÉ¾', 'ĠÊĬpÉĻlÊĮbdÊ°', 'ĠÉ¾aËĲsaËĲjnÉªk', 'ĠÉĶËĲÉ¾', 'ĠpÉ¾aËĲkÉ¾ÉªtÉªk', 'ĠtÊĮtÊĭo', 'Ìĥ', 'ĠmÉªÊĪÊĪi', 'ĠpaËĲni', 'ĠaËĲdÉª', 'ĠpÊĮÉ¾', 'ĠÊĭÉĽËĲÉ¡jaËĲnÉªk', 'ĠpÉ¾ÉĻjoËĲÉ¡', 'ĠkÊĮÉ¾naËĲ']