Alyosha11
/

Phoneme

Model card Files Files and versions Community

File size: 16,120 Bytes

6bfd4dd

{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "6627cfba-e3f0-4a37-92b7-7f145005b0a7",
   "metadata": {},
   "outputs": [],
   "source": [
    "from transformers import PreTrainedTokenizerFast\n",
    "from phonemizer import phonemize\n",
    "from phonemizer.backend import EspeakBackend\n",
    "from phonemizer.separator import Separator\n",
    "\n",
    "test_string = 'इसरो ने चंद्रयान-3 मिशन के लिए तीन मुख्य उद्देश्य निर्धारित किए हैं, जिनमें शामिल हैं: लैंडर की चंद्रमा की सतह पर सुरक्षित और सॉफ्ट लैंडिंग कराना। चंद्रमा पर रोवर की विचरण क्षमताओं का अवलोकन और प्रदर्शन। चंद्रमा की संरचना को बेहतर ढंग से समझने और उसके विज्ञान को अभ्यास में लाने के लिए चंद्रमा की सतह पर उपलब्ध रासायनिक और प्राकृतिक तत्वों, मिट्टी, पानी आदि पर वैज्ञानिक प्रयोग करना।'\n",
    "\n",
    "phonemized = phonemize(\n",
    "            [test_string],\n",
    "            language = 'hi',\n",
    "            backend = 'espeak',\n",
    "            separator = Separator(phone = None, word = ' ', syllable = None),\n",
    "            strip = True,\n",
    "            preserve_punctuation = True,\n",
    "            njobs = 1\n",
    "        )"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "5d23d7bd-2034-4e97-a262-901ab4d454fc",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "69\n",
      "70\n"
     ]
    }
   ],
   "source": [
    "words = test_string.split()\n",
    "phn_words = phonemized[0].split()\n",
    "print(len(words))\n",
    "print(len(phn_words))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "54275b7e-39f1-4e3a-aa00-799434f9aba0",
   "metadata": {},
   "source": [
    "### Scratch Unigram Tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "45224695-ee8a-4130-a349-f5740dc064a4",
   "metadata": {},
   "outputs": [],
   "source": [
    "hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_scratch_UnigramTokenizer/\")\n",
    "hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_phonemized_scratch_UnigramTokenizer/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "75896d0b-fc2f-45b0-a387-bc6fdc19a390",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "79\n",
      "['▁इसरो', '▁ने', '▁चंद्र', 'यान', '-', '3', '▁मिशन', '▁के', '▁लिए', '▁तीन', '▁मुख्य', '▁उद्देश्य', '▁निर्धारित', '▁किए', '▁हैं,', '▁जिनमें', '▁शामिल', '▁हैं:', '▁लैंड', 'र', '▁की', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁सुरक्षित', '▁और', '▁सॉफ्ट', '▁लैंडिंग', '▁कराना', '।', '▁चंद्रमा', '▁पर', '▁रोवर', '▁की', '▁विचरण', '▁क्षमताओं', '▁का', '▁अवलोकन', '▁और', '▁प्रदर्शन', '।', '▁चंद्रमा', '▁की', '▁संरचना', '▁को', '▁बेहतर', '▁ढंग', '▁से', '▁समझने', '▁और', '▁उसके', '▁विज्ञान', '▁को', '▁अभ्यास', '▁में', '▁लाने', '▁के', '▁लिए', '▁चंद्रमा', '▁की', '▁सतह', '▁पर', '▁उपलब्ध', '▁रासायनिक', '▁और', '▁प्राकृतिक', '▁तत्वों', ',', '▁मिट्टी', ',', '▁पानी', '▁आदि', '▁पर', '▁वैज्ञानिक', '▁प्रयोग', '▁करना।']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_scratch_tokenizer.encode(test_string)))\n",
    "print(hin_scratch_tokenizer.tokenize(test_string))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "02468de9-a22b-430c-ba3f-a48169c25b6e",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "82\n",
      "['▁ɪs', 'ɾoː', '▁neː', '▁cəndɾəjaːn', '▁tiːn', '▁mɪʃən', '▁keː', '▁lɪeː', '▁tiːn', '▁mʊkhjə', '▁ʊdːeːʃjə', '▁nɪɾdhaːɾɪt', '▁kɪeː', '▁hɛ̃', ',', '▁ɟɪnmẽː', '▁ʃaːmɪl', '▁hɛ̃', ':', '▁', 'lɛ̃ɖəɾ', '▁ki', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁sʊɾʌkʃɪt', '▁ɔːɾ', '▁sɔphʈ', '▁lɛ̃ɖĩɡ', '▁', 'kəɾaːnaː', '▁cʌndɾəmaː', '▁pʌɾ', '▁', 'ɾoːʋəɾ', '▁ki', '▁ʋɪcəɾəɳ', '▁', 'kʃəmtaːw', '▁kaː', '▁ʌʋloːkən', '▁ɔːɾ', '▁pɾədʌrʃən', '▁cʌndɾəmaː', '▁ki', '▁sʌnɾəcnaː', '▁koː', '▁beːhətəɾ', '▁ɖhʌŋɡ', '▁seː', '▁sʌməɟhneː', '▁ɔːɾ', '▁ʊskeː', '▁ʋɪɡjaːn', '▁koː', '▁ʌbhjaːs', '▁mẽː', '▁laːneː', '▁keː', '▁lɪeː', '▁cʌndɾəmaː', '▁ki', '▁sʌtəh', '▁pʌɾ', '▁ʊpəlʌbdh', '▁ɾaːsaːjnɪk', '▁ɔːɾ', '▁pɾaːkɾɪtɪk', '▁', 'tʌtʋõ', ',', '▁mɪʈʈi', ',', '▁paːni', '▁aːdɪ', '▁pʌɾ', '▁ʋɛːɡjaːnɪk', '▁pɾəjoːɡ', '▁kʌɾnaː']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))\n",
    "print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "2abc2dee-ab30-4721-908b-cbac40a694d5",
   "metadata": {},
   "source": [
    "### Scratch WordPiece Tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "05bb2b9e-ade4-48c2-ba58-d43536a6d547",
   "metadata": {},
   "outputs": [],
   "source": [
    "hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_scratch_WordPieceTokenizer/\")\n",
    "hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_phonemized_scratch_WordPieceTokenizer/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "ead210ee-08ee-40cd-ba81-c3bd8a123ac5",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "82\n",
      "['इसरो', 'ने', 'चंद्र', '##यान', '-', '3', 'मिशन', 'के', 'लिए', 'तीन', 'मुख्य', 'उद्देश्य', 'निर्धारित', 'किए', 'हैं', ',', 'जिनमें', 'शामिल', 'हैं', ':', 'लैंड', '##र', 'की', 'चंद्रमा', 'की', 'सतह', 'पर', 'सुरक्षित', 'और', 'सॉफ्ट', 'लैंडिंग', 'कराना', '।', 'चंद्रमा', 'पर', 'रोवर', 'की', 'विचरण', 'क्षमताओं', 'का', 'अवलोकन', 'और', 'प्रदर्शन', '।', 'चंद्रमा', 'की', 'संरचना', 'को', 'बेहतर', 'ढंग', 'से', 'समझने', 'और', 'उसके', 'विज्ञान', 'को', 'अभ्यास', 'में', 'लाने', 'के', 'लिए', 'चंद्रमा', 'की', 'सतह', 'पर', 'उपलब्ध', 'रासायनिक', 'और', 'प्राकृतिक', 'तत्वों', ',', 'मिट्टी', ',', 'पानी', 'आदि', 'पर', 'वैज्ञानिक', 'प्रयोग', 'करना', '।']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_scratch_tokenizer.encode(test_string)))\n",
    "print(hin_scratch_tokenizer.tokenize(test_string))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "57db11bb-1acc-4392-93c9-4b530e72d48c",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "78\n",
      "['ɪsɾoː', 'neː', 'cəndɾə', '##jaːn', 'tiːn', 'mɪʃən', 'keː', 'lɪeː', 'tiːn', 'mʊkʰjə', 'ʊdːeːʃjə', 'nɪɾdʰaːɾɪt', 'kɪeː', 'hɛ̃', '[UNK]', 'ɟɪnmẽː', 'ʃaːmɪl', 'hɛ̃', '[UNK]', 'lɛ̃ɖ', '##əɾ', 'ki', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'sʊɾʌkʃɪt', 'ɔːɾ', 'sɔpʰʈ', 'lɛ̃ɖĩɡ', 'kəɾaːnaː', 'cʌndɾəmaː', 'pʌɾ', 'ɾoːʋəɾ', 'ki', 'ʋɪcəɾəɳ', 'kʃəmtaːw', 'kaː', 'ʌʋloːkən', 'ɔːɾ', 'pɾədʌrʃən', 'cʌndɾəmaː', 'ki', 'sʌnɾəcnaː', 'koː', 'beːhətəɾ', 'ɖʰʌŋɡ', 'seː', 'sʌməɟʰneː', 'ɔːɾ', 'ʊskeː', 'ʋɪɡjaːn', 'koː', 'ʌbʰjaːs', 'mẽː', 'laːneː', 'keː', 'lɪeː', 'cʌndɾəmaː', 'ki', 'sʌtəh', 'pʌɾ', 'ʊpəlʌbdʰ', 'ɾaːsaːjnɪk', 'ɔːɾ', 'pɾaːkɾɪtɪk', 'tʌtʋõ', '[UNK]', 'mɪʈʈi', '[UNK]', 'paːni', 'aːdɪ', 'pʌɾ', 'ʋɛːɡjaːnɪk', 'pɾəjoːɡ', 'kʌɾnaː']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))\n",
    "print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "fddfd47d-370c-4968-a166-578063047ace",
   "metadata": {},
   "source": [
    "### Scratch BPE Tokenizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "637194b7-bbae-4e53-a0a1-16aab1660254",
   "metadata": {},
   "outputs": [],
   "source": [
    "hin_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_scratch_BPETokenizer/\")\n",
    "hin_phonemized_scratch_tokenizer = PreTrainedTokenizerFast.from_pretrained(\"trained_tokenizers/hindi_phonemized_scratch_BPETokenizer/\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "c7cb49a5-a7a9-42bd-89f0-71865bd40a71",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "246\n",
      "['à¤ĩà¤¸à¤°', 'à¥ĭ', 'Ġà¤¨', 'à¥ĩ', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤¯', 'à¤¾', 'à¤¨', '-', '3', 'Ġà¤®', 'à¤¿', 'à¤¶à¤¨', 'Ġà¤ķ', 'à¥ĩ', 'Ġà¤²', 'à¤¿', 'à¤ı', 'Ġà¤¤', 'à¥Ģ', 'à¤¨', 'Ġà¤®', 'à¥ģ', 'à¤ĸ', 'à¥į', 'à¤¯', 'Ġà¤īà¤¦', 'à¥į', 'à¤¦', 'à¥ĩ', 'à¤¶', 'à¥į', 'à¤¯', 'Ġà¤¨', 'à¤¿', 'à¤°', 'à¥į', 'à¤§', 'à¤¾', 'à¤°', 'à¤¿', 'à¤¤', 'Ġà¤ķ', 'à¤¿', 'à¤ı', 'Ġà¤¹', 'à¥Īà¤Ĥ,', 'Ġà¤ľ', 'à¤¿', 'à¤¨à¤®', 'à¥ĩà¤Ĥ', 'Ġà¤¶', 'à¤¾', 'à¤®', 'à¤¿', 'à¤²', 'Ġà¤¹', 'à¥Īà¤Ĥ:', 'Ġà¤²', 'à¥Īà¤Ĥ', 'à¤¡à¤°', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤¸à¤¤à¤¹', 'Ġà¤ªà¤°', 'Ġà¤¸', 'à¥ģ', 'à¤°à¤ķ', 'à¥į', 'à¤·', 'à¤¿', 'à¤¤', 'Ġà¤Ķà¤°', 'Ġà¤¸', 'à¥ī', 'à¤«', 'à¥į', 'à¤Ł', 'Ġà¤²', 'à¥Īà¤Ĥ', 'à¤¡', 'à¤¿à¤Ĥ', 'à¤Ĺ', 'Ġà¤ķà¤°', 'à¤¾', 'à¤¨', 'à¤¾à¥¤', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ªà¤°', 'Ġà¤°', 'à¥ĭ', 'à¤µà¤°', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤µ', 'à¤¿', 'à¤ļà¤°à¤£', 'Ġà¤ķ', 'à¥į', 'à¤·à¤®à¤¤', 'à¤¾', 'à¤ĵ', 'à¤Ĥ', 'Ġà¤ķ', 'à¤¾', 'Ġà¤ħà¤µà¤²', 'à¥ĭ', 'à¤ķà¤¨', 'Ġà¤Ķà¤°', 'Ġà¤ª', 'à¥į', 'à¤°à¤¦à¤°', 'à¥į', 'à¤¶à¤¨', 'à¥¤', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤¸', 'à¤Ĥ', 'à¤°à¤ļà¤¨', 'à¤¾', 'Ġà¤ķ', 'à¥ĭ', 'Ġà¤¬', 'à¥ĩ', 'à¤¹à¤¤à¤°', 'Ġà¤¢', 'à¤Ĥ', 'à¤Ĺ', 'Ġà¤¸', 'à¥ĩ', 'Ġà¤¸à¤®à¤Ŀà¤¨', 'à¥ĩ', 'Ġà¤Ķà¤°', 'Ġà¤īà¤¸à¤ķ', 'à¥ĩ', 'Ġà¤µ', 'à¤¿', 'à¤ľ', 'à¥į', 'à¤ŀ', 'à¤¾', 'à¤¨', 'Ġà¤ķ', 'à¥ĭ', 'Ġà¤ħà¤Ń', 'à¥į', 'à¤¯', 'à¤¾', 'à¤¸', 'Ġà¤®', 'à¥ĩà¤Ĥ', 'Ġà¤²', 'à¤¾', 'à¤¨', 'à¥ĩ', 'Ġà¤ķ', 'à¥ĩ', 'Ġà¤²', 'à¤¿', 'à¤ı', 'Ġà¤ļ', 'à¤Ĥ', 'à¤¦', 'à¥į', 'à¤°à¤®', 'à¤¾', 'Ġà¤ķ', 'à¥Ģ', 'Ġà¤¸à¤¤à¤¹', 'Ġà¤ªà¤°', 'Ġà¤īà¤ªà¤²à¤¬', 'à¥į', 'à¤§', 'Ġà¤°', 'à¤¾', 'à¤¸', 'à¤¾', 'à¤¯à¤¨', 'à¤¿', 'à¤ķ', 'Ġà¤Ķà¤°', 'Ġà¤ª', 'à¥į', 'à¤°', 'à¤¾', 'à¤ķ', 'à¥ĥ', 'à¤¤', 'à¤¿', 'à¤ķ', 'Ġà¤¤à¤¤', 'à¥į', 'à¤µ', 'à¥ĭà¤Ĥ,', 'Ġà¤®', 'à¤¿', 'à¤Ł', 'à¥į', 'à¤Ł', 'à¥Ģ,', 'Ġà¤ª', 'à¤¾', 'à¤¨', 'à¥Ģ', 'Ġà¤Ĩà¤¦', 'à¤¿', 'Ġà¤ªà¤°', 'Ġà¤µ', 'à¥Ī', 'à¤ľ', 'à¥į', 'à¤ŀ', 'à¤¾', 'à¤¨', 'à¤¿', 'à¤ķ', 'Ġà¤ª', 'à¥į', 'à¤°à¤¯', 'à¥ĭ', 'à¤Ĺ', 'Ġà¤ķà¤°à¤¨', 'à¤¾à¥¤']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_scratch_tokenizer.encode(test_string)))\n",
    "print(hin_scratch_tokenizer.tokenize(test_string))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "ab40aca4-2f79-4668-b465-e80cb8129a68",
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "85\n",
      "['Éªs', 'É¾oËĲ', 'ĠneËĲ', 'ĠcÉĻndÉ¾ÉĻ', 'jaËĲn', 'ĠtiËĲn', 'ĠmÉªÊĥÉĻn', 'ĠkeËĲ', 'ĠlÉªeËĲ', 'ĠtiËĲn', 'ĠmÊĬkÊ°jÉĻ', 'ĠÊĬdËĲeËĲÊĥjÉĻ', 'ĠnÉªÉ¾dÊ°aËĲÉ¾Éªt', 'ĠkÉªeËĲ', 'ĠhÉĽ', 'Ìĥ', 'ĠÉŁÉªnme', 'Ìĥ', 'ËĲ', 'ĠÊĥaËĲmÉªl', 'ĠhÉĽ', 'Ìĥ', 'ĠlÉĽ', 'Ìĥ', 'ÉĸÉĻÉ¾', 'Ġki', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮÉ¾', 'ĠsÊĬÉ¾ÊĮkÊĥÉªt', 'ĠÉĶËĲÉ¾', 'ĠsÉĶpÊ°ÊĪ', 'ĠlÉĽ', 'Ìĥ', 'Éĸi', 'Ìĥ', 'É¡', 'ĠkÉĻÉ¾aËĲnaËĲ', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'ĠpÊĮÉ¾', 'ĠÉ¾oËĲÊĭÉĻÉ¾', 'Ġki', 'ĠÊĭÉªcÉĻÉ¾ÉĻÉ³', 'ĠkÊĥÉĻmtaËĲw', 'ĠkaËĲ', 'ĠÊĮÊĭloËĲkÉĻn', 'ĠÉĶËĲÉ¾', 'ĠpÉ¾ÉĻdÊĮrÊĥÉĻn', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮnÉ¾ÉĻcnaËĲ', 'ĠkoËĲ', 'ĠbeËĲhÉĻtÉĻÉ¾', 'ĠÉĸÊ°ÊĮÅĭÉ¡', 'ĠseËĲ', 'ĠsÊĮmÉĻÉŁÊ°neËĲ', 'ĠÉĶËĲÉ¾', 'ĠÊĬskeËĲ', 'ĠÊĭÉªÉ¡jaËĲn', 'ĠkoËĲ', 'ĠÊĮbÊ°jaËĲs', 'Ġme', 'Ìĥ', 'ËĲ', 'ĠlaËĲneËĲ', 'ĠkeËĲ', 'ĠlÉªeËĲ', 'ĠcÊĮndÉ¾ÉĻmaËĲ', 'Ġki', 'ĠsÊĮtÉĻh', 'ĠpÊĮÉ¾', 'ĠÊĬpÉĻlÊĮbdÊ°', 'ĠÉ¾aËĲsaËĲjnÉªk', 'ĠÉĶËĲÉ¾', 'ĠpÉ¾aËĲkÉ¾ÉªtÉªk', 'ĠtÊĮtÊĭo', 'Ìĥ', 'ĠmÉªÊĪÊĪi', 'ĠpaËĲni', 'ĠaËĲdÉª', 'ĠpÊĮÉ¾', 'ĠÊĭÉĽËĲÉ¡jaËĲnÉªk', 'ĠpÉ¾ÉĻjoËĲÉ¡', 'ĠkÊĮÉ¾naËĲ']\n"
     ]
    }
   ],
   "source": [
    "print(len(hin_phonemized_scratch_tokenizer.encode(phonemized[0])))\n",
    "print(hin_phonemized_scratch_tokenizer.tokenize(phonemized[0]))"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.11.7"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}