{ "metadata": { "name": "" }, "nbformat": 3, "nbformat_minor": 0, "worksheets": [ { "cells": [ { "cell_type": "code", "collapsed": false, "input": [ "!pwd" ], "language": "python", "metadata": {}, "outputs": [ { "output_type": "stream", "stream": "stdout", "text": [ "/home/anoop/src/python/indic_nlp_library/src/indicnlp/transliterate\r\n" ] } ], "prompt_number": 9 }, { "cell_type": "code", "collapsed": false, "input": [ "import sys\n", "sys.path.append('/home/anoop/src/python/indic_nlp_library/src')" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 10 }, { "cell_type": "code", "collapsed": false, "input": [ "from indicnlp.transliterate import itrans_transliterator\n", "from indicnlp.transliterate import unicode_transliterate\n", "from indicnlp.normalize import indic_normalize" ], "language": "python", "metadata": {}, "outputs": [], "prompt_number": 3 }, { "cell_type": "code", "collapsed": false, "input": [ "print itrans_transliterator.transliterate('chakra', 'itrans',\n", " 'devanagari', {'outputASCIIEncoded' : False})\n", " " ], "language": "python", "metadata": {}, "outputs": [ { "output_type": "stream", "stream": "stdout", "text": [ "\u091a\u0915\u094d\u0930\n" ] } ], "prompt_number": 13 }, { "cell_type": "code", "collapsed": false, "input": [ "text='jammuH pAk sainyattinR.e .ozhippiccu Sh.e .eTT perkk . parikkeR.hRu atirtta .eTT perkk parikkeRRu. atirtti grAma~N~NaLil ninn AyirattoLa.n per.e .ozhippiccu. jammu atirttiyil yuddhAntarIkShamAN nilanilkkunnat. atirtti grAma~N~NaLeyu.n sainika posRRukaLeyu.n lakShya.nvacc pAkistAnR.e AkramaNa.n tuTarukayAN. jammu kashmIril.e atirtti jillakaLAya kAtva, sAmpa .enniviTa~N~NaLilAN AkramaNa.n naTakkunnat.'\n", "print unicode_transliterate.ItransTransliterator.from_itrans(text,'te')" ], "language": "python", "metadata": {}, "outputs": [ { "output_type": "stream", "stream": "stdout", "text": [ "\u0c1c\u0c2e\u0c4d\u0c2e\u0c41\u0c03 \u0c2a\u0c3e\u0c15\u0c4d \u0c38\u0c48\u0c28\u0c4d\u0c2f\u0c24\u0c4d\u0c24\u0c3f\u0c28\u0c4d\u0c31\u0c46 \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41 \u0c37\u0c46 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c64 \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47\u0c31\u0c03\u0c31\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24 \u0c0e\u0c1f\u0c4d\u0c1f\u0c4d \u0c2a\u0c47\u0c30\u0c4d\u0c15\u0c4d\u0c15\u0c4d \u0c2a\u0c30\u0c3f\u0c15\u0c4d\u0c15\u0c47RR\u0c09\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c4d \u0c28\u0c3f\u0c28\u0c4d\u0c28\u0c4d \u0c06\u0c2f\u0c3f\u0c30\u0c24\u0c4d\u0c24\u0c4b\u0c33\u0c02 \u0c2a\u0c47\u0c30\u0c46 \u0c12\u0c34\u0c3f\u0c2a\u0c4d\u0c2a\u0c3f\u0c1a\u0c4d\u0c1a\u0c41\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f\u0c2f\u0c3f\u0c32\u0c4d \u0c2f\u0c41\u0c26\u0c4d\u0c27\u0c3e\u0c28\u0c4d\u0c24\u0c30\u0c40\u0c15\u0c4d\u0c37\u0c2e\u0c3e\u0c23\u0c4d \u0c28\u0c3f\u0c32\u0c28\u0c3f\u0c32\u0c4d\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c17\u0c4d\u0c30\u0c3e\u0c2e\u0c19\u0c4d\u0c19\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c38\u0c48\u0c28\u0c3f\u0c15 \u0c2a\u0c4b\u0c38\u0c4dRR\u0c09\u0c15\u0c33\u0c47\u0c2f\u0c41\u0c02 \u0c32\u0c15\u0c4d\u0c37\u0c4d\u0c2f\u0c02\u0c35\u0c1a\u0c4d\u0c1a\u0c4d \u0c2a\u0c3e\u0c15\u0c3f\u0c38\u0c4d\u0c24\u0c3e\u0c28\u0c4d\u0c31\u0c46 \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c24\u0c41\u0c1f\u0c30\u0c41\u0c15\u0c2f\u0c3e\u0c23\u0c64 \u0c1c\u0c2e\u0c4d\u0c2e\u0c41 \u0c15\u0c36\u0c4d\u0c2e\u0c40\u0c30\u0c3f\u0c32\u0c46 \u0c05\u0c24\u0c3f\u0c30\u0c4d\u0c24\u0c4d\u0c24\u0c3f \u0c1c\u0c3f\u0c32\u0c4d\u0c32\u0c15\u0c33\u0c3e\u0c2f \u0c15\u0c3e\u0c24\u0c4d\u0c35, \u0c38\u0c3e\u0c2e\u0c4d\u0c2a \u0c0e\u0c28\u0c4d\u0c28\u0c3f\u0c35\u0c3f\u0c1f\u0c19\u0c4d\u0c19\u0c33\u0c3f\u0c32\u0c3e\u0c23\u0c4d \u0c06\u0c15\u0c4d\u0c30\u0c2e\u0c23\u0c02 \u0c28\u0c1f\u0c15\u0c4d\u0c15\u0c41\u0c28\u0c4d\u0c28\u0c24\u0c64\n" ] } ], "prompt_number": 19 }, { "cell_type": "code", "collapsed": false, "input": [ "#mal=u'\u0d1c\u0d2e\u0d4d\u0d2e\u0d41: \u0d2a\u0d3e\u0d15\u0d4d \u0d38\u0d48\u0d28\u0d4d\u0d2f\u0d24\u0d4d\u0d24\u0d3f\u0d28\u0d4d\u0d31\u0d46 \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41 \u0d37\u0d46 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d . \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24 \u0d0e\u0d1f\u0d4d\u0d1f\u0d4d \u0d2a\u0d47\u0d30\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d4d \u0d2a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d47\u0d31\u0d4d\u0d31\u0d41. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d4d\u200d \u0d28\u0d3f\u0d28\u0d4d\u0d28\u0d4d \u0d06\u0d2f\u0d3f\u0d30\u0d24\u0d4d\u0d24\u0d4b\u0d33\u0d02 \u0d2a\u0d47\u0d30\u0d46 \u0d12\u0d34\u0d3f\u0d2a\u0d4d\u0d2a\u0d3f\u0d1a\u0d4d\u0d1a\u0d41. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f\u0d2f\u0d3f\u0d32\u0d4d\u200d \u0d2f\u0d41\u0d26\u0d4d\u0d27\u0d3e\u0d28\u0d4d\u0d24\u0d30\u0d40\u0d15\u0d4d\u0d37\u0d2e\u0d3e\u0d23\u0d4d \u0d28\u0d3f\u0d32\u0d28\u0d3f\u0d32\u0d4d\u200d\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d. \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d17\u0d4d\u0d30\u0d3e\u0d2e\u0d19\u0d4d\u0d19\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d38\u0d48\u0d28\u0d3f\u0d15 \u0d2a\u0d4b\u0d38\u0d4d\u0d31\u0d4d\u0d31\u0d41\u0d15\u0d33\u0d47\u0d2f\u0d41\u0d02 \u0d32\u0d15\u0d4d\u0d37\u0d4d\u0d2f\u0d02\u0d35\u0d1a\u0d4d\u0d1a\u0d4d \u0d2a\u0d3e\u0d15\u0d3f\u0d38\u0d4d\u0d24\u0d3e\u0d28\u0d4d\u0d31\u0d46 \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d24\u0d41\u0d1f\u0d30\u0d41\u0d15\u0d2f\u0d3e\u0d23\u0d4d. \u0d1c\u0d2e\u0d4d\u0d2e\u0d41 \u0d15\u0d36\u0d4d\u0d2e\u0d40\u0d30\u0d3f\u0d32\u0d46 \u0d05\u0d24\u0d3f\u0d30\u0d4d\u200d\u0d24\u0d4d\u0d24\u0d3f \u0d1c\u0d3f\u0d32\u0d4d\u0d32\u0d15\u0d33\u0d3e\u0d2f \u0d15\u0d3e\u0d24\u0d4d\u0d35, \u0d38\u0d3e\u0d2e\u0d4d\u0d2a \u0d0e\u0d28\u0d4d\u0d28\u0d3f\u0d35\u0d3f\u0d1f\u0d19\u0d4d\u0d19\u0d33\u0d3f\u0d32\u0d3e\u0d23\u0d4d \u0d06\u0d15\u0d4d\u0d30\u0d2e\u0d23\u0d02 \u0d28\u0d1f\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d24\u0d4d.'\n", "\n", "text=u'\u09ac\u09be\u09b0\u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u099a\u09c1\u0995\u09cd\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09ae\u09a8\u09c7 \u09b0\u09be\u0996\u09a4\u09c7 \u09b9\u09ac\u09c7, \u09ad\u09be\u09b0\u09a4\u09c7\u09b0\u0993 \u09b8\u09b9\u09cd\u09af \u0995\u09b0\u09be\u09b0 \u09b8\u09c0\u09ae\u09be \u0986\u099b\u09c7\u0964 \u098f\u0987 \u09ae\u09b0\u09cd\u09ae\u09c7 \u0987\u09b8\u09b2\u09be\u09ae\u09be\u09ac\u09be\u09a6\u0995\u09c7 \u09b9\u09c1\u0981\u09b6\u09bf\u09df\u09be\u09b0\u09bf \u09a6\u09bf\u09b2\u09c7\u09a8 \u09b8\u09cd\u09ac\u09b0\u09be\u09b7\u09cd\u099f\u09cd\u09b0\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09b0\u09be\u099c\u09a8\u09be\u09a5 \u09b8\u09bf\u0982\u0964 \u09e8\u09e6\u09e7\u09ea \u09b8\u09be\u09b2\u09c7 \u09eb\u09eb\u09e6 \u09ac\u09be\u09b0 \u09b8\u0982\u0998\u09b0\u09cd\u09b7-\u09ac\u09bf\u09b0\u09a4\u09bf \u09b2\u0999\u09cd\u0998\u09a8 \u0995\u09b0\u09c7 \u09b8\u09c0\u09ae\u09be\u09a8\u09cd\u09a4\u09c7 \u0997\u09cb\u09b2\u09be\u0997\u09c1\u09b2\u09bf \u099a\u09be\u09b2\u09bf\u09df\u09c7\u099b\u09c7 \u09aa\u09be\u0995\u09bf\u09b8\u09cd\u09a4\u09be\u09a8\u0964 \u09a8\u09a4\u09c1\u09a8 \u09ac\u099b\u09b0\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a5\u09ae \u09a4\u09bf\u09a8\u09a6\u09bf\u09a8\u09c7 \u0987\u09a4\u09bf\u09ae\u09a7\u09cd\u09af\u09c7 \u09aa\u09be\u0981\u099a\u09ac\u09be\u09b0 \u09a4\u09c7\u09ae\u09a8 \u0998\u099f\u09a8\u09be \u0998\u099f\u09c7\u099b\u09c7\u0964 \u09af\u09a6\u09bf\u0993 \u09b8\u09c7-\u09a6\u09c7\u09b6\u09c7\u09b0 \u09aa\u09cd\u09b0\u09a7\u09be\u09a8\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u09a8\u0993\u09df\u09be\u099c \u09b6\u09b0\u09bf\u09ab, \u09aa\u09cd\u09b0\u09a4\u09bf\u09b0\u0995\u09cd\u09b7\u09be\u09ae\u09a8\u09cd\u09a4\u09cd\u09b0\u09c0 \u0996\u09cb\u09df\u09be\u099c\u09be \u0986\u09b8\u09bf\u09ab \u09aa\u09cd\u09b0\u09ae\u09c1\u0996 \u09ac\u09b2\u09c7\u099b\u09c7\u09a8, \u09ad\u09be\u09b0\u09a4\u0987 \u09ac\u09bf\u09a8\u09be \u09aa\u09cd\u09b0\u09b0\u09cb\u099a\u09a8\u09be\u09df \u09b9\u09be\u09ae\u09b2\u09be \u099a\u09be\u09b2\u09be\u099a\u09cd\u099b\u09c7\u0964'\n", "lang='bn'\n", "\n", "n=indic_normalize.IndicNormalizerFactory().get_normalizer(lang)\n", "text=n.normalize(text)\n", "\n", "print unicode_transliterate.ItransTransliterator.to_itrans(text,lang)" ], "language": "python", "metadata": {}, "outputs": [ { "output_type": "stream", "stream": "stdout", "text": [ "bArabAra sa.ngharSha-birati cukti la~Nghana karaChe pAkistAna. mane rAkhate habe, bhAratero sahya karAra sImA AChe. ei marme isalAmAbAdake hu\u0901shiya\u093cAri dilena sbarAShTramantrI rAjanAtha si.n. 2014 sAle 550 bAra sa.ngharSha-birati la~Nghana kare sImAnte golAguli cAliya\u093ceChe pAkistAna. natuna baCharera prathama tinadine itimadhye pA\u0901cabAra temana ghaTanA ghaTeChe. yadio se-deshera pradhAnamantrI noya\u093cAja sharipha, pratirakShAmantrI khoya\u093cAjA Asipha pramukha baleChena, bhArati binA prarocanAya\u093c hAmalA cAlAcChe.\n" ] } ], "prompt_number": 31 }, { "cell_type": "code", "collapsed": false, "input": [ "x=u'\u0b9a\u0bc6\u0ba9\u0bcd\u0ba9\u0bc8'\n", "\n", "for c in x:\n", " print u'{} {:x}'.format(c,ord(c))" ], "language": "python", "metadata": {}, "outputs": [ { "output_type": "stream", "stream": "stdout", "text": [ "\u0b9a b9a\n", "\u0bc6 bc6\n", "\u0ba9 ba9\n", "\u0bcd bcd\n", "\u0ba9 ba9\n", "\u0bc8 bc8\n" ] } ], "prompt_number": 28 } ], "metadata": {} } ] }