import glob import os from tokenizers import Tokenizer import gradio as gr # Load the tokenizer tokenizer = Tokenizer.from_file("Bengali_bpe_tokenizer.json") # Define the compression ratio function def compression_ratio(text): encoded = tokenizer.encode(text) compressed_length = len(encoded.ids) original_length = len(text) compression = original_length / compressed_length decoded_text = tokenizer.decode(encoded.ids) encoded_tokens = encoded.tokens vocab_size = len(tokenizer.get_vocab()) return encoded_tokens, vocab_size, compression, decoded_text # Sample text # sample_text1 = "दास कैपिटल एक पुस्तक है जिसकी रचना कार्ल मार्क्स ने 1867 ई. में की थी। इसमें पूँजी एवं पूँजीवाद का विश्लेषण है तथा मजदूरवर्ग को शोषण से मुक्त करने के उपाय बताये गए हैं। इस पुस्तक के द्वारा एक सर्वथा नवीन विचारधारा प्रवाहित हुई जिसने संपूर्ण प्राचीन मान्यताओं को झकझोर कर हिला दिया। इस पुस्तक के प्रकाशित होने के कुछ ही वर्षों के बाद रूस में साम्यवादी क्रांति हुई।" # sample_text2 = "दास कैपिटल: राजनीतिक अर्थव्यवस्था की आलोचना, कार्ल मार्क्स का प्रस्ताव है कि पूंजीवाद के प्रेरित बल श्रम, जिसका काम अवैतनिक लाभ और अधिशेष मूल्य के परम स्रोत के शोषण करने में है। नियोक्ता लाभ के अधिकार का दावा कर सकते हैं, क्योंकि वह या वह उत्पादक पूँजी संपत्ति है, जो कानूनी तौर पर संपत्ति के अधिकार के माध्यम से कर रहे हैं पूंजीवादी राज्य द्वारा संरक्षित मालिक. पूंजी के उत्पादन में वस्तुओं के बजाय, कार्यकर्ताओं लगातार आर्थिक स्थिति है जिसके द्वारा वे श्रम पुनरुत्पादन.कैपिटल "कानून के प्रस्ताव का" पूंजीवादी आर्थिक प्रणाली के अपने मूल से, अपने भविष्य के लिए पूंजी, मजदूरी श्रम, कार्यस्थल के परिवर्तन के विकास के संचय की गतिशीलता का वर्णन करके एक विवरण, प्रस्ताव है, पूंजी का केन्द्रीकरण, वाणिज्यिक प्रतियोगिता, बैंकिंग प्रणाली, लाभ की दर की गिरावट, भूमि किराए, आदि।" # sample_text3 = "Kapital, प्रथम खंड मार्क्स जीवनकाल में प्रकाशित किया गया था, लेकिन मार्क्स की 1883 में मृत्यु हो गई। कैपिटल, खंड द्वितीय और कैपिटल, खंड III, जिसका संपादन दोस्त एवं सहयोगी फ्रेडरिक एंगेल्स ने किया और मार्क्स के काम के रूप में प्रकाशित किया। कैपिटल पहले का अनुवाद प्रकाशन: राजनीतिक अर्थव्यवस्था की आलोचना इंपीरियल रूस में मार्च 1872 में किया गया था।पहला विदेशी प्रकाशन 1887 में अंग्रेजी में करा गया। 2008-9 की वैश्विक आर्थिक पतन के मद्देनजर में, मार्क्स की कैपिटल की जर्मनी में उच्च मांग में थी। 2012 में कैपिटल का हास्य पुस्तक संस्करण जापान में निकाला गया।" sample_text1="গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায় আজ বৃহস্পতিবার রাতের টিফিন খেয়ে একটি পোশাক কারখানার ৫০০ শ্রমিক অসুস্থ হয়ে পড়েছেন। এ ঘটনায় বিক্ষোভ করেছেন ওই কারখানার শ্রমিকেরা।সফিপুর মডার্ন হাসপাতালের জরুরি বিভাগের চিকিত্সক আল আমিন প্রথম আলো ডটকমকে বলেন, খাদ্যে বিষক্রিয়ায় তাঁরা (শ্রমিকেরা) অসুস্থ হয়ে পড়েছেন। এতে আতঙ্কিত হওয়ার কিছু নেই। অসুস্থদের চিকিত্সা দেওয়া হয়েছে।কারখানার শ্রমিক ও পুলিশ সূত্রে জানা যায়, উপজেলার তেলিরচালা এলাকার সেজাদ সোয়েটার লিমিটেড কারখানার শ্রমিকদের আজ রাত সাড়ে সাতটার দিকে টিফিন দেওয়া হয়। টিফিনে ছিল ডিম, রুটি, পেটিস ও কলা। টিফিন খেয়ে শ্রমিকেরা যথারীতি কাজে যোগ দেন। ওই টিফিন খাওয়ার প্রায় এক ঘণ্টা পর রাত সাড়ে আটটার দিকে কয়েকজন শ্রমিকের বমি ও পেট ব্যথা শুরু হয়। এরপর ধীরে ধীরে পুরো কারখানার শ্রমিকেরা অসুস্থ হতে থাকে। অনেকেই কারখানার মেঝেতে ঢলে পড়ে। এতে পাঁচ শতাধিক শ্রমিক অসুস্থ হয়ে পড়ে।পরে কারখানা কর্তৃপক্ষ দ্রুত যানবাহনের ব্যবস্থা করে তাদের সফিপুর জেনারেল হাসপাতাল, সফিপুর মডার্ন হাসপাতাল, উপজেলা স্বাস্থ্য কমপ্লেক্সসহ বিভিন্ন ক্লিনিকে ভর্তি করে। বাসি পচা খাবার দেওয়ায় শ্রমিকরা ক্ষুব্ধ হয়ে কারখানার সামনে বিক্ষোভ করে। খবর পেয়ে পুলিশ গিয়ে শ্রমিকদের বুঝিয়ে ও খাবার সরবরাহ প্রতিষ্ঠানের বিরুদ্ধে ব্যবস্থা নেওয়ার আশ্বাস দিলে শ্রমিকেরা শান্ত হয়।সফিপুর জেনারেল হাসপাতালে ভর্তি শ্রমিক জাকির হোসেন ও আসমা আক্তার বলেন, টিফিন খাওয়ার সময় ডিম ও কেক থেকে দুর্গন্ধ বের হচ্ছিল। এ কারণে অনেকেই ওই খাবার খায়নি। তবে বেশির ভাগ শ্রমিকই ওই খাবার খেয়েছে।কারখানার সহকারী উত্পাদন কর্মকর্তা (এপিএম) বছির উদ্দিন বলেন, টিফিনগুলি যে ঠিকাদারি প্রতিষ্ঠান কারখানায় সরবরাহ করে তাদের বিরুদ্ধে ব্যবস্থা নেওয়া হবে।মৌচাক পুলিশ ফাঁড়ির উপ-পরিদর্শক (এসআই) সৈয়দ আজহারুল ইসলাম প্রথম আলো ডটকমকে বলেন, শ্রমিকদের বুঝিয়ে শান্ত করা হয়েছে। এ ছাড়া কারখানা কর্তৃপক্ষকে খাদ্য সরবরাহ প্রতিষ্ঠানের বিরুদ্ধে ব্যবস্থা নিতে বলা হয়েছে।" sample_text2="এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যেন নেমেছেন সাবিনা লিসিকি। চতুর্থ রাউন্ডের লড়াইয়ে সেরেনা উইলিয়ামসকে হারিয়ে শুরু করেছিলেন স্বপ্নযাত্রা। কোয়ার্টার ফাইনালে কাইয়া কানেপিকে হারাতে খুব একটা বেগ পেতে হয়নি। তবে সেমিফাইনালে কঠিন প্রতিপক্ষের মুখেই পড়তে হয়েছিল লিসিকিকে। র্যাঙ্কিংয়ের চার নম্বরে থাকা আগ্নিয়েস্কা রাদভানস্কাই ছিলেন আজকের ম্যাচের ফেবারিট। কিন্তু অঘটনের উইম্বলডনে উল্টোটাই ঘটবে, এটাই যেন স্বাভাবিক। হলোই তা-ই। উত্তেজনাপূর্ণ সেমিফাইনালে ৬-৪, ২-৬, ৯-৭ গেমের জয় দিয়ে লিসিকি প্রথমবারের মতো পা রাখলেন উইম্বলডনের ফাইনালে।প্রথম সেটে ৬-৪ গেমের জয় দিয়ে শুরুটা দারুণভাবে করেছিলেন জার্মান তারকা লিসিকি। দ্বিতীয় সেটে ঘুরে দাঁড়ান রাদভানস্কা। খেলায় সমতা ফেরান ২-৬ গেমের জয় দিয়ে। ফলাফল নির্ধারণী তৃতীয় সেটের শুরুতেও বেশ খানিকটা সময় এগিয়ে ছিলেন রাদভানস্কা। কিন্তু ৩-০ ব্যবধানে পিছিয়ে পড়ার পর যেন মরিয়া হয়ে ওঠেন লিসিকি। ঘুরে দাঁড়াতে থাকেন নাটকীয়ভাবে। দুই ঘণ্টা ১৮ মিনিটের শ্বাসরুদ্ধকর লড়াইয়ের পর শেষ হাসিটাও হেসেছেন ২৩ বছর বয়সী লিসিকি।উইম্বলডনের অপর সেমিফাইনালে মারিওন বারতোলি অনায়াসেই হারিয়েছেন বেলজিয়ামের কারস্টেন ফ্লিপকেনসকে। ৬-১, ৬-২ গেমের জয় দিয়ে ফাইনাল নিশ্চিত করেছেন বারতোলি।শিরোপা জয়ের চূড়ান্ত লড়াইয়ে আগামী শনিবার মুখোমুখি হবেন বারতোলি ও লিসিকি।— রয়টার্স" sample_text3="জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় নেতা খালেদা জিয়ার দেওয়া ভাষণে ভারত সম্পর্কে আনা নানা অভিযোগের জবাব দিয়েছে দেশটি। ভারতের পক্ষ থেকে এ সংক্রান্ত একটি লিখিত জবাব খালেদা জিয়াকে দেওয়া হয়েছে। আজ বৃহস্পতিবার রাতে বিএনপির গুলশান কার্যালয়ে খালেদা জিয়ার সঙ্গে বাংলাদেশে নিযুক্ত ভারতের হাইকমিশনার পঙ্কজ সরণ সৌজন্য সাক্ষাত্ করেন। সেখানে তিনি খালেদা জিয়ার কাছে ভারতের জবাব সম্বলিত একটি চিঠি দেন। এ সময় বিএনপি চেয়ারপারসনের উপদেষ্টা রিয়াজ রহমান উপস্থিত ছিলেন। সৌজন্য সাক্ষাত্ শেষে রিয়াজ রহমান গুলশান কার্যালয় থেকে বেরিয়ে যাওয়ার সময় প্রথম আলো ডটকমকে একথা বলেন। তিনি জানান, এ ধরনের একটি চিঠি ভারতের পক্ষ থেকে সরকারকেও দেওয়া হয়েছে। বিএনপি চেয়ারপারসন ভারতের হাইকমিশনারকে বলেন, ‘আমরা এই বিষয়গুলো সম্পর্কে কিছুই জানতে পারছি না। ভারত ও বাংলাদেশ সরকারের পক্ষ থেকেও কোনো কিছু জানানো হচ্ছিল না।’ গত ২৯ জুন সংসদে দেওয়া ভাষণে খালেদা জিয়া নারায়ণগঞ্জের কনটেইনার টার্মিনাল নির্মাণের জন্য বাংলাদেশকে না জানিয়ে ভারতের দরপত্র আহ্বান, তিস্তা চুক্তি না হওয়া, টিপাইমুখ বাঁধ নির্মাণ ও সীমান্তে অব্যাহত বাংলাদেশি নাগরিকদের হত্যার অভিযোগ তুলে ধরেন। আজ খালেদাকে দেওয়া চিঠিতে এ সংক্রান্ত বিষয়ে ভারতের অবস্থান তুলে ধরা হয়। এই বিষয়গুলো নিয়ে ভুল বোঝাবুঝির অবসানের জন্য ভারতের পক্ষ থেকে এ চিঠি দেওয়া হয়েছে বলে পঙ্কজ সরণ খালেদা জিয়াকে জানান।রিয়াজ রহমান প্রথম আলো ডটকমকে এ কথা জানিয়ে আরও বলেন, ‘বৈঠকে দেশের সার্বিক রাজনৈতিক পরিস্থিতি নিয়েও কথা হয়েছে।’ তিনি বলেন, চার সিটি করপোরেশন নির্বাচন নিয়েও কথা হয়েছে। নির্দলীয় তত্ত্বাবধায়ক সরকারের দাবি জানিয়ে খালেদা জিয়া বলেন, এর মাধ্যমে সুষ্ঠুভাবে নির্বাচন হয় এবং এটাই তারা চায়। এ সময় পঙ্কজ সরণ খালেদা জিয়াকে বলেন, ‘আপনারা তো সিটি করপোরেশন নির্বাচনে জিতেছেন।’ এর জবাবে খালেদা জিয়া বলেন, ‘চার সিটিতে সুষ্ঠু নির্বাচন হলে আমাদের প্রার্থীরা আরও বেশি ভোটের ব্যবধানে জয়ী হতো।’দুটি দেশের পারষ্পারিক সম্পর্ক নিয়ে বৈঠকে আলোচনা হয়েছে। খালেদা জিয়াকে ভারতের হাইকমিশনার বলেছেন, বিএনপি ভারতের সঙ্গে সুসম্পর্ক চায়। এ প্রসঙ্গে হাইকমিশনার বলেন, ভারতও তাই চায়। তারা বাংলাদেশের অভ্যন্তরীণ কোনো বিষয়ে হস্তক্ষেপ করতে চায় না। ভারত চায় দুটি দেশের জনগনের মধ্যে সম্পর্ক গড়ে উঠুক।বৈঠকে ভারতের হাইকমিশনার তাঁর দেশের প্রধানমন্ত্রী মনমোহন সিংহের একটি অভিনন্দনপত্র বিএনপি চেয়ারপারসনকে দেন। সম্প্রতি ভারতের বিভিন্ন রাজ্যে ভয়াবহ বন্যায় ব্যাপক ক্ষয়ক্ষতি ও প্রাণহানির ঘটনায় দু:খপ্রকাশ করে খালেদা জিয়া চিঠি দেওয়ার মনমোহন এই পত্র দেন।" # Define the Gradio interface iface = gr.Interface( fn=compression_ratio, inputs=gr.Textbox(lines=5, placeholder="Enter text here..."), examples=[[sample_text1], [sample_text2], [sample_text3] ], outputs=[ gr.JSON(label="Encoded Text"), gr.Textbox(label="Vocabulary Size"), gr.Textbox(label="Compression Ratio"), gr.Textbox(label="Decoded Text") ] ) # Launch the interface if __name__ == "__main__": iface.launch()