DhrubaAdhikary1991 commited on
Commit
fd6ac66
1 Parent(s): 30d705f
Files changed (3) hide show
  1. app.py +42 -0
  2. hindi_bpe_tokenizer.json +0 -0
  3. requirements.txt +1 -0
app.py ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import glob
2
+ import os
3
+ from tokenizers import Tokenizer
4
+ import gradio as gr
5
+
6
+ # Load the tokenizer
7
+ tokenizer = Tokenizer.from_file("hindi_bpe_tokenizer.json")
8
+
9
+ # Define the compression ratio function
10
+ def compression_ratio(text):
11
+ encoded = tokenizer.encode(text)
12
+ compressed_length = len(encoded.ids)
13
+ original_length = len(text)
14
+ compression = original_length / compressed_length
15
+ decoded_text = tokenizer.decode(encoded.ids)
16
+
17
+ encoded_tokens = encoded.tokens
18
+ vocab_size = len(tokenizer.get_vocab())
19
+
20
+ return encoded_tokens, vocab_size, compression, decoded_text
21
+
22
+ # Sample text
23
+ sample_text1 = "दास कैपिटल एक पुस्तक है जिसकी रचना कार्ल मार्क्स ने 1867 ई. में की थी। इसमें पूँजी एवं पूँजीवाद का विश्लेषण है तथा मजदूरवर्ग को शोषण से मुक्त करने के उपाय बताये गए हैं। इस पुस्तक के द्वारा एक सर्वथा नवीन विचारधारा प्रवाहित हुई जिसने संपूर्ण प्राचीन मान्यताओं को झकझोर कर हिला दिया। इस पुस्तक के प्रकाशित होने के कुछ ही वर्षों के बाद रूस में साम्यवादी क्रांति हुई।"
24
+ sample_text2 = "दास कैपिटल: राजनीतिक अर्थव्यवस्था की आलोचना, कार्ल मार्क्स का प्रस्ताव है कि पूंजीवाद के प्रेरित बल श्रम, जिसका काम अवैतनिक लाभ और अधिशेष मूल्य के परम स्रोत के शोषण करने में है। नियोक्ता लाभ के अधिकार का दावा कर सकते हैं, क्योंकि वह या वह उत्पादक पूँजी संपत्ति है, जो कानूनी तौर पर संपत्ति के अधिकार के माध्यम से कर रहे हैं पूंजीवादी राज्य द्वारा संरक्षित मालिक. पूंजी के उत्पादन में वस्तुओं के बजाय, कार्यकर्ताओं लगातार आर्थिक स्थिति है जिसके द्वारा वे श्रम पुनरुत्पादन.कैपिटल "कानून के प्रस्ताव का" पूंजीवादी आर्थिक प्रणाली के अपने मूल से, अपने भविष्य के लिए पूंजी, मजदूरी श्रम, कार्यस्थल के परिवर्तन के विकास के संचय की गतिशीलता का वर्णन करके एक विवरण, प्रस्ताव है, पूंजी का केन्द्रीकरण, वाणिज्यिक प्रतियोगिता, बैंकिंग प्रणाली, लाभ की दर की गिरावट, भूमि किराए, आदि।"
25
+ sample_text3 = "Kapital, प्रथम खंड मार्क्स जीवनकाल में प्रकाशित किया गया था, लेकिन मार्क्स की 1883 में मृत्यु हो गई। कैपिटल, खंड द्वितीय और कैपिटल, खंड III, जिसका संपादन दोस्त एवं सहयोगी फ्रेडरिक एंगेल्स ने किया और मार्क्स के काम के रूप में प्रकाशित किया। कैपिटल पहले का अनुवाद प्रकाशन: राजनीतिक अर्थव्यवस्था की आलोचना इंपीरियल रूस में मार्च 1872 में किया गया था।पहला विदेशी प्रकाशन 1887 में अंग्रेजी में करा गया। 2008-9 की वैश्विक आर्थिक पतन के मद्देनजर में, मार्क्स की कैपिटल की जर्मनी में उच्च मांग में थी। 2012 में कैपिटल का हास्य पुस्तक संस्करण जापान में निकाला गया।"
26
+
27
+ # Define the Gradio interface
28
+ iface = gr.Interface(
29
+ fn=compression_ratio,
30
+ inputs=gr.Textbox(lines=5, placeholder="Enter text here..."),
31
+ examples=[[sample_text1], [sample_text2], [sample_text3] ],
32
+ outputs=[
33
+ gr.JSON(label="Encoded Text"),
34
+ gr.Textbox(label="Vocabulary Size"),
35
+ gr.Textbox(label="Compression Ratio"),
36
+ gr.Textbox(label="Decoded Text")
37
+ ]
38
+ )
39
+
40
+ # Launch the interface
41
+ if __name__ == "__main__":
42
+ iface.launch()
hindi_bpe_tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
requirements.txt ADDED
@@ -0,0 +1 @@
 
 
1
+ tokenizers