DhrubaAdhikary1991
commited on
Commit
•
fd6ac66
1
Parent(s):
30d705f
push BPE
Browse files- app.py +42 -0
- hindi_bpe_tokenizer.json +0 -0
- requirements.txt +1 -0
app.py
ADDED
@@ -0,0 +1,42 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import glob
|
2 |
+
import os
|
3 |
+
from tokenizers import Tokenizer
|
4 |
+
import gradio as gr
|
5 |
+
|
6 |
+
# Load the tokenizer
|
7 |
+
tokenizer = Tokenizer.from_file("hindi_bpe_tokenizer.json")
|
8 |
+
|
9 |
+
# Define the compression ratio function
|
10 |
+
def compression_ratio(text):
|
11 |
+
encoded = tokenizer.encode(text)
|
12 |
+
compressed_length = len(encoded.ids)
|
13 |
+
original_length = len(text)
|
14 |
+
compression = original_length / compressed_length
|
15 |
+
decoded_text = tokenizer.decode(encoded.ids)
|
16 |
+
|
17 |
+
encoded_tokens = encoded.tokens
|
18 |
+
vocab_size = len(tokenizer.get_vocab())
|
19 |
+
|
20 |
+
return encoded_tokens, vocab_size, compression, decoded_text
|
21 |
+
|
22 |
+
# Sample text
|
23 |
+
sample_text1 = "दास कैपिटल एक पुस्तक है जिसकी रचना कार्ल मार्क्स ने 1867 ई. में की थी। इसमें पूँजी एवं पूँजीवाद का विश्लेषण है तथा मजदूरवर्ग को शोषण से मुक्त करने के उपाय बताये गए हैं। इस पुस्तक के द्वारा एक सर्वथा नवीन विचारधारा प्रवाहित हुई जिसने संपूर्ण प्राचीन मान्यताओं को झकझोर कर हिला दिया। इस पुस्तक के प्रकाशित होने के कुछ ही वर्षों के बाद रूस में साम्यवादी क्रांति हुई।"
|
24 |
+
sample_text2 = "दास कैपिटल: राजनीतिक अर्थव्यवस्था की आलोचना, कार्ल मार्क्स का प्रस्ताव है कि पूंजीवाद के प्रेरित बल श्रम, जिसका काम अवैतनिक लाभ और अधिशेष मूल्य के परम स्रोत के शोषण करने में है। नियोक्ता लाभ के अधिकार का दावा कर सकते हैं, क्योंकि वह या वह उत्पादक पूँजी संपत्ति है, जो कानूनी तौर पर संपत्ति के अधिकार के माध्यम से कर रहे हैं पूंजीवादी राज्य द्वारा संरक्षित मालिक. पूंजी के उत्पादन में वस्तुओं के बजाय, कार्यकर्ताओं लगातार आर्थिक स्थिति है जिसके द्वारा वे श्रम पुनरुत्पादन.कैपिटल "कानून के प्रस्ताव का" पूंजीवादी आर्थिक प्रणाली के अपने मूल से, अपने भविष्य के लिए पूंजी, मजदूरी श्रम, कार्यस्थल के परिवर्तन के विकास के संचय की गतिशीलता का वर्णन करके एक विवरण, प्रस्ताव है, पूंजी का केन्द्रीकरण, वाणिज्यिक प्रतियोगिता, बैंकिंग प्रणाली, लाभ की दर की गिरावट, भूमि किराए, आदि।"
|
25 |
+
sample_text3 = "Kapital, प्रथम खंड मार्क्स जीवनकाल में प्रकाशित किया गया था, लेकिन मार्क्स की 1883 में मृत्यु हो गई। कैपिटल, खंड द्वितीय और कैपिटल, खंड III, जिसका संपादन दोस्त एवं सहयोगी फ्रेडरिक एंगेल्स ने किया और मार्क्स के काम के रूप में प्रकाशित किया। कैपिटल पहले का अनुवाद प्रकाशन: राजनीतिक अर्थव्यवस्था की आलोचना इंपीरियल रूस में मार्च 1872 में किया गया था।पहला विदेशी प्रकाशन 1887 में अंग्रेजी में करा गया। 2008-9 की वैश्विक आर्थिक पतन के मद्देनजर में, मार्क्स की कैपिटल की जर्मनी में उच्च मांग में थी। 2012 में कैपिटल का हास्य पुस्तक संस्करण जापान में निकाला गया।"
|
26 |
+
|
27 |
+
# Define the Gradio interface
|
28 |
+
iface = gr.Interface(
|
29 |
+
fn=compression_ratio,
|
30 |
+
inputs=gr.Textbox(lines=5, placeholder="Enter text here..."),
|
31 |
+
examples=[[sample_text1], [sample_text2], [sample_text3] ],
|
32 |
+
outputs=[
|
33 |
+
gr.JSON(label="Encoded Text"),
|
34 |
+
gr.Textbox(label="Vocabulary Size"),
|
35 |
+
gr.Textbox(label="Compression Ratio"),
|
36 |
+
gr.Textbox(label="Decoded Text")
|
37 |
+
]
|
38 |
+
)
|
39 |
+
|
40 |
+
# Launch the interface
|
41 |
+
if __name__ == "__main__":
|
42 |
+
iface.launch()
|
hindi_bpe_tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
requirements.txt
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
tokenizers
|