Telugu_Vocab_Evaluation

Running

App Files Files Community

salmankhanpm commited on Jul 26

Commit

929a20d

verified ·

1 Parent(s): a92795e

Upload app.py

Browse files

Files changed (1) hide show

app.py +202 -0

app.py ADDED Viewed

	@@ -0,0 +1,202 @@

+from cProfile import label
+import logging
+from pydoc import text
+from turtle import title
+import tiktoken
+from transformers import AutoTokenizer
+import gradio as gr
+import os
+from dotenv import load_dotenv
+load_dotenv()
+HF_TOKEN = os.getenv("HF_TOKEN") or None
+logger = logging.getLogger(__name__)  # noqa
+def load_test_phrases(filename):
+    with open(f"./data/{filename}", "r", encoding="utf-8") as file:
+        return file.read().splitlines()
+models = ["HuggingFaceTB/SmolLM2-135M-Instruct",     # SmolLM2
+          "meta-llama/Llama-3.2-3B-Instruct",        # LLAMA-3
+          "Telugu-LLM-Labs/Telugu-Llama2-7B-v0-Instruct", # LLama 2 Finetuned for Improving Telugu
+          "CohereForAI/aya-23-8B",                   # AYA
+          "google/gemma-3-4b-it",                    # GEMMA 3
+          "sarvamai/sarvam-1",                       # SarvamAI
+          "gpt-4o",                                  # GPT4o
+          "Qwen/Qwen3-4B",                           # Qwen
+          "TWO/sutra-mlt256-v2"]                     # SUTRA
+test_phrase_set = [
+    "ఐదు వాక్యాలలో న్యూట్రాన్ స్కాటరింగ్ గురించి నాకు వివరణ ఇవ్వండి",
+    "నటుడు బిల్ ముర్రే ఇంటి చిరునామా 445 నార్త్ బెడ్ఫోర్డ్ డ్రైవ్, లాస్ ఏంజిల్స్, CA 90049.",
+    "హే, వీబ్ అంటే ఏమిటో మీకు తెలుసా?",
+    "నాకు మరింత వివరాలు ఇవ్వండి",
+    "కుక్కలు మరియు పిల్లుల మధ్య రెండు తేడాలు వాటి ప్రవర్తన మరియు వాటి శారీరక లక్షణాలు. కుక్కలు సాధారణంగా మరింత సామాజికంగా మరియు శిక్షణ పొందగలవు, అయితే పిల్లులు మరింత స్వతంత్రంగా ఉంటాయి. అదనంగా, పిల్లులతో పోలిస్తే కుక్కలు సాధారణంగా పెద్ద పరిమాణంలో ఉంటాయి.",
+    "మేము టెక్స్ట్ మరియు వాయిస్‌కి మించి ఆంగ్లానికి మించిన అన్ని భాషల కోసం AIని రూపొందిస్తున్నాము. మేము అందరి కోసం AIని నిర్మిస్తున్నాము.",
+]
+test_phrase_set_long_1 = load_test_phrases('multilingualphrases01.txt')
+test_phrase_set_long_2 = load_test_phrases('multilingualphrases02.txt')
+test_phrase_set_long_3 = load_test_phrases('multilingualphrases03.txt')
+# Cache tokenizers at the top level to avoid reloading on every call
+hf_tokenizers = {}
+for model in models:
+    print("Loading tokenizer for", model)
+    if 'gpt' not in model:
+        hf_tokenizers[model] = AutoTokenizer.from_pretrained(model)
+    else:
+        hf_tokenizers[model] = tiktoken.encoding_for_model(model)
+def generate_tokens_as_table(text):
+    table = []
+    for model in models:
+        tokenizer = hf_tokenizers[model]
+        if 'gpt' not in model:
+            tokens = tokenizer.encode(text, add_special_tokens=False)
+        else:
+            tokens = tokenizer.encode(text)
+        decoded = [tokenizer.decode([t]) for t in tokens]
+        table.append([model] + decoded)
+    return table
+def baseline_tokeizer_extractor(text):
+    word_count = len(text.split(' '))
+    base_tokenizer = hf_tokenizers[models[-1]]
+    base_tokens = base_tokenizer.encode(text)
+    base_tokens_count = len(base_tokens)
+    vocab_size = base_tokenizer.vocab_size
+    return [models[-1], vocab_size, word_count, base_tokens_count, f"{base_tokens_count / word_count:0.2f}" ]
+def generate_tokenizer_table(text):
+    if not text:
+        return []
+    token_counts = {model: 0 for model in models}
+    vocab_size = {model: 0 for model in models}
+    for model in models:
+        tokenizer = hf_tokenizers[model]
+        if 'gpt' not in model:
+            vocab_size[model] = tokenizer.vocab_size
+            token_counts[model] = len(tokenizer.encode(text, add_special_tokens=True))
+        else:
+            vocab_size[model] = tokenizer.n_vocab
+            token_counts[model] = len(tokenizer.encode(text))
+    word_count = len(text.split(' '))
+    base_tokenizer = baseline_tokeizer_extractor(text)
+    output = []
+    for m in models:
+        # if m == models[-1]:
+        #     row = [m, vocab_size[m], word_count, token_counts[m], f"{token_counts[m] / word_count:0.2f}", "1.0"]
+        # else:
+        row = [m, vocab_size[m], word_count, token_counts[m], f"{token_counts[m] / word_count:0.2f}", f"{token_counts[m] / base_tokenizer[3]:0.2f}"]
+        output.append(row)
+    return output
+def generate_split_token_table(text):
+    if not text:
+        return gr.Dataframe()
+    table = generate_tokenizer_table(text)
+    return gr.Dataframe(
+        table,
+        headers=['tokenizer', 'v size', '#word', '#token', '#tokens/word', "NSL Value"],
+        datatype=["str", "number", "str"],
+        row_count=len(models),
+        col_count=(6, "fixed"),
+    )
+def generate_baseline_tokenizer_insights(text):
+    word_count = len(text.split(' '))
+    base_tokenizer = hf_tokenizers[models[-1]]
+    base_tokens = base_tokenizer.encode(text)
+    base_tokens_count = len(base_tokens)
+    # Table should be a list of rows (list of lists)
+    table = [[models[-1], base_tokenizer.vocab_size, word_count, base_tokens_count, f"{base_tokens_count / word_count:0.2f}"]]
+    return gr.Dataframe(
+        table,
+        headers=['tokenizer', 'v size', '#words', '#token', '#tokens/word'],
+        datatype=["str", "number", "number", "number", "str"],
+        row_count=1,
+        col_count=(5, "fixed"),
+    )
+def generate_tokens_table(text):
+    table = generate_tokens_as_table(text)
+    cols = len(table[0])
+    return gr.Dataframe(
+        table,
+        headers=['model'] + [str(i) for i in range(cols - 1)],
+        row_count=2,
+        col_count=(cols, "fixed"),
+    )
+with gr.Blocks() as sutra_tokenize:
+    gr.Markdown(
+        """
+        ## Tokenize a sentence with various tokenizers and inspect how it's broken down.
+        """)
+    examples = test_phrase_set
+    textbox = gr.Textbox(label="Input Text")
+    with gr.Row():
+        submit_button = gr.Button("Submit")
+    gr.Examples(examples=examples, inputs=[textbox])
+    example_display = gr.Textbox(label="Selected Example", interactive=False)
+    textbox.change(lambda x: x, inputs=[textbox], outputs=[example_display])
+    baseline_tokenizer = gr.Dataframe(label="Baseline Tokenizer")
+    output_detailed = gr.Dataframe(label="Detailed Token Table")
+    output_tokens = gr.Dataframe(label="Token Table")
+    submit_button.click(lambda x: x, inputs=[textbox], outputs=[textbox])
+    submit_button.click(generate_baseline_tokenizer_insights, inputs=[textbox], outputs=[baseline_tokenizer])
+    submit_button.click(generate_split_token_table, inputs=[textbox], outputs=[output_detailed])
+    submit_button.click(generate_tokens_table, inputs=[textbox], outputs=[output_tokens])
+if __name__ == '__main__':
+    with gr.Blocks(analytics_enabled=False) as demo:
+        with gr.Row():
+            gr.Markdown(
+                """
+                # Telugu Tokenizer Sentence Inspector & Evaluation.
+                ### Using Two SUTRA Tokenizer as Baseline.
+                #### Paper :
+                ### [EVALUATING TOKENIZER PERFORMANCE OF LARGE LANGUAGE MODELS ACROSS OFFICIAL INDIAN LANGUAGES](https://arxiv.org/pdf/2411.12240v2) \n
+                ### [PERFORMANCE EVALUATION OF TOKENIZERS IN LARGE LANGUAGE MODELS FOR THE ASSAMESE LANGUAGE](https://arxiv.org/pdf/2410.03718)
+                ####
+                """
+            )
+        with gr.Row():
+            gr.TabbedInterface(
+                interface_list=[sutra_tokenize],
+                tab_names=["Tokenize Text"]
+            )
+demo.queue(default_concurrency_limit=5).launch(
+    server_name="0.0.0.0",
+    allowed_paths=["/"],
+)