WebTokenizer

Sleeping

File size: 2,565 Bytes

98985f3
 
 
bbc0512
f3369dd
a17b6c0
 
 
72a73bd
 
 
a17b6c0
 
 
 
 
 
 
 
 
 
 
 
9f66134
c9f41a3
a17b6c0
 
8db2f29
e3dfd55
 
 
 
 
 
 
 
 
a17b6c0
 
 
 
 
 
98985f3
2789d18
 
b084026
9c5a3bd
5b93c54
e363f01
 
 
 
 
9f66134
c9f41a3
e363f01
082f539
e363f01

from transformers import AutoTokenizer
import gradio as gr


def tokenize(input_text):
    llama_tokens = len(
        llama_tokenizer(input_text, add_special_tokens=True)["input_ids"]
    )
    llama3_tokens = len(
        llama3_tokenizer(input_text, add_special_tokens=True)["input_ids"]
    )
    mistral_tokens = len(
        mistral_tokenizer(input_text, add_special_tokens=True)["input_ids"]
    )
    gpt2_tokens = len(gpt2_tokenizer(input_text, add_special_tokens=True)["input_ids"])
    gpt_neox_tokens = len(
        gpt_neox_tokenizer(input_text, add_special_tokens=True)["input_ids"]
    )
    falcon_tokens = len(
        falcon_tokenizer(input_text, add_special_tokens=True)["input_ids"]
    )
    phi2_tokens = len(phi2_tokenizer(input_text, add_special_tokens=True)["input_ids"])
    t5_tokens = len(t5_tokenizer(input_text, add_special_tokens=True)["input_ids"])
    gemma_tokens = len(gemma_tokenizer(input_text, add_special_tokens=True)["input_ids"])
    command_r_tokens = len(command_r_tokenizer(input_text, add_special_tokens=True)["input_ids"])

    results = {
        "LLaMa-1/LLaMa-2": llama_tokens,
        "LLaMa-3": llama3_tokens,
        "Mistral": mistral_tokens,
        "GPT-2/GPT-J": gpt2_tokens,
        "GPT-NeoX": gpt_neox_tokens,
        "Falcon": falcon_tokens,
        "Phi": phi2_tokens,
        "T5": t5_tokens,
        "Gemma": gemma_tokens,
        "Command-R": command_r_tokens
    }

    # Sort the results in descending order based on token length
    sorted_results = sorted(results.items(), key=lambda x: x[1], reverse=True)

    return "\n".join([f"{model}: {tokens}" for model, tokens in sorted_results])


if __name__ == "__main__":
    llama_tokenizer = AutoTokenizer.from_pretrained("TheBloke/Llama-2-7B-fp16")
    llama3_tokenizer = AutoTokenizer.from_pretrained("unsloth/llama-3-8b")
    mistral_tokenizer = AutoTokenizer.from_pretrained("unsloth/Mistral-7B-v0.2")
    gpt2_tokenizer = AutoTokenizer.from_pretrained("gpt2")
    gpt_neox_tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
    falcon_tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-7b")
    phi2_tokenizer = AutoTokenizer.from_pretrained("microsoft/phi-2")
    t5_tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-xxl")
    gemma_tokenizer = AutoTokenizer.from_pretrained("alpindale/gemma-2b")
    command_r_tokenizer = AutoTokenizer.from_pretrained("CohereForAI/c4ai-command-r-plus")

    iface = gr.Interface(fn=tokenize, inputs=gr.Textbox(label="Input Text", lines=10), outputs="text")
    iface.launch()