Spaces:

MohamedRashad
/

Arabic-Chatbot-Arena

Running on Zero

App Files Files Community

MohamedRashad commited on Aug 21

Commit

2f1457b

•

1 Parent(s): f5e1c16

Refactor model ID handling in app.py and update requirements.txt

Browse files

Files changed (1) hide show

app.py +9 -7

app.py CHANGED Viewed

@@ -8,13 +8,13 @@ subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENT
 models_available = [
     "MohamedRashad/Arabic-Orpo-Llama-3-8B-Instruct",
-    "silma-ai/SILMA-9B-Instruct-v0.1.1",
     "inceptionai/jais-adapted-7b-chat",
     # "inceptionai/jais-adapted-13b-chat",
     "inceptionai/jais-family-6p7b-chat",
     # "inceptionai/jais-family-13b-chat",
     "NousResearch/Meta-Llama-3.1-8B-Instruct",
-    "unsloth/gemma-2-9b-it",
     "NousResearch/Meta-Llama-3-8B-Instruct",
 ]
@@ -23,6 +23,7 @@ tokenizer_b, model_b = None, None
 def load_model_a(model_id):
     global tokenizer_a, model_a
     tokenizer_a = AutoTokenizer.from_pretrained(model_id)
     print(f"model A: {tokenizer_a.eos_token}")
     try:
@@ -45,6 +46,7 @@ def load_model_a(model_id):
 def load_model_b(model_id):
     global tokenizer_b, model_b
     tokenizer_b = AutoTokenizer.from_pretrained(model_id)
     print(f"model B: {tokenizer_b.eos_token}")
     try:
@@ -103,7 +105,8 @@ def generate_both(system_prompt, input_text, chatbot_a, chatbot_b, max_new_token
         streamer=text_streamer_a,
         max_new_tokens=max_new_tokens,
         pad_token_id=tokenizer_a.eos_token_id,
-        do_sample=True if temperature > 0 else False,
         temperature=temperature,
         top_p=top_p,
         repetition_penalty=repetition_penalty,
@@ -113,7 +116,7 @@ def generate_both(system_prompt, input_text, chatbot_a, chatbot_b, max_new_token
         streamer=text_streamer_b,
         max_new_tokens=max_new_tokens,
         pad_token_id=tokenizer_b.eos_token_id,
-        do_sample=True if temperature > 0 else False,
         temperature=temperature,
         top_p=top_p,
         repetition_penalty=repetition_penalty,
@@ -162,7 +165,6 @@ def clear():
     return [], []
 arena_notes = """Important Notes:
-- `gemma-2` model doesn't have system prompt, so it's make the system prompt field empty for the model to work.
 - Sometimes an error may occur when generating the response, in this case, please try again.
 """
@@ -184,8 +186,8 @@ with gr.Blocks(title="Arabic-ORPO-Llama3") as demo:
             input_text = gr.Textbox(lines=1, label="", value="مرحبا", rtl=True, text_align="right", scale=3, show_copy_button=True)
         with gr.Accordion(label="Generation Configurations", open=False):
             max_new_tokens = gr.Slider(minimum=128, maximum=4096, value=2048, label="Max New Tokens", step=128)
-            temperature = gr.Slider(minimum=0.0, maximum=1.0, value=0.2, label="Temperature", step=0.01)
-            top_p = gr.Slider(minimum=0.0, maximum=1.0, value=0.9, label="Top-p", step=0.01)
             repetition_penalty = gr.Slider(minimum=0.1, maximum=2.0, value=1.1, label="Repetition Penalty", step=0.1)
     model_dropdown_a.change(load_model_a, inputs=[model_dropdown_a], outputs=[chatbot_a])

 models_available = [
     "MohamedRashad/Arabic-Orpo-Llama-3-8B-Instruct",
+    "silma-ai/SILMA-9B-Instruct-v1.0",
     "inceptionai/jais-adapted-7b-chat",
     # "inceptionai/jais-adapted-13b-chat",
     "inceptionai/jais-family-6p7b-chat",
     # "inceptionai/jais-family-13b-chat",
     "NousResearch/Meta-Llama-3.1-8B-Instruct",
+    # "unsloth/gemma-2-9b-it",
     "NousResearch/Meta-Llama-3-8B-Instruct",
 ]
 def load_model_a(model_id):
     global tokenizer_a, model_a
+    del tokenizer_a, model_a
     tokenizer_a = AutoTokenizer.from_pretrained(model_id)
     print(f"model A: {tokenizer_a.eos_token}")
     try:
 def load_model_b(model_id):
     global tokenizer_b, model_b
+    del tokenizer_b, model_b
     tokenizer_b = AutoTokenizer.from_pretrained(model_id)
     print(f"model B: {tokenizer_b.eos_token}")
     try:
         streamer=text_streamer_a,
         max_new_tokens=max_new_tokens,
         pad_token_id=tokenizer_a.eos_token_id,
+        do_sample=False,
+        # do_sample=True if temperature > 0 else False,
         temperature=temperature,
         top_p=top_p,
         repetition_penalty=repetition_penalty,
         streamer=text_streamer_b,
         max_new_tokens=max_new_tokens,
         pad_token_id=tokenizer_b.eos_token_id,
+        do_sample=False,
         temperature=temperature,
         top_p=top_p,
         repetition_penalty=repetition_penalty,
     return [], []
 arena_notes = """Important Notes:
 - Sometimes an error may occur when generating the response, in this case, please try again.
 """
             input_text = gr.Textbox(lines=1, label="", value="مرحبا", rtl=True, text_align="right", scale=3, show_copy_button=True)
         with gr.Accordion(label="Generation Configurations", open=False):
             max_new_tokens = gr.Slider(minimum=128, maximum=4096, value=2048, label="Max New Tokens", step=128)
+            temperature = gr.Slider(minimum=0.0, maximum=1.0, value=0.7, label="Temperature", step=0.01)
+            top_p = gr.Slider(minimum=0.0, maximum=1.0, value=1.0, label="Top-p", step=0.01)
             repetition_penalty = gr.Slider(minimum=0.1, maximum=2.0, value=1.1, label="Repetition Penalty", step=0.1)
     model_dropdown_a.change(load_model_a, inputs=[model_dropdown_a], outputs=[chatbot_a])