Spaces:

atlasia
/

darija-chatbot-arena

Running

App Files Files Community

nouamanetazi HF staff commited on 12 days ago

Commit

84b862d

•

1 Parent(s): a758df3

add tie

Browse files

Files changed (5) hide show

app/db.py +1 -0
app/init.py +1 -1
app/ui_battle.py +14 -9
app/vote.py +41 -9
scripts/view_db.py +11 -4

app/db.py CHANGED Viewed

@@ -53,6 +53,7 @@ def create_db():
             prompt TEXT,
             chosen_response TEXT,
             rejected_response TEXT,
             timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP
         );
     ''')

             prompt TEXT,
             chosen_response TEXT,
             rejected_response TEXT,
+            is_tie BOOLEAN DEFAULT FALSE,
             timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP
         );
     ''')

app/init.py CHANGED Viewed

@@ -6,7 +6,7 @@ import os
 scheduler = None
-if SYNC_DB:
     download_db()
     # Sync local DB with remote repo every 5 minute (only if a change is detected)
     scheduler = CommitScheduler(

 scheduler = None
+if False:
     download_db()
     # Sync local DB with remote repo every 5 minute (only if a change is detected)
     scheduler = CommitScheduler(

app/ui_battle.py CHANGED Viewed

@@ -5,11 +5,6 @@ from .messages import *
 from .llm import *
 import random
-def disable():
-    return [gr.update(interactive=False), gr.update(interactive=False)]
-def enable():
-    return [gr.update(interactive=True), gr.update(interactive=True)]
 with gr.Blocks() as battle:
     battle_useridstate = gr.State()
@@ -66,6 +61,8 @@ with gr.Blocks() as battle:
                     visible=False
                 )
     def generate_responses(prompt):
         if len(prompt.strip()) < MIN_PROMPT_LENGTH:
             raise gr.Error(f"Prompt must be at least {MIN_PROMPT_LENGTH} characters")
@@ -78,11 +75,12 @@ with gr.Blocks() as battle:
         return [
             resp_a,  # response1
             resp_b,  # response2
-            model_a,  # model1_name (actual model identifier)
-            model_b,  # model2_name (actual model identifier)
             gr.update(visible=True),  # response_row
             gr.update(interactive=True, visible=True),  # a_better
             gr.update(interactive=True, visible=True),  # b_better
             gr.update(visible=False),  # model1_name visibility
             gr.update(visible=False)   # model2_name visibility
         ]
@@ -99,6 +97,7 @@ with gr.Blocks() as battle:
             response_row,
             a_better,
             b_better,
             model1_name,
             model2_name
         ]
@@ -107,13 +106,19 @@ with gr.Blocks() as battle:
     a_better.click(
         fn=a_is_better,
         inputs=[model1_name, model2_name, battle_useridstate, prompt, response1, response2],
-        outputs=[a_better, b_better, model1_name, model2_name]
     )
     b_better.click(
         fn=b_is_better,
         inputs=[model1_name, model2_name, battle_useridstate, prompt, response1, response2],
-        outputs=[a_better, b_better, model1_name, model2_name]
     )
     def get_random_prompt():

 from .llm import *
 import random
 with gr.Blocks() as battle:
     battle_useridstate = gr.State()
                     visible=False
                 )
+    tie_button = gr.Button("Tie", variant='secondary', visible=False)
     def generate_responses(prompt):
         if len(prompt.strip()) < MIN_PROMPT_LENGTH:
             raise gr.Error(f"Prompt must be at least {MIN_PROMPT_LENGTH} characters")
         return [
             resp_a,  # response1
             resp_b,  # response2
+            model_a,  # model1_name
+            model_b,  # model2_name
             gr.update(visible=True),  # response_row
             gr.update(interactive=True, visible=True),  # a_better
             gr.update(interactive=True, visible=True),  # b_better
+            gr.update(interactive=True, visible=True),  # tie_button
             gr.update(visible=False),  # model1_name visibility
             gr.update(visible=False)   # model2_name visibility
         ]
             response_row,
             a_better,
             b_better,
+            tie_button,
             model1_name,
             model2_name
         ]
     a_better.click(
         fn=a_is_better,
         inputs=[model1_name, model2_name, battle_useridstate, prompt, response1, response2],
+        outputs=[a_better, b_better, tie_button, model1_name, model2_name]
     )
     b_better.click(
         fn=b_is_better,
         inputs=[model1_name, model2_name, battle_useridstate, prompt, response1, response2],
+        outputs=[a_better, b_better, tie_button, model1_name, model2_name]
+    )
+    tie_button.click(
+        fn=tie_vote,
+        inputs=[model1_name, model2_name, battle_useridstate, prompt, response1, response2],
+        outputs=[a_better, b_better, tie_button, model1_name, model2_name]
     )
     def get_random_prompt():

app/vote.py CHANGED Viewed

@@ -56,9 +56,9 @@ def a_is_better(model1, model2, userid, prompt="", response1="", response2=""):
         print("Establishing database connection for voting.")
         conn = get_db()
         cursor = conn.cursor()
-        print(f"Inserting votelog: username={userid}, chosen={model1}, rejected={model2}, prompt={prompt}, chosen_response={response1}, rejected_response={response2}")
-        cursor.execute('INSERT INTO votelog (username, chosen, rejected, prompt, chosen_response, rejected_response) VALUES (?, ?, ?, ?, ?, ?)',
-                      (str(userid), model1, model2, prompt, response1, response2))
         if scheduler:
             print("Scheduler detected. Acquiring scheduler lock before committing.")
             with scheduler.lock:
@@ -88,9 +88,9 @@ def b_is_better(model1, model2, userid, prompt="", response1="", response2=""):
         print("Establishing database connection for voting.")
         conn = get_db()
         cursor = conn.cursor()
-        print(f"Inserting votelog: username={userid}, chosen={model2}, rejected={model1}, prompt={prompt}, chosen_response={response2}, rejected_response={response1}")
-        cursor.execute('INSERT INTO votelog (username, chosen, rejected, prompt, chosen_response, rejected_response) VALUES (?, ?, ?, ?, ?, ?)',
-                      (str(userid), model2, model1, prompt, response2, response1))
         if scheduler:
             print("Scheduler detected. Acquiring scheduler lock before committing.")
             with scheduler.lock:
@@ -108,16 +108,48 @@ def b_is_better(model1, model2, userid, prompt="", response1="", response2=""):
     print("Reloading UI after voting.")
     return reload(model1, model2, userid, chose_b=True)
 # Reload
-def reload(chosenmodel1=None, chosenmodel2=None, userid=None, chose_a=False, chose_b=False):
     out = [
         gr.update(interactive=False),  # a_better
         gr.update(interactive=False),  # b_better
-        gr.update(value=f"Selected: {chosenmodel1}" if chose_a else chosenmodel1,
                  interactive=False,
                  visible=True),  # model1_name
-        gr.update(value=f"Selected: {chosenmodel2}" if chose_b else chosenmodel2,
                  interactive=False,
                  visible=True)   # model2_name
     ]

         print("Establishing database connection for voting.")
         conn = get_db()
         cursor = conn.cursor()
+        print(f"Inserting votelog: username={userid}, chosen={model1}, rejected={model2}, is_tie=False")
+        cursor.execute('INSERT INTO votelog (username, chosen, rejected, prompt, chosen_response, rejected_response, is_tie) VALUES (?, ?, ?, ?, ?, ?, ?)',
+                      (str(userid), model1, model2, prompt, response1, response2, False))
         if scheduler:
             print("Scheduler detected. Acquiring scheduler lock before committing.")
             with scheduler.lock:
         print("Establishing database connection for voting.")
         conn = get_db()
         cursor = conn.cursor()
+        print(f"Inserting votelog: username={userid}, chosen={model2}, rejected={model1}, is_tie=False")
+        cursor.execute('INSERT INTO votelog (username, chosen, rejected, prompt, chosen_response, rejected_response, is_tie) VALUES (?, ?, ?, ?, ?, ?, ?)',
+                      (str(userid), model2, model1, prompt, response2, response1, False))
         if scheduler:
             print("Scheduler detected. Acquiring scheduler lock before committing.")
             with scheduler.lock:
     print("Reloading UI after voting.")
     return reload(model1, model2, userid, chose_b=True)
+def tie_vote(model1, model2, userid, prompt="", response1="", response2=""):
+    print("Processing vote: Tie.")
+    print(f"Comparing models: {model1} vs {model2}")
+    if not model1 in AVAILABLE_MODELS.keys() and not model1 in AVAILABLE_MODELS.values():
+        print(f"Model '{model1}' is not available. Raising error.")
+        raise gr.Error('Sorry, please try voting again.')
+    userid = mkuuid(userid)
+    print(f"Generated UUID for user: {userid}")
+    # Log the tie vote
+    print("Establishing database connection for tie vote.")
+    conn = get_db()
+    cursor = conn.cursor()
+    print(f"Inserting votelog: username={userid}, chosen={model1}, rejected={model2}, is_tie=True")
+    cursor.execute('INSERT INTO votelog (username, chosen, rejected, prompt, chosen_response, rejected_response, is_tie) VALUES (?, ?, ?, ?, ?, ?, ?)',
+                  (str(userid), model1, model2, prompt, response1, response2, True))
+    if scheduler:
+        with scheduler.lock:
+            conn.commit()
+    else:
+        conn.commit()
+    cursor.close()
+    # Upvote both models
+    print(f"Upvoting both models in tie: {model1} and {model2}")
+    upvote_model(model1, str(userid), prompt, response1)
+    upvote_model(model2, str(userid), prompt, response2)
+    print("Reloading UI after voting.")
+    return reload(model1, model2, userid, is_tie=True)
 # Reload
+def reload(chosenmodel1=None, chosenmodel2=None, userid=None, chose_a=False, chose_b=False, is_tie=False):
     out = [
         gr.update(interactive=False),  # a_better
         gr.update(interactive=False),  # b_better
+        gr.update(interactive=False),  # tie_button
+        gr.update(value=f"Selected: {chosenmodel1}" if (chose_a or is_tie) else chosenmodel1,
                  interactive=False,
                  visible=True),  # model1_name
+        gr.update(value=f"Selected: {chosenmodel2}" if (chose_b or is_tie) else chosenmodel2,
                  interactive=False,
                  visible=True)   # model2_name
     ]

scripts/view_db.py CHANGED Viewed

@@ -43,11 +43,18 @@ def view_db_content():
     battles_df = pd.read_sql_query("""
         SELECT
             username,
-            chosen as winner,
-            rejected as loser,
             substr(prompt, 1, 50) || '...' as prompt_preview,
-            substr(chosen_response, 1, 50) || '...' as winner_response,
-            substr(rejected_response, 1, 50) || '...' as loser_response,
             datetime(timestamp, 'localtime') as local_time
         FROM votelog
         ORDER BY timestamp DESC

     battles_df = pd.read_sql_query("""
         SELECT
             username,
+            CASE
+                WHEN is_tie THEN 'TIE'
+                ELSE chosen
+            END as winner,
+            CASE
+                WHEN is_tie THEN 'TIE'
+                ELSE rejected
+            END as loser,
             substr(prompt, 1, 50) || '...' as prompt_preview,
+            substr(chosen_response, 1, 50) || '...' as response_a,
+            substr(rejected_response, 1, 50) || '...' as response_b,
+            is_tie,
             datetime(timestamp, 'localtime') as local_time
         FROM votelog
         ORDER BY timestamp DESC