Spaces:

k-mktr
/

gpu-poor-llm-arena

Running

App Files Files Community

k-mktr commited on Oct 21, 2024

Commit

e19f726

verified ·

1 Parent(s): 1bf9780

Improved the score logic

Browse files

We calculate a score for each model using the formula: `score = win_rate * (1 - 1 / (total_battles + 1))`. This formula balances win rate with the number of battles, giving more weight to models that have participated in more battles.

Files changed (1) hide show

app.py +18 -3

app.py CHANGED Viewed

@@ -98,10 +98,8 @@ def record_vote(prompt, left_response, right_response, left_model, right_model,
     result_message = f"""
 🎉 Vote recorded! You're awesome! 🌟
 🔵 In the left corner: {get_human_readable_name(left_model)}
 🔴 In the right corner: {get_human_readable_name(right_model)}
 🏆 And the champion you picked is... {get_human_readable_name(winner)}! 🥇
     """
@@ -116,11 +114,25 @@ def record_vote(prompt, left_response, right_response, left_model, right_model,
 def get_leaderboard():
     battle_results = get_current_leaderboard()
     sorted_results = sorted(
         battle_results.items(),
-        key=lambda x: (x[1]["wins"], -x[1]["losses"]),
         reverse=True
     )
     leaderboard = """
     <style>
         .leaderboard-table {
@@ -150,6 +162,7 @@ def get_leaderboard():
     <tr>
         <th class='rank-column'>Rank</th>
         <th>Model</th>
         <th>Wins</th>
         <th>Losses</th>
         <th>Win Rate</th>
@@ -158,6 +171,7 @@ def get_leaderboard():
         <th>Toughest Opponent</th>
     </tr>
     """
     for index, (model, results) in enumerate(sorted_results, start=1):
         total_battles = results["wins"] + results["losses"]
         win_rate = (results["wins"] / total_battles * 100) if total_battles > 0 else 0
@@ -185,6 +199,7 @@ def get_leaderboard():
         <tr>
             <td class='rank-column'>{rank_display}</td>
             <td>{get_human_readable_name(model)}</td>
             <td>{results['wins']}</td>
             <td>{results['losses']}</td>
             <td>{win_rate:.2f}%</td>

     result_message = f"""
 🎉 Vote recorded! You're awesome! 🌟
 🔵 In the left corner: {get_human_readable_name(left_model)}
 🔴 In the right corner: {get_human_readable_name(right_model)}
 🏆 And the champion you picked is... {get_human_readable_name(winner)}! 🥇
     """
 def get_leaderboard():
     battle_results = get_current_leaderboard()
+    # Calculate scores for each model
+    for model, results in battle_results.items():
+        total_battles = results["wins"] + results["losses"]
+        if total_battles > 0:
+            win_rate = results["wins"] / total_battles
+            # Score formula: win_rate * (1 - 1 / (total_battles + 1))
+            # This gives more weight to models with more battles
+            results["score"] = win_rate * (1 - 1 / (total_battles + 1))
+        else:
+            results["score"] = 0
+    # Sort results by score, then by total battles
     sorted_results = sorted(
         battle_results.items(),
+        key=lambda x: (x[1]["score"], x[1]["wins"] + x[1]["losses"]),
         reverse=True
     )
     leaderboard = """
     <style>
         .leaderboard-table {
     <tr>
         <th class='rank-column'>Rank</th>
         <th>Model</th>
+        <th>Score</th>
         <th>Wins</th>
         <th>Losses</th>
         <th>Win Rate</th>
         <th>Toughest Opponent</th>
     </tr>
     """
     for index, (model, results) in enumerate(sorted_results, start=1):
         total_battles = results["wins"] + results["losses"]
         win_rate = (results["wins"] / total_battles * 100) if total_battles > 0 else 0
         <tr>
             <td class='rank-column'>{rank_display}</td>
             <td>{get_human_readable_name(model)}</td>
+            <td>{results['score']:.4f}</td>
             <td>{results['wins']}</td>
             <td>{results['losses']}</td>
             <td>{win_rate:.2f}%</td>