leaderboard2

Sleeping

hSterz commited on Sep 24, 2024

Commit

b2b2434

1 Parent(s): 0318f2d

F

Files changed (2) hide show

app.py CHANGED Viewed

@@ -99,7 +99,7 @@ with demo:
         with gr.TabItem("🏅 1 Correct", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
-        with gr.TabItem("🏅 1 Correct with Option Variations", elem_id="llm-benchmark-tab-table", id=4):
             leaderboard = init_leaderboard(LEADERBOARD_DF_1_CORRECT_VAR)
         with gr.TabItem("🏅 N Correct", elem_id="llm-benchmark-tab-table", id=1):

         with gr.TabItem("🏅 1 Correct", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
+        with gr.TabItem("🏅 1 Correct + Variations", elem_id="llm-benchmark-tab-table", id=4):
             leaderboard = init_leaderboard(LEADERBOARD_DF_1_CORRECT_VAR)
         with gr.TabItem("🏅 N Correct", elem_id="llm-benchmark-tab-table", id=1):

src/display/utils.py CHANGED Viewed

@@ -24,6 +24,7 @@ class ColumnContent:
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
@@ -35,8 +36,6 @@ for task in Detail_Tasks:
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
-auto_eval_column_dict.append(["output_format", ColumnContent, ColumnContent("Output Format", "str", True)])
 auto_eval_column_dict.append(["dataset_version", ColumnContent, ColumnContent("Task Version", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks

 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
+auto_eval_column_dict.append(["output_format", ColumnContent, ColumnContent("Output Format", "str", True)])
 #Scores
 auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
 auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 auto_eval_column_dict.append(["dataset_version", ColumnContent, ColumnContent("Task Version", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks