Spaces:

openGPT-X
/

european-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

KlaudiaTH commited on Sep 14, 2024

Commit

a200cc8

1 Parent(s): 8fcff38

Reformatted

Browse files

Files changed (3) hide show

app.py +6 -13
core.py +9 -4
style.py +2 -6

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 import core as core
-from style import CSS, T_SYMBOLS, TITLE, LANG_SYMBOLS
 demo = gr.Blocks(css=CSS)
 with demo:
@@ -38,7 +38,7 @@ with demo:
                     )
                 with gr.Row():
                     langs_bar = gr.CheckboxGroup(
-                        choices=[(LANG_SYMBOLS.get(l,l),l) for l in core.languages_list],
                         value=core.languages_list,
                         label="Select languages to average over",
                         elem_id="column-select",
@@ -52,9 +52,7 @@ with demo:
                             size="sm",
                             scale=1,
                         )
-                        select = gr.Button(
-                            value="Select all languages", size="sm", scale=1
-                        )
                         def update_bar(selected_tab):
                             if selected_tab in [0, 1]:
@@ -88,14 +86,10 @@ with demo:
                         label="Select evaluation type",
                         scale=29,
                     )
-                    clear = gr.ClearButton(
-                        shown_tasks, value="Deselect all tasks", size="sm", scale=21
-                    )
         with gr.Tabs(elem_classes="tab-buttons") as tabs:
-            with gr.TabItem(
-                "🏅 LLM accuracy benchmark", elem_id="llm-benchmark-tab-table-acc", id=0
-            ) as acc:
                 leaderboard_table = gr.Dataframe()
             with gr.TabItem(
                 "🌐 LLM translation benchmark",
@@ -106,7 +100,7 @@ with demo:
         demo.load(
             core.update_task_groups_and_fewshot,
-            [gr.State(value=0), model_types, langs_bar,fewshot],
             [shown_tasks, fewshot, selected_tab, model_types, langs_bar],
         )
         fewshot.change(
@@ -142,7 +136,6 @@ with demo:
                 leaderboard_table_misc,
             )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,

 import gradio as gr
 import core as core
+from style import CSS, LANG_SYMBOLS, T_SYMBOLS, TITLE
 demo = gr.Blocks(css=CSS)
 with demo:
                     )
                 with gr.Row():
                     langs_bar = gr.CheckboxGroup(
+                        choices=[(LANG_SYMBOLS.get(l, l), l) for l in core.languages_list],
                         value=core.languages_list,
                         label="Select languages to average over",
                         elem_id="column-select",
                             size="sm",
                             scale=1,
                         )
+                        select = gr.Button(value="Select all languages", size="sm", scale=1)
                         def update_bar(selected_tab):
                             if selected_tab in [0, 1]:
                         label="Select evaluation type",
                         scale=29,
                     )
+                    clear = gr.ClearButton(shown_tasks, value="Deselect all tasks", size="sm", scale=21)
         with gr.Tabs(elem_classes="tab-buttons") as tabs:
+            with gr.TabItem("🏅 LLM accuracy benchmark", elem_id="llm-benchmark-tab-table-acc", id=0) as acc:
                 leaderboard_table = gr.Dataframe()
             with gr.TabItem(
                 "🌐 LLM translation benchmark",
         demo.load(
             core.update_task_groups_and_fewshot,
+            [gr.State(value=0), model_types, langs_bar, fewshot],
             [shown_tasks, fewshot, selected_tab, model_types, langs_bar],
         )
         fewshot.change(
                 leaderboard_table_misc,
             )
     gr.Blocks.load(
         block=demo,
         fn=core.update_df,

core.py CHANGED Viewed

@@ -7,7 +7,7 @@ import pandas as pd
 from datasets import load_dataset
 import style
-from style import T_SYMBOLS, LANG_SYMBOLS
 ZERO_SHOT_ONLY = ["BELEBELE"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
@@ -115,7 +115,7 @@ def update_df(
     # aggregate results over languages per task
     df = aggregate_langs(df, tasks, langs)
-    df = df.sort_values(by='Average', ascending=False)
     # filter models by search bar and model type
     df = search_model(df, model_query)
@@ -127,7 +127,12 @@ def update_df(
         return sort_cols(df, fewshot)
-def update_task_groups_and_fewshot(current_selected_tab: int, model_types, langs_bar, is_fewshot_current: bool = False, ):
     selected_task_type = get_selected_task_type(current_selected_tab)
     available_tasks = get_available_task_groups(selected_task_type, is_fewshot_current)
     new_selected_tasks = available_tasks.copy()
@@ -159,7 +164,7 @@ def update_task_groups_and_fewshot(current_selected_tab: int, model_types, langs
             (f"Chat {T_SYMBOLS['chat']}", T_SYMBOLS["chat"]),
         ],
         value=list(T_SYMBOLS.values()),
-        interactive=True
     )
     langs_bar = gr.CheckboxGroup(
         choices=[(LANG_SYMBOLS.get(l, l), l) for l in languages_list],

 from datasets import load_dataset
 import style
+from style import LANG_SYMBOLS, T_SYMBOLS
 ZERO_SHOT_ONLY = ["BELEBELE"]
 FEW_SHOT_ONLY = ["GSM8K", "TruthfulQA"]
     # aggregate results over languages per task
     df = aggregate_langs(df, tasks, langs)
+    df = df.sort_values(by="Average", ascending=False)
     # filter models by search bar and model type
     df = search_model(df, model_query)
         return sort_cols(df, fewshot)
+def update_task_groups_and_fewshot(
+    current_selected_tab: int,
+    model_types,
+    langs_bar,
+    is_fewshot_current: bool = False,
+):
     selected_task_type = get_selected_task_type(current_selected_tab)
     available_tasks = get_available_task_groups(selected_task_type, is_fewshot_current)
     new_selected_tasks = available_tasks.copy()
             (f"Chat {T_SYMBOLS['chat']}", T_SYMBOLS["chat"]),
         ],
         value=list(T_SYMBOLS.values()),
+        interactive=True,
     )
     langs_bar = gr.CheckboxGroup(
         choices=[(LANG_SYMBOLS.get(l, l), l) for l in languages_list],

style.py CHANGED Viewed

@@ -11,10 +11,7 @@ CSS = """
 }
 """
-T_SYMBOLS = {
-    "pretrained": "🟢",
-    "chat": "💬"
-}
 LANG_SYMBOLS = {
     "BG": "🇧🇬 BG",
@@ -37,6 +34,5 @@ LANG_SYMBOLS = {
     "RO": "🇷🇴 RO",
     "SK": "🇸🇰 SK",
     "SL": "🇸🇮 SL",
-    "SV": "🇸🇪 SV"
 }

 }
 """
+T_SYMBOLS = {"pretrained": "🟢", "chat": "💬"}
 LANG_SYMBOLS = {
     "BG": "🇧🇬 BG",
     "RO": "🇷🇴 RO",
     "SK": "🇸🇰 SK",
     "SL": "🇸🇮 SL",
+    "SV": "🇸🇪 SV",
 }