Spaces:

uonlp
/

open_multilingual_llm_leaderboard

Running

App Files Files Community

laiviet commited on Jun 4, 2023

Commit

8c2ee0f

•

1 Parent(s): 13a280b

Add search capability and language names

Browse files

Files changed (3) hide show

app.py +70 -6
content.py +1 -1
css.py +13 -0

app.py CHANGED Viewed

@@ -2,8 +2,10 @@ import os
 import json
 import glob
 from collections import defaultdict
 import gradio as gr
 from content import *
 import glob
 ARC = "arc"
@@ -14,6 +16,42 @@ BENCHMARKS = [ARC, HELLASWAG, MMLU, TRUTHFULQA]
 METRICS = ["acc_norm", "acc_norm", "acc_norm", "mc2"]
 def collect_results():
     performance_dict = defaultdict(dict)
@@ -52,6 +90,7 @@ def collect_results():
 def get_leaderboard_df(performance_dict, pretrained_models):
     df = list()
     for (pretrained, lang), perfs in performance_dict.items():
         arc_perf = perfs.get(ARC, 0.0)
         hellaswag_perf = perfs.get(HELLASWAG, 0.0)
         mmlu_perf = perfs.get(MMLU, 0.0)
@@ -60,26 +99,40 @@ def get_leaderboard_df(performance_dict, pretrained_models):
         if arc_perf * hellaswag_perf * mmlu_perf * truthfulqa_perf == 0:
             continue
         avg = round((arc_perf + hellaswag_perf + mmlu_perf + truthfulqa_perf) / 4, 1)
-        row = [pretrained, lang, avg, arc_perf, hellaswag_perf, mmlu_perf, truthfulqa_perf]
         df.append(row)
     return df
 MODEL_COL = "Model"
 LANG_COL = "Language"
 AVERAGE_COL = "Average"
 ARC_COL = "ARC (25-shot)"
 HELLASWAG_COL = "HellaSwag (10-shot)️"
 MMLU_COL = "MMLU (5-shot)"
 TRUTHFULQA_COL = "TruthfulQA (0-shot)"
-COLS = [MODEL_COL, LANG_COL, AVERAGE_COL, ARC_COL, HELLASWAG_COL, MMLU_COL, TRUTHFULQA_COL]
-TYPES = ["str", "str", "number", "number", "number", "number", "number"]
 args = collect_results()
-leaderboard_df = get_leaderboard_df(*args)
-demo = gr.Blocks()
 with demo:
     gr.HTML(TITLE)
     gr.Markdown(INTRO_TEXT, elem_classes="markdown-text")
@@ -91,13 +144,24 @@ with demo:
         )
         leaderboard_table = gr.components.Dataframe(
-            value=leaderboard_df,
             headers=COLS,
             datatype=TYPES,
             max_rows=5,
             elem_id="leaderboard-table",
         )
     gr.Markdown(CREDIT, elem_classes="markdown-text")
     gr.Markdown(CITATION, elem_classes="markdown-text")

 import json
 import glob
 from collections import defaultdict
+import pandas as pd
 import gradio as gr
 from content import *
+from css import *
 import glob
 ARC = "arc"
 METRICS = ["acc_norm", "acc_norm", "acc_norm", "mc2"]
+LANGS = 'ar,bn,ca,da,de,es,eu,fr,gu,hi,hr,hu,hy,id,it,kn,ml,mr,ne,nl,pt,ro,ru,sk,sr,sv,ta,te,uk,vi,zh'.split(',')
+LANG_NAME = {
+    'ar': 'Arabic',
+    'bn': 'Bengali',
+    'ca': 'Catalan',
+    'da': 'Danish',
+    'de': 'German',
+    'es': 'Spanish',
+    'eu': 'Basque',
+    'fr': 'French',
+    'gu': 'Gujarati',
+    'hi': 'Hindi',
+    'hr': 'Croatian',
+    'hu': 'Hungarian',
+    'hy': 'Armenian',
+    'id': 'Indonesian',
+    'it': 'Italian',
+    'kn': 'Kannada',
+    'ml': 'Malayalam',
+    'mr': 'Marathi',
+    'ne': 'Nepali',
+    'nl': 'Dutch',
+    'pt': 'Portuguese',
+    'ro': 'Romanian',
+    'ru': 'Russian',
+    'sk': 'Slovak',
+    'sr': 'Serbian',
+    'sv': 'Swedish',
+    'ta': 'Tamil',
+    'te': 'Telugu',
+    'uk': 'Ukrainian',
+    'vi': 'Vietnamese',
+    'zh': 'Chinese'
+}
 def collect_results():
     performance_dict = defaultdict(dict)
 def get_leaderboard_df(performance_dict, pretrained_models):
     df = list()
     for (pretrained, lang), perfs in performance_dict.items():
+        lang_name = LANG_NAME[lang]
         arc_perf = perfs.get(ARC, 0.0)
         hellaswag_perf = perfs.get(HELLASWAG, 0.0)
         mmlu_perf = perfs.get(MMLU, 0.0)
         if arc_perf * hellaswag_perf * mmlu_perf * truthfulqa_perf == 0:
             continue
         avg = round((arc_perf + hellaswag_perf + mmlu_perf + truthfulqa_perf) / 4, 1)
+        notes = ' '.join([pretrained, lang_name, lang])
+        row = [pretrained, lang_name, lang, avg, arc_perf, hellaswag_perf, mmlu_perf, truthfulqa_perf, notes]
         df.append(row)
+    df = pd.DataFrame.from_records(df, columns=COLS)
+    df = df.sort_values(by=[AVERAGE_COL], ascending=False)
+    df = df[COLS]
     return df
+def search_table(df, query):
+    filtered_df = df[df[NOTES_COL].str.contains(query, case=False)]
+    return filtered_df
 MODEL_COL = "Model"
 LANG_COL = "Language"
+CODE_COL = "Code"
 AVERAGE_COL = "Average"
 ARC_COL = "ARC (25-shot)"
 HELLASWAG_COL = "HellaSwag (10-shot)️"
 MMLU_COL = "MMLU (5-shot)"
 TRUTHFULQA_COL = "TruthfulQA (0-shot)"
+NOTES_COL = "Notes"  # For search only
+COLS = [MODEL_COL, LANG_COL, CODE_COL, AVERAGE_COL, ARC_COL, HELLASWAG_COL, MMLU_COL, TRUTHFULQA_COL, NOTES_COL]
+TYPES = ["str", "str", "str", "number", "number", "number", "number", "number", "str"]
 args = collect_results()
+original_df = get_leaderboard_df(*args)
+demo = gr.Blocks(css=CUSTOM_CSS)
 with demo:
     gr.HTML(TITLE)
     gr.Markdown(INTRO_TEXT, elem_classes="markdown-text")
         )
         leaderboard_table = gr.components.Dataframe(
+            value=original_df,
             headers=COLS,
             datatype=TYPES,
             max_rows=5,
             elem_id="leaderboard-table",
         )
+        # # Dummy leaderboard for handling the case when the user uses backspace key
+        hidden_leaderboard_table_for_search = gr.components.Dataframe(
+            value=original_df, headers=COLS, datatype=TYPES, max_rows=5, visible=False
+        )
+        search_bar.change(
+            search_table,
+            [hidden_leaderboard_table_for_search, search_bar],
+            leaderboard_table,
+        )
     gr.Markdown(CREDIT, elem_classes="markdown-text")
     gr.Markdown(CITATION, elem_classes="markdown-text")

content.py CHANGED Viewed

@@ -3,7 +3,7 @@ TITLE = '<h1 align="center" id="space-title">Open Multilingual LLM Evaluation Le
 INTRO_TEXT = f"""
 ## About
-This leaderboard shows the performance of pretrained models in 29 languages on four benchmarks:
 - <a href="https://arxiv.org/abs/1803.05457" target="_blank">  AI2 Reasoning Challenge </a> (25-shot)
 - <a href="https://arxiv.org/abs/1905.07830" target="_blank">  HellaSwag </a> (10-shot)

 INTRO_TEXT = f"""
 ## About
+This leaderboard shows the performance of pretrained models in 29 languages including Arabic, Armenian, Basque, Bengali, Catalan, Chinese, Croatian, Danish, Dutch, French, German, Gujarati, Hindi, Hungarian, Indonesian, Italian, Kannada, Malayalam, Marathi, Nepali, Portuguese, Romanian, Russian, Serbian, Slovak, Spanish, Swedish, Tamil, Telugu, Ukrainian, and Vietnameseon four benchmarks:
 - <a href="https://arxiv.org/abs/1803.05457" target="_blank">  AI2 Reasoning Challenge </a> (25-shot)
 - <a href="https://arxiv.org/abs/1905.07830" target="_blank">  HellaSwag </a> (10-shot)

css.py ADDED Viewed

	@@ -0,0 +1,13 @@

+CUSTOM_CSS= """
+/* Hides the final column */
+table td:last-child,
+table th:last-child {
+    display: none;
+}
+# table td:first-child,
+# table th:first-child {
+#     max-width: 400px;
+#     overflow: auto;
+#     white-space: nowrap;
+# }
+"""