Spaces:

SeaEval
/

SeaEval_Leaderboard

Running

App Files Files Community

binwang commited on May 11

Commit

ecb9582

•

1 Parent(s): 18bbc47

new

Browse files

Files changed (2) hide show

all_results.json +40 -40
app.py +5 -5

all_results.json CHANGED Viewed

@@ -32277,70 +32277,70 @@
             },
             "flores_ind2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.07998569558291352
                 },
                 "prompt_2": {
-                    "bleu_score": 0.08178489772334997
                 },
                 "prompt_3": {
-                    "bleu_score": 0.08148612648063638
                 },
                 "prompt_4": {
-                    "bleu_score": 0.07978071248841677
                 },
                 "prompt_5": {
-                    "bleu_score": 0.08665723913254166
                 }
             },
             "flores_vie2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.06595796158495684
                 },
                 "prompt_2": {
-                    "bleu_score": 0.0659317494666598
                 },
                 "prompt_3": {
-                    "bleu_score": 0.06631225923987717
                 },
                 "prompt_4": {
-                    "bleu_score": 0.06562445607881094
                 },
                 "prompt_5": {
-                    "bleu_score": 0.07261211813311091
                 }
             },
             "flores_zho2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.0502826099860938
                 },
                 "prompt_2": {
-                    "bleu_score": 0.05134705353375384
                 },
                 "prompt_3": {
-                    "bleu_score": 0.051760820535713056
                 },
                 "prompt_4": {
-                    "bleu_score": 0.05136651836443981
                 },
                 "prompt_5": {
-                    "bleu_score": 0.05595680934355571
                 }
             },
             "flores_zsm2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.08113017898863324
                 },
                 "prompt_2": {
-                    "bleu_score": 0.08240154342677156
                 },
                 "prompt_3": {
-                    "bleu_score": 0.08322691501291536
                 },
                 "prompt_4": {
-                    "bleu_score": 0.07956020114017891
                 },
                 "prompt_5": {
-                    "bleu_score": 0.08635159030424207
                 }
             },
             "mmlu": {
@@ -67059,70 +67059,70 @@
             },
             "flores_ind2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.08681388844799684
                 },
                 "prompt_2": {
-                    "bleu_score": 0.0880334958080158
                 },
                 "prompt_3": {
-                    "bleu_score": 0.08805929258706634
                 },
                 "prompt_4": {
-                    "bleu_score": 0.08842607869136156
                 },
                 "prompt_5": {
-                    "bleu_score": 0.08768127846496257
                 }
             },
             "flores_vie2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.07138322514226816
                 },
                 "prompt_2": {
-                    "bleu_score": 0.07471863870389119
                 },
                 "prompt_3": {
-                    "bleu_score": 0.07467792001731594
                 },
                 "prompt_4": {
-                    "bleu_score": 0.0749366075388539
                 },
                 "prompt_5": {
-                    "bleu_score": 0.07514655189733327
                 }
             },
             "flores_zho2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.05903468503840439
                 },
                 "prompt_2": {
-                    "bleu_score": 0.057043614692943063
                 },
                 "prompt_3": {
-                    "bleu_score": 0.05784040342624702
                 },
                 "prompt_4": {
-                    "bleu_score": 0.05727950339564555
                 },
                 "prompt_5": {
-                    "bleu_score": 0.057461566054743354
                 }
             },
             "flores_zsm2eng": {
                 "prompt_1": {
-                    "bleu_score": 0.08624501669818817
                 },
                 "prompt_2": {
-                    "bleu_score": 0.09009103541257128
                 },
                 "prompt_3": {
-                    "bleu_score": 0.09153674138343326
                 },
                 "prompt_4": {
-                    "bleu_score": 0.0910349620847283
                 },
                 "prompt_5": {
-                    "bleu_score": 0.08823269277227647
                 }
             },
             "mmlu": {

             },
             "flores_ind2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.3087387231733152
                 },
                 "prompt_2": {
+                    "bleu_score": 0.3094226547039261
                 },
                 "prompt_3": {
+                    "bleu_score": 0.3061124934874166
                 },
                 "prompt_4": {
+                    "bleu_score": 0.30135340693301044
                 },
                 "prompt_5": {
+                    "bleu_score": 0.30791510943643785
                 }
             },
             "flores_vie2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.24226557595813872
                 },
                 "prompt_2": {
+                    "bleu_score": 0.24374681205197152
                 },
                 "prompt_3": {
+                    "bleu_score": 0.23865746431889961
                 },
                 "prompt_4": {
+                    "bleu_score": 0.24343786296993222
                 },
                 "prompt_5": {
+                    "bleu_score": 0.2496790676198905
                 }
             },
             "flores_zho2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.18741482916807534
                 },
                 "prompt_2": {
+                    "bleu_score": 0.18861522471729936
                 },
                 "prompt_3": {
+                    "bleu_score": 0.1828941675772202
                 },
                 "prompt_4": {
+                    "bleu_score": 0.18500544495397628
                 },
                 "prompt_5": {
+                    "bleu_score": 0.19088057936700595
                 }
             },
             "flores_zsm2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.31040973391193794
                 },
                 "prompt_2": {
+                    "bleu_score": 0.31410450445911836
                 },
                 "prompt_3": {
+                    "bleu_score": 0.30742063457580054
                 },
                 "prompt_4": {
+                    "bleu_score": 0.2954984182513215
                 },
                 "prompt_5": {
+                    "bleu_score": 0.3059634141807576
                 }
             },
             "mmlu": {
             },
             "flores_ind2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.011674358088733964
                 },
                 "prompt_2": {
+                    "bleu_score": 0.34299290022800966
                 },
                 "prompt_3": {
+                    "bleu_score": 0.34235818894094877
                 },
                 "prompt_4": {
+                    "bleu_score": 0.344471697570177
                 },
                 "prompt_5": {
+                    "bleu_score": 0.34330146854458155
                 }
             },
             "flores_vie2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.004016316923669523
                 },
                 "prompt_2": {
+                    "bleu_score": 0.28858215451103547
                 },
                 "prompt_3": {
+                    "bleu_score": 0.2874460615046707
                 },
                 "prompt_4": {
+                    "bleu_score": 0.2895463893365964
                 },
                 "prompt_5": {
+                    "bleu_score": 0.28765593996471855
                 }
             },
             "flores_zho2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.004745747326013472
                 },
                 "prompt_2": {
+                    "bleu_score": 0.21742919083139323
                 },
                 "prompt_3": {
+                    "bleu_score": 0.21718999888377416
                 },
                 "prompt_4": {
+                    "bleu_score": 0.2171201069019555
                 },
                 "prompt_5": {
+                    "bleu_score": 0.21609843798223957
                 }
             },
             "flores_zsm2eng": {
                 "prompt_1": {
+                    "bleu_score": 0.010737551256522686
                 },
                 "prompt_2": {
+                    "bleu_score": 0.35662624808916016
                 },
                 "prompt_3": {
+                    "bleu_score": 0.35860534258636234
                 },
                 "prompt_4": {
+                    "bleu_score": 0.35739510518617695
                 },
                 "prompt_5": {
+                    "bleu_score": 0.3485870508300006
                 }
             },
             "mmlu": {

app.py CHANGED Viewed

@@ -2297,11 +2297,11 @@ with block:
                     """)
-        with gr.TabItem("Reasoning"):
             # dataset 12:
-            with gr.TabItem("MMLU"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
@@ -2355,7 +2355,7 @@ with block:
             # dataset 14:
-            with gr.TabItem("C_EVAL"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
@@ -2408,7 +2408,7 @@ with block:
             # dataset 16:
-            with gr.TabItem("CMMLU"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
@@ -2622,7 +2622,7 @@ with block:
         with gr.TabItem("Emotion"):
             # dataset 18:
-            with gr.TabItem("ind_emotion"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():

                     """)
+        with gr.TabItem("General Reasoning"):
             # dataset 12:
+            with gr.TabItem("MMLU Subset"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
             # dataset 14:
+            with gr.TabItem("C_EVAL Subset"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
             # dataset 16:
+            with gr.TabItem("CMMLU Subset"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():
         with gr.TabItem("Emotion"):
             # dataset 18:
+            with gr.TabItem("Indonesian Emotion Classification"):
                 with gr.TabItem("Zero Shot"):
                     with gr.TabItem("Overall"):
                         with gr.Row():