Spaces:
Running
Running
new template and results
Browse files- all_results.json +158 -1
- app.py +74 -1
all_results.json
CHANGED
@@ -113593,7 +113593,164 @@
|
|
113593 |
"AC3_6": 0.2858695651766083,
|
113594 |
"AC3_7": 0.2501188777561638
|
113595 |
},
|
113596 |
-
"prompt_5":
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
113597 |
},
|
113598 |
"cross_logiqa": {
|
113599 |
"prompt_1": {
|
|
|
113593 |
"AC3_6": 0.2858695651766083,
|
113594 |
"AC3_7": 0.2501188777561638
|
113595 |
},
|
113596 |
+
"prompt_5": {
|
113597 |
+
"overall_acc": 0.478095238095238,
|
113598 |
+
"language_acc": {
|
113599 |
+
"Vietnamese": 0.36,
|
113600 |
+
"English": 0.5933333333333334,
|
113601 |
+
"Malay": 0.4266666666666667,
|
113602 |
+
"Chinese": 0.46,
|
113603 |
+
"Filipino": 0.4666666666666667,
|
113604 |
+
"Indonesian": 0.5266666666666666,
|
113605 |
+
"Spanish": 0.5133333333333333
|
113606 |
+
},
|
113607 |
+
"consistency_score_2": 0.5253968253968253,
|
113608 |
+
"consistency_score_3": 0.3533333333333333,
|
113609 |
+
"consistency_score_4": 0.26590476190476203,
|
113610 |
+
"consistency_score_5": 0.21206349206349207,
|
113611 |
+
"consistency_score_6": 0.17428571428571432,
|
113612 |
+
"consistency_score_7": 0.14666666666666667,
|
113613 |
+
"detailed_consistency_score": {
|
113614 |
+
"2_combine": {
|
113615 |
+
"Vietnamese,English": 0.4266666666666667,
|
113616 |
+
"Vietnamese,Malay": 0.5066666666666667,
|
113617 |
+
"Vietnamese,Chinese": 0.44666666666666666,
|
113618 |
+
"Vietnamese,Filipino": 0.46,
|
113619 |
+
"Vietnamese,Indonesian": 0.5,
|
113620 |
+
"Vietnamese,Spanish": 0.4266666666666667,
|
113621 |
+
"English,Malay": 0.5266666666666666,
|
113622 |
+
"English,Chinese": 0.48,
|
113623 |
+
"English,Filipino": 0.52,
|
113624 |
+
"English,Indonesian": 0.62,
|
113625 |
+
"English,Spanish": 0.6466666666666666,
|
113626 |
+
"Malay,Chinese": 0.54,
|
113627 |
+
"Malay,Filipino": 0.44666666666666666,
|
113628 |
+
"Malay,Indonesian": 0.6733333333333333,
|
113629 |
+
"Malay,Spanish": 0.6333333333333333,
|
113630 |
+
"Chinese,Filipino": 0.4666666666666667,
|
113631 |
+
"Chinese,Indonesian": 0.5466666666666666,
|
113632 |
+
"Chinese,Spanish": 0.5466666666666666,
|
113633 |
+
"Filipino,Indonesian": 0.5066666666666667,
|
113634 |
+
"Filipino,Spanish": 0.46,
|
113635 |
+
"Indonesian,Spanish": 0.6533333333333333
|
113636 |
+
},
|
113637 |
+
"3_combine": {
|
113638 |
+
"Vietnamese,English,Malay": 0.30666666666666664,
|
113639 |
+
"Vietnamese,English,Chinese": 0.28,
|
113640 |
+
"Vietnamese,English,Filipino": 0.29333333333333333,
|
113641 |
+
"Vietnamese,English,Indonesian": 0.34,
|
113642 |
+
"Vietnamese,English,Spanish": 0.3,
|
113643 |
+
"Vietnamese,Malay,Chinese": 0.3333333333333333,
|
113644 |
+
"Vietnamese,Malay,Filipino": 0.28,
|
113645 |
+
"Vietnamese,Malay,Indonesian": 0.3933333333333333,
|
113646 |
+
"Vietnamese,Malay,Spanish": 0.3466666666666667,
|
113647 |
+
"Vietnamese,Chinese,Filipino": 0.26666666666666666,
|
113648 |
+
"Vietnamese,Chinese,Indonesian": 0.32666666666666666,
|
113649 |
+
"Vietnamese,Chinese,Spanish": 0.2866666666666667,
|
113650 |
+
"Vietnamese,Filipino,Indonesian": 0.30666666666666664,
|
113651 |
+
"Vietnamese,Filipino,Spanish": 0.26666666666666666,
|
113652 |
+
"Vietnamese,Indonesian,Spanish": 0.36,
|
113653 |
+
"English,Malay,Chinese": 0.3333333333333333,
|
113654 |
+
"English,Malay,Filipino": 0.3333333333333333,
|
113655 |
+
"English,Malay,Indonesian": 0.46,
|
113656 |
+
"English,Malay,Spanish": 0.43333333333333335,
|
113657 |
+
"English,Chinese,Filipino": 0.31333333333333335,
|
113658 |
+
"English,Chinese,Indonesian": 0.38666666666666666,
|
113659 |
+
"English,Chinese,Spanish": 0.37333333333333335,
|
113660 |
+
"English,Filipino,Indonesian": 0.36,
|
113661 |
+
"English,Filipino,Spanish": 0.37333333333333335,
|
113662 |
+
"English,Indonesian,Spanish": 0.49333333333333335,
|
113663 |
+
"Malay,Chinese,Filipino": 0.31333333333333335,
|
113664 |
+
"Malay,Chinese,Indonesian": 0.41333333333333333,
|
113665 |
+
"Malay,Chinese,Spanish": 0.4066666666666667,
|
113666 |
+
"Malay,Filipino,Indonesian": 0.36666666666666664,
|
113667 |
+
"Malay,Filipino,Spanish": 0.35333333333333333,
|
113668 |
+
"Malay,Indonesian,Spanish": 0.5066666666666667,
|
113669 |
+
"Chinese,Filipino,Indonesian": 0.34,
|
113670 |
+
"Chinese,Filipino,Spanish": 0.32666666666666666,
|
113671 |
+
"Chinese,Indonesian,Spanish": 0.4266666666666667,
|
113672 |
+
"Filipino,Indonesian,Spanish": 0.36666666666666664
|
113673 |
+
},
|
113674 |
+
"4_combine": {
|
113675 |
+
"Vietnamese,English,Malay,Chinese": 0.22666666666666666,
|
113676 |
+
"Vietnamese,English,Malay,Filipino": 0.22,
|
113677 |
+
"Vietnamese,English,Malay,Indonesian": 0.29333333333333333,
|
113678 |
+
"Vietnamese,English,Malay,Spanish": 0.26666666666666666,
|
113679 |
+
"Vietnamese,English,Chinese,Filipino": 0.19333333333333333,
|
113680 |
+
"Vietnamese,English,Chinese,Indonesian": 0.24666666666666667,
|
113681 |
+
"Vietnamese,English,Chinese,Spanish": 0.21333333333333335,
|
113682 |
+
"Vietnamese,English,Filipino,Indonesian": 0.22666666666666666,
|
113683 |
+
"Vietnamese,English,Filipino,Spanish": 0.22666666666666666,
|
113684 |
+
"Vietnamese,English,Indonesian,Spanish": 0.2733333333333333,
|
113685 |
+
"Vietnamese,Malay,Chinese,Filipino": 0.2,
|
113686 |
+
"Vietnamese,Malay,Chinese,Indonesian": 0.2733333333333333,
|
113687 |
+
"Vietnamese,Malay,Chinese,Spanish": 0.25333333333333335,
|
113688 |
+
"Vietnamese,Malay,Filipino,Indonesian": 0.25333333333333335,
|
113689 |
+
"Vietnamese,Malay,Filipino,Spanish": 0.23333333333333334,
|
113690 |
+
"Vietnamese,Malay,Indonesian,Spanish": 0.32,
|
113691 |
+
"Vietnamese,Chinese,Filipino,Indonesian": 0.21333333333333335,
|
113692 |
+
"Vietnamese,Chinese,Filipino,Spanish": 0.20666666666666667,
|
113693 |
+
"Vietnamese,Chinese,Indonesian,Spanish": 0.26,
|
113694 |
+
"Vietnamese,Filipino,Indonesian,Spanish": 0.24,
|
113695 |
+
"English,Malay,Chinese,Filipino": 0.24,
|
113696 |
+
"English,Malay,Chinese,Indonesian": 0.30666666666666664,
|
113697 |
+
"English,Malay,Chinese,Spanish": 0.2866666666666667,
|
113698 |
+
"English,Malay,Filipino,Indonesian": 0.29333333333333333,
|
113699 |
+
"English,Malay,Filipino,Spanish": 0.30666666666666664,
|
113700 |
+
"English,Malay,Indonesian,Spanish": 0.4,
|
113701 |
+
"English,Chinese,Filipino,Indonesian": 0.24666666666666667,
|
113702 |
+
"English,Chinese,Filipino,Spanish": 0.26,
|
113703 |
+
"English,Chinese,Indonesian,Spanish": 0.32,
|
113704 |
+
"English,Filipino,Indonesian,Spanish": 0.30666666666666664,
|
113705 |
+
"Malay,Chinese,Filipino,Indonesian": 0.26666666666666666,
|
113706 |
+
"Malay,Chinese,Filipino,Spanish": 0.26666666666666666,
|
113707 |
+
"Malay,Chinese,Indonesian,Spanish": 0.35333333333333333,
|
113708 |
+
"Malay,Filipino,Indonesian,Spanish": 0.32666666666666666,
|
113709 |
+
"Chinese,Filipino,Indonesian,Spanish": 0.2866666666666667
|
113710 |
+
},
|
113711 |
+
"5_combine": {
|
113712 |
+
"Vietnamese,English,Malay,Chinese,Filipino": 0.16,
|
113713 |
+
"Vietnamese,English,Malay,Chinese,Indonesian": 0.21333333333333335,
|
113714 |
+
"Vietnamese,English,Malay,Chinese,Spanish": 0.19333333333333333,
|
113715 |
+
"Vietnamese,English,Malay,Filipino,Indonesian": 0.20666666666666667,
|
113716 |
+
"Vietnamese,English,Malay,Filipino,Spanish": 0.20666666666666667,
|
113717 |
+
"Vietnamese,English,Malay,Indonesian,Spanish": 0.26,
|
113718 |
+
"Vietnamese,English,Chinese,Filipino,Indonesian": 0.16,
|
113719 |
+
"Vietnamese,English,Chinese,Filipino,Spanish": 0.16666666666666666,
|
113720 |
+
"Vietnamese,English,Chinese,Indonesian,Spanish": 0.19333333333333333,
|
113721 |
+
"Vietnamese,English,Filipino,Indonesian,Spanish": 0.2,
|
113722 |
+
"Vietnamese,Malay,Chinese,Filipino,Indonesian": 0.18,
|
113723 |
+
"Vietnamese,Malay,Chinese,Filipino,Spanish": 0.18,
|
113724 |
+
"Vietnamese,Malay,Chinese,Indonesian,Spanish": 0.24,
|
113725 |
+
"Vietnamese,Malay,Filipino,Indonesian,Spanish": 0.22666666666666666,
|
113726 |
+
"Vietnamese,Chinese,Filipino,Indonesian,Spanish": 0.18666666666666668,
|
113727 |
+
"English,Malay,Chinese,Filipino,Indonesian": 0.21333333333333335,
|
113728 |
+
"English,Malay,Chinese,Filipino,Spanish": 0.22666666666666666,
|
113729 |
+
"English,Malay,Chinese,Indonesian,Spanish": 0.2733333333333333,
|
113730 |
+
"English,Malay,Filipino,Indonesian,Spanish": 0.2866666666666667,
|
113731 |
+
"English,Chinese,Filipino,Indonesian,Spanish": 0.22666666666666666,
|
113732 |
+
"Malay,Chinese,Filipino,Indonesian,Spanish": 0.25333333333333335
|
113733 |
+
},
|
113734 |
+
"6_combine": {
|
113735 |
+
"Vietnamese,English,Malay,Chinese,Filipino,Indonesian": 0.14666666666666667,
|
113736 |
+
"Vietnamese,English,Malay,Chinese,Filipino,Spanish": 0.15333333333333332,
|
113737 |
+
"Vietnamese,English,Malay,Chinese,Indonesian,Spanish": 0.18666666666666668,
|
113738 |
+
"Vietnamese,English,Malay,Filipino,Indonesian,Spanish": 0.2,
|
113739 |
+
"Vietnamese,English,Chinese,Filipino,Indonesian,Spanish": 0.14666666666666667,
|
113740 |
+
"Vietnamese,Malay,Chinese,Filipino,Indonesian,Spanish": 0.17333333333333334,
|
113741 |
+
"English,Malay,Chinese,Filipino,Indonesian,Spanish": 0.21333333333333335
|
113742 |
+
},
|
113743 |
+
"7_combine": {
|
113744 |
+
"Vietnamese,English,Malay,Chinese,Filipino,Indonesian,Spanish": 0.14666666666666667
|
113745 |
+
}
|
113746 |
+
},
|
113747 |
+
"AC3_2": 0.5006312046623028,
|
113748 |
+
"AC3_3": 0.40635357001603606,
|
113749 |
+
"AC3_4": 0.3417413990226551,
|
113750 |
+
"AC3_5": 0.293806457222948,
|
113751 |
+
"AC3_6": 0.2554494264467664,
|
113752 |
+
"AC3_7": 0.22447154467951802
|
113753 |
+
}
|
113754 |
},
|
113755 |
"cross_logiqa": {
|
113756 |
"prompt_1": {
|
app.py
CHANGED
@@ -1173,6 +1173,54 @@ def get_data_zbench(eval_mode='zero_shot', fillna=True, rank=True):
|
|
1173 |
ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
|
1174 |
ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
|
1175 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1176 |
|
1177 |
|
1178 |
# = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
|
@@ -2464,6 +2512,31 @@ with block:
|
|
2464 |
- **Languages:** Chinese
|
2465 |
""")
|
2466 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2467 |
|
2468 |
|
2469 |
with gr.TabItem("FLORES Translation"):
|
@@ -2991,7 +3064,7 @@ with block:
|
|
2991 |
|
2992 |
|
2993 |
block.queue(max_size=10)
|
2994 |
-
block.launch(server_name="0.0.0.0", share=
|
2995 |
|
2996 |
|
2997 |
# Possible changes:
|
|
|
1173 |
ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
|
1174 |
ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
|
1175 |
|
1176 |
+
# = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
|
1177 |
+
# = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
|
1178 |
+
|
1179 |
+
|
1180 |
+
def get_data_indommlu(eval_mode='zero_shot', fillna=True, rank=True):
|
1181 |
+
|
1182 |
+
df_list = []
|
1183 |
+
|
1184 |
+
for model in MODEL_LIST:
|
1185 |
+
|
1186 |
+
results_list = [ALL_RESULTS[model][eval_mode]['indommlu'][res] for res in ALL_RESULTS[model][eval_mode]['indommlu']]
|
1187 |
+
|
1188 |
+
try:
|
1189 |
+
accuracy = median([results['accuracy'] for results in results_list])
|
1190 |
+
|
1191 |
+
except:
|
1192 |
+
accuracy = -1
|
1193 |
+
|
1194 |
+
res = {
|
1195 |
+
"Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
|
1196 |
+
"Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
|
1197 |
+
"Accuracy": accuracy,
|
1198 |
+
}
|
1199 |
+
|
1200 |
+
df_list.append(res)
|
1201 |
+
|
1202 |
+
|
1203 |
+
df = pd.DataFrame(df_list)
|
1204 |
+
# If there are any models that are the same, merge them
|
1205 |
+
# E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
|
1206 |
+
df = df.groupby("Model", as_index=False).first()
|
1207 |
+
# Put 'Model' column first
|
1208 |
+
#cols = sorted(list(df.columns))
|
1209 |
+
cols = list(df.columns)
|
1210 |
+
cols.insert(0, cols.pop(cols.index("Model")))
|
1211 |
+
df = df[cols]
|
1212 |
+
|
1213 |
+
if rank:
|
1214 |
+
df = add_rank(df, compute_average=True)
|
1215 |
+
|
1216 |
+
if fillna:
|
1217 |
+
df.fillna("", inplace=True)
|
1218 |
+
|
1219 |
+
return df
|
1220 |
+
|
1221 |
+
|
1222 |
+
INDOMMLU_ZERO_SHOT = get_data_indommlu(eval_mode="zero_shot")
|
1223 |
+
INDOMMLU_FIVE_SHOT = get_data_indommlu(eval_mode="five_shot")
|
1224 |
|
1225 |
|
1226 |
# = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
|
|
|
2512 |
- **Languages:** Chinese
|
2513 |
""")
|
2514 |
|
2515 |
+
# dataset 18:
|
2516 |
+
with gr.TabItem("IndoMMLU"):
|
2517 |
+
with gr.TabItem("Zero Shot"):
|
2518 |
+
with gr.TabItem("Overall"):
|
2519 |
+
with gr.Row():
|
2520 |
+
gr.components.Dataframe(
|
2521 |
+
INDOMMLU_ZERO_SHOT,
|
2522 |
+
datatype=["number", "markdown"] + ["number"] * len(INDOMMLU_ZERO_SHOT.columns),
|
2523 |
+
type="pandas",
|
2524 |
+
)
|
2525 |
+
with gr.TabItem("Five Shot"):
|
2526 |
+
with gr.TabItem("Overall"):
|
2527 |
+
with gr.Row():
|
2528 |
+
gr.components.Dataframe(
|
2529 |
+
INDOMMLU_FIVE_SHOT,
|
2530 |
+
datatype=["number", "markdown"] + ["number"] * len(INDOMMLU_FIVE_SHOT.columns),
|
2531 |
+
type="pandas",
|
2532 |
+
)
|
2533 |
+
with gr.Row():
|
2534 |
+
gr.Markdown("""
|
2535 |
+
**IndoMMLU Leaderboard** 🔮
|
2536 |
+
|
2537 |
+
- **Metric:** Accuracy.
|
2538 |
+
- **Languages:** Bahasa Indonesian
|
2539 |
+
""")
|
2540 |
|
2541 |
|
2542 |
with gr.TabItem("FLORES Translation"):
|
|
|
3064 |
|
3065 |
|
3066 |
block.queue(max_size=10)
|
3067 |
+
block.launch(server_name="0.0.0.0", share=True)
|
3068 |
|
3069 |
|
3070 |
# Possible changes:
|