binwang commited on
Commit
359fadc
1 Parent(s): 1cbd06f

new template and results

Browse files
Files changed (2) hide show
  1. all_results.json +158 -1
  2. app.py +74 -1
all_results.json CHANGED
@@ -113593,7 +113593,164 @@
113593
  "AC3_6": 0.2858695651766083,
113594
  "AC3_7": 0.2501188777561638
113595
  },
113596
- "prompt_5": -1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
113597
  },
113598
  "cross_logiqa": {
113599
  "prompt_1": {
 
113593
  "AC3_6": 0.2858695651766083,
113594
  "AC3_7": 0.2501188777561638
113595
  },
113596
+ "prompt_5": {
113597
+ "overall_acc": 0.478095238095238,
113598
+ "language_acc": {
113599
+ "Vietnamese": 0.36,
113600
+ "English": 0.5933333333333334,
113601
+ "Malay": 0.4266666666666667,
113602
+ "Chinese": 0.46,
113603
+ "Filipino": 0.4666666666666667,
113604
+ "Indonesian": 0.5266666666666666,
113605
+ "Spanish": 0.5133333333333333
113606
+ },
113607
+ "consistency_score_2": 0.5253968253968253,
113608
+ "consistency_score_3": 0.3533333333333333,
113609
+ "consistency_score_4": 0.26590476190476203,
113610
+ "consistency_score_5": 0.21206349206349207,
113611
+ "consistency_score_6": 0.17428571428571432,
113612
+ "consistency_score_7": 0.14666666666666667,
113613
+ "detailed_consistency_score": {
113614
+ "2_combine": {
113615
+ "Vietnamese,English": 0.4266666666666667,
113616
+ "Vietnamese,Malay": 0.5066666666666667,
113617
+ "Vietnamese,Chinese": 0.44666666666666666,
113618
+ "Vietnamese,Filipino": 0.46,
113619
+ "Vietnamese,Indonesian": 0.5,
113620
+ "Vietnamese,Spanish": 0.4266666666666667,
113621
+ "English,Malay": 0.5266666666666666,
113622
+ "English,Chinese": 0.48,
113623
+ "English,Filipino": 0.52,
113624
+ "English,Indonesian": 0.62,
113625
+ "English,Spanish": 0.6466666666666666,
113626
+ "Malay,Chinese": 0.54,
113627
+ "Malay,Filipino": 0.44666666666666666,
113628
+ "Malay,Indonesian": 0.6733333333333333,
113629
+ "Malay,Spanish": 0.6333333333333333,
113630
+ "Chinese,Filipino": 0.4666666666666667,
113631
+ "Chinese,Indonesian": 0.5466666666666666,
113632
+ "Chinese,Spanish": 0.5466666666666666,
113633
+ "Filipino,Indonesian": 0.5066666666666667,
113634
+ "Filipino,Spanish": 0.46,
113635
+ "Indonesian,Spanish": 0.6533333333333333
113636
+ },
113637
+ "3_combine": {
113638
+ "Vietnamese,English,Malay": 0.30666666666666664,
113639
+ "Vietnamese,English,Chinese": 0.28,
113640
+ "Vietnamese,English,Filipino": 0.29333333333333333,
113641
+ "Vietnamese,English,Indonesian": 0.34,
113642
+ "Vietnamese,English,Spanish": 0.3,
113643
+ "Vietnamese,Malay,Chinese": 0.3333333333333333,
113644
+ "Vietnamese,Malay,Filipino": 0.28,
113645
+ "Vietnamese,Malay,Indonesian": 0.3933333333333333,
113646
+ "Vietnamese,Malay,Spanish": 0.3466666666666667,
113647
+ "Vietnamese,Chinese,Filipino": 0.26666666666666666,
113648
+ "Vietnamese,Chinese,Indonesian": 0.32666666666666666,
113649
+ "Vietnamese,Chinese,Spanish": 0.2866666666666667,
113650
+ "Vietnamese,Filipino,Indonesian": 0.30666666666666664,
113651
+ "Vietnamese,Filipino,Spanish": 0.26666666666666666,
113652
+ "Vietnamese,Indonesian,Spanish": 0.36,
113653
+ "English,Malay,Chinese": 0.3333333333333333,
113654
+ "English,Malay,Filipino": 0.3333333333333333,
113655
+ "English,Malay,Indonesian": 0.46,
113656
+ "English,Malay,Spanish": 0.43333333333333335,
113657
+ "English,Chinese,Filipino": 0.31333333333333335,
113658
+ "English,Chinese,Indonesian": 0.38666666666666666,
113659
+ "English,Chinese,Spanish": 0.37333333333333335,
113660
+ "English,Filipino,Indonesian": 0.36,
113661
+ "English,Filipino,Spanish": 0.37333333333333335,
113662
+ "English,Indonesian,Spanish": 0.49333333333333335,
113663
+ "Malay,Chinese,Filipino": 0.31333333333333335,
113664
+ "Malay,Chinese,Indonesian": 0.41333333333333333,
113665
+ "Malay,Chinese,Spanish": 0.4066666666666667,
113666
+ "Malay,Filipino,Indonesian": 0.36666666666666664,
113667
+ "Malay,Filipino,Spanish": 0.35333333333333333,
113668
+ "Malay,Indonesian,Spanish": 0.5066666666666667,
113669
+ "Chinese,Filipino,Indonesian": 0.34,
113670
+ "Chinese,Filipino,Spanish": 0.32666666666666666,
113671
+ "Chinese,Indonesian,Spanish": 0.4266666666666667,
113672
+ "Filipino,Indonesian,Spanish": 0.36666666666666664
113673
+ },
113674
+ "4_combine": {
113675
+ "Vietnamese,English,Malay,Chinese": 0.22666666666666666,
113676
+ "Vietnamese,English,Malay,Filipino": 0.22,
113677
+ "Vietnamese,English,Malay,Indonesian": 0.29333333333333333,
113678
+ "Vietnamese,English,Malay,Spanish": 0.26666666666666666,
113679
+ "Vietnamese,English,Chinese,Filipino": 0.19333333333333333,
113680
+ "Vietnamese,English,Chinese,Indonesian": 0.24666666666666667,
113681
+ "Vietnamese,English,Chinese,Spanish": 0.21333333333333335,
113682
+ "Vietnamese,English,Filipino,Indonesian": 0.22666666666666666,
113683
+ "Vietnamese,English,Filipino,Spanish": 0.22666666666666666,
113684
+ "Vietnamese,English,Indonesian,Spanish": 0.2733333333333333,
113685
+ "Vietnamese,Malay,Chinese,Filipino": 0.2,
113686
+ "Vietnamese,Malay,Chinese,Indonesian": 0.2733333333333333,
113687
+ "Vietnamese,Malay,Chinese,Spanish": 0.25333333333333335,
113688
+ "Vietnamese,Malay,Filipino,Indonesian": 0.25333333333333335,
113689
+ "Vietnamese,Malay,Filipino,Spanish": 0.23333333333333334,
113690
+ "Vietnamese,Malay,Indonesian,Spanish": 0.32,
113691
+ "Vietnamese,Chinese,Filipino,Indonesian": 0.21333333333333335,
113692
+ "Vietnamese,Chinese,Filipino,Spanish": 0.20666666666666667,
113693
+ "Vietnamese,Chinese,Indonesian,Spanish": 0.26,
113694
+ "Vietnamese,Filipino,Indonesian,Spanish": 0.24,
113695
+ "English,Malay,Chinese,Filipino": 0.24,
113696
+ "English,Malay,Chinese,Indonesian": 0.30666666666666664,
113697
+ "English,Malay,Chinese,Spanish": 0.2866666666666667,
113698
+ "English,Malay,Filipino,Indonesian": 0.29333333333333333,
113699
+ "English,Malay,Filipino,Spanish": 0.30666666666666664,
113700
+ "English,Malay,Indonesian,Spanish": 0.4,
113701
+ "English,Chinese,Filipino,Indonesian": 0.24666666666666667,
113702
+ "English,Chinese,Filipino,Spanish": 0.26,
113703
+ "English,Chinese,Indonesian,Spanish": 0.32,
113704
+ "English,Filipino,Indonesian,Spanish": 0.30666666666666664,
113705
+ "Malay,Chinese,Filipino,Indonesian": 0.26666666666666666,
113706
+ "Malay,Chinese,Filipino,Spanish": 0.26666666666666666,
113707
+ "Malay,Chinese,Indonesian,Spanish": 0.35333333333333333,
113708
+ "Malay,Filipino,Indonesian,Spanish": 0.32666666666666666,
113709
+ "Chinese,Filipino,Indonesian,Spanish": 0.2866666666666667
113710
+ },
113711
+ "5_combine": {
113712
+ "Vietnamese,English,Malay,Chinese,Filipino": 0.16,
113713
+ "Vietnamese,English,Malay,Chinese,Indonesian": 0.21333333333333335,
113714
+ "Vietnamese,English,Malay,Chinese,Spanish": 0.19333333333333333,
113715
+ "Vietnamese,English,Malay,Filipino,Indonesian": 0.20666666666666667,
113716
+ "Vietnamese,English,Malay,Filipino,Spanish": 0.20666666666666667,
113717
+ "Vietnamese,English,Malay,Indonesian,Spanish": 0.26,
113718
+ "Vietnamese,English,Chinese,Filipino,Indonesian": 0.16,
113719
+ "Vietnamese,English,Chinese,Filipino,Spanish": 0.16666666666666666,
113720
+ "Vietnamese,English,Chinese,Indonesian,Spanish": 0.19333333333333333,
113721
+ "Vietnamese,English,Filipino,Indonesian,Spanish": 0.2,
113722
+ "Vietnamese,Malay,Chinese,Filipino,Indonesian": 0.18,
113723
+ "Vietnamese,Malay,Chinese,Filipino,Spanish": 0.18,
113724
+ "Vietnamese,Malay,Chinese,Indonesian,Spanish": 0.24,
113725
+ "Vietnamese,Malay,Filipino,Indonesian,Spanish": 0.22666666666666666,
113726
+ "Vietnamese,Chinese,Filipino,Indonesian,Spanish": 0.18666666666666668,
113727
+ "English,Malay,Chinese,Filipino,Indonesian": 0.21333333333333335,
113728
+ "English,Malay,Chinese,Filipino,Spanish": 0.22666666666666666,
113729
+ "English,Malay,Chinese,Indonesian,Spanish": 0.2733333333333333,
113730
+ "English,Malay,Filipino,Indonesian,Spanish": 0.2866666666666667,
113731
+ "English,Chinese,Filipino,Indonesian,Spanish": 0.22666666666666666,
113732
+ "Malay,Chinese,Filipino,Indonesian,Spanish": 0.25333333333333335
113733
+ },
113734
+ "6_combine": {
113735
+ "Vietnamese,English,Malay,Chinese,Filipino,Indonesian": 0.14666666666666667,
113736
+ "Vietnamese,English,Malay,Chinese,Filipino,Spanish": 0.15333333333333332,
113737
+ "Vietnamese,English,Malay,Chinese,Indonesian,Spanish": 0.18666666666666668,
113738
+ "Vietnamese,English,Malay,Filipino,Indonesian,Spanish": 0.2,
113739
+ "Vietnamese,English,Chinese,Filipino,Indonesian,Spanish": 0.14666666666666667,
113740
+ "Vietnamese,Malay,Chinese,Filipino,Indonesian,Spanish": 0.17333333333333334,
113741
+ "English,Malay,Chinese,Filipino,Indonesian,Spanish": 0.21333333333333335
113742
+ },
113743
+ "7_combine": {
113744
+ "Vietnamese,English,Malay,Chinese,Filipino,Indonesian,Spanish": 0.14666666666666667
113745
+ }
113746
+ },
113747
+ "AC3_2": 0.5006312046623028,
113748
+ "AC3_3": 0.40635357001603606,
113749
+ "AC3_4": 0.3417413990226551,
113750
+ "AC3_5": 0.293806457222948,
113751
+ "AC3_6": 0.2554494264467664,
113752
+ "AC3_7": 0.22447154467951802
113753
+ }
113754
  },
113755
  "cross_logiqa": {
113756
  "prompt_1": {
app.py CHANGED
@@ -1173,6 +1173,54 @@ def get_data_zbench(eval_mode='zero_shot', fillna=True, rank=True):
1173
  ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
1174
  ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
1175
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1176
 
1177
 
1178
  # = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
@@ -2464,6 +2512,31 @@ with block:
2464
  - **Languages:** Chinese
2465
  """)
2466
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2467
 
2468
 
2469
  with gr.TabItem("FLORES Translation"):
@@ -2991,7 +3064,7 @@ with block:
2991
 
2992
 
2993
  block.queue(max_size=10)
2994
- block.launch(server_name="0.0.0.0", share=False)
2995
 
2996
 
2997
  # Possible changes:
 
1173
  ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
1174
  ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
1175
 
1176
+ # = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
1177
+ # = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
1178
+
1179
+
1180
+ def get_data_indommlu(eval_mode='zero_shot', fillna=True, rank=True):
1181
+
1182
+ df_list = []
1183
+
1184
+ for model in MODEL_LIST:
1185
+
1186
+ results_list = [ALL_RESULTS[model][eval_mode]['indommlu'][res] for res in ALL_RESULTS[model][eval_mode]['indommlu']]
1187
+
1188
+ try:
1189
+ accuracy = median([results['accuracy'] for results in results_list])
1190
+
1191
+ except:
1192
+ accuracy = -1
1193
+
1194
+ res = {
1195
+ "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
1196
+ "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
1197
+ "Accuracy": accuracy,
1198
+ }
1199
+
1200
+ df_list.append(res)
1201
+
1202
+
1203
+ df = pd.DataFrame(df_list)
1204
+ # If there are any models that are the same, merge them
1205
+ # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
1206
+ df = df.groupby("Model", as_index=False).first()
1207
+ # Put 'Model' column first
1208
+ #cols = sorted(list(df.columns))
1209
+ cols = list(df.columns)
1210
+ cols.insert(0, cols.pop(cols.index("Model")))
1211
+ df = df[cols]
1212
+
1213
+ if rank:
1214
+ df = add_rank(df, compute_average=True)
1215
+
1216
+ if fillna:
1217
+ df.fillna("", inplace=True)
1218
+
1219
+ return df
1220
+
1221
+
1222
+ INDOMMLU_ZERO_SHOT = get_data_indommlu(eval_mode="zero_shot")
1223
+ INDOMMLU_FIVE_SHOT = get_data_indommlu(eval_mode="five_shot")
1224
 
1225
 
1226
  # = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
 
2512
  - **Languages:** Chinese
2513
  """)
2514
 
2515
+ # dataset 18:
2516
+ with gr.TabItem("IndoMMLU"):
2517
+ with gr.TabItem("Zero Shot"):
2518
+ with gr.TabItem("Overall"):
2519
+ with gr.Row():
2520
+ gr.components.Dataframe(
2521
+ INDOMMLU_ZERO_SHOT,
2522
+ datatype=["number", "markdown"] + ["number"] * len(INDOMMLU_ZERO_SHOT.columns),
2523
+ type="pandas",
2524
+ )
2525
+ with gr.TabItem("Five Shot"):
2526
+ with gr.TabItem("Overall"):
2527
+ with gr.Row():
2528
+ gr.components.Dataframe(
2529
+ INDOMMLU_FIVE_SHOT,
2530
+ datatype=["number", "markdown"] + ["number"] * len(INDOMMLU_FIVE_SHOT.columns),
2531
+ type="pandas",
2532
+ )
2533
+ with gr.Row():
2534
+ gr.Markdown("""
2535
+ **IndoMMLU Leaderboard** 🔮
2536
+
2537
+ - **Metric:** Accuracy.
2538
+ - **Languages:** Bahasa Indonesian
2539
+ """)
2540
 
2541
 
2542
  with gr.TabItem("FLORES Translation"):
 
3064
 
3065
 
3066
  block.queue(max_size=10)
3067
+ block.launch(server_name="0.0.0.0", share=True)
3068
 
3069
 
3070
  # Possible changes: