zhtw-reasoning-eval-leaderboard

Running

lewtun HF Staff commited on Mar 3, 2024

Commit

37ce6d8

1 Parent(s): b6155d5

Report correct IFEval score

Files changed (1) hide show

app.py CHANGED Viewed

@@ -39,6 +39,9 @@ def get_leaderboard_df():
             # TruthfulQA has two metrics, so we need to pick the `mc2` one that's reported on the leaderboard
             if task == "truthfulqa":
                 value = data["results"][first_result_key]["truthfulqa_mc2"]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
@@ -46,6 +49,9 @@ def get_leaderboard_df():
                 value = data["results"][first_result_key][first_metric_key]  # gets the value of the first metric
             df.loc[model_revision, task] = value
     df.insert(loc=1, column="Average", value=df.mean(axis=1, numeric_only=True))
     df = df.sort_values(by=["Average"], ascending=False)
     df = df.reset_index().rename(columns={"index": "Model"}).round(3)

             # TruthfulQA has two metrics, so we need to pick the `mc2` one that's reported on the leaderboard
             if task == "truthfulqa":
                 value = data["results"][first_result_key]["truthfulqa_mc2"]
+            # IFEval has several metrics but we report just the prompt-loose-acc one
+            elif task == "ifeval":
+                value = data["results"][first_result_key]["prompt_level_loose_acc"]
             else:
                 first_metric_key = next(
                     iter(data["results"][first_result_key])
                 value = data["results"][first_result_key][first_metric_key]  # gets the value of the first metric
             df.loc[model_revision, task] = value
+    # Put IFEval in first column
+    ifeval_col = df.pop("Ifeval")
+    df.insert(1, "Ifeval", ifeval_col)
     df.insert(loc=1, column="Average", value=df.mean(axis=1, numeric_only=True))
     df = df.sort_values(by=["Average"], ascending=False)
     df = df.reset_index().rename(columns={"index": "Model"}).round(3)