Spaces:

ought
/

raft-leaderboard

Runtime error

App Files Files Community

lewtun HF Staff commited on Aug 26, 2021

Commit

be48d91

1 Parent(s): 85fb5e3

Fix for new tasks

Browse files

Files changed (1) hide show

app.py +16 -3

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import os
 from pathlib import Path
 import pandas as pd
 import requests
@@ -14,6 +16,9 @@ auth_token = os.getenv("HF_HUB_TOKEN")
 header = {"Authorization": "Bearer " + auth_token}
 TASKS = get_dataset_config_names("ought/raft")
 # Split and capitalize the task names, e.g. banking_77 => Banking 77
 FORMATTED_TASK_NAMES = [" ".join(t.capitalize() for t in task.split("_")) for task in TASKS]
@@ -36,15 +41,16 @@ def download_submissions():
         tags = extract_tags(dataset)
         if tags.get("benchmark") == "ought/raft" and tags.get("type") == "evaluation":
             submissions.append(dataset)
     return submissions
 def format_submissions(submissions):
-    submission_data = {**{"Submission": []}, **{t: [] for t in TASKS}}
     # TODO(lewtun): delete / filter all the junk repos from development
     # The following picks the latest submissions which adhere to the model card schema
-    for submission in submissions[-2:]:
         submission_id = submission["id"]
         response = requests.get(
             f"http://huggingface.co/api/datasets/{submission_id}?full=true",
@@ -54,15 +60,22 @@ def format_submissions(submissions):
         card_data = data["card_data"]
         submission_name = card_data["submission_dataset"]
         submission_data["Submission"].append(submission_name)
         for task in card_data["results"]:
             task_data = task["task"]
             task_name = task_data["name"]
             score = task_data["metrics"][0]["value"]
             submission_data[task_name].append(score)
     df = pd.DataFrame(submission_data)
-    df.insert(1, "Overall", df[TASKS].mean(axis=1))
     df = df.copy().sort_values("Overall", ascending=False).reset_index().rename(columns={"index": "Rank"})
     df.rename(columns={k: v for k, v in zip(TASKS, FORMATTED_TASK_NAMES)}, inplace=True)
     return df

 import os
+from datetime import datetime
 from pathlib import Path
+from re import sub
 import pandas as pd
 import requests
 header = {"Authorization": "Bearer " + auth_token}
 TASKS = get_dataset_config_names("ought/raft")
+# TODO(lewtun): Evaluate with new subtasks and remove this filter
+TASKS_TO_EXCLUDE = ["gpai_initiatives", "ade_corpus_v2", "tweet_eval_hate"]
+TASKS = [t for t in TASKS if t not in TASKS_TO_EXCLUDE]
 # Split and capitalize the task names, e.g. banking_77 => Banking 77
 FORMATTED_TASK_NAMES = [" ".join(t.capitalize() for t in task.split("_")) for task in TASKS]
         tags = extract_tags(dataset)
         if tags.get("benchmark") == "ought/raft" and tags.get("type") == "evaluation":
             submissions.append(dataset)
+    submissions = sorted(submissions, key = lambda x: int(x["id"].split("-")[-1]))
     return submissions
 def format_submissions(submissions):
+    submission_data = {**{"Submission": []}, **{"Date": []}, **{t: [] for t in TASKS}}
     # TODO(lewtun): delete / filter all the junk repos from development
     # The following picks the latest submissions which adhere to the model card schema
+    for submission in submissions[-1:]:
         submission_id = submission["id"]
         response = requests.get(
             f"http://huggingface.co/api/datasets/{submission_id}?full=true",
         card_data = data["card_data"]
         submission_name = card_data["submission_dataset"]
         submission_data["Submission"].append(submission_name)
+        submission_id = card_data["submission_id"]
+        timestamp = submission_id.split("-")[-1]
+        timestamp = pd.to_datetime(int(timestamp))
+        submission_data["Date"].append(datetime.date(timestamp))
         for task in card_data["results"]:
             task_data = task["task"]
             task_name = task_data["name"]
+            # TODO(lewtun): Evaluate with new subtasks and remove this filter
+            if task_name in TASKS_TO_EXCLUDE:
+                continue
             score = task_data["metrics"][0]["value"]
             submission_data[task_name].append(score)
     df = pd.DataFrame(submission_data)
+    df.insert(2, "Overall", df[TASKS].mean(axis=1))
     df = df.copy().sort_values("Overall", ascending=False).reset_index().rename(columns={"index": "Rank"})
     df.rename(columns={k: v for k, v in zip(TASKS, FORMATTED_TASK_NAMES)}, inplace=True)
     return df