Spaces:

AssistantBench
/

leaderboard

Running

Ori commited on Oct 3

Commit

9ae6f61

•

1 Parent(s): b3bee8a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,6 @@ import json
 import datetime
 from email.utils import parseaddr
 import numpy as np
 import gradio as gr
 import pandas as pd
 from datasets import load_dataset
@@ -55,8 +54,8 @@ def format_dataframe(df):
     if "URL" in df.columns:
         df["Model Name"] = df.apply(lambda row: f"[{row['Model Name']}]({row['URL']})", axis=1)
         df = df.drop(columns=["URL"])
-    df = df.rename(columns={"Model Family": "Base Model"})
-    df = df[["Model Name", "Accuracy", "Accuracy (easy)", "Accuracy (medium)", "Accuracy (hard)", "Answer rate", "Precision", "EM", "Base Model", "Organization"]]
     return df
 eval_dataframe_test = get_dataframe_from_results(eval_results=eval_results, split="test")
@@ -141,7 +140,7 @@ def add_new_eval(
                     }) + "\n"
                 )
-                all_scores.append({"score": score, "has_ans": has_ans})
                 scores += score
                 num_questions += 1
@@ -182,6 +181,7 @@ def add_new_eval(
         "EM": em
     }
     eval_results["test"] = eval_results["test"].add_item(eval_entry)
     eval_results.push_to_hub(RESULTS_DATASET, config_name=YEAR_VERSION, token=TOKEN)
     return format_log(
@@ -283,4 +283,4 @@ with demo:
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=3600)
 scheduler.start()
-demo.launch(debug=True)

 import datetime
 from email.utils import parseaddr
 import numpy as np
 import gradio as gr
 import pandas as pd
 from datasets import load_dataset
     if "URL" in df.columns:
         df["Model Name"] = df.apply(lambda row: f"[{row['Model Name']}]({row['URL']})", axis=1)
         df = df.drop(columns=["URL"])
+    #df = df.rename(columns={"Model Family": "Base Model"})
+    df = df[["Model Name", "Accuracy",  "Answer rate", "Precision", "EM", "Accuracy (easy)", "Accuracy (medium)", "Accuracy (hard)", "Base Model", "Organization"]]
     return df
 eval_dataframe_test = get_dataframe_from_results(eval_results=eval_results, split="test")
                     }) + "\n"
                 )
+                all_scores.append({"score": score, "has_ans": has_ans, "model_answer": answer, 'id': task_id})
                 scores += score
                 num_questions += 1
         "EM": em
     }
     eval_results["test"] = eval_results["test"].add_item(eval_entry)
     eval_results.push_to_hub(RESULTS_DATASET, config_name=YEAR_VERSION, token=TOKEN)
     return format_log(
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=3600)
 scheduler.start()
+demo.launch(debug=True)