Spaces:

relbench
/

leaderboard

Running

App Files Files Community

kexinhuang12345 commited on Jul 12, 2024

Commit

df330ee

1 Parent(s): 4d5ee1c

bug fix

Browse files

Files changed (4) hide show

app.py +0 -9
src/display/utils.py +3 -3
src/populate.py +18 -6
src/submission/submit.py +10 -2

app.py CHANGED Viewed

@@ -429,15 +429,6 @@ with demo:
                 submission_result,
             )
-    with gr.Row():
-        with gr.Accordion("📙 Citation", open=False):
-            citation_button = gr.Textbox(
-                value=CITATION_BUTTON_TEXT,
-                label=CITATION_BUTTON_LABEL,
-                lines=20,
-                elem_id="citation-button",
-                show_copy_button=True,
-            )
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

                 submission_result,
             )
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)

src/display/utils.py CHANGED Viewed

@@ -48,7 +48,7 @@ auto_eval_column_dict_nc = []
 auto_eval_column_dict_nc.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_nc.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in nc_tasks:
-    auto_eval_column_dict_nc.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 auto_eval_column_dict_nc.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nc.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nc.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])
@@ -63,7 +63,7 @@ auto_eval_column_dict_nr = []
 auto_eval_column_dict_nr.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_nr.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in nr_tasks:
-    auto_eval_column_dict_nr.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 auto_eval_column_dict_nr.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nr.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nr.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])
@@ -78,7 +78,7 @@ auto_eval_column_dict_lp = []
 auto_eval_column_dict_lp.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_lp.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in lp_tasks:
-    auto_eval_column_dict_lp.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 auto_eval_column_dict_lp.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_lp.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_lp.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])

 auto_eval_column_dict_nc.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_nc.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in nc_tasks:
+    auto_eval_column_dict_nc.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.benchmark, "number", True)])
 auto_eval_column_dict_nc.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nc.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nc.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nr.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_nr.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in nr_tasks:
+    auto_eval_column_dict_nr.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.benchmark, "number", True)])
 auto_eval_column_dict_nr.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nr.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_nr.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_lp.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 auto_eval_column_dict_lp.append(["average_rank", ColumnContent, ColumnContent("Average Rank⬆️", "number", True)])
 for task in lp_tasks:
+    auto_eval_column_dict_lp.append(['_'.join(task.value.col_name.split('-')), ColumnContent, ColumnContent(task.value.benchmark, "number", True)])
 auto_eval_column_dict_lp.append(["author", ColumnContent, ColumnContent("Author", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_lp.append(["email", ColumnContent, ColumnContent("Email", "markdown", True, never_hidden=False)])
 auto_eval_column_dict_lp.append(["Paper_URL", ColumnContent, ColumnContent("Paper URL", "markdown", True, never_hidden=False)])

src/populate.py CHANGED Viewed

@@ -2,6 +2,7 @@ import json
 import os
 from ast import literal_eval
 import pandas as pd
 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
@@ -12,6 +13,14 @@ from src.about import (
     lp_tasks,
 )
 '''
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
@@ -26,7 +35,8 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     #df = df[has_no_nan_values(df, benchmark_cols)]
     return raw_data, df
 '''
 def get_leaderboard_df(EVAL_REQUESTS_PATH, task_type) -> pd.DataFrame:
     if task_type == 'Node Classification':
         ascending = False
@@ -54,17 +64,19 @@ def get_leaderboard_df(EVAL_REQUESTS_PATH, task_type) -> pd.DataFrame:
                 model_res.append(out)
     for model in model_res:
-        model["test"] = literal_eval(model["test"])
-        model["valid"] = literal_eval(model["valid"])
         #model["params"] = int(model["params"])
         model['submitted_time'] = model['submitted_time'].split('T')[0]
         #model['paper_url'] = '[Link](' + model['paper_url'] + ')'
         #model['github_url'] = '[Link](' + model['github_url'] + ')'
-    name2short_name = {task.value.benchmark: task.value.col_name for task in tasks}
     for model in model_res:
-        model.update({name2short_name[i]: str(model['test'][i][0])[:4] + '±' + str(model['test'][i][1])[:4] if i in model['test'] else '-' for i in name2short_name})
     columns_to_show = ['model', 'author', 'email', 'paper_url', 'github_url', 'submitted_time'] + list(name2short_name.values())
     # Check if model_res is empty

 import os
 from ast import literal_eval
 import pandas as pd
+import re
 from src.display.formatting import has_no_nan_values, make_clickable_model
 from src.display.utils import AutoEvalColumn, EvalQueueColumn
     lp_tasks,
 )
+def sanitize_string(input_string):
+    # Remove leading and trailing whitespace
+    input_string = input_string.strip()
+    # Remove leading whitespace on each line
+    sanitized_string = re.sub(r'(?m)^\s+', '', input_string)
+    return sanitized_string
 '''
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     #df = df[has_no_nan_values(df, benchmark_cols)]
     return raw_data, df
 '''
+def format_number(num):
+    return f"{num:.3f}"
 def get_leaderboard_df(EVAL_REQUESTS_PATH, task_type) -> pd.DataFrame:
     if task_type == 'Node Classification':
         ascending = False
                 model_res.append(out)
     for model in model_res:
+        model["test"] = literal_eval(model["test"].split('}')[0]+'}')
+        model["valid"] = literal_eval(model["valid"].split('}')[0]+'}')
         #model["params"] = int(model["params"])
         model['submitted_time'] = model['submitted_time'].split('T')[0]
         #model['paper_url'] = '[Link](' + model['paper_url'] + ')'
         #model['github_url'] = '[Link](' + model['github_url'] + ')'
+    name2short_name = {task.value.benchmark: task.value.benchmark for task in tasks}
     for model in model_res:
+        model.update({
+            name2short_name[i]: (f"{format_number(model['test'][i][0])} ± {format_number(model['test'][i][1])}" if i in model['test'] else '-')
+            for i in name2short_name
+        })
     columns_to_show = ['model', 'author', 'email', 'paper_url', 'github_url', 'submitted_time'] + list(name2short_name.values())
     # Check if model_res is empty

src/submission/submit.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import json
 import os
 from datetime import datetime, timezone
 from src.display.formatting import styled_error, styled_message, styled_warning
 from src.envs import API, EVAL_REQUESTS_PATH, TOKEN, QUEUE_REPO
@@ -78,10 +79,17 @@ def add_new_eval(
         "task": task_track,
         "private": False,
     }
     # TODO: Check for duplicate submission
-    #if f"{model}_{author}_{precision}" in REQUESTED_MODELS:
-    #    return styled_warning("This model has been already submitted.")
     print("Creating eval file")
     OUT_DIR = f"{EVAL_REQUESTS_PATH}/{model}"

 import json
 import os
 from datetime import datetime, timezone
+from ast import literal_eval
 from src.display.formatting import styled_error, styled_message, styled_warning
 from src.envs import API, EVAL_REQUESTS_PATH, TOKEN, QUEUE_REPO
         "task": task_track,
         "private": False,
     }
+    ## add a checking to verify if the submission has no bug
+    try:
+        xx = literal_eval(eval_entry["test"])
+        xx = literal_eval(eval_entry["valid"])
+    except:
+        return styled_error("The testing/validation performance submitted do not follow the correct format. Please check the format and resubmit.")
     # TODO: Check for duplicate submission
+    #if f"{model}" in REQUESTED_MODELS:
+    #    return styled_error("This model has been already submitted.")
     print("Creating eval file")
     OUT_DIR = f"{EVAL_REQUESTS_PATH}/{model}"