Spaces:

colab-potsdam
/

clem-leaderboard

Running

App Files Files Community

sherzod-hakimov commited on Jun 24

Commit

18d5ac3

•

1 Parent(s): 69c36b6

update

Browse files

Files changed (3) hide show

app.py +2 -1
requirements.txt +1 -1
src/leaderboard_utils.py +27 -16

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from src.plot_utils import split_models, compare_plots
 dataframe_height = 800 # Height of the table in pixels
 # Get CSV data
 global primary_leaderboard_df, version_dfs, version_names
-primary_leaderboard_df, version_dfs, version_names = get_github_data()
 global prev_df
 prev_df = version_dfs[0]
@@ -48,6 +48,7 @@ with main_app:
             )
             gr.HTML(CLEMSCORE_TEXT)
             # Add a dummy leaderboard to handle search queries from the primary_leaderboard_df and not update primary_leaderboard_df
             dummy_leaderboard_table = gr.Dataframe(

 dataframe_height = 800 # Height of the table in pixels
 # Get CSV data
 global primary_leaderboard_df, version_dfs, version_names
+primary_leaderboard_df, version_dfs, version_names, date = get_github_data()
 global prev_df
 prev_df = version_dfs[0]
             )
             gr.HTML(CLEMSCORE_TEXT)
+            gr.HTML(f"Last updated - {date}")
             # Add a dummy leaderboard to handle search queries from the primary_leaderboard_df and not update primary_leaderboard_df
             dummy_leaderboard_table = gr.Dataframe(

requirements.txt CHANGED Viewed

@@ -1,3 +1,3 @@
-gradio==3.43.2
 pandas==2.0.0
 plotly==5.18.0

+gradio==4.36.1
 pandas==2.0.0
 plotly==5.18.0

src/leaderboard_utils.py CHANGED Viewed

@@ -2,17 +2,19 @@ import os
 import pandas as pd
 import requests, json
 from io import StringIO
 def get_github_data():
-    '''
     Get data from csv files on Github
     Args:
-        None
-    Returns:
-        latest_df: singular list containing dataframe of the latest version of the leaderboard with only 4 columns
         all_dfs: list of dataframes for previous versions + latest version including columns for all games
         all_vnames: list of the names for the previous versions + latest version (For Details and Versions Tab Dropdown)
-    '''
     uname = "clembench"
     repo = "clembench-runs"
     json_url = f"https://raw.githubusercontent.com/{uname}/{repo}/main/benchmark_runs.json"
@@ -27,11 +29,18 @@ def get_github_data():
             csv_path = ver['result_file'].split('/')[1:]
             csv_path = '/'.join(csv_path)
-        #Sort by latest version
         float_content = [float(s[1:]) for s in version_names]
         float_content.sort(reverse=True)
         version_names = ['v'+str(s) for s in float_content]
         DFS = []
         for version in version_names:
             result_url = csv_url+ version + '/' + csv_path
@@ -44,7 +53,7 @@ def get_github_data():
             else:
                 print(f"Failed to read CSV file for version : {version}. Status Code : {resp.status_code}")
-        # Only keep relavant columns for the main leaderboard
         latest_df_dummy = DFS[0]
         all_columns = list(latest_df_dummy.columns)
         keep_columns = all_columns[0:4]
@@ -56,22 +65,23 @@ def get_github_data():
         for df, name in zip(DFS, version_names):
             all_dfs.append(df)
             all_vnames.append(name)
-        return latest_df, all_dfs, all_vnames
     else:
         print(f"Failed to read JSON file: Status Code : {resp.status_code}")
 def process_df(df: pd.DataFrame) -> pd.DataFrame:
-    '''
-    Process dataframe
-    - Remove repition in model names
     - Convert datatypes to sort by "float" instead of "str" for sorting
     - Update column names
     Args:
         df: Unprocessed Dataframe (after using update_cols)
     Returns:
         df: Processed Dataframe
-    '''
     # Change column type to float from str
     list_column_names = list(df.columns)
@@ -107,15 +117,16 @@ def process_df(df: pd.DataFrame) -> pd.DataFrame:
     df = df.rename(columns=map_cols)
     return df
 def filter_search(df: pd.DataFrame, query: str) -> pd.DataFrame:
-    '''
     Filter the dataframe based on the search query
     Args:
         df: Unfiltered dataframe
         query: a string of queries separated by ";"
     Return:
-        filtered_df: Dataframe containing searched queries in the 'Model' column
-    '''
     queries = query.split(';')
     list_cols = list(df.columns)
     df_len = len(df)
@@ -134,4 +145,4 @@ def filter_search(df: pd.DataFrame, query: str) -> pd.DataFrame:
     if query == "":
         return df
-    return filtered_df

 import pandas as pd
 import requests, json
 from io import StringIO
+from datetime import datetime
 def get_github_data():
+    """
     Get data from csv files on Github
     Args:
+        None
+    Returns:
+        latest_df: singular list containing dataframe of the latest version of the leaderboard with only 4 columns
         all_dfs: list of dataframes for previous versions + latest version including columns for all games
         all_vnames: list of the names for the previous versions + latest version (For Details and Versions Tab Dropdown)
+    """
     uname = "clembench"
     repo = "clembench-runs"
     json_url = f"https://raw.githubusercontent.com/{uname}/{repo}/main/benchmark_runs.json"
             csv_path = ver['result_file'].split('/')[1:]
             csv_path = '/'.join(csv_path)
+        # Sort by latest version
         float_content = [float(s[1:]) for s in version_names]
         float_content.sort(reverse=True)
         version_names = ['v'+str(s) for s in float_content]
+        # Get date of latest version
+        for data in versions:
+            if data['version'] == version_names[0]:
+                date = data['date'] # Should be in YYYY/MM/DD format
+                date_obj = datetime.strptime(date, "%Y/%m/%d")
+                date = date_obj.strftime("%d %b %Y")
         DFS = []
         for version in version_names:
             result_url = csv_url+ version + '/' + csv_path
             else:
                 print(f"Failed to read CSV file for version : {version}. Status Code : {resp.status_code}")
+        # Only keep relevant columns for the main leaderboard
         latest_df_dummy = DFS[0]
         all_columns = list(latest_df_dummy.columns)
         keep_columns = all_columns[0:4]
         for df, name in zip(DFS, version_names):
             all_dfs.append(df)
             all_vnames.append(name)
+        return latest_df, all_dfs, all_vnames, date
     else:
         print(f"Failed to read JSON file: Status Code : {resp.status_code}")
 def process_df(df: pd.DataFrame) -> pd.DataFrame:
+    """
+    Process dataframe
+    - Remove repition in model names
     - Convert datatypes to sort by "float" instead of "str" for sorting
     - Update column names
     Args:
         df: Unprocessed Dataframe (after using update_cols)
     Returns:
         df: Processed Dataframe
+    """
     # Change column type to float from str
     list_column_names = list(df.columns)
     df = df.rename(columns=map_cols)
     return df
 def filter_search(df: pd.DataFrame, query: str) -> pd.DataFrame:
+    """
     Filter the dataframe based on the search query
     Args:
         df: Unfiltered dataframe
         query: a string of queries separated by ";"
     Return:
+        filtered_df: Dataframe containing searched queries in the 'Model' column
+    """
     queries = query.split(';')
     list_cols = list(df.columns)
     df_len = len(df)
     if query == "":
         return df
+    return filtered_df