data-only-mteb-leaderboard

Runtime error

App Files Files Community

rodrigomasini commited on Feb 7

Commit

e7060c6

•

1 Parent(s): bca2d6e

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -15

app.py CHANGED Viewed

@@ -744,15 +744,15 @@ def get_mteb_average():
     # Debugging:
     # DATA_OVERALL.to_csv("overall.csv")
-    DATA_OVERALL.insert(1, f"Average", DATA_OVERALL[TASK_LIST_EN].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(2, f"Classification Average", DATA_OVERALL[TASK_LIST_CLASSIFICATION].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(3, f"Clustering Average", DATA_OVERALL[TASK_LIST_CLUSTERING].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(4, f"Pair Classification Average", DATA_OVERALL[TASK_LIST_PAIR_CLASSIFICATION].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(5, f"Reranking Average", DATA_OVERALL[TASK_LIST_RERANKING].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(6, f"Retrieval Average", DATA_OVERALL[TASK_LIST_RETRIEVAL].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(7, f"STS Average", DATA_OVERALL[TASK_LIST_STS].mean(axis=1, skipna=False))
-    DATA_OVERALL.insert(8, f"Summarization Average", DATA_OVERALL[TASK_LIST_SUMMARIZATION].mean(axis=1, skipna=False))
-    DATA_OVERALL.sort_values(f"Average", ascending=False, inplace=True)
     # Start ranking from 1
     DATA_OVERALL.insert(0, "Rank", list(range(1, len(DATA_OVERALL) + 1)))
@@ -769,7 +769,9 @@ def get_mteb_average():
     # Fill NaN after averaging
     DATA_OVERALL.fillna("", inplace=True)
-    DATA_OVERALL = DATA_OVERALL[["Rank", "Model", "Model Size (GB)", "Embedding Dimensions", "Max Tokens", f"Average", f"Classification Average", f"Clustering Average", f"Pair Classification Average", f"Reranking Average", f"Retrieval Average", f"STS Average", f"Summarization Average"]]
     DATA_OVERALL = DATA_OVERALL[DATA_OVERALL.iloc[:, 5:].ne("").any(axis=1)]
     return DATA_OVERALL
@@ -791,10 +793,6 @@ def remove_invalid_unicode(input_string):
         return ''.join(valid_chars)
     else:
         return input_string  # Return non-string values as is
-for column in DATA_OVERALL.columns:
-            if DATA_OVERALL[column].dtype == 'object':
-                DATA_OVERALL[column] = DATA_OVERALL[column].apply(remove_invalid_unicode)
 from dataclasses import dataclass
@@ -810,7 +808,7 @@ DATA_OVERALL_COLUMN_TO_DATATYPE = [
     LeaderboardColumn("Max Tokens", "number"),
     LeaderboardColumn("Average", "number"),
     LeaderboardColumn("Classification Average", "number"),
-    LeaderboardColumn("Classification Average", "number"),
     LeaderboardColumn("Pair Classification Average", "number"),
     LeaderboardColumn("Reranking Average", "number"),
     LeaderboardColumn("Retrieval Average", "number"),

     # Debugging:
     # DATA_OVERALL.to_csv("overall.csv")
+    DATA_OVERALL.insert(1, "Average", DATA_OVERALL[TASK_LIST_EN].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(2, "Classification Average", DATA_OVERALL[TASK_LIST_CLASSIFICATION].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(3, "Clustering Average", DATA_OVERALL[TASK_LIST_CLUSTERING].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(4, "Pair Classification Average", DATA_OVERALL[TASK_LIST_PAIR_CLASSIFICATION].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(5, "Reranking Average", DATA_OVERALL[TASK_LIST_RERANKING].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(6, "Retrieval Average", DATA_OVERALL[TASK_LIST_RETRIEVAL].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(7, "STS Average", DATA_OVERALL[TASK_LIST_STS].mean(axis=1, skipna=False))
+    DATA_OVERALL.insert(8, "Summarization Average", DATA_OVERALL[TASK_LIST_SUMMARIZATION].mean(axis=1, skipna=False))
+    DATA_OVERALL.sort_values("Average", ascending=False, inplace=True)
     # Start ranking from 1
     DATA_OVERALL.insert(0, "Rank", list(range(1, len(DATA_OVERALL) + 1)))
     # Fill NaN after averaging
     DATA_OVERALL.fillna("", inplace=True)
+    DATA_OVERALL = DATA_OVERALL[["Rank", "Model", "Model Size (GB)", "Embedding Dimensions", "Max Tokens", "Average",
+                                 "Classification Average", "Clustering Average", "Pair Classification Average", "Reranking Average", "Retrieval Average",
+                                 "STS Average", "Summarization Average"]]
     DATA_OVERALL = DATA_OVERALL[DATA_OVERALL.iloc[:, 5:].ne("").any(axis=1)]
     return DATA_OVERALL
         return ''.join(valid_chars)
     else:
         return input_string  # Return non-string values as is
 from dataclasses import dataclass
     LeaderboardColumn("Max Tokens", "number"),
     LeaderboardColumn("Average", "number"),
     LeaderboardColumn("Classification Average", "number"),
+    LeaderboardColumn("Clustering Average", "number"),
     LeaderboardColumn("Pair Classification Average", "number"),
     LeaderboardColumn("Reranking Average", "number"),
     LeaderboardColumn("Retrieval Average", "number"),