data-only-mteb-leaderboard

Runtime error

App Files Files Community

rodrigomasini commited on Feb 7

Commit

d63195a

•

1 Parent(s): 219c4e7

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -125

app.py CHANGED Viewed

@@ -39,35 +39,6 @@ TASK_LIST_CLASSIFICATION = [
 TASK_LIST_CLASSIFICATION_NORM = [x.replace(" (en)", "") for x in TASK_LIST_CLASSIFICATION]
-TASK_LIST_CLASSIFICATION_DA = [
-    "AngryTweetsClassification",
-    "DanishPoliticalCommentsClassification",
-    "DKHateClassification",
-    "LccSentimentClassification",
-    "MassiveIntentClassification (da)",
-    "MassiveScenarioClassification (da)",
-    "NordicLangClassification",
-    "ScalaDaClassification",
-]
-TASK_LIST_CLASSIFICATION_NB = [
-    "NoRecClassification",
-    "NordicLangClassification",
-    "NorwegianParliament",
-    "MassiveIntentClassification (nb)",
-    "MassiveScenarioClassification (nb)",
-    "ScalaNbClassification",
-]
-TASK_LIST_CLASSIFICATION_PL = [
-    "AllegroReviews",
-    "CBD",
-    "MassiveIntentClassification (pl)",
-    "MassiveScenarioClassification (pl)",
-    "PAC",
-    "PolEmo2.0-IN",
-    "PolEmo2.0-OUT",
-]
 TASK_LIST_CLASSIFICATION_SV = [
     "DalajClassification",
@@ -78,18 +49,6 @@ TASK_LIST_CLASSIFICATION_SV = [
     "SweRecClassification",
 ]
-TASK_LIST_CLASSIFICATION_ZH = [
-    "AmazonReviewsClassification (zh)",
-    "IFlyTek",
-    "JDReview",
-    "MassiveIntentClassification (zh-CN)",
-    "MassiveScenarioClassification (zh-CN)",
-    "MultilingualSentiment",
-    "OnlineShopping",
-    "TNews",
-    "Waimai",
-]
 TASK_LIST_CLASSIFICATION_OTHER = ['AmazonCounterfactualClassification (de)', 'AmazonCounterfactualClassification (ja)', 'AmazonReviewsClassification (de)', 'AmazonReviewsClassification (es)', 'AmazonReviewsClassification (fr)', 'AmazonReviewsClassification (ja)', 'AmazonReviewsClassification (zh)', 'MTOPDomainClassification (de)', 'MTOPDomainClassification (es)', 'MTOPDomainClassification (fr)', 'MTOPDomainClassification (hi)', 'MTOPDomainClassification (th)', 'MTOPIntentClassification (de)', 'MTOPIntentClassification (es)', 'MTOPIntentClassification (fr)', 'MTOPIntentClassification (hi)', 'MTOPIntentClassification (th)', 'MassiveIntentClassification (af)', 'MassiveIntentClassification (am)', 'MassiveIntentClassification (ar)', 'MassiveIntentClassification (az)', 'MassiveIntentClassification (bn)', 'MassiveIntentClassification (cy)', 'MassiveIntentClassification (de)', 'MassiveIntentClassification (el)', 'MassiveIntentClassification (es)', 'MassiveIntentClassification (fa)', 'MassiveIntentClassification (fi)', 'MassiveIntentClassification (fr)', 'MassiveIntentClassification (he)', 'MassiveIntentClassification (hi)', 'MassiveIntentClassification (hu)', 'MassiveIntentClassification (hy)', 'MassiveIntentClassification (id)', 'MassiveIntentClassification (is)', 'MassiveIntentClassification (it)', 'MassiveIntentClassification (ja)', 'MassiveIntentClassification (jv)', 'MassiveIntentClassification (ka)', 'MassiveIntentClassification (km)', 'MassiveIntentClassification (kn)', 'MassiveIntentClassification (ko)', 'MassiveIntentClassification (lv)', 'MassiveIntentClassification (ml)', 'MassiveIntentClassification (mn)', 'MassiveIntentClassification (ms)', 'MassiveIntentClassification (my)', 'MassiveIntentClassification (nl)', 'MassiveIntentClassification (pt)', 'MassiveIntentClassification (ro)', 'MassiveIntentClassification (ru)', 'MassiveIntentClassification (sl)', 'MassiveIntentClassification (sq)', 'MassiveIntentClassification (sw)', 'MassiveIntentClassification (ta)', 'MassiveIntentClassification (te)', 'MassiveIntentClassification (th)', 'MassiveIntentClassification (tl)', 'MassiveIntentClassification (tr)', 'MassiveIntentClassification (ur)', 'MassiveIntentClassification (vi)', 'MassiveIntentClassification (zh-TW)', 'MassiveScenarioClassification (af)', 'MassiveScenarioClassification (am)', 'MassiveScenarioClassification (ar)', 'MassiveScenarioClassification (az)', 'MassiveScenarioClassification (bn)', 'MassiveScenarioClassification (cy)', 'MassiveScenarioClassification (de)', 'MassiveScenarioClassification (el)', 'MassiveScenarioClassification (es)', 'MassiveScenarioClassification (fa)', 'MassiveScenarioClassification (fi)', 'MassiveScenarioClassification (fr)', 'MassiveScenarioClassification (he)', 'MassiveScenarioClassification (hi)', 'MassiveScenarioClassification (hu)', 'MassiveScenarioClassification (hy)', 'MassiveScenarioClassification (id)', 'MassiveScenarioClassification (is)', 'MassiveScenarioClassification (it)', 'MassiveScenarioClassification (ja)', 'MassiveScenarioClassification (jv)', 'MassiveScenarioClassification (ka)', 'MassiveScenarioClassification (km)', 'MassiveScenarioClassification (kn)', 'MassiveScenarioClassification (ko)', 'MassiveScenarioClassification (lv)', 'MassiveScenarioClassification (ml)', 'MassiveScenarioClassification (mn)', 'MassiveScenarioClassification (ms)', 'MassiveScenarioClassification (my)', 'MassiveScenarioClassification (nl)', 'MassiveScenarioClassification (pt)', 'MassiveScenarioClassification (ro)', 'MassiveScenarioClassification (ru)', 'MassiveScenarioClassification (sl)', 'MassiveScenarioClassification (sq)', 'MassiveScenarioClassification (sw)', 'MassiveScenarioClassification (ta)', 'MassiveScenarioClassification (te)', 'MassiveScenarioClassification (th)', 'MassiveScenarioClassification (tl)', 'MassiveScenarioClassification (tr)', 'MassiveScenarioClassification (ur)', 'MassiveScenarioClassification (vi)', 'MassiveScenarioClassification (zh-TW)']
 TASK_LIST_CLUSTERING = [
@@ -106,43 +65,12 @@ TASK_LIST_CLUSTERING = [
     "TwentyNewsgroupsClustering",
 ]
-TASK_LIST_CLUSTERING_DE = [
-    "BlurbsClusteringP2P",
-    "BlurbsClusteringS2S",
-    "TenKGnadClusteringP2P",
-    "TenKGnadClusteringS2S",
-]
-TASK_LIST_CLUSTERING_PL = [
-    "8TagsClustering",
-]
-TASK_LIST_CLUSTERING_ZH = [
-    "CLSClusteringP2P",
-    "CLSClusteringS2S",
-    "ThuNewsClusteringP2P",
-    "ThuNewsClusteringS2S",
-]
 TASK_LIST_PAIR_CLASSIFICATION = [
     "SprintDuplicateQuestions",
     "TwitterSemEval2015",
     "TwitterURLCorpus",
 ]
-TASK_LIST_PAIR_CLASSIFICATION_PL = [
-    "CDSC-E",
-    "PPC",
-    "PSC",
-    "SICK-E-PL",
-]
-TASK_LIST_PAIR_CLASSIFICATION_ZH = [
-    "Cmnli",
-    "Ocnli",
-]
 TASK_LIST_RERANKING = [
     "AskUbuntuDupQuestions",
     "MindSmallReranking",
@@ -150,13 +78,6 @@ TASK_LIST_RERANKING = [
     "StackOverflowDupQuestions",
 ]
-TASK_LIST_RERANKING_ZH = [
-    "CMedQAv1",
-    "CMedQAv2",
-    "MMarcoReranking",
-    "T2Reranking",
-]
 TASK_LIST_RETRIEVAL = [
     "ArguAna",
     "ClimateFEVER",
@@ -175,31 +96,6 @@ TASK_LIST_RETRIEVAL = [
     "TRECCOVID",
 ]
-TASK_LIST_RETRIEVAL_PL = [
-    "ArguAna-PL",
-    "DBPedia-PL",
-    "FiQA-PL",
-    "HotpotQA-PL",
-    "MSMARCO-PL",
-    "NFCorpus-PL",
-    "NQ-PL",
-    "Quora-PL",
-    "SCIDOCS-PL",
-    "SciFact-PL",
-    "TRECCOVID-PL",
-]
-TASK_LIST_RETRIEVAL_ZH = [
-    "CmedqaRetrieval",
-    "CovidRetrieval",
-    "DuRetrieval",
-    "EcomRetrieval",
-    "MedicalRetrieval",
-    "MMarcoRetrieval",
-    "T2Retrieval",
-    "VideoRetrieval",
-]
 TASK_LIST_RETRIEVAL_NORM = TASK_LIST_RETRIEVAL + [
     "CQADupstackAndroidRetrieval",
     "CQADupstackEnglishRetrieval",
@@ -228,31 +124,12 @@ TASK_LIST_STS = [
     "STSBenchmark",
 ]
-TASK_LIST_STS_PL = [
-    "CDSC-R",
-    "SICK-R-PL",
-    "STS22 (pl)",
-]
-TASK_LIST_STS_ZH = [
-    "AFQMC",
-    "ATEC",
-    "BQ",
-    "LCQMC",
-    "PAWSX",
-    "QBQTC",
-    "STS22 (zh)",
-    "STSB",
-]
 TASK_LIST_STS_OTHER = ["STS17 (ar-ar)", "STS17 (en-ar)", "STS17 (en-de)", "STS17 (en-tr)", "STS17 (es-en)", "STS17 (es-es)", "STS17 (fr-en)", "STS17 (it-en)", "STS17 (ko-ko)", "STS17 (nl-en)", "STS22 (ar)", "STS22 (de)", "STS22 (de-en)", "STS22 (de-fr)", "STS22 (de-pl)", "STS22 (es)", "STS22 (es-en)", "STS22 (es-it)", "STS22 (fr)", "STS22 (fr-pl)", "STS22 (it)", "STS22 (pl)", "STS22 (pl-en)", "STS22 (ru)", "STS22 (tr)", "STS22 (zh-en)", "STSBenchmark",]
 TASK_LIST_STS_NORM = [x.replace(" (en)", "").replace(" (en-en)", "") for x in TASK_LIST_STS]
 TASK_LIST_SUMMARIZATION = ["SummEval",]
 TASK_LIST_EN = TASK_LIST_CLASSIFICATION + TASK_LIST_CLUSTERING + TASK_LIST_PAIR_CLASSIFICATION + TASK_LIST_RERANKING + TASK_LIST_RETRIEVAL + TASK_LIST_STS + TASK_LIST_SUMMARIZATION
-TASK_LIST_PL = TASK_LIST_CLASSIFICATION_PL + TASK_LIST_CLUSTERING_PL + TASK_LIST_PAIR_CLASSIFICATION_PL + TASK_LIST_RETRIEVAL_PL + TASK_LIST_STS_PL
-TASK_LIST_ZH = TASK_LIST_CLASSIFICATION_ZH + TASK_LIST_CLUSTERING_ZH + TASK_LIST_PAIR_CLASSIFICATION_ZH + TASK_LIST_RERANKING_ZH + TASK_LIST_RETRIEVAL_ZH + TASK_LIST_STS_ZH
 TASK_TO_METRIC = {
     "BitextMining": "f1",
@@ -806,7 +683,8 @@ def get_mteb_data(tasks=["Clustering"], langs=[], datasets=[], fillna=True, add_
             df_list.append(res)
     for model in models:
-        if model.modelId in MODELS_TO_SKIP: continue
         print("MODEL", model)
         readme_path = hf_hub_download(model.modelId, filename="README.md")
         meta = metadata_load(readme_path)
@@ -890,7 +768,7 @@ def get_mteb_average():
 get_mteb_average()
 NUM_DATASETS = len(set(DATASETS))
-# NUM_LANGUAGES = len(set(LANGUAGES))
 NUM_MODELS = len(set(MODELS))
 data_overall = gr.components.Dataframe(

 TASK_LIST_CLASSIFICATION_NORM = [x.replace(" (en)", "") for x in TASK_LIST_CLASSIFICATION]
 TASK_LIST_CLASSIFICATION_SV = [
     "DalajClassification",
     "SweRecClassification",
 ]
 TASK_LIST_CLASSIFICATION_OTHER = ['AmazonCounterfactualClassification (de)', 'AmazonCounterfactualClassification (ja)', 'AmazonReviewsClassification (de)', 'AmazonReviewsClassification (es)', 'AmazonReviewsClassification (fr)', 'AmazonReviewsClassification (ja)', 'AmazonReviewsClassification (zh)', 'MTOPDomainClassification (de)', 'MTOPDomainClassification (es)', 'MTOPDomainClassification (fr)', 'MTOPDomainClassification (hi)', 'MTOPDomainClassification (th)', 'MTOPIntentClassification (de)', 'MTOPIntentClassification (es)', 'MTOPIntentClassification (fr)', 'MTOPIntentClassification (hi)', 'MTOPIntentClassification (th)', 'MassiveIntentClassification (af)', 'MassiveIntentClassification (am)', 'MassiveIntentClassification (ar)', 'MassiveIntentClassification (az)', 'MassiveIntentClassification (bn)', 'MassiveIntentClassification (cy)', 'MassiveIntentClassification (de)', 'MassiveIntentClassification (el)', 'MassiveIntentClassification (es)', 'MassiveIntentClassification (fa)', 'MassiveIntentClassification (fi)', 'MassiveIntentClassification (fr)', 'MassiveIntentClassification (he)', 'MassiveIntentClassification (hi)', 'MassiveIntentClassification (hu)', 'MassiveIntentClassification (hy)', 'MassiveIntentClassification (id)', 'MassiveIntentClassification (is)', 'MassiveIntentClassification (it)', 'MassiveIntentClassification (ja)', 'MassiveIntentClassification (jv)', 'MassiveIntentClassification (ka)', 'MassiveIntentClassification (km)', 'MassiveIntentClassification (kn)', 'MassiveIntentClassification (ko)', 'MassiveIntentClassification (lv)', 'MassiveIntentClassification (ml)', 'MassiveIntentClassification (mn)', 'MassiveIntentClassification (ms)', 'MassiveIntentClassification (my)', 'MassiveIntentClassification (nl)', 'MassiveIntentClassification (pt)', 'MassiveIntentClassification (ro)', 'MassiveIntentClassification (ru)', 'MassiveIntentClassification (sl)', 'MassiveIntentClassification (sq)', 'MassiveIntentClassification (sw)', 'MassiveIntentClassification (ta)', 'MassiveIntentClassification (te)', 'MassiveIntentClassification (th)', 'MassiveIntentClassification (tl)', 'MassiveIntentClassification (tr)', 'MassiveIntentClassification (ur)', 'MassiveIntentClassification (vi)', 'MassiveIntentClassification (zh-TW)', 'MassiveScenarioClassification (af)', 'MassiveScenarioClassification (am)', 'MassiveScenarioClassification (ar)', 'MassiveScenarioClassification (az)', 'MassiveScenarioClassification (bn)', 'MassiveScenarioClassification (cy)', 'MassiveScenarioClassification (de)', 'MassiveScenarioClassification (el)', 'MassiveScenarioClassification (es)', 'MassiveScenarioClassification (fa)', 'MassiveScenarioClassification (fi)', 'MassiveScenarioClassification (fr)', 'MassiveScenarioClassification (he)', 'MassiveScenarioClassification (hi)', 'MassiveScenarioClassification (hu)', 'MassiveScenarioClassification (hy)', 'MassiveScenarioClassification (id)', 'MassiveScenarioClassification (is)', 'MassiveScenarioClassification (it)', 'MassiveScenarioClassification (ja)', 'MassiveScenarioClassification (jv)', 'MassiveScenarioClassification (ka)', 'MassiveScenarioClassification (km)', 'MassiveScenarioClassification (kn)', 'MassiveScenarioClassification (ko)', 'MassiveScenarioClassification (lv)', 'MassiveScenarioClassification (ml)', 'MassiveScenarioClassification (mn)', 'MassiveScenarioClassification (ms)', 'MassiveScenarioClassification (my)', 'MassiveScenarioClassification (nl)', 'MassiveScenarioClassification (pt)', 'MassiveScenarioClassification (ro)', 'MassiveScenarioClassification (ru)', 'MassiveScenarioClassification (sl)', 'MassiveScenarioClassification (sq)', 'MassiveScenarioClassification (sw)', 'MassiveScenarioClassification (ta)', 'MassiveScenarioClassification (te)', 'MassiveScenarioClassification (th)', 'MassiveScenarioClassification (tl)', 'MassiveScenarioClassification (tr)', 'MassiveScenarioClassification (ur)', 'MassiveScenarioClassification (vi)', 'MassiveScenarioClassification (zh-TW)']
 TASK_LIST_CLUSTERING = [
     "TwentyNewsgroupsClustering",
 ]
 TASK_LIST_PAIR_CLASSIFICATION = [
     "SprintDuplicateQuestions",
     "TwitterSemEval2015",
     "TwitterURLCorpus",
 ]
 TASK_LIST_RERANKING = [
     "AskUbuntuDupQuestions",
     "MindSmallReranking",
     "StackOverflowDupQuestions",
 ]
 TASK_LIST_RETRIEVAL = [
     "ArguAna",
     "ClimateFEVER",
     "TRECCOVID",
 ]
 TASK_LIST_RETRIEVAL_NORM = TASK_LIST_RETRIEVAL + [
     "CQADupstackAndroidRetrieval",
     "CQADupstackEnglishRetrieval",
     "STSBenchmark",
 ]
 TASK_LIST_STS_OTHER = ["STS17 (ar-ar)", "STS17 (en-ar)", "STS17 (en-de)", "STS17 (en-tr)", "STS17 (es-en)", "STS17 (es-es)", "STS17 (fr-en)", "STS17 (it-en)", "STS17 (ko-ko)", "STS17 (nl-en)", "STS22 (ar)", "STS22 (de)", "STS22 (de-en)", "STS22 (de-fr)", "STS22 (de-pl)", "STS22 (es)", "STS22 (es-en)", "STS22 (es-it)", "STS22 (fr)", "STS22 (fr-pl)", "STS22 (it)", "STS22 (pl)", "STS22 (pl-en)", "STS22 (ru)", "STS22 (tr)", "STS22 (zh-en)", "STSBenchmark",]
 TASK_LIST_STS_NORM = [x.replace(" (en)", "").replace(" (en-en)", "") for x in TASK_LIST_STS]
 TASK_LIST_SUMMARIZATION = ["SummEval",]
 TASK_LIST_EN = TASK_LIST_CLASSIFICATION + TASK_LIST_CLUSTERING + TASK_LIST_PAIR_CLASSIFICATION + TASK_LIST_RERANKING + TASK_LIST_RETRIEVAL + TASK_LIST_STS + TASK_LIST_SUMMARIZATION
 TASK_TO_METRIC = {
     "BitextMining": "f1",
             df_list.append(res)
     for model in models:
+        if model.modelId in MODELS_TO_SKIP:
+            continue
         print("MODEL", model)
         readme_path = hf_hub_download(model.modelId, filename="README.md")
         meta = metadata_load(readme_path)
 get_mteb_average()
 NUM_DATASETS = len(set(DATASETS))
 NUM_MODELS = len(set(MODELS))
 data_overall = gr.components.Dataframe(