portuguese-leaderboard-results-to-modelcard

Running

App Files Files Community

eduagarcia commited on Mar 20

Commit

e9177b9

•

1 Parent(s): 7bdbf7b

Fix bugs, fix datasets path, added test functions

Browse files

Files changed (2) hide show

functions.py +24 -19
openllm.py +7 -1

functions.py CHANGED Viewed

@@ -7,6 +7,7 @@ from pytablewriter import MarkdownTableWriter
 import gradio as gr
 from openllm import get_json_format_data, get_datas
 import pandas as pd
 BOT_HF_TOKEN = os.getenv('BOT_HF_TOKEN')
@@ -23,7 +24,7 @@ If you encounter any issues, please report them to https://huggingface.co/spaces
 """
 def search(df, value):
-    result_df = df[df["Model"] == value]
     return result_df.iloc[0].to_dict() if not result_df.empty else None
@@ -39,8 +40,8 @@ def get_query_url(repo):
 def get_task_summary(results):
   return {
       "ENEM":
-          {"dataset_type":"enem_challenge",
-          "dataset_name":"ENEM Challenge",
           "metric_type":"acc",
           "metric_value":results["ENEM"],
           "dataset_config": None,
@@ -50,8 +51,8 @@ def get_task_summary(results):
           "metric_name":"accuracy"
           },
       "BLUEX":
-          {"dataset_type":"bluex",
-          "dataset_name":"BLUEX",
           "metric_type":"acc",
           "metric_value":results["BLUEX"],
           "dataset_config": None,
@@ -61,7 +62,7 @@ def get_task_summary(results):
           "metric_name":"accuracy"
           },
       "OAB Exams":
-          {"dataset_type":"oab_exams",
           "dataset_name":"OAB Exams",
           "metric_type":"acc",
           "metric_value":results["OAB Exams"],
@@ -72,8 +73,8 @@ def get_task_summary(results):
           "metric_name":"accuracy"
           },
       "ASSIN2 RTE":
-          {"dataset_type":"assin2_rte",
-          "dataset_name":"ASSIN2 RTE",
           "metric_type":"f1_macro",
           "metric_value":results["ASSIN2 RTE"],
           "dataset_config": None,
@@ -83,8 +84,8 @@ def get_task_summary(results):
           "metric_name":"f1-macro"
           },
       "ASSIN2 STS":
-          {"dataset_type":"assin2_sts",
-          "dataset_name":"ASSIN2 STS",
           "metric_type":"pearson",
           "metric_value":results["ASSIN2 STS"],
           "dataset_config": None,
@@ -94,8 +95,8 @@ def get_task_summary(results):
           "metric_name":"pearson"
           },
       "FAQUAD NLI":
-          {"dataset_type":"fquad_nli",
-          "dataset_name":"FAQUAD NLI",
           "metric_type":"f1_macro",
           "metric_value":results["FAQUAD NLI"],
           "dataset_config": None,
@@ -105,8 +106,8 @@ def get_task_summary(results):
           "metric_name":"f1-macro"
           },
       "HateBR":
-          {"dataset_type":"hatebr_offensive",
-          "dataset_name":"HateBR",
           "metric_type":"f1_macro",
           "metric_value":results["HateBR"],
           "dataset_config": None,
@@ -116,8 +117,8 @@ def get_task_summary(results):
           "metric_name":"f1-macro"
           },
       "PT Hate Speech":
-          {"dataset_type":"portuguese_hate_speech",
-          "dataset_name":"PT Hate Speech",
           "metric_type":"f1_macro",
           "metric_value":results["PT Hate Speech"],
           "dataset_config": None,
@@ -127,7 +128,7 @@ def get_task_summary(results):
           "metric_name":"f1-macro"
           },
       "tweetSentBR":
-          {"dataset_type":"tweetsentbr",
           "dataset_name":"tweetSentBR",
           "metric_type":"f1_macro",
           "metric_value":results["tweetSentBR"],
@@ -146,7 +147,7 @@ def get_eval_results(repo):
   task_summary = get_task_summary(results)
   md_writer = MarkdownTableWriter()
   md_writer.headers = ["Metric", "Value"]
-  md_writer.value_matrix = [["Avg.", results['Average ⬆️']]] + [[v["dataset_name"], v["metric_value"]] for v in task_summary.values()]
   text = f"""
 # [Open Portuguese LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard)
@@ -201,6 +202,7 @@ def commit(repo, pr_number=None, message="Adding Evaluation Results", oauth_toke
       if "Repo card metadata block was not found." in str(e): # There is no readme
         readme_text = get_edited_yaml_readme(repo, token=token)
       else:
         print(f"Something went wrong: {e}")
     liste = [CommitOperationAdd(path_in_repo="README.md", path_or_fileobj=readme_text.encode())]
@@ -217,4 +219,7 @@ def commit(repo, pr_number=None, message="Adding Evaluation Results", oauth_toke
     elif "Repository Not Found" in str(e):
       return "Repository Not Found"
     else:
-      return e

 import gradio as gr
 from openllm import get_json_format_data, get_datas
 import pandas as pd
+import traceback
 BOT_HF_TOKEN = os.getenv('BOT_HF_TOKEN')
 """
 def search(df, value):
+    result_df = df[df["Model Name"] == value]
     return result_df.iloc[0].to_dict() if not result_df.empty else None
 def get_task_summary(results):
   return {
       "ENEM":
+          {"dataset_type":"eduagarcia/enem_challenge",
+          "dataset_name":"ENEM Challenge (No Images)",
           "metric_type":"acc",
           "metric_value":results["ENEM"],
           "dataset_config": None,
           "metric_name":"accuracy"
           },
       "BLUEX":
+          {"dataset_type":"eduagarcia-temp/BLUEX_without_images",
+          "dataset_name":"BLUEX (No Images)",
           "metric_type":"acc",
           "metric_value":results["BLUEX"],
           "dataset_config": None,
           "metric_name":"accuracy"
           },
       "OAB Exams":
+          {"dataset_type":"eduagarcia/oab_exams",
           "dataset_name":"OAB Exams",
           "metric_type":"acc",
           "metric_value":results["OAB Exams"],
           "metric_name":"accuracy"
           },
       "ASSIN2 RTE":
+          {"dataset_type":"assin2",
+          "dataset_name":"Assin2 RTE",
           "metric_type":"f1_macro",
           "metric_value":results["ASSIN2 RTE"],
           "dataset_config": None,
           "metric_name":"f1-macro"
           },
       "ASSIN2 STS":
+          {"dataset_type":"assin2",
+          "dataset_name":"Assin2 STS",
           "metric_type":"pearson",
           "metric_value":results["ASSIN2 STS"],
           "dataset_config": None,
           "metric_name":"pearson"
           },
       "FAQUAD NLI":
+          {"dataset_type":"ruanchaves/faquad-nli",
+          "dataset_name":"FaQuAD NLI",
           "metric_type":"f1_macro",
           "metric_value":results["FAQUAD NLI"],
           "dataset_config": None,
           "metric_name":"f1-macro"
           },
       "HateBR":
+          {"dataset_type":"eduagarcia/portuguese_benchmark",
+          "dataset_name":"HateBR Binary",
           "metric_type":"f1_macro",
           "metric_value":results["HateBR"],
           "dataset_config": None,
           "metric_name":"f1-macro"
           },
       "PT Hate Speech":
+          {"dataset_type":"eduagarcia/portuguese_benchmark",
+          "dataset_name":"PT Hate Speech Binary",
           "metric_type":"f1_macro",
           "metric_value":results["PT Hate Speech"],
           "dataset_config": None,
           "metric_name":"f1-macro"
           },
       "tweetSentBR":
+          {"dataset_type":"eduagarcia-temp/tweetsentbr",
           "dataset_name":"tweetSentBR",
           "metric_type":"f1_macro",
           "metric_value":results["tweetSentBR"],
   task_summary = get_task_summary(results)
   md_writer = MarkdownTableWriter()
   md_writer.headers = ["Metric", "Value"]
+  md_writer.value_matrix = [["Average", f"**{results['Average ⬆️']}**"]] + [[v["dataset_name"], v["metric_value"]] for v in task_summary.values()]
   text = f"""
 # [Open Portuguese LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard)
       if "Repo card metadata block was not found." in str(e): # There is no readme
         readme_text = get_edited_yaml_readme(repo, token=token)
       else:
+        traceback.print_exc()
         print(f"Something went wrong: {e}")
     liste = [CommitOperationAdd(path_in_repo="README.md", path_or_fileobj=readme_text.encode())]
     elif "Repository Not Found" in str(e):
       return "Repository Not Found"
     else:
+      return e
+if __name__ == "__main__":
+  print(get_eval_results("Qwen/Qwen1.5-72B-Chat"))

openllm.py CHANGED Viewed

@@ -41,4 +41,10 @@ def get_datas(data):
         except (KeyError, TypeError):
             continue
-    return result_list

         except (KeyError, TypeError):
             continue
+    return result_list
+if __name__ == "__main__":
+    data = get_json_format_data()
+    print(data)
+    finished_models = get_datas(data)
+    print(finished_models)