Spaces:

symanto
/

generation_evaluator

Sleeping

App Files Files Community

HalteroXHunter commited on Jun 21, 2024

Commit

80d7919

1 Parent(s): d5750c7

mean for bertscore and bleurt

Browse files

Files changed (2) hide show

generation_evaluator.py +17 -6
requirements.txt +2 -1

generation_evaluator.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import datasets
 import evaluate
 _CITATION = """\
 @inproceedings{lin-2004-rouge,
@@ -109,7 +110,7 @@ BLEU:{
 EXACT_MATCH:{
     "exact_match": exact_match rate. Possible values are between 0.0 and 1.0, inclusive.
 },
-BERT_SCORE:{
     "precision": Precision.
     "recall": Recall.
     "f1": F1 score.
@@ -158,22 +159,32 @@ class GenerationEvaluator(evaluate.Metric):
         exact_match_results = exact_match_score.compute(
             predictions=predictions, references=references
         )
         bert_score = evaluate.load("bertscore")
         bert_score_results = bert_score.compute(
-            predictions=predictions, references=references,
-            lang="en"
         )
         bleurt_score = evaluate.load("bleurt", module_type="metric")
         bleurt_results = bleurt_score.compute(
             predictions=predictions, references=references
         )
         return {
             "ROUGE": rouge_results,
             "BLEU": bleu_results,
             "EXACT_MATCH": exact_match_results,
-            "BERT_SCORE":bert_score_results,
-            "BLEURT":bleurt_results
         }

 import datasets
 import evaluate
+import numpy as np
 _CITATION = """\
 @inproceedings{lin-2004-rouge,
 EXACT_MATCH:{
     "exact_match": exact_match rate. Possible values are between 0.0 and 1.0, inclusive.
 },
+BERT_SCORE:{
     "precision": Precision.
     "recall": Recall.
     "f1": F1 score.
         exact_match_results = exact_match_score.compute(
             predictions=predictions, references=references
         )
         bert_score = evaluate.load("bertscore")
         bert_score_results = bert_score.compute(
+            predictions=predictions, references=references, lang="en"
         )
+        mean_precision = np.mean(bert_score_results['precision'])
+        mean_recall = np.mean(bert_score_results['recall'])
+        mean_f1 = np.mean(bert_score_results['f1'])
+        bert_score_results['precision'] = round(mean_precision, 4)
+        bert_score_results['recall'] = round(mean_recall, 4)
+        bert_score_results['f1'] = round(mean_f1, 4)
         bleurt_score = evaluate.load("bleurt", module_type="metric")
         bleurt_results = bleurt_score.compute(
             predictions=predictions, references=references
         )
+        mean_bleurt_score = np.mean(bleurt_results['scores'])
+        bleurt_results['scores'] = round(mean_bleurt_score, 4)
         return {
             "ROUGE": rouge_results,
             "BLEU": bleu_results,
             "EXACT_MATCH": exact_match_results,
+            "BERT_SCORE": bert_score_results,
+            "BLEURT": bleurt_results,
         }

requirements.txt CHANGED Viewed

@@ -3,4 +3,5 @@ datasets
 scikit-learn
 gradio
 bert_score
-git+https://github.com/google-research/bleurt.git

 scikit-learn
 gradio
 bert_score
+git+https://github.com/google-research/bleurt.git
+numpy