Spaces:

yuyijiong
/

quad_match_score

Sleeping

App Files Files Community

yuyijiong commited on Apr 13, 2023

Commit

120df80

1 Parent(s): 13f64cc

修复多个refer时f1不正常的bug

Browse files

Files changed (1) hide show

quad_match_score.py +24 -23

quad_match_score.py CHANGED Viewed

@@ -660,7 +660,7 @@ class QuadMatch(evaluate.Metric):
         '''
         f1_of_optimal_match, score_of_optimal_match = self.quad_f1_of_optimal_match(predictions, references,
                                                                                     quad_weights, **kwargs)
-        f1 = self.quad_f1_of_exact_match(y_pred=predictions, y_true=references, **kwargs)
         # 取1-cost为得分
         return {'score of optimal match of weight ' + str(quad_weights): score_of_optimal_match,
@@ -668,30 +668,31 @@ class QuadMatch(evaluate.Metric):
                 'f1 of exact match': f1}
     @staticmethod
-    def quad_f1_of_exact_match(y_pred: List[str], y_true: Union[List[str], List[List[str]]],
                                return_dict=False, **kwargs) -> Union[Dict[str, float], float]:
-        assert len(y_pred) == len(y_true), "文本数量不一致"
         correct, pred_num, true_num = 0, 0, 0
-        for pred, true in zip(y_pred, y_true):
             pred = CommentUnitsSim.from_str(pred, **kwargs)
-            # 如果true是list，说明有多个正确答案
-            if isinstance(true, str):
-                true = CommentUnitsSim.from_str(true, **kwargs)
-            else:
-                true = [CommentUnitsSim.from_str(t, **kwargs) for t in true]
-            # 如果true是list，说明有多个正确答案，取最高分
-            if isinstance(true, list):
-                correct_list = [pred.compare_same(t) for t in true]
-                correct += max(correct_list)  # 获取得分最高的值
-                correct_index = correct_list.index(max(correct_list))  # 获取得分最高的索引
-                pred_num += pred.num
-                true_num += true[correct_index].num
-            else:
-                correct += pred.compare_same(true)
-                pred_num += pred.num
-                true_num += true.num
         # 以下结果保留4位小数
         precision = round(correct / pred_num, 4) + 1e-8
@@ -733,9 +734,9 @@ class QuadMatch(evaluate.Metric):
             # 如果true是多个正确答案，取最高分
             cost_list = [matcher.match_units(pred, t) for t in refer]
-            # 获取得分最高的值的索引，按元组中第一个元素大小排序
             # 计算每一对样本的cost，TP，FP，FN
-            cost_, TP_, FP_, FN_ = cost_list[np.argmax([c[0] for c in cost_list])]
             cost += cost_
             TP += TP_
             FP += FP_

         '''
         f1_of_optimal_match, score_of_optimal_match = self.quad_f1_of_optimal_match(predictions, references,
                                                                                     quad_weights, **kwargs)
+        f1 = self.quad_f1_of_exact_match(predictions=predictions, references=references, **kwargs)
         # 取1-cost为得分
         return {'score of optimal match of weight ' + str(quad_weights): score_of_optimal_match,
                 'f1 of exact match': f1}
     @staticmethod
+    def quad_f1_of_exact_match(predictions: List[str], references: Union[List[str], List[List[str]]],
                                return_dict=False, **kwargs) -> Union[Dict[str, float], float]:
+        assert len(predictions) == len(references), "文本数量不一致"
         correct, pred_num, true_num = 0, 0, 0
+        for pred, refer in zip(predictions, references):
             pred = CommentUnitsSim.from_str(pred, **kwargs)
+            # refer转换为list
+            if isinstance(refer, str):
+                refer =[refer]
+            # refer转换为CommentUnitsSim
+            refer = [CommentUnitsSim.from_str(t, **kwargs) for t in refer]
+            # 如果refer是list，说明有多个正确答案，取最高分的那个
+            #计算每个refer的TP的个数
+            correct_list = [pred.compare_same(t) for t in refer]
+            #计算每个refer的f1
+            f1_list=[2 * correct_list[i] / (pred.num + refer[i].num) for i in range(len(refer))]
+            # 获取f1得分最高的索引
+            best_index = f1_list.index(max(f1_list))
+            pred_num += pred.num
+            true_num += refer[best_index].num
+            correct += correct_list[best_index]
         # 以下结果保留4位小数
         precision = round(correct / pred_num, 4) + 1e-8
             # 如果true是多个正确答案，取最高分
             cost_list = [matcher.match_units(pred, t) for t in refer]
+            # 获取cost最小的值的索引，按元组中第一个元素大小排序
             # 计算每一对样本的cost，TP，FP，FN
+            cost_, TP_, FP_, FN_ = cost_list[np.argmin([c[0] for c in cost_list])]
             cost += cost_
             TP += TP_
             FP += FP_