Spaces:

XufengDuan
/

HumanLikeness

Running

XufengDuan commited on Aug 19

Commit

8548d58

•

1 Parent(s): 9c713c2

update scripts

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -66,11 +66,30 @@ class EvalResult:
         results = {}
         for task in utils.Tasks:
             task = task.value
-            # We average all scores of a given metric (not all metrics are present in all files)
-            accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark == k])
-            results[task.benchmark] = accs
         return self(
             eval_name=result_key,

         results = {}
         for task in utils.Tasks:
             task = task.value
+            if isinstance(task.metric, str):
+                accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if
+                                 task.benchmark == k and isinstance(v, dict)])
+                # 过滤掉 None 值，确保 accs 只包含有效的数值
+                accs = accs[accs != None]
+                results[task.benchmark] = accs
+            elif isinstance(task.metric, list):
+                accs = np.array([str(v.get(task.metric, None)) for k, v in data["results"].items() if
+                                 task.benchmark == k and isinstance(v, dict)])
+                accs = accs[accs != None]
+                results[task.benchmark] = accs
+            else:
+                print(f"Skipping task with unhandled metric type: {type(task.metric)}")
+            # # We average all scores of a given metric (not all metrics are present in all files)
+            # accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark == k])
+            #
+            # results[task.benchmark] = accs
         return self(
             eval_name=result_key,