Spaces:

hallucinations-leaderboard
/

leaderboard

Running on CPU Upgrade

pminervini commited on Feb 2

Commit

6dfea56

•

1 Parent(s): 6f3b005

update

Files changed (5) hide show

src/backend/tasks/cnndm/task.py CHANGED Viewed

@@ -1,6 +1,6 @@
-from lm_eval.api.task import Task
 from lm_eval.api.instance import Instance
-from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch
@@ -60,7 +60,7 @@ def rouge(refs, preds):
 # @register_task("cnndm")
-class CNNDM(Task):
     VERSION = 0
     DATASET_PATH = "cnn_dailymail"
     DATASET_NAME = "3.0.0"

+from lm_eval.api.task import ConfigurableTask
 from lm_eval.api.instance import Instance
+# from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch
 # @register_task("cnndm")
+class CNNDM(ConfigurableTask):
     VERSION = 0
     DATASET_PATH = "cnn_dailymail"
     DATASET_NAME = "3.0.0"

src/backend/tasks/cnndm/task_v2.py CHANGED Viewed

@@ -1,6 +1,6 @@
-from lm_eval.api.task import Task
 from lm_eval.api.instance import Instance
-from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch
@@ -60,7 +60,7 @@ def rouge(refs, preds):
 # @register_task("cnndm_v2")
-class CNNDMv2(Task):
     VERSION = 0
     DATASET_PATH = "cnn_dailymail"
     DATASET_NAME = "3.0.0"

+from lm_eval.api.task import ConfigurableTask
 from lm_eval.api.instance import Instance
+# from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch
 # @register_task("cnndm_v2")
+class CNNDMv2(ConfigurableTask):
     VERSION = 0
     DATASET_PATH = "cnn_dailymail"
     DATASET_NAME = "3.0.0"

src/backend/tasks/selfcheckgpt/task.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import os
 from typing import Union, List
-from lm_eval.api.task import Task
 from lm_eval.api.instance import Instance
-from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 from src.backend.envs import DEVICE
@@ -13,7 +13,7 @@ from selfcheckgpt.modeling_selfcheck import SelfCheckMQAG, SelfCheckNLI, SelfChe
 # @register_task("selfcheckgpt")
-class SelfCheckGPT(Task):
     VERSION = 0.0
     DATASET_PATH = "potsawee/wiki_bio_gpt3_hallucination"
     DATASET_NAME = None

 import os
 from typing import Union, List
+from lm_eval.api.task import ConfigurableTask
 from lm_eval.api.instance import Instance
+# from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 from src.backend.envs import DEVICE
 # @register_task("selfcheckgpt")
+class SelfCheckGPT(ConfigurableTask):
     VERSION = 0.0
     DATASET_PATH = "potsawee/wiki_bio_gpt3_hallucination"
     DATASET_NAME = None

src/backend/tasks/xsum/task.py CHANGED Viewed

@@ -1,5 +1,6 @@
-from lm_eval.api.task import Task, ConfigurableTask
 from lm_eval.api.instance import Instance
 from lm_eval.api.metrics import mean
 import torch
@@ -51,7 +52,7 @@ def rouge(refs, preds):
 # @register_task("xsum")
-class XSum(Task):
     VERSION = 0
     DATASET_PATH = "EdinburghNLP/xsum"
     DATASET_NAME = None

+from lm_eval.api.task import ConfigurableTask
 from lm_eval.api.instance import Instance
+# from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch
 # @register_task("xsum")
+class XSum(ConfigurableTask):
     VERSION = 0
     DATASET_PATH = "EdinburghNLP/xsum"
     DATASET_NAME = None

src/backend/tasks/xsum/task_v2.py CHANGED Viewed

@@ -1,6 +1,6 @@
-from lm_eval.api.task import ConfigurableTask, Task, TaskConfig
 from lm_eval.api.instance import Instance
-from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch

+from lm_eval.api.task import ConfigurableTask
 from lm_eval.api.instance import Instance
+# from lm_eval.api.registry import register_task
 from lm_eval.api.metrics import mean
 import torch