leaderboard

Running on CPU Upgrade

App Files Files Community

nan commited on Oct 17, 2024

Commit

9fcf267

1 Parent(s): a50e211

test: add unit tests for models

Browse files

Files changed (4) hide show

src/models.py +7 -6
tests/src/test_models.py +49 -0
tests/toydata/eval_results/AIR-Bench_24.04/bge-m3/jina-reranker-v2-base-multilingual/results.json +0 -0
tests/toydata/eval_results/AIR-Bench_24.05/bge-m3/NoReranker/results.json +0 -0

src/models.py CHANGED Viewed

@@ -85,16 +85,17 @@ class FullEvalResult:
                 is_anonymous=config.get("is_anonymous", False),
             )
             result_list.append(eval_result)
         return cls(
-            eval_name=f"{result_list[0].retrieval_model}_{result_list[0].reranking_model}",
-            retrieval_model=result_list[0].retrieval_model,
-            reranking_model=result_list[0].reranking_model,
             retrieval_model_link=retrieval_model_link,
             reranking_model_link=reranking_model_link,
             results=result_list,
-            timestamp=result_list[0].timestamp,
-            revision=result_list[0].revision,
-            is_anonymous=result_list[0].is_anonymous,
         )
     def to_dict(self, task="qa", metric="ndcg_at_3") -> List:

                 is_anonymous=config.get("is_anonymous", False),
             )
             result_list.append(eval_result)
+        eval_result = result_list[0]
         return cls(
+            eval_name=f"{eval_result.retrieval_model}_{eval_result.reranking_model}",
+            retrieval_model=eval_result.retrieval_model,
+            reranking_model=eval_result.reranking_model,
             retrieval_model_link=retrieval_model_link,
             reranking_model_link=reranking_model_link,
             results=result_list,
+            timestamp=eval_result.timestamp,
+            revision=eval_result.revision,
+            is_anonymous=eval_result.is_anonymous,
         )
     def to_dict(self, task="qa", metric="ndcg_at_3") -> List:

tests/src/test_models.py ADDED Viewed

	@@ -0,0 +1,49 @@

+import pytest
+from pathlib import Path
+from src.models import EvalResult, FullEvalResult
+cur_fp = Path(__file__)
+def test_eval_result():
+    eval_result = EvalResult(
+        eval_name="eval_name",
+        retrieval_model="bge-m3",
+        reranking_model="NoReranking",
+        results=[
+            {
+                "domain": "law",
+                "lang": "en",
+                "dataset": "lex_files_500K-600K",
+                "value": 0.45723
+            }
+        ],
+        task="qa",
+        metric="ndcg_at_3",
+        timestamp="2024-05-14T03:09:08Z",
+        revision="1e243f14bd295ccdea7a118fe847399d",
+        is_anonymous=True,
+    )
+@pytest.mark.parametrize(
+    'file_path',
+    [
+        "AIR-Bench_24.04/bge-m3/jina-reranker-v2-base-multilingual/results.json",
+        "AIR-Bench_24.05/bge-m3/NoReranker/results.json"
+    ])
+def test_full_eval_result_init_from_json_file(file_path):
+    json_fp = cur_fp.parents[1] / "toydata/eval_results/" / file_path
+    full_eval_result = FullEvalResult.init_from_json_file(json_fp)
+    assert json_fp.parents[0].stem == full_eval_result.reranking_model
+    assert json_fp.parents[1].stem == full_eval_result.retrieval_model
+    assert len(full_eval_result.results) == 70
+def test_full_eval_result_to_dict():
+    json_fp = cur_fp.parents[1] / "toydata/eval_results/" / "AIR-Bench_24.05/bge-m3/NoReranker/results.json"
+    full_eval_result = FullEvalResult.init_from_json_file(json_fp)
+    result_dict_list = full_eval_result.to_dict()
+    assert len(result_dict_list) == 1
+    print(len(result_dict_list[0]))

tests/toydata/eval_results/AIR-Bench_24.04/bge-m3/jina-reranker-v2-base-multilingual/results.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tests/toydata/eval_results/AIR-Bench_24.05/bge-m3/NoReranker/results.json ADDED Viewed

The diff for this file is too large to render. See raw diff