diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..548dea1e2285461362f32707937ff84f37572957
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/anli_r3-v0-res.json
@@ -0,0 +1 @@
+{"results": {"anli_r3": {"acc": 0.31916666666666665, "acc_stderr": 0.01346230971200514}}, "versions": {"anli_r3": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..8fc5d47310794c3ec4228c51ccb05e58c90aad5c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_2dm-v0-res.json
@@ -0,0 +1 @@
+{"results": {"arithmetic_2dm": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"arithmetic_2dm": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6c99dece2230426db75774b5e639b9ca4d871ff4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/arithmetic_3da-v0-loglikelihood
@@ -0,0 +1 @@
+c421f9cd5a5001b80e528441da925128177a04db8526ebcdab543a90b33c9ce2
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..85f0e8fb2af3101c8a916368f957ab4968fd132b
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_adjunct_island-v0-loglikelihood
@@ -0,0 +1 @@
+976a5cac4bdb724632eebd4cb9e522203ce3da8d5525288a597c86e80469f3f2
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..347570f3a6912d8f556eec252867f26777516506
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-loglikelihood
@@ -0,0 +1 @@
+0bdad31c974ba064e1f1ba931841ec2ba7461e8b0ca54ea5f79f08b6bae0bab5
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..68bbe21379d0d6326ce5cc07b0a2bc1589ed73df
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_anaphor_number_agreement-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_anaphor_number_agreement": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_anaphor_number_agreement": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_causative-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_causative-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5a0f6a35590db43e610a0550607dd7ab5e382f5f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_causative-v0-loglikelihood
@@ -0,0 +1 @@
+3d67ad025185dbb0808ebd7f508edcb5750c18fc3c01ad91f20fda80780c916c
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5fe9e64bc639f3fdf1521cd6f71b8019c987f09e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-loglikelihood
@@ -0,0 +1 @@
+2df8cc7f17089f7e8c7d974dcb324c809d30ef059a5be22aed6b69f44230809f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a2457550677d4a39a7e466d1fddaa4583bc649d7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_1-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_determiner_noun_agreement_1": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_determiner_noun_agreement_1": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..a260838746d5405e89cba4147101e9194f93b88e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_2-v0-loglikelihood
@@ -0,0 +1 @@
+95acb74fac7d57ae2c9d208361a5f8ad36b0b19a055f02e648ed8e99505f4b43
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6756cc4020c8016b08fb43470dcdfcc4d1d5b374
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adj_irregular_1-v0-loglikelihood
@@ -0,0 +1 @@
+ad61c619aa79433d02f1aeacde2ab87291fd5d5c370032c24d41c4f0065ed1f9
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adjective_1-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adjective_1-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d765bb590653a5c4eb3e2517f9b3788cdefc7fa5
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_determiner_noun_agreement_with_adjective_1-v0-loglikelihood
@@ -0,0 +1 @@
+007c47e5fbf88119c5180feef75e1345d448e56adcd4c7ab2d52fb8d67350d34
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d23fba902ae50f259bed6e5fb5f33083dc1bf5fc
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_existential_there_object_raising-v0-loglikelihood
@@ -0,0 +1 @@
+63567712076256f373131971676c1c6d711efef73cd0e4de3cc639bc631a2413
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d5b2f91179f553c61c519f50380d6f36fcb6240d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_intransitive-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_intransitive": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_intransitive": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..e3b8718ff8cee5d379a4ec8e8bda05b8a8d3e8b8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_irregular_past_participle_adjectives-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_irregular_past_participle_adjectives": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_irregular_past_participle_adjectives": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..057af2db85481de8a2e64488c35d48dbf3061ad7
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_left_branch_island_simple_question-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_left_branch_island_simple_question": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_left_branch_island_simple_question": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..5a4dd092c4a82b59d702c027e16c684c634649e1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_passive_2-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_passive_2": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_passive_2": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..4b6525a10ebb7ed53b78dc1f18553ad5896b0691
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood
@@ -0,0 +1 @@
+f69d9891f59872538962221fccc425b07df7cfbd83cdc546ce83e6b0e9a93f7c
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dfd3f66b77cb52234d967a827a3c6dffc706e5aa
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/blimp_wh_vs_that_no_gap-v0-res.json
@@ -0,0 +1 @@
+{"results": {"blimp_wh_vs_that_no_gap": {"acc": 0.485, "acc_stderr": 0.0158121796418149}}, "versions": {"blimp_wh_vs_that_no_gap": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/copa-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/copa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..9a537ec768e7311cd4ef3fafcfde63cf9ff42f59
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/copa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"copa": {"acc": 0.48, "acc_stderr": 0.050211673156867795}}, "versions": {"copa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..77195255653eaebf9f1d542df02b9720c1f37df8
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french": {"likelihood_difference": 0.3367363060632734, "likelihood_difference_stderr": 0.005827747024053628, "pct_stereotype": 0.5062611806797853, "pct_stereotype_stderr": 0.012212341600228745}}, "versions": {"crows_pairs_french": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..3900f561993a333909d46e7a4fc18906c9b69721
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_autre-v0-loglikelihood
@@ -0,0 +1 @@
+f145ad5086da0bf8c76f0730258529fa243efe32b7ab792d3c4716284b4b5495
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..9cc4d2bb8012080bb2030e494eebd97e945b203c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_disability-v0-loglikelihood
@@ -0,0 +1 @@
+fa1e5fc7492a66c9a90765e605003c38408347617db5ecf36706f1d374af5d42
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..bdb363e75dc8006cd39e237392b2cf589741fb46
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_gender-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_gender": {"likelihood_difference": 0.3364019171359413, "likelihood_difference_stderr": 0.012815700745990895, "pct_stereotype": 0.4766355140186916, "pct_stereotype_stderr": 0.027920316348204986}}, "versions": {"crows_pairs_french_gender": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..eea3efa006503d2062660ae0e0625c85b4196899
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_physical_appearance-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_physical_appearance": {"likelihood_difference": 0.3221673223187262, "likelihood_difference_stderr": 0.026978346460100555, "pct_stereotype": 0.4027777777777778, "pct_stereotype_stderr": 0.05820650942569533}}, "versions": {"crows_pairs_french_physical_appearance": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..990eab593f8a175be48d44c7318eeb968aab2921
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/crows_pairs_french_religion-v0-res.json
@@ -0,0 +1 @@
+{"results": {"crows_pairs_french_religion": {"likelihood_difference": 0.32691651640972225, "likelihood_difference_stderr": 0.021833493193249474, "pct_stereotype": 0.45217391304347826, "pct_stereotype_stderr": 0.046614569799583463}}, "versions": {"crows_pairs_french_religion": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..3af24f414a42803984877a710b95c037187984b9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/ethics_deontology-v0-res.json
@@ -0,0 +1 @@
+{"results": {"ethics_deontology": {"acc": 0.503615127919911, "acc_stderr": 0.008338908432085105, "em": 0.07119021134593993}}, "versions": {"ethics_deontology": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..fb6514a0e750d4e3737cf33766fcc851f79bfa48
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json
@@ -0,0 +1 @@
+{"results": {"gsm8k": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"gsm8k": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-business_ethics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-business_ethics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..dcc5116204283941b74dfea97e3a1ce5edd9dc27
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-business_ethics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-business_ethics": {"acc": 0.29, "acc_norm": 0.27, "acc_norm_stderr": 0.044619604333847394, "acc_stderr": 0.045604802157206845}}, "versions": {"hendrycksTest-business_ethics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..7c2e2f4bf73266d532c7514c98defcba0133f231
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-college_physics-v0-loglikelihood
@@ -0,0 +1 @@
+704a7671ef981fb95594782bc446dd632e87ebdbe89436a0603b714fb5786c75
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b6b3bb9d012756280cf8a0ba68d4011fe9089e39
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-high_school_physics-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-high_school_physics": {"acc": 0.2582781456953642, "acc_norm": 0.271523178807947, "acc_norm_stderr": 0.03631329803969653, "acc_stderr": 0.035737053147634576}}, "versions": {"hendrycksTest-high_school_physics": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-international_law-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-international_law-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..2b6aa8d605765b06a262877dec34cd156d0a66f9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-international_law-v0-loglikelihood
@@ -0,0 +1 @@
+ea9b2cefd27959db564168f6ad1169a5eaa012fc5a5d5b8faf9e34d94e335dc1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..1d241a97733c081a3f00280cfbedc411c0570001
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-marketing-v0-loglikelihood
@@ -0,0 +1 @@
+b4fa0681fe54671a80509779d4338d744097a7206687f62977df7145dfa74a66
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..b09e99721b8ec71dc85c7ed0798d55a6e0274860
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-miscellaneous-v0-loglikelihood
@@ -0,0 +1 @@
+972dd88dbbaf09d14766e243cfc233425e7c01a26dbc61bdb9eeefa788822331
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..e2838f880581f7cf743d83ba99a26827c18a09de
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-nutrition-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-nutrition": {"acc": 0.24509803921568626, "acc_norm": 0.28104575163398693, "acc_norm_stderr": 0.025738854797818723, "acc_stderr": 0.02463004897982476}}, "versions": {"hendrycksTest-nutrition": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..b665d57e234aa5b9f67f85da689bba952f930914
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_accounting-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-professional_accounting": {"acc": 0.2553191489361702, "acc_norm": 0.26595744680851063, "acc_norm_stderr": 0.026358065698880582, "acc_stderr": 0.026011992930902006}}, "versions": {"hendrycksTest-professional_accounting": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..23fbfcf78e79595a64037311668042a1ec7f637f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-professional_law-v0-loglikelihood
@@ -0,0 +1 @@
+c38c9d5d84eeb7a5f3c4a34d6e70d7e15847b3c38f26e4b119c982bb935e118f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..6aa9b5ec005a326616b812b816b95329ad9349a2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-security_studies-v0-loglikelihood
@@ -0,0 +1 @@
+92dfffe2acf3278256486d3e1cf1edb5a739ad0a54c0f9c67695f7a411ed5f76
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-us_foreign_policy-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-us_foreign_policy-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..1077380de88cb9ce23894ce31fbbeceea90f2079
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-us_foreign_policy-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-us_foreign_policy": {"acc": 0.2, "acc_norm": 0.24, "acc_norm_stderr": 0.04292346959909283, "acc_stderr": 0.040201512610368445}}, "versions": {"hendrycksTest-us_foreign_policy": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-world_religions-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-world_religions-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..0fff75a7eaf2e0773a7e3dcda446f59a59dad878
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/hendrycksTest-world_religions-v0-res.json
@@ -0,0 +1 @@
+{"results": {"hendrycksTest-world_religions": {"acc": 0.21637426900584794, "acc_norm": 0.22807017543859648, "acc_norm_stderr": 0.03218093795602357, "acc_stderr": 0.03158149539338734}}, "versions": {"hendrycksTest-world_religions": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..82921d1db066020f53d61c21d46498a512144b37
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-greedy_until
@@ -0,0 +1 @@
+e94d310de91fad7ce36f4cf3305552020221482c5588f2efcefaa019893504f1
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..df895fe6d6bf04fc51c1633d26fb835941176534
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-loglikelihood
@@ -0,0 +1 @@
+4a88f4b316c72fe0396c382d6cbb33568ac4d0ad225150d3536635c085359fc9
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..684e35a4cf44f85a0dc5f82fc06fb2b4ebc90316
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_openai_mt_es-v0-res.json
@@ -0,0 +1 @@
+{"results": {"lambada_openai_mt_es": {"acc": 0.0, "acc_stderr": 0.0, "ppl": 1.6479047769869253, "ppl_stderr": 0.006497321146240192}}, "versions": {"lambada_openai_mt_es": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..fcbd56f50425ca6e143ccc0dd88458c051b63fb2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/lambada_standard-v0-loglikelihood
@@ -0,0 +1 @@
+8958d9f8d8145046b692fadd8a9cc9c8bad5617c10774280cf7c24c21d2be160
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/logiqa-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/logiqa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..7a80c24d1b3e57ffca8ca89252d3c9b01b506f49
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/logiqa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"logiqa": {"acc": 0.25806451612903225, "acc_norm": 0.2764976958525346, "acc_norm_stderr": 0.017543209075825194, "acc_stderr": 0.017162894755127077}}, "versions": {"logiqa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..192cb9d8529cd67cb47e6f90d76a4a9e98b12d97
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json
@@ -0,0 +1 @@
+{"results": {"math_algebra": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_algebra": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..6f49557ecf42758d64d1297c5569f3d4d95dd9c1
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_counting_and_prob-v0-greedy_until
@@ -0,0 +1 @@
+2aa9ae43ee9dbb2457525247d7b65358632c5eaa9cbfc40cf95a4f17f5d942ad
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..3ab10de26a038019a18699e20887de6da66981c4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_intermediate_algebra-v0-greedy_until
@@ -0,0 +1 @@
+d53c699de272d517ed7ad783b4e692302be9f9f97a8d4ac7a6541e538a7cabe0
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..00917b90ddb0602c62c8a9fef959b9e91eb45c2e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_num_theory-v1-res.json
@@ -0,0 +1 @@
+{"results": {"math_num_theory": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"math_num_theory": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..5200f4cfa9ed3a735661e987791bf1434555db6e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/math_prealgebra-v0-greedy_until
@@ -0,0 +1 @@
+752cdf343d7152e476b0273065024f6ea0e0f47ea385c6bdf9067736cb39724a
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..2d240576b3b8d891ff91a47770df9990edf34105
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/mutual-v0-res.json
@@ -0,0 +1 @@
+{"results": {"mutual": {"mrr": 0.5023513920240772, "mrr_stderr": 0.009501864812936679, "r@1": 0.22573363431151242, "r@1_stderr": 0.014053085820407457, "r@2": 0.4221218961625282, "r@2_stderr": 0.016602191705517556}}, "versions": {"mutual": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..d19d0c6fee7f47af1ad3f5af9ff1d7a1544e2e98
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_arxiv-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_arxiv": {"bits_per_byte": 1.0750412350569374e-05, "byte_perplexity": 1.0000107504701365, "word_perplexity": 1.0000819333090385}}, "versions": {"pile_arxiv": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_bookcorpus2-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_bookcorpus2-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..967c14934b81e0880063c4239593fb74cd99cd8d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_bookcorpus2-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_bookcorpus2": {"bits_per_byte": 1.6780040419457868e-06, "byte_perplexity": 1.000001163104447, "word_perplexity": 1.0000066499426599}}, "versions": {"pile_bookcorpus2": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..a4a49493d56db35c99b7e58ea66ebc21304184b2
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_enron": {"bits_per_byte": 0.0003163902828673244, "byte_perplexity": 1.000316440339552, "word_perplexity": 1.00224668051869}}, "versions": {"pile_enron": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..abe7b45f9aff9b6427068ceb1ba39977fa843c38
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_enron-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_enron": {"bits_per_byte": 0.0004564546920781453, "byte_perplexity": 1.000316440339552, "word_perplexity": 1.00224668051869}}, "versions": {"pile_enron": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..68578fe4c952b8bccb26700be82df67450c558dd
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_hackernews-v0-res.json
@@ -0,0 +1 @@
+{"results": {"pile_hackernews": {"bits_per_byte": 0.00010170276359193358, "byte_perplexity": 1.0001017079354932, "word_perplexity": 1.0006273924348839}}, "versions": {"pile_hackernews": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..0e40fc8268a77618471344585bc1a1586fd69e0f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_nih-exporter-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_nih-exporter": {"bits_per_byte": 0.00035193728014978225, "byte_perplexity": 1.0002439740903082, "word_perplexity": 1.0016712202288802}}, "versions": {"pile_nih-exporter": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..de5660d60a8d4f0d5e35d47008992befed318d28
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-abstracts-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+66436569a43163afb2caf422d32c5f329899e74c49865d4d13881fd465fd9976
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..4d4a241ace01e28f15cd7bd88d3f855b1bf5372d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_pubmed-central-v1-res.json
@@ -0,0 +1 @@
+{"results": {"pile_pubmed-central": {"bits_per_byte": 2.2812488135667854e-05, "byte_perplexity": 1.0000158125368497, "word_perplexity": 1.000123107107861}}, "versions": {"pile_pubmed-central": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..4649d3b9b7f1f17e4731644d470fc0a2651a980d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/pile_uspto-v1-loglikelihood_rolling
@@ -0,0 +1 @@
+789b2bdb31564d512b70f801316f49320a26c83ba361226bac0afb255341d477
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qnli-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qnli-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..883202c385fdfcbdb3e362737691ee0343adc430
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/qnli-v0-loglikelihood
@@ -0,0 +1 @@
+4281d4ff5cf1244358b0ea0220c67863c69fbade850696b43e8ff05138e01e12
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..5fe1ce356b49f558ce758de50809109acd9c153c
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood
@@ -0,0 +1 @@
+bdfdfab7fa1c7af0c1e161785e347b1b8071a15cbf971f6f2a9ae8c8e845199f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..017b00669b8b60dc06947e4e78428fb429734df5
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/race-v0-res.json
@@ -0,0 +1 @@
+{"results": {"race": {"acc": 0.23253588516746412, "acc_stderr": 0.013074460615265295}}, "versions": {"race": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..c239923e4f3ec676961da50b3823c09872edd36d
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood
@@ -0,0 +1 @@
+c80ce13c8c736087f1557f8736d5d318b540ff01e4bb7f55e568890dc8b0393e
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_e7ad1e9f52a39e1ddd1e50f3c57ffa4546728dd150a67c0a0ddc8675c04e15d1.pkl b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_e7ad1e9f52a39e1ddd1e50f3c57ffa4546728dd150a67c0a0ddc8675c04e15d1.pkl
new file mode 100644
index 0000000000000000000000000000000000000000..ae564e39b35d5553aac83af33c0dd126e3acf53e
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/textsynth_test_e7ad1e9f52a39e1ddd1e50f3c57ffa4546728dd150a67c0a0ddc8675c04e15d1.pkl
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a052215e2933be5a3d5eb709fbf0d6136c25bd1bfef9ff0448165445bbce2afd
+size 1848
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..ab98847da6985f5c9d1e650008367ba739a1147f
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json
@@ -0,0 +1 @@
+{"results": {"triviaqa": {"acc": 0.0, "acc_stderr": 0.0}}, "versions": {"triviaqa": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..4bab2d1f4df241fe0cf47f22bf185d52f9b783ef
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/truthfulqa_mc-v1-loglikelihood
@@ -0,0 +1 @@
+1e07020e9cf41d46ed65312eb39d2b8e6599673d4f0d6b67c0d0eba0efb493bb
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wic-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wic-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..d27430a9a2eab0a6a5e265e249237201a4a56061
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wic-v0-loglikelihood
@@ -0,0 +1 @@
+403a08da05e4c44d7e3dd3358382a7ba489c41d223e24cd1a9ed82ef1a2d004b
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-loglikelihood_rolling b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-loglikelihood_rolling
new file mode 100644
index 0000000000000000000000000000000000000000..f09af45a38c0de097358c587420858c7a53a10aa
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wikitext-v0-loglikelihood_rolling
@@ -0,0 +1 @@
+b6f83e6cf7535ee41b0057c3e2ec2cf7f2fa5a9119b305c479a83091d1142b2c
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7249d39990f9aea60634b07c975f735983bade89
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-greedy_until
@@ -0,0 +1 @@
+c1d9f7283755fbdd7ecd6cc4278b0ac25a80ac256b7071ea5f839ccd038e5974
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..babb8d2d74fb5585cf9578f8b1dc8be3dde43f63
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-res.json
@@ -0,0 +1 @@
+{"results": {"wmt16-en-ro": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 0.012004814364156886, "chrf_stderr": 6.424423961332661e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt16-en-ro": 0}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..7bcf240b7090e406259d4bfc090d1eb22ec6e291
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-greedy_until
@@ -0,0 +1 @@
+bfead9efdb1b2402a414c55929c8d8f956585f938a35466931d44e81d89cfe00
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..d14fc4939aecb7bb40458c34954c1242d9f20501
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-greedy_until
@@ -0,0 +1 @@
+5a34e6863bf6965afd31653de50bac5fecf58db65dbaba46921504a2b7463786
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json
new file mode 100644
index 0000000000000000000000000000000000000000..be5e56abcf2253276d405dae64758b9cab09f3e4
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json
@@ -0,0 +1 @@
+{"results": {"wmt20-en-ja": {"bleu": 0.0, "bleu_stderr": 0.0, "chrf": 4.1305928226819116e-05, "chrf_stderr": 2.0455354158878388e-05, "ter": 1.0, "ter_stderr": 0.0}}, "versions": {"wmt20-en-ja": 1}}
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until
new file mode 100644
index 0000000000000000000000000000000000000000..db79b7f03fcfc8f7720f1344339e7d94d8a01ebf
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-greedy_until
@@ -0,0 +1 @@
+67f0333ddbcb07d7a9ac12919129a18fe4fea24e4826a11bbdde4fd5ed5ed83f
\ No newline at end of file
diff --git a/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wnli-v0-loglikelihood b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wnli-v0-loglikelihood
new file mode 100644
index 0000000000000000000000000000000000000000..0c5c0b8ceb64a158bd57294d432b2186f3a0fdf9
--- /dev/null
+++ b/scripts/yans/eval/lm-evaluation-harness/tests/testdata/wnli-v0-loglikelihood
@@ -0,0 +1 @@
+2ffd304d6096416eb29607e2e7642b1d6043163624967bcf4c4fc00fddc6c721
\ No newline at end of file