Add files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +153 -0
4b284b12bc4/eval/merged.csv +587 -0
4b284b12bc4/eval/merged.json +0 -0
4b284b17bc4/eval/merged.csv +587 -0
4b284b17bc4/eval/merged.json +0 -0
4b284b21bc4/eval/merged.csv +587 -0
4b284b21bc4/eval/merged.json +0 -0
4b284b28bc4/eval/merged.csv +587 -0
4b284b28bc4/eval/merged.json +0 -0
4b284b42bc4/eval/merged.csv +587 -0
4b284b42bc4/eval/merged.json +0 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_PALM_prompt_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_PALM_prompt_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_PALM_prompt_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_explicit-graph-description2_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_explicit-graph-description2_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_explicit-graph-description2_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_implicit-graph-description_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_implicit-graph-description_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_implicit-graph-description_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_non-explicit-description_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_non-explicit-description_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_non-explicit-description_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_very-explicit-description_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_very-explicit-description_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-web_nlg_en_very-explicit-description_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_article_summary_en_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_article_summary_en_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_article_summary_en_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_rephrase_en_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_rephrase_en_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_rephrase_en_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_summarize_above_en_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_summarize_above_en_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_summarize_above_en_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_tldr_en_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_tldr_en_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_tldr_en_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_write_abstract_en_2.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_write_abstract_en_3.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_GEM-wiki_lingua_en_write_abstract_en_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_GPT-3-style_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_GPT-3-style_5.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_MNLI-crowdsource_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_MNLI-crowdsource_5.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_can-we-infer_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_can-we-infer_5.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_guaranteed-possible-impossible_4.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_guaranteed-possible-impossible_5.json +1 -0
4b284b84bc4/eval/agg.4b284b84bc4_anli_r1_justified-in-saying_4.json +1 -0

.gitattributes CHANGED Viewed

@@ -2939,3 +2939,156 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 4b284b42bc4/eval/examples.4b284b42bc4_anli_r1_guaranteed-possible-impossible_1.jsonl filter=lfs diff=lfs merge=lfs -text
 4b284b17bc4/eval/examples.4b284b17bc4_sciq_Multiple-Choice-Question-First_4.jsonl filter=lfs diff=lfs merge=lfs -text
 4b284b21bc4/eval/examples.4b284b21bc4_e2e_nlg_cleaned_coherent_text_2.jsonl filter=lfs diff=lfs merge=lfs -text

 4b284b42bc4/eval/examples.4b284b42bc4_anli_r1_guaranteed-possible-impossible_1.jsonl filter=lfs diff=lfs merge=lfs -text
 4b284b17bc4/eval/examples.4b284b17bc4_sciq_Multiple-Choice-Question-First_4.jsonl filter=lfs diff=lfs merge=lfs -text
 4b284b21bc4/eval/examples.4b284b21bc4_e2e_nlg_cleaned_coherent_text_2.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_heres_a_problem_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_pick_the_most_correct_option_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_text_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_underscore-refer-to_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_can-we-infer_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_non-explicit-description_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_can-we-infer_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_multiple_choice_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_qa_options_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_pick_the_most_correct_option_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_valid_binary_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_non-explicit-description_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_MNLI-crowdsource_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_MNLI-crowdsource_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_heres_a_problem_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_multiple_choice_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_copa_choose_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_DOC_tldr_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Direct-Question-(Closed-Book)_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_PALM_prompt_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r1_guaranteed-possible-impossible_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_GPT-3-style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_after_reading_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_article_DOC_summary_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_implicit-graph-description_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_create_text_for_me_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_GPT-3-style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_i_am_hesitating_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_MNLI-crowdsource_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_summarize_this_DOC_summary_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_pick_correct_choice_index_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_GPT-3-style_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r1_can-we-infer_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_GPT-3-style_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_valid_binary_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_Replace_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_write_abstract_en_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_underscore-refer-to_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice-(Closed-Book)_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_can-we-infer_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_pick_the_most_correct_option_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_summarize_above_en_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_can-we-infer_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_copa_plausible_alternatives_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_generate_text_restaurant_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_DOC_boils_down_to_simple_idea_that_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Direct-Question_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Direct-Question_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice-Question-First_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_rephrase_en_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_pick_the_most_correct_option_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_guaranteed-possible-impossible_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_justified-in-saying_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_copa_cause_effect_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_superglue_rte_MNLI-crowdsource_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_guaranteed-possible-impossible_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_tldr_en_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_GPT-3-Style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_exercise_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_GPT-3-style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_rephrase_en_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_DOC_boils_down_to_simple_idea_that_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_i_am_hesitating_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_i_am_hesitating_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_i_am_hesitating_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_yes_no_question_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_generate_gramatically_correct_text_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_text_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_what_is_the_correct_ending_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_Replace_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_implicit-graph-description_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r1_GPT-3-style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r1_MNLI-crowdsource_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r1_justified-in-saying_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_choose-the-most-appropriate-solution_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_what_is_the_correct_ending_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Direct-Question-(Closed-Book)_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Story-Continuation-and-Options_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_summarize_above_en_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_can-we-infer_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_no-prompt-needed_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_justified-in-saying_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_heres_a_problem_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_Correct-the-solution_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Story-Continuation-and-Options_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_justified-in-saying_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_qa_options_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_copa_i_am_hesitating_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_DOC_tldr_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_Correct-the-solution_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Novel-Correct-Ending_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_write_abstract_en_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_tldr_en_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_guaranteed-possible-impossible_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_justified-in-saying_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice-Question-First_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Novel-Correct-Ending_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_very-explicit-description_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice-(Closed-Book)_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_stand-for_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_create_text_for_me_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Answer-Given-options_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_GPT-3-style_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_generate_gramatically_correct_text_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_generate_text_restaurant_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_summarize_DOC_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_article_summary_en_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_coherent_text_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Generate-Ending_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_does-underscore-refer-to_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_stand-for_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_PALM_prompt_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_copa_best_option_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_superglue_rte_should-assume_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_True-or-False_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_exercise_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-wiki_lingua_en_article_summary_en_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_guaranteed-possible-impossible_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_sciq_Multiple-Choice_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Choose-Story-Ending_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_superglue_rte_guaranteed-true_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_does-underscore-refer-to_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_very-explicit-description_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Choose-Story-Ending_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r3_justified-in-saying_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_can-we-infer_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_summarize_DOC_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_justified-in-saying_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_MNLI-crowdsource_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_e2e_nlg_cleaned_coherent_text_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_no-prompt-needed_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_winogrande_True-or-False_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_multiple_choice_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_superglue_rte_does-it-follow-that_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_summarize_this_DOC_summary_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_qa_options_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_GPT-3-Style_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_after_reading_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_boolq_yes_no_question_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_gem_xsum_article_DOC_summary_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Generate-Ending_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_explicit-graph-description2_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_challenge_multiple_choice_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_choose-the-most-appropriate-solution_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_superglue_rte_GPT-3-style_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_GEM-web_nlg_en_explicit-graph-description2_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_heres_a_problem_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_arc_easy_qa_options_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_cb_guaranteed-possible-impossible_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_piqa_pick_correct_choice_index_4.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_story_cloze_2016_Answer-Given-options_5.jsonl filter=lfs diff=lfs merge=lfs -text
+4b284b84bc4/eval/examples.4b284b84bc4_anli_r2_MNLI-crowdsource_5.jsonl filter=lfs diff=lfs merge=lfs -text

4b284b12bc4/eval/merged.csv ADDED Viewed

	@@ -0,0 +1,587 @@

+dataset,fewshots,prompt,metric,value
+anli_r1,0,GPT-3 style,acc,0.334
+anli_r1,0,MNLI crowdsource,acc,0.334
+anli_r1,0,can we infer,acc,0.336
+anli_r1,0,guaranteed/possible/impossible,acc,0.323
+anli_r1,0,justified in saying,acc,0.329
+anli_r1,0,median,accuracy,0.334
+anli_r1,1,GPT-3 style,acc,0.334
+anli_r1,1,MNLI crowdsource,acc,0.333
+anli_r1,1,can we infer,acc,0.325
+anli_r1,1,guaranteed/possible/impossible,acc,0.33
+anli_r1,1,justified in saying,acc,0.327
+anli_r1,1,median,accuracy,0.33
+anli_r1,2,GPT-3 style,acc,0.349
+anli_r1,2,MNLI crowdsource,acc,0.361
+anli_r1,2,can we infer,acc,0.352
+anli_r1,2,guaranteed/possible/impossible,acc,0.323
+anli_r1,2,justified in saying,acc,0.345
+anli_r1,2,median,accuracy,0.349
+anli_r1,3,GPT-3 style,acc,0.33
+anli_r1,3,MNLI crowdsource,acc,0.335
+anli_r1,3,can we infer,acc,0.345
+anli_r1,3,guaranteed/possible/impossible,acc,0.32
+anli_r1,3,justified in saying,acc,0.349
+anli_r1,3,median,accuracy,0.335
+anli_r1,4,GPT-3 style,acc,0.318
+anli_r1,4,MNLI crowdsource,acc,0.332
+anli_r1,4,can we infer,acc,0.327
+anli_r1,4,guaranteed/possible/impossible,acc,0.309
+anli_r1,4,justified in saying,acc,0.333
+anli_r1,4,median,accuracy,0.327
+anli_r1,5,GPT-3 style,acc,0.321
+anli_r1,5,MNLI crowdsource,acc,0.343
+anli_r1,5,can we infer,acc,0.315
+anli_r1,5,guaranteed/possible/impossible,acc,0.33
+anli_r1,5,justified in saying,acc,0.333
+anli_r1,5,median,accuracy,0.33
+anli_r1,5,average,multiple,0.33416666666666667
+anli_r2,0,GPT-3 style,acc,0.336
+anli_r2,0,MNLI crowdsource,acc,0.334
+anli_r2,0,can we infer,acc,0.336
+anli_r2,0,guaranteed/possible/impossible,acc,0.325
+anli_r2,0,justified in saying,acc,0.319
+anli_r2,0,median,accuracy,0.334
+anli_r2,1,GPT-3 style,acc,0.305
+anli_r2,1,MNLI crowdsource,acc,0.315
+anli_r2,1,can we infer,acc,0.312
+anli_r2,1,guaranteed/possible/impossible,acc,0.313
+anli_r2,1,justified in saying,acc,0.314
+anli_r2,1,median,accuracy,0.313
+anli_r2,2,GPT-3 style,acc,0.305
+anli_r2,2,MNLI crowdsource,acc,0.336
+anli_r2,2,can we infer,acc,0.332
+anli_r2,2,guaranteed/possible/impossible,acc,0.328
+anli_r2,2,justified in saying,acc,0.335
+anli_r2,2,median,accuracy,0.332
+anli_r2,3,GPT-3 style,acc,0.317
+anli_r2,3,MNLI crowdsource,acc,0.311
+anli_r2,3,can we infer,acc,0.333
+anli_r2,3,guaranteed/possible/impossible,acc,0.335
+anli_r2,3,justified in saying,acc,0.339
+anli_r2,3,median,accuracy,0.333
+anli_r2,4,GPT-3 style,acc,0.313
+anli_r2,4,MNLI crowdsource,acc,0.323
+anli_r2,4,can we infer,acc,0.317
+anli_r2,4,guaranteed/possible/impossible,acc,0.34
+anli_r2,4,justified in saying,acc,0.319
+anli_r2,4,median,accuracy,0.319
+anli_r2,5,GPT-3 style,acc,0.324
+anli_r2,5,MNLI crowdsource,acc,0.338
+anli_r2,5,can we infer,acc,0.327
+anli_r2,5,guaranteed/possible/impossible,acc,0.337
+anli_r2,5,justified in saying,acc,0.315
+anli_r2,5,median,accuracy,0.327
+anli_r2,5,average,multiple,0.32633333333333336
+anli_r3,0,GPT-3 style,acc,0.3383333333333333
+anli_r3,0,MNLI crowdsource,acc,0.33666666666666667
+anli_r3,0,can we infer,acc,0.33916666666666667
+anli_r3,0,guaranteed/possible/impossible,acc,0.2991666666666667
+anli_r3,0,justified in saying,acc,0.3433333333333333
+anli_r3,0,median,accuracy,0.3383333333333333
+anli_r3,1,GPT-3 style,acc,0.3325
+anli_r3,1,MNLI crowdsource,acc,0.3358333333333333
+anli_r3,1,can we infer,acc,0.3408333333333333
+anli_r3,1,guaranteed/possible/impossible,acc,0.33666666666666667
+anli_r3,1,justified in saying,acc,0.33916666666666667
+anli_r3,1,median,accuracy,0.33666666666666667
+anli_r3,2,GPT-3 style,acc,0.32416666666666666
+anli_r3,2,MNLI crowdsource,acc,0.32
+anli_r3,2,can we infer,acc,0.31166666666666665
+anli_r3,2,guaranteed/possible/impossible,acc,0.305
+anli_r3,2,justified in saying,acc,0.30416666666666664
+anli_r3,2,median,accuracy,0.31166666666666665
+anli_r3,3,GPT-3 style,acc,0.3408333333333333
+anli_r3,3,MNLI crowdsource,acc,0.35
+anli_r3,3,can we infer,acc,0.3333333333333333
+anli_r3,3,guaranteed/possible/impossible,acc,0.31916666666666665
+anli_r3,3,justified in saying,acc,0.3441666666666667
+anli_r3,3,median,accuracy,0.3408333333333333
+anli_r3,4,GPT-3 style,acc,0.33166666666666667
+anli_r3,4,MNLI crowdsource,acc,0.3275
+anli_r3,4,can we infer,acc,0.3383333333333333
+anli_r3,4,guaranteed/possible/impossible,acc,0.3375
+anli_r3,4,justified in saying,acc,0.3358333333333333
+anli_r3,4,median,accuracy,0.3358333333333333
+anli_r3,5,GPT-3 style,acc,0.32166666666666666
+anli_r3,5,MNLI crowdsource,acc,0.32
+anli_r3,5,can we infer,acc,0.33666666666666667
+anli_r3,5,guaranteed/possible/impossible,acc,0.32666666666666666
+anli_r3,5,justified in saying,acc,0.32416666666666666
+anli_r3,5,median,accuracy,0.32416666666666666
+anli_r3,5,average,multiple,0.33125
+arc_easy,0,heres_a_problem,acc,0.23890784982935154
+arc_easy,0,i_am_hesitating,acc,0.3042929292929293
+arc_easy,0,multiple_choice,acc,0.25715488215488214
+arc_easy,0,pick_the_most_correct_option,acc,0.22866894197952217
+arc_easy,0,qa_options,acc,0.2525597269624573
+arc_easy,0,median,accuracy,0.2525597269624573
+arc_easy,1,heres_a_problem,acc,0.2398989898989899
+arc_easy,1,i_am_hesitating,acc,0.2627986348122867
+arc_easy,1,multiple_choice,acc,0.2836700336700337
+arc_easy,1,pick_the_most_correct_option,acc,0.23122866894197952
+arc_easy,1,qa_options,acc,0.25426621160409557
+arc_easy,1,median,accuracy,0.25426621160409557
+arc_easy,2,heres_a_problem,acc,0.24494949494949494
+arc_easy,2,i_am_hesitating,acc,0.2946127946127946
+arc_easy,2,multiple_choice,acc,0.23293515358361774
+arc_easy,2,pick_the_most_correct_option,acc,0.2354948805460751
+arc_easy,2,qa_options,acc,0.31523569023569026
+arc_easy,2,median,accuracy,0.24494949494949494
+arc_easy,3,heres_a_problem,acc,0.25336700336700335
+arc_easy,3,i_am_hesitating,acc,0.26791808873720135
+arc_easy,3,multiple_choice,acc,0.2431740614334471
+arc_easy,3,pick_the_most_correct_option,acc,0.24061433447098976
+arc_easy,3,qa_options,acc,0.31734006734006737
+arc_easy,3,median,accuracy,0.25336700336700335
+arc_easy,4,heres_a_problem,acc,0.2380546075085324
+arc_easy,4,i_am_hesitating,acc,0.29713804713804715
+arc_easy,4,multiple_choice,acc,0.2908249158249158
+arc_easy,4,pick_the_most_correct_option,acc,0.2361111111111111
+arc_easy,4,qa_options,acc,0.26791808873720135
+arc_easy,4,median,accuracy,0.26791808873720135
+arc_easy,5,heres_a_problem,acc,0.2226962457337884
+arc_easy,5,i_am_hesitating,acc,0.30303030303030304
+arc_easy,5,multiple_choice,acc,0.2967171717171717
+arc_easy,5,pick_the_most_correct_option,acc,0.24957912457912457
+arc_easy,5,qa_options,acc,0.2619453924914676
+arc_easy,5,median,accuracy,0.2619453924914676
+arc_easy,5,average,multiple,0.2558343196852867
+boolq,0,GPT-3 Style,acc,0.6163333333333333
+boolq,0,after_reading,acc,0.622
+boolq,0,exercise,acc,0.6236666666666667
+boolq,0,valid_binary,acc,0.565
+boolq,0,yes_no_question,acc,0.5426666666666666
+boolq,0,median,accuracy,0.6163333333333333
+boolq,1,GPT-3 Style,acc,0.596
+boolq,1,after_reading,acc,0.546
+boolq,1,exercise,acc,0.5566666666666666
+boolq,1,valid_binary,acc,0.5693333333333334
+boolq,1,yes_no_question,acc,0.5436666666666666
+boolq,1,median,accuracy,0.5566666666666666
+boolq,2,GPT-3 Style,acc,0.5923333333333334
+boolq,2,after_reading,acc,0.5926666666666667
+boolq,2,exercise,acc,0.576
+boolq,2,valid_binary,acc,0.5973333333333334
+boolq,2,yes_no_question,acc,0.562
+boolq,2,median,accuracy,0.5923333333333334
+boolq,3,GPT-3 Style,acc,0.6083333333333333
+boolq,3,after_reading,acc,0.58
+boolq,3,exercise,acc,0.5796666666666667
+boolq,3,valid_binary,acc,0.5966666666666667
+boolq,3,yes_no_question,acc,0.5646666666666667
+boolq,3,median,accuracy,0.58
+boolq,4,GPT-3 Style,acc,0.6136666666666667
+boolq,4,after_reading,acc,0.5633333333333334
+boolq,4,exercise,acc,0.593
+boolq,4,valid_binary,acc,0.5913333333333334
+boolq,4,yes_no_question,acc,0.5516666666666666
+boolq,4,median,accuracy,0.5913333333333334
+boolq,5,GPT-3 Style,acc,0.609
+boolq,5,after_reading,acc,0.5546666666666666
+boolq,5,exercise,acc,0.5896666666666667
+boolq,5,valid_binary,acc,0.583
+boolq,5,yes_no_question,acc,0.5483333333333333
+boolq,5,median,accuracy,0.583
+boolq,5,average,multiple,0.5866111111111111
+cb,0,GPT-3 style,acc,0.4107142857142857
+cb,0,MNLI crowdsource,acc,0.4107142857142857
+cb,0,can we infer,acc,0.2857142857142857
+cb,0,guaranteed/possible/impossible,acc,0.42857142857142855
+cb,0,justified in saying,acc,0.19642857142857142
+cb,0,median,accuracy,0.4107142857142857
+cb,1,GPT-3 style,acc,0.39285714285714285
+cb,1,MNLI crowdsource,acc,0.39285714285714285
+cb,1,can we infer,acc,0.39285714285714285
+cb,1,guaranteed/possible/impossible,acc,0.39285714285714285
+cb,1,justified in saying,acc,0.44642857142857145
+cb,1,median,accuracy,0.39285714285714285
+cb,2,GPT-3 style,acc,0.42857142857142855
+cb,2,MNLI crowdsource,acc,0.44642857142857145
+cb,2,can we infer,acc,0.42857142857142855
+cb,2,guaranteed/possible/impossible,acc,0.44642857142857145
+cb,2,justified in saying,acc,0.42857142857142855
+cb,2,median,accuracy,0.42857142857142855
+cb,3,GPT-3 style,acc,0.39285714285714285
+cb,3,MNLI crowdsource,acc,0.3392857142857143
+cb,3,can we infer,acc,0.44642857142857145
+cb,3,guaranteed/possible/impossible,acc,0.375
+cb,3,justified in saying,acc,0.375
+cb,3,median,accuracy,0.375
+cb,4,GPT-3 style,acc,0.4107142857142857
+cb,4,MNLI crowdsource,acc,0.39285714285714285
+cb,4,can we infer,acc,0.42857142857142855
+cb,4,guaranteed/possible/impossible,acc,0.5357142857142857
+cb,4,justified in saying,acc,0.44642857142857145
+cb,4,median,accuracy,0.42857142857142855
+cb,5,GPT-3 style,acc,0.48214285714285715
+cb,5,MNLI crowdsource,acc,0.4107142857142857
+cb,5,can we infer,acc,0.375
+cb,5,guaranteed/possible/impossible,acc,0.375
+cb,5,justified in saying,acc,0.39285714285714285
+cb,5,median,accuracy,0.39285714285714285
+cb,5,average,multiple,0.40476190476190477
+copa,0,best_option,acc,0.53
+copa,0,cause_effect,acc,0.52
+copa,0,choose,acc,0.49
+copa,0,i_am_hesitating,acc,0.54
+copa,0,plausible_alternatives,acc,0.53
+copa,0,median,accuracy,0.53
+copa,1,best_option,acc,0.59
+copa,1,cause_effect,acc,0.46
+copa,1,choose,acc,0.45
+copa,1,i_am_hesitating,acc,0.45
+copa,1,plausible_alternatives,acc,0.46
+copa,1,median,accuracy,0.46
+copa,2,best_option,acc,0.51
+copa,2,cause_effect,acc,0.45
+copa,2,choose,acc,0.45
+copa,2,i_am_hesitating,acc,0.49
+copa,2,plausible_alternatives,acc,0.46
+copa,2,median,accuracy,0.46
+copa,3,best_option,acc,0.55
+copa,3,cause_effect,acc,0.47
+copa,3,choose,acc,0.49
+copa,3,i_am_hesitating,acc,0.48
+copa,3,plausible_alternatives,acc,0.49
+copa,3,median,accuracy,0.49
+copa,4,best_option,acc,0.49
+copa,4,cause_effect,acc,0.48
+copa,4,choose,acc,0.51
+copa,4,i_am_hesitating,acc,0.51
+copa,4,plausible_alternatives,acc,0.48
+copa,4,median,accuracy,0.49
+copa,5,best_option,acc,0.54
+copa,5,cause_effect,acc,0.51
+copa,5,choose,acc,0.46
+copa,5,i_am_hesitating,acc,0.51
+copa,5,plausible_alternatives,acc,0.5
+copa,5,median,accuracy,0.51
+copa,5,average,multiple,0.49
+e2e_nlg_cleaned,0,coherent_text,rouge2_fmeasure,0.15645061177192066
+e2e_nlg_cleaned,0,create_text_for_me,rouge2_fmeasure,0.06347842363431547
+e2e_nlg_cleaned,0,generate_gramatically_correct_text,rouge2_fmeasure,0.00012067093428409366
+e2e_nlg_cleaned,0,generate_text_restaurant,rouge2_fmeasure,0.00024104025657346095
+e2e_nlg_cleaned,0,text,rouge2_fmeasure,0.10910465326076894
+e2e_nlg_cleaned,0,median,rouge2_fmeasure,0.06347842363431547
+e2e_nlg_cleaned,1,coherent_text,rouge2_fmeasure,0.1870937559813721
+e2e_nlg_cleaned,1,create_text_for_me,rouge2_fmeasure,0.16511209673657395
+e2e_nlg_cleaned,1,generate_gramatically_correct_text,rouge2_fmeasure,0.025195913355673966
+e2e_nlg_cleaned,1,generate_text_restaurant,rouge2_fmeasure,0.1714205638298909
+e2e_nlg_cleaned,1,text,rouge2_fmeasure,0.20219167803744306
+e2e_nlg_cleaned,1,median,rouge2_fmeasure,0.1714205638298909
+e2e_nlg_cleaned,2,coherent_text,rouge2_fmeasure,0.18600518275150685
+e2e_nlg_cleaned,2,create_text_for_me,rouge2_fmeasure,0.17074360575215342
+e2e_nlg_cleaned,2,generate_gramatically_correct_text,rouge2_fmeasure,0.04447784117945149
+e2e_nlg_cleaned,2,generate_text_restaurant,rouge2_fmeasure,0.19259169221915515
+e2e_nlg_cleaned,2,text,rouge2_fmeasure,0.19722529213201134
+e2e_nlg_cleaned,2,median,rouge2_fmeasure,0.18600518275150685
+e2e_nlg_cleaned,3,coherent_text,rouge2_fmeasure,0.18307097946148873
+e2e_nlg_cleaned,3,create_text_for_me,rouge2_fmeasure,0.17213478001357976
+e2e_nlg_cleaned,3,generate_gramatically_correct_text,rouge2_fmeasure,0.038284747118588126
+e2e_nlg_cleaned,3,generate_text_restaurant,rouge2_fmeasure,0.19636018570824587
+e2e_nlg_cleaned,3,text,rouge2_fmeasure,0.1964954395976402
+e2e_nlg_cleaned,3,median,rouge2_fmeasure,0.18307097946148873
+e2e_nlg_cleaned,4,coherent_text,rouge2_fmeasure,0.19134136835621748
+e2e_nlg_cleaned,4,create_text_for_me,rouge2_fmeasure,0.17010384910521295
+e2e_nlg_cleaned,4,generate_gramatically_correct_text,rouge2_fmeasure,0.037516989850184534
+e2e_nlg_cleaned,4,generate_text_restaurant,rouge2_fmeasure,0.19590832872090894
+e2e_nlg_cleaned,4,text,rouge2_fmeasure,0.19536984000862256
+e2e_nlg_cleaned,4,median,rouge2_fmeasure,0.19134136835621748
+e2e_nlg_cleaned,5,coherent_text,rouge2_fmeasure,0.18872128486346074
+e2e_nlg_cleaned,5,create_text_for_me,rouge2_fmeasure,0.1683711858028947
+e2e_nlg_cleaned,5,generate_gramatically_correct_text,rouge2_fmeasure,0.038242180726931196
+e2e_nlg_cleaned,5,generate_text_restaurant,rouge2_fmeasure,0.19402158147865167
+e2e_nlg_cleaned,5,text,rouge2_fmeasure,0.19119099944111612
+e2e_nlg_cleaned,5,median,rouge2_fmeasure,0.18872128486346074
+e2e_nlg_cleaned,5,average,multiple,0.16400630048281337
+gem_xsum,0,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.014155568509608755
+gem_xsum,0,DOC_tldr,rouge2_fmeasure,0.005848067139995684
+gem_xsum,0,article_DOC_summary,rouge2_fmeasure,0.01730052045113504
+gem_xsum,0,summarize_DOC,rouge2_fmeasure,0.031013676801335422
+gem_xsum,0,summarize_this_DOC_summary,rouge2_fmeasure,0.040900489822348056
+gem_xsum,0,median,rouge2_fmeasure,0.01730052045113504
+gem_xsum,1,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.020262527556005907
+gem_xsum,1,DOC_tldr,rouge2_fmeasure,0.012072025290438592
+gem_xsum,1,article_DOC_summary,rouge2_fmeasure,0.019132118327200527
+gem_xsum,1,summarize_DOC,rouge2_fmeasure,0.04334620232538617
+gem_xsum,1,summarize_this_DOC_summary,rouge2_fmeasure,0.038774277981477374
+gem_xsum,1,median,rouge2_fmeasure,0.020262527556005907
+gem_xsum,2,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.02824595859604695
+gem_xsum,2,DOC_tldr,rouge2_fmeasure,0.02751335673945438
+gem_xsum,2,article_DOC_summary,rouge2_fmeasure,0.026545543337132424
+gem_xsum,2,summarize_DOC,rouge2_fmeasure,0.04362070001507444
+gem_xsum,2,summarize_this_DOC_summary,rouge2_fmeasure,0.03664914264570665
+gem_xsum,2,median,rouge2_fmeasure,0.02824595859604695
+gem_xsum,3,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.02800561543388405
+gem_xsum,3,DOC_tldr,rouge2_fmeasure,0.0402095932041227
+gem_xsum,3,article_DOC_summary,rouge2_fmeasure,0.03291830334125208
+gem_xsum,3,summarize_DOC,rouge2_fmeasure,0.0400453211123096
+gem_xsum,3,summarize_this_DOC_summary,rouge2_fmeasure,0.03701973106444136
+gem_xsum,3,median,rouge2_fmeasure,0.03701973106444136
+gem_xsum,4,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.00666835063292078
+gem_xsum,4,DOC_tldr,rouge2_fmeasure,0.010845224152235416
+gem_xsum,4,article_DOC_summary,rouge2_fmeasure,0.010104068388385765
+gem_xsum,4,summarize_DOC,rouge2_fmeasure,0.010522073701869125
+gem_xsum,4,summarize_this_DOC_summary,rouge2_fmeasure,0.008786196844590121
+gem_xsum,4,median,rouge2_fmeasure,0.010104068388385765
+gem_xsum,5,DOC_boils_down_to_simple_idea_that,rouge2_fmeasure,0.0
+gem_xsum,5,DOC_tldr,rouge2_fmeasure,0.0003107051777238192
+gem_xsum,5,article_DOC_summary,rouge2_fmeasure,0.00041371259854665804
+gem_xsum,5,summarize_DOC,rouge2_fmeasure,0.00046275158053195667
+gem_xsum,5,summarize_this_DOC_summary,rouge2_fmeasure,6.352836541515787e-05
+gem_xsum,5,median,rouge2_fmeasure,0.0003107051777238192
+gem_xsum,5,average,multiple,0.018873918538956473
+piqa,0,Correct the solution,rouge2_fmeasure,0.09706102035374112
+piqa,0,choose the most appropriate solution,acc,0.49510337323177367
+piqa,0,no prompt needed,rouge2_fmeasure,0.005928136888518339
+piqa,0,pick_correct_choice_index,acc,0.49510337323177367
+piqa,0,what_is_the_correct_ending,acc,0.5565832426550599
+piqa,0,median,accuracy,0.49510337323177367
+piqa,1,Correct the solution,rouge2_fmeasure,0.16839814753926893
+piqa,1,choose the most appropriate solution,acc,0.5087051142546246
+piqa,1,no prompt needed,rouge2_fmeasure,0.005682715949708656
+piqa,1,pick_correct_choice_index,acc,0.5076169749727966
+piqa,1,what_is_the_correct_ending,acc,0.5685527747551686
+piqa,1,median,accuracy,0.5087051142546246
+piqa,2,Correct the solution,rouge2_fmeasure,0.21700191007059494
+piqa,2,choose the most appropriate solution,acc,0.5223068552774756
+piqa,2,no prompt needed,rouge2_fmeasure,0.005621916396892083
+piqa,2,pick_correct_choice_index,acc,0.5
+piqa,2,what_is_the_correct_ending,acc,0.5718171926006529
+piqa,2,median,accuracy,0.5223068552774756
+piqa,3,Correct the solution,rouge2_fmeasure,0.2220313726729203
+piqa,3,choose the most appropriate solution,acc,0.5092491838955386
+piqa,3,no prompt needed,rouge2_fmeasure,0.005486989401606149
+piqa,3,pick_correct_choice_index,acc,0.515778019586507
+piqa,3,what_is_the_correct_ending,acc,0.5663764961915125
+piqa,3,median,accuracy,0.515778019586507
+piqa,4,Correct the solution,rouge2_fmeasure,0.21583669822052345
+piqa,4,choose the most appropriate solution,acc,0.5282916213275299
+piqa,4,no prompt needed,rouge2_fmeasure,0.005250361302057742
+piqa,4,pick_correct_choice_index,acc,0.5228509249183896
+piqa,4,what_is_the_correct_ending,acc,0.5865070729053319
+piqa,4,median,accuracy,0.5282916213275299
+piqa,5,Correct the solution,rouge2_fmeasure,0.20868674330105244
+piqa,5,choose the most appropriate solution,acc,0.5114254624591947
+piqa,5,no prompt needed,rouge2_fmeasure,0.005515135528910162
+piqa,5,pick_correct_choice_index,acc,0.5021762785636561
+piqa,5,what_is_the_correct_ending,acc,0.5848748639825898
+piqa,5,median,accuracy,0.5114254624591947
+piqa,5,average,multiple,0.5136017410228509
+sciq,0,Direct Question,acc,0.83
+sciq,0,Direct Question (Closed Book),acc,0.613
+sciq,0,Multiple Choice,acc,0.342
+sciq,0,Multiple Choice (Closed Book),acc,0.287
+sciq,0,Multiple Choice Question First,acc,0.349
+sciq,0,median,accuracy,0.349
+sciq,1,Direct Question,acc,0.846
+sciq,1,Direct Question (Closed Book),acc,0.663
+sciq,1,Multiple Choice,acc,0.378
+sciq,1,Multiple Choice (Closed Book),acc,0.378
+sciq,1,Multiple Choice Question First,acc,0.392
+sciq,1,median,accuracy,0.392
+sciq,2,Direct Question,acc,0.853
+sciq,2,Direct Question (Closed Book),acc,0.673
+sciq,2,Multiple Choice,acc,0.344
+sciq,2,Multiple Choice (Closed Book),acc,0.372
+sciq,2,Multiple Choice Question First,acc,0.363
+sciq,2,median,accuracy,0.372
+sciq,3,Direct Question,acc,0.856
+sciq,3,Direct Question (Closed Book),acc,0.662
+sciq,3,Multiple Choice,acc,0.329
+sciq,3,Multiple Choice (Closed Book),acc,0.349
+sciq,3,Multiple Choice Question First,acc,0.363
+sciq,3,median,accuracy,0.363
+sciq,4,Direct Question,acc,0.849
+sciq,4,Direct Question (Closed Book),acc,0.671
+sciq,4,Multiple Choice,acc,0.335
+sciq,4,Multiple Choice (Closed Book),acc,0.335
+sciq,4,Multiple Choice Question First,acc,0.319
+sciq,4,median,accuracy,0.335
+sciq,5,Direct Question,acc,0.849
+sciq,5,Direct Question (Closed Book),acc,0.682
+sciq,5,Multiple Choice,acc,0.327
+sciq,5,Multiple Choice (Closed Book),acc,0.362
+sciq,5,Multiple Choice Question First,acc,0.333
+sciq,5,median,accuracy,0.362
+sciq,5,average,multiple,0.36216666666666664
+story_cloze_2016,0,Answer Given options,acc,0.4719401389631213
+story_cloze_2016,0,Choose Story Ending,acc,0.4906467129877071
+story_cloze_2016,0,Novel Correct Ending,acc,0.4831640833778728
+story_cloze_2016,0,Story Continuation and Options,acc,0.49706039551042225
+story_cloze_2016,0,median,accuracy,0.48690539818279
+story_cloze_2016,1,Answer Given options,acc,0.4521646178514164
+story_cloze_2016,1,Choose Story Ending,acc,0.4596472474612507
+story_cloze_2016,1,Novel Correct Ending,acc,0.4494922501336184
+story_cloze_2016,1,Story Continuation and Options,acc,0.46392303580972744
+story_cloze_2016,1,median,accuracy,0.4559059326563335
+story_cloze_2016,2,Answer Given options,acc,0.4510956707642972
+story_cloze_2016,2,Choose Story Ending,acc,0.4623196151790486
+story_cloze_2016,2,Novel Correct Ending,acc,0.4478888295029396
+story_cloze_2016,2,Story Continuation and Options,acc,0.45911277391769106
+story_cloze_2016,2,median,accuracy,0.4551042223409941
+story_cloze_2016,3,Answer Given options,acc,0.4665954035275254
+story_cloze_2016,3,Choose Story Ending,acc,0.45269909139497594
+story_cloze_2016,3,Novel Correct Ending,acc,0.4494922501336184
+story_cloze_2016,3,Story Continuation and Options,acc,0.4521646178514164
+story_cloze_2016,3,median,accuracy,0.45243185462319613
+story_cloze_2016,4,Answer Given options,acc,0.45537145911277394
+story_cloze_2016,4,Choose Story Ending,acc,0.46125066809192944
+story_cloze_2016,4,Novel Correct Ending,acc,0.44200962052378406
+story_cloze_2016,4,Story Continuation and Options,acc,0.4510956707642972
+story_cloze_2016,4,median,accuracy,0.45323356493853556
+story_cloze_2016,5,Answer Given options,acc,0.4665954035275254
+story_cloze_2016,5,Choose Story Ending,acc,0.467129877071085
+story_cloze_2016,5,Novel Correct Ending,acc,0.45056119722073756
+story_cloze_2016,5,Story Continuation and Options,acc,0.4665954035275254
+story_cloze_2016,5,median,accuracy,0.4665954035275254
+story_cloze_2016,5,average,multiple,0.46169606271156244
+superglue_rte,0,GPT-3 style,acc,0.5270758122743683
+superglue_rte,0,MNLI crowdsource,acc,0.5342960288808665
+superglue_rte,0,does it follow that,acc,0.5270758122743683
+superglue_rte,0,guaranteed true,acc,0.5054151624548736
+superglue_rte,0,should assume,acc,0.5415162454873647
+superglue_rte,0,median,accuracy,0.5270758122743683
+superglue_rte,1,GPT-3 style,acc,0.4729241877256318
+superglue_rte,1,MNLI crowdsource,acc,0.49097472924187724
+superglue_rte,1,does it follow that,acc,0.49097472924187724
+superglue_rte,1,guaranteed true,acc,0.49097472924187724
+superglue_rte,1,should assume,acc,0.49097472924187724
+superglue_rte,1,median,accuracy,0.49097472924187724
+superglue_rte,2,GPT-3 style,acc,0.51985559566787
+superglue_rte,2,MNLI crowdsource,acc,0.51985559566787
+superglue_rte,2,does it follow that,acc,0.5090252707581228
+superglue_rte,2,guaranteed true,acc,0.5270758122743683
+superglue_rte,2,should assume,acc,0.5090252707581228
+superglue_rte,2,median,accuracy,0.51985559566787
+superglue_rte,3,GPT-3 style,acc,0.5090252707581228
+superglue_rte,3,MNLI crowdsource,acc,0.49097472924187724
+superglue_rte,3,does it follow that,acc,0.48375451263537905
+superglue_rte,3,guaranteed true,acc,0.516245487364621
+superglue_rte,3,should assume,acc,0.5018050541516246
+superglue_rte,3,median,accuracy,0.5018050541516246
+superglue_rte,4,GPT-3 style,acc,0.4620938628158845
+superglue_rte,4,MNLI crowdsource,acc,0.48736462093862815
+superglue_rte,4,does it follow that,acc,0.48014440433212996
+superglue_rte,4,guaranteed true,acc,0.5090252707581228
+superglue_rte,4,should assume,acc,0.48014440433212996
+superglue_rte,4,median,accuracy,0.48014440433212996
+superglue_rte,5,GPT-3 style,acc,0.4548736462093863
+superglue_rte,5,MNLI crowdsource,acc,0.4693140794223827
+superglue_rte,5,does it follow that,acc,0.4981949458483754
+superglue_rte,5,guaranteed true,acc,0.4693140794223827
+superglue_rte,5,should assume,acc,0.4729241877256318
+superglue_rte,5,median,accuracy,0.4693140794223827
+superglue_rte,5,average,multiple,0.4981949458483754
+web_nlg_en,0,PALM_prompt,rouge2_fmeasure,0.0532813862747049
+web_nlg_en,0,explicit-graph-description2,rouge2_fmeasure,0.012985384177633208
+web_nlg_en,0,implicit-graph-description,rouge2_fmeasure,0.0019179536475281184
+web_nlg_en,0,non-explicit-description,rouge2_fmeasure,0.004150191718708099
+web_nlg_en,0,very-explicit-description,rouge2_fmeasure,6.345797512857661e-05
+web_nlg_en,0,median,rouge2_fmeasure,0.004150191718708099
+web_nlg_en,1,PALM_prompt,rouge2_fmeasure,0.05368591058094131
+web_nlg_en,1,explicit-graph-description2,rouge2_fmeasure,0.04640292562526275
+web_nlg_en,1,implicit-graph-description,rouge2_fmeasure,0.025426464984268635
+web_nlg_en,1,non-explicit-description,rouge2_fmeasure,0.054485621293343514
+web_nlg_en,1,very-explicit-description,rouge2_fmeasure,0.051815361827752766
+web_nlg_en,1,median,rouge2_fmeasure,0.051815361827752766
+web_nlg_en,2,PALM_prompt,rouge2_fmeasure,0.05344291957030947
+web_nlg_en,2,explicit-graph-description2,rouge2_fmeasure,0.07757017845101091
+web_nlg_en,2,implicit-graph-description,rouge2_fmeasure,0.032591510976486694
+web_nlg_en,2,non-explicit-description,rouge2_fmeasure,0.061645677874947354
+web_nlg_en,2,very-explicit-description,rouge2_fmeasure,0.0538074768484528
+web_nlg_en,2,median,rouge2_fmeasure,0.0538074768484528
+web_nlg_en,3,PALM_prompt,rouge2_fmeasure,0.05368996382308088
+web_nlg_en,3,explicit-graph-description2,rouge2_fmeasure,0.06808437331115559
+web_nlg_en,3,implicit-graph-description,rouge2_fmeasure,0.036709719893509046
+web_nlg_en,3,non-explicit-description,rouge2_fmeasure,0.06571024213935271
+web_nlg_en,3,very-explicit-description,rouge2_fmeasure,0.0579898457998029
+web_nlg_en,3,median,rouge2_fmeasure,0.0579898457998029
+web_nlg_en,4,PALM_prompt,rouge2_fmeasure,0.0515680827205002
+web_nlg_en,4,explicit-graph-description2,rouge2_fmeasure,0.052457179235399276
+web_nlg_en,4,implicit-graph-description,rouge2_fmeasure,0.036402813498665906
+web_nlg_en,4,non-explicit-description,rouge2_fmeasure,0.06374220282296517
+web_nlg_en,4,very-explicit-description,rouge2_fmeasure,0.05793797811823835
+web_nlg_en,4,median,rouge2_fmeasure,0.052457179235399276
+web_nlg_en,5,PALM_prompt,rouge2_fmeasure,0.05107734688924233
+web_nlg_en,5,explicit-graph-description2,rouge2_fmeasure,0.045075512409701604
+web_nlg_en,5,implicit-graph-description,rouge2_fmeasure,0.03482971179628577
+web_nlg_en,5,non-explicit-description,rouge2_fmeasure,0.0639493149144395
+web_nlg_en,5,very-explicit-description,rouge2_fmeasure,0.05600461944766409
+web_nlg_en,5,median,rouge2_fmeasure,0.05107734688924233
+web_nlg_en,5,average,multiple,0.04521623371989303
+wiki_lingua_en,0,article_summary_en,rouge2_fmeasure,0.009594517812957653
+wiki_lingua_en,0,rephrase_en,rouge2_fmeasure,0.003243321779952968
+wiki_lingua_en,0,summarize_above_en,rouge2_fmeasure,0.0042667329498244436
+wiki_lingua_en,0,tldr_en,rouge2_fmeasure,0.002874313185982406
+wiki_lingua_en,0,write_abstract_en,rouge2_fmeasure,0.0011035986294212138
+wiki_lingua_en,0,median,rouge2_fmeasure,0.003243321779952968
+wiki_lingua_en,1,article_summary_en,rouge2_fmeasure,0.017846850141455827
+wiki_lingua_en,1,rephrase_en,rouge2_fmeasure,0.010181112623842817
+wiki_lingua_en,1,summarize_above_en,rouge2_fmeasure,0.00423567615381497
+wiki_lingua_en,1,tldr_en,rouge2_fmeasure,0.028190707681194575
+wiki_lingua_en,1,write_abstract_en,rouge2_fmeasure,0.010646298254836605
+wiki_lingua_en,1,median,rouge2_fmeasure,0.010646298254836605
+wiki_lingua_en,2,article_summary_en,rouge2_fmeasure,0.022535640055881916
+wiki_lingua_en,2,rephrase_en,rouge2_fmeasure,0.02117387153026309
+wiki_lingua_en,2,summarize_above_en,rouge2_fmeasure,0.004697153886380661
+wiki_lingua_en,2,tldr_en,rouge2_fmeasure,0.04456119604899187
+wiki_lingua_en,2,write_abstract_en,rouge2_fmeasure,0.02129586388647884
+wiki_lingua_en,2,median,rouge2_fmeasure,0.02129586388647884
+wiki_lingua_en,3,article_summary_en,rouge2_fmeasure,0.021648290209856712
+wiki_lingua_en,3,rephrase_en,rouge2_fmeasure,0.022197025590925616
+wiki_lingua_en,3,summarize_above_en,rouge2_fmeasure,0.0040651974203171634
+wiki_lingua_en,3,tldr_en,rouge2_fmeasure,0.03887583188926559
+wiki_lingua_en,3,write_abstract_en,rouge2_fmeasure,0.021617853652187335
+wiki_lingua_en,3,median,rouge2_fmeasure,0.021648290209856712
+wiki_lingua_en,4,article_summary_en,rouge2_fmeasure,0.007536808369783641
+wiki_lingua_en,4,rephrase_en,rouge2_fmeasure,0.008171833643724272
+wiki_lingua_en,4,summarize_above_en,rouge2_fmeasure,0.0018254913452193152
+wiki_lingua_en,4,tldr_en,rouge2_fmeasure,0.013407675922368708
+wiki_lingua_en,4,write_abstract_en,rouge2_fmeasure,0.00641884861944969
+wiki_lingua_en,4,median,rouge2_fmeasure,0.007536808369783641
+wiki_lingua_en,5,article_summary_en,rouge2_fmeasure,0.0011309269927620334
+wiki_lingua_en,5,rephrase_en,rouge2_fmeasure,0.0012168332924537228
+wiki_lingua_en,5,summarize_above_en,rouge2_fmeasure,0.00026468573039586365
+wiki_lingua_en,5,tldr_en,rouge2_fmeasure,0.0020845828252393957
+wiki_lingua_en,5,write_abstract_en,rouge2_fmeasure,0.0006554801175224404
+wiki_lingua_en,5,median,rouge2_fmeasure,0.0011309269927620334
+wiki_lingua_en,5,average,multiple,0.010916918248945133
+winogrande,0,Replace,acc,0.5059194948697711
+winogrande,0,True or False,acc,0.494869771112865
+winogrande,0,does underscore refer to,acc,0.4964483030781373
+winogrande,0,stand for,acc,0.5098658247829518
+winogrande,0,underscore refer to,acc,0.5177584846093133
+winogrande,0,median,accuracy,0.5059194948697711
+winogrande,1,Replace,acc,0.5114443567482242
+winogrande,1,True or False,acc,0.494869771112865
+winogrande,1,does underscore refer to,acc,0.49329123914759276
+winogrande,1,stand for,acc,0.5090765588003157
+winogrande,1,underscore refer to,acc,0.4964483030781373
+winogrande,1,median,accuracy,0.4964483030781373
+winogrande,2,Replace,acc,0.5043409629044988
+winogrande,2,True or False,acc,0.49329123914759276
+winogrande,2,does underscore refer to,acc,0.49171270718232046
+winogrande,2,stand for,acc,0.49329123914759276
+winogrande,2,underscore refer to,acc,0.5019731649565904
+winogrande,2,median,accuracy,0.49329123914759276
+winogrande,3,Replace,acc,0.5059194948697711
+winogrande,3,True or False,acc,0.4988161010260458
+winogrande,3,does underscore refer to,acc,0.48855564325177586
+winogrande,3,stand for,acc,0.4980268350434096
+winogrande,3,underscore refer to,acc,0.5209155485398579
+winogrande,3,median,accuracy,0.4988161010260458
+winogrande,4,Replace,acc,0.5019731649565904
+winogrande,4,True or False,acc,0.5098658247829518
+winogrande,4,does underscore refer to,acc,0.4877663772691397
+winogrande,4,stand for,acc,0.4980268350434096
+winogrande,4,underscore refer to,acc,0.5193370165745856
+winogrande,4,median,accuracy,0.5019731649565904
+winogrande,5,Replace,acc,0.4956590370955012
+winogrande,5,True or False,acc,0.5019731649565904
+winogrande,5,does underscore refer to,acc,0.4925019731649566
+winogrande,5,stand for,acc,0.489344909234412
+winogrande,5,underscore refer to,acc,0.5090765588003157
+winogrande,5,median,accuracy,0.4956590370955012
+winogrande,5,average,multiple,0.4986845566956064

4b284b12bc4/eval/merged.json ADDED Viewed