dataset,prompt,metric,value
xnli_ar,GPT-3 style_arht,accuracy,0.40441767068273093
xnli_ar,MNLI crowdsource_arht,accuracy,0.43012048192771085
xnli_ar,can we infer_arht,accuracy,0.3610441767068273
xnli_ar,guaranteed/possible/impossible_arht,accuracy,0.3642570281124498
xnli_ar,justified in saying_arht,accuracy,0.37309236947791163
xnli_ar,median,accuracy,0.37309236947791163
xnli_es,GPT-3 style_esht,accuracy,0.5698795180722892
xnli_es,MNLI crowdsource_esht,accuracy,0.342570281124498
xnli_es,can we infer_esht,accuracy,0.46546184738955826
xnli_es,guaranteed/possible/impossible_esht,accuracy,0.5526104417670683
xnli_es,justified in saying_esht,accuracy,0.4321285140562249
xnli_es,median,accuracy,0.46546184738955826
xnli_fr,GPT-3 style_frht,accuracy,0.4995983935742972
xnli_fr,MNLI crowdsource_frht,accuracy,0.4004016064257028
xnli_fr,can we infer_frht,accuracy,0.5694779116465863
xnli_fr,guaranteed/possible/impossible_frht,accuracy,0.5152610441767068
xnli_fr,justified in saying_frht,accuracy,0.5493975903614458
xnli_fr,median,accuracy,0.5152610441767068
xnli_hi,GPT-3 style_hiht,accuracy,0.44417670682730925
xnli_hi,MNLI crowdsource_hiht,accuracy,0.5236947791164659
xnli_hi,can we infer_hiht,accuracy,0.4963855421686747
xnli_hi,guaranteed/possible/impossible_hiht,accuracy,0.4493975903614458
xnli_hi,justified in saying_hiht,accuracy,0.4963855421686747
xnli_hi,median,accuracy,0.4963855421686747
xnli_sw,GPT-3 style_swht,accuracy,0.39397590361445783
xnli_sw,MNLI crowdsource_swht,accuracy,0.3329317269076305
xnli_sw,can we infer_swht,accuracy,0.4285140562248996
xnli_sw,guaranteed/possible/impossible_swht,accuracy,0.38433734939759034
xnli_sw,justified in saying_swht,accuracy,0.41967871485943775
xnli_sw,median,accuracy,0.39397590361445783
xnli_ur,GPT-3 style_urht,accuracy,0.463855421686747
xnli_ur,MNLI crowdsource_urht,accuracy,0.40441767068273093
xnli_ur,can we infer_urht,accuracy,0.3895582329317269
xnli_ur,guaranteed/possible/impossible_urht,accuracy,0.3405622489959839
xnli_ur,justified in saying_urht,accuracy,0.43293172690763054
xnli_ur,median,accuracy,0.40441767068273093
xnli_vi,GPT-3 style_viht,accuracy,0.5261044176706827
xnli_vi,MNLI crowdsource_viht,accuracy,0.39879518072289155
xnli_vi,can we infer_viht,accuracy,0.5481927710843374
xnli_vi,guaranteed/possible/impossible_viht,accuracy,0.43694779116465865
xnli_vi,justified in saying_viht,accuracy,0.46546184738955826
xnli_vi,median,accuracy,0.46546184738955826
xnli_zh,GPT-3 style_zhht,accuracy,0.36947791164658633
xnli_zh,MNLI crowdsource_zhht,accuracy,0.3457831325301205
xnli_zh,can we infer_zhht,accuracy,0.3441767068273092
xnli_zh,guaranteed/possible/impossible_zhht,accuracy,0.4923694779116466
xnli_zh,justified in saying_zhht,accuracy,0.3927710843373494
xnli_zh,median,accuracy,0.36947791164658633
multiple,average,multiple,0.4354417670682731