Spaces:

launch
/

factbench

Running

App Files Files Community

factbench / tiered_models_data.csv

farimafatahi

Update tiered_models_data.csv

17d6ec9 verified 2 months ago

raw

history blame contribute delete

1.6 kB

	tier,model,factuality_score,hallucination_score,avg_tokens,avg_factual_units,avg_undecidable_units,avg_unsupported_units
	Tier 1: Hard,🔒 GPT4-o,75.65,0.64,563.15,24.01,4.62,1.01
	Tier 1: Hard,🔒 Gemini1.5-Pro,73.78,0.68,517.31,22.25,4.48,1.13
	Tier 1: Hard,🔑 Llama3.1-70B-Instruct,70.07,0.89,532.41,27.17,5.67, 2.13
	Tier 1: Hard,🔑 Llama3.1-405B-Instruct,68.59,0.93,551.28,26.71,6.19,2.2
	Tier 1: Hard,🔒 Claude-3.5-Sonnet 🚨,74.95,0.65,395.77,22.64,4.03,1.19
	Tier 1: Hard,🔒 CommandR+ 🚨,73.15,0.71,440.93,23.55,4.51,1.4
	Tier 1: Hard,🔑 Mistral-Large-2 🚨,75.19,0.67,485.58,23.21,4.09,1.36
	Tier 2: Moderate,🔒 GPT4-o,80.72,0.5,624.67,24.42,3.59,0.89
	Tier 2: Moderate,🔒 Gemini1.5-Pro,78.02,0.57,565.97,22.16,3.71,0.97
	Tier 2: Moderate,🔑 Llama3.1-70B-Instruct,75.76,0.71,607.44,25.35,4.33,1.76
	Tier 2: Moderate,🔑 Llama3.1-405B-Instruct,75.05,0.7,599.3,25.24,4.74,1.41
	Tier 2: Moderate,🔒 Claude-3.5-Sonnet 🚨,79.92,0.54,414.32,22.15,3.32,1.09
	Tier 2: Moderate,🔒 CommandR+ 🚨,80.71,0.52,483.32,24.1,3.17,1.09
	Tier 2: Moderate,🔑 Mistral-Large-2 🚨,79.97,0.52,528.44,22.65,3.21,1.02
	Tier 3: Easy,🔒 GPT4-o,91.63,0.26,640.84,29.29,2.01,0.53
	Tier 3: Easy,🔒 Gemini1.5-Pro,89.86,0.31,551.81,25.6,1.88,0.71
	Tier 3: Easy,🔑 Llama3.1-70B-Instruct,89.3,0.33,607.75,31.38,2.08,0.83
	Tier 3: Easy,🔑 Llama3.1-405B-Instruct,86.57,0.4,599.87,30.12,2.88,0.85
	Tier 3: Easy,🔒 Claude-3.5-Sonnet 🚨,89.61,0.3,411.2,26.72,1.49,0.81
	Tier 3: Easy,🔒 CommandR+ 🚨,91.65,0.25,499.06,27.95,1.57,0.54
	Tier 3: Easy,🔑 Mistral-Large-2 🚨,92.0,0.25,523.57,27.8,1.8,0.55