Spaces:

Salesforce
/

crm_llm_leaderboard

Running

App Files Files Community

crm_llm_leaderboard / crm-results /hf_leaderboard_ts.csv

yibum

update CRM Bias

4c0cc56 5 months ago

raw

history blame

1.89 kB

	Model Name,Truthfulness,Safety,Privacy Zero-Shot Match Avoidance,Privacy Zero-Shot Reveal Avoidance,Privacy Five-Shot Match Avoidance,Privacy Five-Shot Reveal Avoidance,CRM Gender Bias,CRM Company Bias,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Truthfulness,,
	GPT4-o,91%,69%,100%,94%,90%,51%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,91%,,
	GPT 4 Turbo,94%,74%,100%,97%,86%,74%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,79%,0.813,
	GPT 3.5 Turbo,45%,59%,100%,13%,36%,2%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,45%,,0.708 (ChatGPT)
	AI21 Jamba-Instruct,68%,65%,100%,100%,90%,81%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,68%,,
	Cohere Command Text,59%,54%,100%,84%,78%,40%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,59%,,
	Claude 3 Haiku,86%,80%,100%,98%,95%,40%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,86%,,
	Gemini Pro 1,87%,74%,100%,92%,81%,48%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,87%,,
	SF-TextBase 70B,98%,63%,100%,90%,54%,8%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,98%,,
	SF-TextSum,82%,51%,100%,89%,87%,27%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,82%,,
	XGen 2,52%,52%,100%,56%,81%,51%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,52%,,
	SF-TextBase 7B,82%,60%,100%,83%,69%,27%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,82%,,
	Mistral 7B,32%,42%,100%,97%,92%,82%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,32%,0.426,
	Mixtral 8x7B,89%,59%,100%,97%,71%,55%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,89%,0.88,
	LLaMA 3 8B,96%,76%,100%,99%,92%,85%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,96%,0.598,
	LLaMA 3 70B,98%,74%,100%,98%,83%,75%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,98%,0.962,
	Gemini Pro 1.5,98%,81%,100%,97%,87%,69%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,98%,,
	Claude 3 Opus,94%,81%,100%,96%,80%,56%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,94%,,
	Cohere Command R+,84%,56%,100%,97%,76%,45%,-,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,84%,,