Leaderboards and benchmarks ✨

clefourrier 's Collections

LLM evaluation datasets

updated 9 days ago

Cool leaderboard spaces collection for models across modalities! Text, vision, audio, ...

Upvote

Running on CPU Upgrade

12.3k

🏆

Open LLM Leaderboard

Track, rank and evaluate open LLMs and chatbots

Note The reference leaderboard for Open LLMs! Find the best LLM for your size and precision needs, compare your models to the others! (Evaluates on ARC, HellaSwag, TruthfulQA, and MMLU)
Running

1.07k

📈

Big Code Models Leaderboard

Note Specialized leaderboard for models with coding capabilities 🖥️ (Evaluates on HumanEval and MultiPL-E)
Running

3.88k

🏆🤖

Chatbot Arena Leaderboard

Note Pitches chatbots against one another to compare their output quality (Evaluates on MTBench, an Elo score, and MMLU)
Running

404

🏆🏋️

LLM-Perf Leaderboard

Note Do you want to know which model to use for which hardware? This leaderboard is for you! (Looks at the throughput of many LLMs in different hardware settings)
EleutherAI: Going Beyond "Open Science" to "Science in the Open"

Paper • 2210.06413 • Published Oct 12, 2022

Note This paper introduces (among other things) the Eleuther AI Harness, a reference evaluation suite which is simple to use and quite complete!
Holistic Evaluation of Language Models

Paper • 2211.09110 • Published Nov 16, 2022 • 1

Note The HELM paper! A super cool reference paper on the many axes to look at when creating an LLM benchmark or evaluation suite. Super exhaustive and interesting to read.
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Paper • 2206.04615 • Published Jun 9, 2022 • 5

Note The BigBench paper! A bunch of tasks to evaluate edge cases and random unusual LLM capabilities. The associated benchmark has since been completed with a lot of fun crowdsourced tasks.
Running on CPU Upgrade

4.59k

🥇

MTEB Leaderboard

Note Text Embeddings benchmark across 58 tasks and 112 languages!
Running on CPU Upgrade

232

🦾

GAIA Leaderboard

Note A leaderboard for tool augmented LLMs!
Running

88

🚀

OpenCompass LLM Leaderboard

Note An LLM leaderboard for Chinese models on many metric axes - super complete
Running on CPU Upgrade

510

📉

Open Ko-LLM Leaderboard

Note An Open LLM Leaderboard specially for Korean models by our friends at Upstage!
Running

37

🐨

Open Dutch LLM Leaderboard

Note An Open LLM Leaderboard specially for Dutch models!
Configuration error

51

⚡

Hallucination Evaluation Leaderboard

Note A leaderboard to evaluate the propensy of LLMs to hallucinate
Running on CPU Upgrade

128

🔥

Hallucinations Leaderboard

Note A lot of metrics if you are interested in the propensity of LLMs to hallucinate!
Running

88

🐠

Nexus Function Calling Leaderboard

Note Tests LLM API usage and calls (few models atm)
Running

57

📈

CyberSecEvalTest

Note How likely is your LLM to help cyber attacks?
Running

185

🌖

Yet Another LLM Leaderboard

Note An aggregation of benchmarks well correlated with human preferences
Running on CPU Upgrade

87

🥇

LLM Safety Leaderboard

Note Bias, safety, toxicity, all those things that are important to test when your chatbot actually interacts with users
Running

32

⚡

EvalCrafter

Note Text to video generation leaderboard
Running

430

🏆

Can Ai Code Results

Note Coding benchmark
Running

112

🏆

Ocrbench Leaderboard

Note An OCR benchmark
Running

53

🥇

NPHardEval Leaderboard

Note Dynamic leaderboard using complexity classes to create reasoning problems for LLMs - quite a cool one
Running

41

💻

Redteaming Resistance Leaderboard

Note Red teaming datasets success against models
Running

18

🏆

Subquadratic LLM Leaderboard

Note The Open LLM Leaderboard, but for structured state models!
Running

539

🖼💬

Vision Arena (Testing VLMs side-by-side)

Note A multimodal arena!
Running

161

📊

VBench Leaderboard
Running on CPU Upgrade

152

🏆

Open Portuguese LLM Leaderboard

Track, rank and evaluate open LLMs in Portuguese

Note An LLM leaderboard for Portuguese
Running on CPU Upgrade

66

🏆

Open Ita Llm Leaderboard

Track, rank and evaluate open LLMs in the italian language!

Note An LLM leaderboard for Italian
Running

8

🏆🇲🇾🤖

Malay LLM Leaderboard

Note An LLM leaderboard for Malay
Running on Zero

265

📈

GenAI Arena

Realtime Image/Video Gen AI Arena

Note An arena for image generation!
Running

10

📊

Q-Bench+ Leaderboard
Running on CPU Upgrade

32

📊

Parti Prompts Leaderboard
Running on CPU Upgrade

88

🥇

HHEM Leaderboard

Note An hallucination leaderboard, focused on a different set of tasks
Restarting on CPU Upgrade

55

🏆🇵🇱

Open PL LLM Leaderboard
Running on CPU Upgrade

87

🥇

OpenLLM Turkish leaderboard
Running

222

🦁

AI2 WildBench Leaderboard (V2)
Running on CPU Upgrade

598

🏆

Open ASR Leaderboard
Running on CPU Upgrade

572

🌎

Open VLM Leaderboard

VLMEvalKit Evaluation Results Collection
Running

319

📐

Reward Bench Leaderboard
Running on CPU Upgrade

596

🏆

TTS Arena

Vote on the latest TTS models!
Running

12

📝

Prompt Injection Detection Benchmark
Running

32

🏟️

Long Code Arena
Running

8

⚡

ML.ENERGY Leaderboard
Running

590

📢

UGI Leaderboard
Configuration error

81

🏃

Berkeley Function Calling Leaderboard
Running on CPU Upgrade

50

🥇

Open CoT Leaderboard

Track, rank and evaluate open LLMs' CoT quality
Running

22

🐑

URIAL Bench (Eval Base LLMs on MT-Bench)
Running

22

🔥

Indic Llm Leaderboard
Running

8

🏆

Meta Open LLM Leaderboard
Running

9

👁

Science Leaderboard

Leaderboard for LLM for Science Reasoning
Running on CPU Upgrade

322

🥇

Open Medical-LLM Leaderboard
Runtime error

29

🥇

Open RL Leaderboard
Running

18

🥇

LLM Leaderboard for SEA
Running on CPU Upgrade

29

🥇

Hebrew LLM Leaderboard
Running on CPU Upgrade

145

🔬

Open LLM Progress Tracker
Running

162

🏆

Low-bit Quantized Open LLM Leaderboard

Track, rank and evaluate open LLMs and chatbots
Running on CPU Upgrade

66

🥇

AIR-Bench Leaderboard
Running on CPU Upgrade

121

🏆

Open Arabic LLM Leaderboard

Track, rank and evaluate open Arabic LLMs and chatbots
Running on CPU Upgrade

104

🏆

Open Chinese LLM Leaderboard
Running

222

🏢

3D Arena
Running

170

🥇

BigCodeBench Leaderboard
Running

19

🥇

Open Tw Llm Leaderboard
Running

85

🦓

Zebra Logic Bench
Running on CPU Upgrade

85

🌍

European Leaderboard
Running

18

📊

🇨🇿 BenCzechMark
Running

40

🥇

Leaderboard
Running

33

🎭

Stick To Your Role! Leaderboard
Running

168

🏆

GPU Poor LLM Arena

Compact LLM Battle Arena: Frugal AI Face-Off!
Running on CPU Upgrade

64

🌸

La Leaderboard

Evaluate open LLMs in the languages of LATAM and Spain.
Running on CPU Upgrade

31

🥇

OpenLLM French leaderboard 🇫🇷
Running

44

🥇

GIFT Eval

GIFT-Eval: A Benchmark for General Time Series Forecasting
Running

85

💻

Judge Arena
Running

43

🏅

Open Persian LLM Leaderboard

Open Persian LLM Leaderboard
Running

34

🌖

Japanese Chatbot Arena Leaderboard
Running on CPU Upgrade

62

🌸

Open Japanese LLM Leaderboard
Running

7

🏅

Leaderboard2024
Sleeping

11

🥇

Toxicity Benchmarking
Running

49

⚡

Background Removal Arena
Running

9

🥇

Fev Leaderboard
Running

13

📱

AI Phone Leaderboard

AI Phone Leaderboard
Running

5

🥇

Icelandic LLM leaderboard
Running

9

🏆❤️🇵🇱

Polish EQ-Bench Leaderboard
Restarting

7

🇵🇱🩺🏆

Polish Medical Leaderboard
Running

3

🧠🦉🇵🇱🖋️

CPTU-Bench
Running

20

📊🇵🇱

MT Bench PL

Upvote

Leaderboards and benchmarks ✨

Open LLM Leaderboard

Big Code Models Leaderboard

Chatbot Arena Leaderboard

LLM-Perf Leaderboard

MTEB Leaderboard

GAIA Leaderboard

OpenCompass LLM Leaderboard

Open Ko-LLM Leaderboard

Open Dutch LLM Leaderboard

Hallucination Evaluation Leaderboard

Hallucinations Leaderboard

Nexus Function Calling Leaderboard

CyberSecEvalTest

Yet Another LLM Leaderboard

LLM Safety Leaderboard

EvalCrafter

Can Ai Code Results

Ocrbench Leaderboard

NPHardEval Leaderboard

Redteaming Resistance Leaderboard

Subquadratic LLM Leaderboard

Vision Arena (Testing VLMs side-by-side)

VBench Leaderboard

Open Portuguese LLM Leaderboard

Open Ita Llm Leaderboard

Malay LLM Leaderboard

GenAI Arena

Q-Bench+ Leaderboard

Parti Prompts Leaderboard

HHEM Leaderboard

Open PL LLM Leaderboard

OpenLLM Turkish leaderboard

AI2 WildBench Leaderboard (V2)

Open ASR Leaderboard

Open VLM Leaderboard

Reward Bench Leaderboard

TTS Arena

Prompt Injection Detection Benchmark

Long Code Arena

ML.ENERGY Leaderboard

UGI Leaderboard

Berkeley Function Calling Leaderboard

Open CoT Leaderboard

URIAL Bench (Eval Base LLMs on MT-Bench)

Indic Llm Leaderboard

Meta Open LLM Leaderboard

Science Leaderboard

Open Medical-LLM Leaderboard

Open RL Leaderboard

LLM Leaderboard for SEA

Hebrew LLM Leaderboard

Open LLM Progress Tracker

Low-bit Quantized Open LLM Leaderboard

AIR-Bench Leaderboard

Open Arabic LLM Leaderboard

Open Chinese LLM Leaderboard

3D Arena

BigCodeBench Leaderboard

Open Tw Llm Leaderboard

Zebra Logic Bench

European Leaderboard

🇨🇿 BenCzechMark

Leaderboard

Stick To Your Role! Leaderboard

GPU Poor LLM Arena

La Leaderboard

OpenLLM French leaderboard 🇫🇷

GIFT Eval

Judge Arena

Open Persian LLM Leaderboard

Japanese Chatbot Arena Leaderboard

Open Japanese LLM Leaderboard

Leaderboard2024

Toxicity Benchmarking

Background Removal Arena

Fev Leaderboard

AI Phone Leaderboard

Icelandic LLM leaderboard

Polish EQ-Bench Leaderboard