Spaces

·

The AI App Directory

New Space What is Spaces?

Reward Bench Leaderboard

Explore and analyze RewardBench leaderboard data

OR-Bench Leaderboard

Measure over-refusal in LLMs using OR-Bench

MT Bench

Compare model answers to questions

BenchBench Leaderboad

Rate new benchmarks against existing ones

Benchmark overview

Display benchmark overview for large language models

Benchmark Data Contamination

Showing models are contaminated by trusted benchmark data

Benchmark Summary En Ru Zh

Display benchmark summary for Russian, English, and Chinese

Benchlm

llm benchmarks

BenchName

Browse code completion leaderboards

Benchpress Analyzer

Evaluate your bench press form with video analysis

Benchmark

Benchmark machine learning models efficiently

BenchMarkAnalysis

trying to run the different models on the benchmark

SEED-Bench Leaderboard

Running on CPU Upgrade

AIR-Bench Leaderboard

Explore benchmark results for QA and long doc models

MEGA-Bench Leaderboard

A leaderboard for multimodal models

MT Bench PL

Browse and evaluate model answers and comparisons

Configuration error

EQ Bench

View EQ-Bench Leaderboard for LLMs

ChronoMagic Bench

A Benchmark for Metamorphic Evaluation of T2V Generation

URIAL Bench (Eval Base LLMs on MT-Bench)

Display a leaderboard of models

VisIT Bench Leaderboard

Display VisIT-Bench Leaderboard

Video-Bench Leaderboard

Upload and submit model evaluation data to a leaderboard

BiGGen Bench Leaderboard

Explore model performance with interactive leaderboards

CAMEL-Bench Leaderboard

Learderboard to Evaluate Arabic Multimodal Models

Q-Bench+ Leaderboard

Browse Q-Bench leaderboard for vision model performance