Evaluating - a henern Collection

henern 's Collections

Prompt

Data

+Context Scaling

Vision

Domains

Evaluating

updated 26 days ago

CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation

Paper • 2401.01275 • Published Jan 2 • 1
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Paper • 2404.12241 • Published Apr 18 • 10
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published about 1 month ago • 103