Spaces:

SASLeaderboard
/

leaderboard

Running

File size: 4,065 Bytes

ec80aa7
 
7d9d48e
 
 
ec80aa7
 
 
 
 
 
7d9d48e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ec80aa7
 
7d9d48e
 
ec80aa7
 
 
7d9d48e
 
 
 
ec80aa7
7d9d48e
 
 
 
 
7346895
7d9d48e
 
 
 
7346895
7d9d48e
 
ec80aa7
7d9d48e
 
 
ec80aa7
 
 
7d9d48e
6d36002
7d9d48e
 
 
 
 
 
 
 
 
 
 
 
 
 
ec80aa7
 
7d9d48e
ec80aa7
7d9d48e
 
7346895
 
 
ec80aa7

from dataclasses import dataclass
from enum import Enum
from typing import Dict, List
from src.evaluation.questions import EXAM_QUESTIONS
from src.envs import QUEUE_REPO, RESULTS_REPO, REPO_ID, EXAM_QUESTIONS_REPO, HF_DATASETS_BASE_URL

@dataclass
class Task:
    benchmark: str
    metric: str
    col_name: str
    display_name: str

def create_tasks_enum():
    """Create Tasks enum dynamically from dataset themes"""
    task_dict = {}
    for sanitized_theme, questions in EXAM_QUESTIONS.items():
        original_theme = questions[0]['theme']
        task_dict[sanitized_theme] = Task(
            benchmark=sanitized_theme,
            metric="accuracy",
            col_name=f"{original_theme} Test",
            display_name=original_theme
        )

    # Add overall score
    task_dict['overall'] = Task(
        benchmark="overall",
        metric="accuracy",
        col_name="Overall Score",
        display_name="Overall Score"
    )
    
    return Enum('Tasks', task_dict)

Tasks = create_tasks_enum()

NUM_FEWSHOT = 0

TITLE = """<h1 align="center" id="space-title">🏆 SAS Opposition Exam Leaderboard</h1>"""

INTRODUCTION_TEXT = """
Este leaderboard evalúa modelos de lenguaje natural simulando la experiencia real de un opositor al Servicio Andaluz de Salud (SAS).
Al igual que un alumno opositor, los modelos deben responder a preguntas tipo test del temario oficial, demostrando su comprensión y conocimiento de las materias evaluadas.
"""

LLM_BENCHMARKS_TEXT = f"""
## Cómo funciona

Los modelos son evaluados exactamente igual que un opositor real: respondiendo preguntas tipo test del temario oficial del SAS, sin acceso a material de consulta durante la prueba.
Para consultar el temario completo y el proceso de oposición, puede visitar la [página oficial del SAS](https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/profesionales/ofertas-de-empleo/oferta-de-empleo-publico-puestos-base/oep-extraordinaria-decreto-ley-122022-centros-sas/cuadro-de-evolucion-concurso-oposicion-centros-sas).

## Datasets del Proyecto
El proyecto utiliza tres datasets principales, todos disponibles en Hugging Face:
- [Dataset de Preguntas de Examen]({HF_DATASETS_BASE_URL}/{EXAM_QUESTIONS_REPO}): Contiene las preguntas tipo test utilizadas para la evaluación
- [Dataset de Solicitudes]({HF_DATASETS_BASE_URL}/{QUEUE_REPO}): Almacena las solicitudes de evaluación de modelos
- [Dataset de Resultados]({HF_DATASETS_BASE_URL}/{RESULTS_REPO}): Contiene los resultados de las evaluaciones realizadas

## Proceso de Evaluación
- Cada modelo se enfrenta a preguntas tipo test, similar al examen real de oposición
- Las preguntas son de opción múltiple con una única respuesta correcta
- La puntuación se calcula como porcentaje de aciertos, igual que en la oposición real

## Reproducibilidad
El código de evaluación está disponible en este repositorio. Para reproducir resultados:

1. Envía tu modelo a través de la pestaña "Submit here!"
2. Puedes usar modelos de Hugging Face Hub o de OpenRouter
3. Los resultados se calcularán automáticamente y se añadirán al leaderboard
"""

EVALUATION_QUEUE_TEXT = """
## Opciones para evaluar tu modelo

### 1) Usando Hugging Face Hub:
- Asegúrate de que tu modelo está disponible en el Hub
- El modelo debe poder cargarse usando AutoModelForCausalLM y AutoTokenizer
- Necesitarás proporcionar el nombre del modelo y la revisión

### 2) Usando OpenRouter:
- Necesitarás una API key de OpenRouter
- Proporciona el nombre exacto del modelo como aparece en OpenRouter
- No necesitas hospedar el modelo, OpenRouter se encarga de eso

### Requisitos generales:
- Los modelos deben poder generar texto en español
- Deben poder entender y responder preguntas de opción múltiple
- Se recomienda usar modelos con capacidad de razonamiento general
"""

CITATION_BUTTON_LABEL = "Citar estos resultados"
CITATION_BUTTON_TEXT = r"""
@misc{sas-exam-leaderboard,
    title={SAS Opposition Exam Leaderboard},
    year={2025},
    url={https://huggingface.co/spaces/alberti/leaderboard}
}
"""