🏆 SAS Opposition Exam Leaderboard

from dataclasses import dataclass
from enum import Enum
from typing import Dict, List
from src.evaluation.questions import EXAM_QUESTIONS
from src.envs import QUEUE_REPO, RESULTS_REPO, REPO_ID, EXAM_QUESTIONS_REPO, HF_DATASETS_BASE_URL

@dataclass
class Task:
    benchmark: str
    metric: str
    col_name: str
    display_name: str

def create_tasks_enum():
    """Create Tasks enum dynamically from dataset themes"""
    task_dict = {}
    for sanitized_theme, questions in EXAM_QUESTIONS.items():
        original_theme = questions[0]['theme']
        task_dict[sanitized_theme] = Task(
            benchmark=sanitized_theme,
            metric="accuracy",
            col_name=f"{original_theme} Test",
            display_name=original_theme
        )

    # Add overall score
    task_dict['overall'] = Task(
        benchmark="overall",
        metric="accuracy",
        col_name="Overall Score",
        display_name="Overall Score"
    )
    
    return Enum('Tasks', task_dict)

Tasks = create_tasks_enum()

NUM_FEWSHOT = 0

TITLE = """<h1 align="center" id="space-title">🏆 SAS Opposition Exam Leaderboard</h1>"""

INTRODUCTION_TEXT = """
Este leaderboard evalúa modelos de lenguaje natural simulando la experiencia real de un opositor al Servicio Andaluz de Salud (SAS).
Al igual que un alumno opositor, los modelos deben responder a preguntas tipo test del temario oficial, demostrando su comprensión y conocimiento de las materias evaluadas.
"""

LLM_BENCHMARKS_TEXT = f"""
## Cómo funciona

Los modelos son evaluados exactamente igual que un opositor real: respondiendo preguntas tipo test del temario oficial del SAS, sin acceso a material de consulta durante la prueba.
Para consultar el temario completo y el proceso de oposición, puede visitar la [página oficial del SAS](https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/profesionales/ofertas-de-empleo/oferta-de-empleo-publico-puestos-base/oep-extraordinaria-decreto-ley-122022-centros-sas/cuadro-de-evolucion-concurso-oposicion-centros-sas).

## Datasets del Proyecto
El proyecto utiliza tres datasets principales, todos disponibles en Hugging Face:
- [Dataset de Preguntas de Examen]({HF_DATASETS_BASE_URL}/{EXAM_QUESTIONS_REPO}): Contiene las preguntas tipo test utilizadas para la evaluación
- [Dataset de Solicitudes]({HF_DATASETS_BASE_URL}/{QUEUE_REPO}): Almacena las solicitudes de evaluación de modelos
- [Dataset de Resultados]({HF_DATASETS_BASE_URL}/{RESULTS_REPO}): Contiene los resultados de las evaluaciones realizadas

## Proceso de Evaluación
- Cada modelo se enfrenta a preguntas tipo test, similar al examen real de oposición
- Las preguntas son de opción múltiple con una única respuesta correcta
- La puntuación se calcula como porcentaje de aciertos, igual que en la oposición real

## Reproducibilidad
El código de evaluación está disponible en este repositorio. Para reproducir resultados:

1. Envía tu modelo a través de la pestaña "Submit here!"
2. Puedes usar modelos de Hugging Face Hub o de OpenRouter
3. Los resultados se calcularán automáticamente y se añadirán al leaderboard
"""

EVALUATION_QUEUE_TEXT = """
## Opciones para evaluar tu modelo

### 1) Usando Hugging Face Hub:
- Asegúrate de que tu modelo está disponible en el Hub
- El modelo debe poder cargarse usando AutoModelForCausalLM y AutoTokenizer
- Necesitarás proporcionar el nombre del modelo y la revisión

### 2) Usando OpenRouter:
- Necesitarás una API key de OpenRouter
- Proporciona el nombre exacto del modelo como aparece en OpenRouter
- No necesitas hospedar el modelo, OpenRouter se encarga de eso

### Requisitos generales:
- Los modelos deben poder generar texto en español
- Deben poder entender y responder preguntas de opción múltiple
- Se recomienda usar modelos con capacidad de razonamiento general
"""

CITATION_BUTTON_LABEL = "Citar estos resultados"
CITATION_BUTTON_TEXT = r"""
@misc{sas-exam-leaderboard,
    title={SAS Opposition Exam Leaderboard},
    year={2025},
    url={https://huggingface.co/spaces/alberti/leaderboard}
}
"""