Spaces:

SASLeaderboard
/

leaderboard

Running

leaderboard / src /about.py

Rafael Jaime Moreno

some changes wip openrouter

6d36002 15 days ago

4.07 kB

	from dataclasses import dataclass
	from enum import Enum
	from typing import Dict, List
	from src.evaluation.questions import EXAM_QUESTIONS
	from src.envs import QUEUE_REPO, RESULTS_REPO, REPO_ID, EXAM_QUESTIONS_REPO, HF_DATASETS_BASE_URL

	@dataclass
	class Task:
	benchmark: str
	metric: str
	col_name: str
	display_name: str

	def create_tasks_enum():
	"""Create Tasks enum dynamically from dataset themes"""
	task_dict = {}
	for sanitized_theme, questions in EXAM_QUESTIONS.items():
	original_theme = questions[0]['theme']
	task_dict[sanitized_theme] = Task(
	benchmark=sanitized_theme,
	metric="accuracy",
	col_name=f"{original_theme} Test",
	display_name=original_theme
	)

	# Add overall score
	task_dict['overall'] = Task(
	benchmark="overall",
	metric="accuracy",
	col_name="Overall Score",
	display_name="Overall Score"
	)

	return Enum('Tasks', task_dict)

	Tasks = create_tasks_enum()

	NUM_FEWSHOT = 0

	TITLE = """<h1 align="center" id="space-title">🏆 SAS Opposition Exam Leaderboard</h1>"""

	INTRODUCTION_TEXT = """
	Este leaderboard evalúa modelos de lenguaje natural simulando la experiencia real de un opositor al Servicio Andaluz de Salud (SAS).
	Al igual que un alumno opositor, los modelos deben responder a preguntas tipo test del temario oficial, demostrando su comprensión y conocimiento de las materias evaluadas.
	"""

	LLM_BENCHMARKS_TEXT = f"""
	## Cómo funciona

	Los modelos son evaluados exactamente igual que un opositor real: respondiendo preguntas tipo test del temario oficial del SAS, sin acceso a material de consulta durante la prueba.
	Para consultar el temario completo y el proceso de oposición, puede visitar la [página oficial del SAS](https://www.sspa.juntadeandalucia.es/servicioandaluzdesalud/profesionales/ofertas-de-empleo/oferta-de-empleo-publico-puestos-base/oep-extraordinaria-decreto-ley-122022-centros-sas/cuadro-de-evolucion-concurso-oposicion-centros-sas).

	## Datasets del Proyecto
	El proyecto utiliza tres datasets principales, todos disponibles en Hugging Face:
	- [Dataset de Preguntas de Examen]({HF_DATASETS_BASE_URL}/{EXAM_QUESTIONS_REPO}): Contiene las preguntas tipo test utilizadas para la evaluación
	- [Dataset de Solicitudes]({HF_DATASETS_BASE_URL}/{QUEUE_REPO}): Almacena las solicitudes de evaluación de modelos
	- [Dataset de Resultados]({HF_DATASETS_BASE_URL}/{RESULTS_REPO}): Contiene los resultados de las evaluaciones realizadas

	## Proceso de Evaluación
	- Cada modelo se enfrenta a preguntas tipo test, similar al examen real de oposición
	- Las preguntas son de opción múltiple con una única respuesta correcta
	- La puntuación se calcula como porcentaje de aciertos, igual que en la oposición real

	## Reproducibilidad
	El código de evaluación está disponible en este repositorio. Para reproducir resultados:

	1. Envía tu modelo a través de la pestaña "Submit here!"
	2. Puedes usar modelos de Hugging Face Hub o de OpenRouter
	3. Los resultados se calcularán automáticamente y se añadirán al leaderboard
	"""

	EVALUATION_QUEUE_TEXT = """
	## Opciones para evaluar tu modelo

	### 1) Usando Hugging Face Hub:
	- Asegúrate de que tu modelo está disponible en el Hub
	- El modelo debe poder cargarse usando AutoModelForCausalLM y AutoTokenizer
	- Necesitarás proporcionar el nombre del modelo y la revisión

	### 2) Usando OpenRouter:
	- Necesitarás una API key de OpenRouter
	- Proporciona el nombre exacto del modelo como aparece en OpenRouter
	- No necesitas hospedar el modelo, OpenRouter se encarga de eso

	### Requisitos generales:
	- Los modelos deben poder generar texto en español
	- Deben poder entender y responder preguntas de opción múltiple
	- Se recomienda usar modelos con capacidad de razonamiento general
	"""

	CITATION_BUTTON_LABEL = "Citar estos resultados"
	CITATION_BUTTON_TEXT = r"""
	@misc{sas-exam-leaderboard,
	title={SAS Opposition Exam Leaderboard},
	year={2025},
	url={https://huggingface.co/spaces/alberti/leaderboard}
	}
	"""