CarlosAGDev/ltv-lora-clf

LoRA-CLF (v0.1.0) del LTV Framework. Clasifica el tipo de una afirmacion (5 categorias canonicas AVeriTeC) como segundo paso del pipeline de Triage, despues de LoRA-CW.

Categorias

  • Event/Property Claim
  • Numerical Claim
  • Causal Claim
  • Quote Verification
  • Position Statement

Detalles del Entrenamiento

Entrenado sobre anotaciones sinteticas generadas por gemini-3.1-flash-lite. Solo claims marcados como check-worthy (Task 1 = True).

Hiperparametros

  • Modelo Base: google/gemma-4-E2B-it
  • Max Sequence Length: 384
  • Epochs: 1
  • Batch Size (Per Device): 4
  • Gradient Accumulation Steps: 4
  • Learning Rate: 0.0002
  • Optimizer: paged_adamw_8bit

Resultados (v0.1.0)

Evaluado sobre 120 muestras (10% held-out del pool sintetico de entrenamiento).

Metrica Valor
Accuracy Global 0.967
F1-Score (weighted) 0.979

Reporte por clase

Clase Precision Recall F1 Soporte
Event/Property Claim 0.99 0.97 0.98 96
Numerical Claim 1.00 0.96 0.98 24
Causal Claim 0
Quote Verification 0
Position Statement 0

Notas de comportamiento

El modelo aprende perfectamente las 2 clases con datos de entrenamiento: Event/Property Claim (F1=0.98) y Numerical Claim (F1=0.98). Sin embargo, 3 de las 5 categorias AVeriTeC no tienen representacion en el eval set (soporte=0 para Causal, Quote Verification y Position Statement), lo que revela que el batch sintetico actual (~1,200 claims check-worthy) esta dominado por las dos primeras clases.

La alta accuracy (96.7%) y F1 weighted (0.979) son estadisticamente correctas pero reflejan el sesgo del dataset hacia Event/Property y Numerical, no cobertura completa.

Mejoras para v0.2.0

  1. Completar el batch sintetico (7,440 claims pendientes): mayor volumen = mayor probabilidad de representar Causal, Quote Verification y Position Statement en training y evaluacion. Prioridad mas alta antes de reentrenar.
  2. Split estratificado por clase: al construir train/eval, asegurar que todas las categorias con datos aparezcan en ambos splits (actualmente el split aleatorio 90/10 puede dejar clases minoritarias fuera del eval).
  3. Agregar CLEF CheckThat! (plan original, Tabla 4 de la tesis): dataset oficial designado para LoRA-CLF; incluirlo en v0.2.0 garantiza cobertura de las 5 clases con datos reales de verificacion de hechos.
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CarlosAGDev/ltv-lora-clf

Adapter
(111)
this model

Collection including CarlosAGDev/ltv-lora-clf