CarlosAGDev/ltv-lora-clf

LoRA-CLF (v0.1.0) del LTV Framework. Clasifica el tipo de una afirmacion (5 categorias canonicas AVeriTeC) como segundo paso del pipeline de Triage, despues de LoRA-CW.

Categorias

Event/Property Claim
Numerical Claim
Causal Claim
Quote Verification
Position Statement

Detalles del Entrenamiento

Entrenado sobre anotaciones sinteticas generadas por gemini-3.1-flash-lite. Solo claims marcados como check-worthy (Task 1 = True).

Hiperparametros

Modelo Base: google/gemma-4-E2B-it
Max Sequence Length: 384
Epochs: 1
Batch Size (Per Device): 4
Gradient Accumulation Steps: 4
Learning Rate: 0.0002
Optimizer: paged_adamw_8bit

Resultados (v0.1.0)

Evaluado sobre 120 muestras (10% held-out del pool sintetico de entrenamiento).

Metrica	Valor
Accuracy Global	0.967
F1-Score (weighted)	0.979

Reporte por clase

Clase	Precision	Recall	F1	Soporte
Event/Property Claim	0.99	0.97	0.98	96
Numerical Claim	1.00	0.96	0.98	24
Causal Claim	—	—	—	0
Quote Verification	—	—	—	0
Position Statement	—	—	—	0

Notas de comportamiento

El modelo aprende perfectamente las 2 clases con datos de entrenamiento: Event/Property Claim (F1=0.98) y Numerical Claim (F1=0.98). Sin embargo, 3 de las 5 categorias AVeriTeC no tienen representacion en el eval set (soporte=0 para Causal, Quote Verification y Position Statement), lo que revela que el batch sintetico actual (~1,200 claims check-worthy) esta dominado por las dos primeras clases.

La alta accuracy (96.7%) y F1 weighted (0.979) son estadisticamente correctas pero reflejan el sesgo del dataset hacia Event/Property y Numerical, no cobertura completa.

Mejoras para v0.2.0

Completar el batch sintetico (7,440 claims pendientes): mayor volumen = mayor probabilidad de representar Causal, Quote Verification y Position Statement en training y evaluacion. Prioridad mas alta antes de reentrenar.
Split estratificado por clase: al construir train/eval, asegurar que todas las categorias con datos aparezcan en ambos splits (actualmente el split aleatorio 90/10 puede dejar clases minoritarias fuera del eval).
Agregar CLEF CheckThat! (plan original, Tabla 4 de la tesis): dataset oficial designado para LoRA-CLF; incluirlo en v0.2.0 garantiza cobertura de las 5 clases con datos reales de verificacion de hechos.

Downloads last month: -

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for CarlosAGDev/ltv-lora-clf

Base model

google/gemma-4-E2B

Finetuned

google/gemma-4-E2B-it

Adapter

(111)

this model

Collection including CarlosAGDev/ltv-lora-clf

LTV LoRA Adapters

Collection

3 items • Updated about 17 hours ago • 1