xlmr-dezinformare-ro

XLM-RoBERTa fine-tuned pentru detecția dezinformării pro-ruse în presa românească, în contextul războiului din Ucraina (2022–2026).

Parte din lucrarea de licență: Sistem de Detecție Automată și Explicabilă a Dezinformării Pro-Ruse în Presa Românească · Facultatea de Informatică · 2025-2026.

⚠️ Notă importantă despre utilizare: Modelul singur (IID F1=1.0) suferă de stylistic fingerprint cross-sursă (LOSO-V recall 29.35% — drop de 70.65pp). În sistemul final, decizia vine de la Modulul 3 (similaritate semantică, F1=0.9454, LOSO-V drop doar 7.7pp). Utilizați acest model doar ca parte a pipeline-ului complet, disponibil pe GitHub.

Utilizare rapidă

from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="rares127/xlmr-dezinformare-ro"
)

text = "Articolul de analizat în limba română..."
result = classifier(text)
# Exemplu output:
# [{'label': 'stire_credibila',       'score': 0.987}]
# [{'label': 'dezinformare_pro_rusa', 'score': 0.994}]

Limită: modelul procesează maxim 256 tokens (~1500 caractere). Articolele mai lungi sunt trunchiate automat de tokenizer.

Etichete

Label ID Sursă de antrenare
stire_credibila 0 G4Media.ro, Digi24.ro
dezinformare_pro_rusa 1 Veridica.ro, Stopfals.md

Detalii antrenare

Parametru Valoare
Model de bază xlm-roberta-base
Task Clasificare binară (sequence classification)
Loss CrossEntropyLoss cu ponderi de clasă (WeightedTrainer)
Optimizer AdamW
EarlyStopping patience=2 pe validation F1
Split 70% train / 15% val / 15% test (stratificat pe sursă)
Hardware Apple M2 Pro / Google Colab T4 (~4 min)

Performanță

IID (test set in-distribution)

Metrică Valoare
Macro F1 1.000
Accuracy 99.07%
Precision cls1 100%
Recall cls1 100%

LOSO-V (Leave-One-Source-Out pe Veridica.ro)

Metrică Valoare
Recall cls1 29.35%
Drop față de IID −70.65 pp

Interpretare: Performanța IID excepțională este parțial artefact de stylistic fingerprint — modelul a învățat stilul editorial al surselor, nu exclusiv conținutul dezinformativ. Evaluarea LOSO expune această limitare (prima documentare a fenomenului pe fake news românesc).

Dataset

Antrenat pe rares127/dezinformare-ro: 1.483 articole (746 dezinformare / 737 credibile), perioada 2022–2026.

Sistem complet (recomandat)

Modelul este integrat într-un pipeline de 5 module cu interfață web FastAPI. Codul sursă complet, scripturile de antrenare și evaluare LOSO sunt disponibile pe GitHub.

Downloads last month
28
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rares127/xlmr-dezinformare-ro

Finetuned
(4081)
this model

Dataset used to train rares127/xlmr-dezinformare-ro

Evaluation results

  • Macro F1 (IID test set) on Dezinformare Pro-Rusa in Presa Romaneasca
    self-reported
    1.000
  • Accuracy (IID test set) on Dezinformare Pro-Rusa in Presa Romaneasca
    self-reported
    0.991