xlmr-large-kreyol-RHI-pos

Étiqueteur morphosyntaxique (POS / UPOS) pour le créole haïtien (HC) parlé, spécialisé à l'oral spontané. Ce modèle accompagne l'article « Apprentissage actif pour l'annotation morphosyntaxique du créole haïtien » (TALN 2026).

Description

Le modèle est un XLMRobertaForTokenClassification (XLM-RoBERTa-large, 24 couches, 1024 dimensions cachées) fine-tuné pour la classification de tokens en parties du discours. Il a été obtenu à partir de Rziane/xlmr-large-kreyol-RHI, un modèle de langue adapté au domaine du HC parlé par pré-entraînement continué de XLM-RoBERTa (Conneau et al., 2020).

Le fine-tuning POS s'appuie sur un échantillon du corpus Radio Haïti-Inter (RHI) enrichi d'annotations POS manuelles, ainsi que sur des données du Universal Dependencies pour le créole haïtien.

Jeu d'étiquettes

Le modèle prédit les 14 catégories UPOS suivantes :

ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, SCONJ, VERB, X

Performances

Exactitude (accuracy) sur le jeu de validation : 93,9 %.

Catégorie Accuracy Catégorie Accuracy
AUX 0.984 DET 0.949
VERB 0.992 NOUN 0.947
CCONJ 0.976 PRON 0.940
SCONJ 0.967 ADJ 0.841
INTJ 0.958 ADV 0.831
NUM 0.951 PROPN 0.831
ADP 0.938 X 0.875

Utilisation

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

model_id = "Rziane/xlmr-large-kreyol-RHI-pos"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)
model.eval()

tokens = ["Mwen", "renmen", "lang", "kreyòl", "la"]
enc = tokenizer(tokens, is_split_into_words=True, return_tensors="pt")
with torch.no_grad():
    logits = model(**enc).logits
preds = logits.argmax(-1)[0]

seen = set()
for tok_idx, wid in enumerate(enc.word_ids()):
    if wid is not None and wid not in seen:
        seen.add(wid)
        print(tokens[wid], "->", model.config.id2label[preds[tok_idx].item()])

Pour taguer des fichiers CoNLL-U ou ELAN (.eaf) complets, voir le code associé : https://github.com/RZiane/RZiane-TALN2026_tagger_RHI.git (dépôt TALN 2026).

Limitations

Le modèle a été entraîné sur des transcriptions d'oral spontané issues d'un corpus radiophonique. Les performances sur d'autres registres (écrit formel) ne sont pas garanties. Les catégories les moins fréquentes (ADJ, ADV, PROPN) présentent une exactitude inférieure.

Citation


Downloads last month
64
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Rziane/xlmr-large-kreyol-RHI-pos

Finetuned
(1)
this model

Evaluation results