xlmr-large-kreyol-RHI-pos

Étiqueteur morphosyntaxique (POS / UPOS) pour le créole haïtien (HC) parlé, spécialisé à l'oral spontané. Ce modèle accompagne l'article « Apprentissage actif pour l'annotation morphosyntaxique du créole haïtien » (TALN 2026).

Description

Le modèle est un XLMRobertaForTokenClassification (XLM-RoBERTa-large, 24 couches, 1024 dimensions cachées) fine-tuné pour la classification de tokens en parties du discours. Il a été obtenu à partir de Rziane/xlmr-large-kreyol-RHI, un modèle de langue adapté au domaine du HC parlé par pré-entraînement continué de XLM-RoBERTa (Conneau et al., 2020).

Le fine-tuning POS s'appuie sur un échantillon du corpus Radio Haïti-Inter (RHI) enrichi d'annotations POS manuelles, ainsi que sur des données du Universal Dependencies pour le créole haïtien.

Jeu d'étiquettes

Le modèle prédit les 14 catégories UPOS suivantes :

ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN, SCONJ, VERB, X

Performances

Exactitude (accuracy) sur le jeu de validation : 93,9 %.

Catégorie	Accuracy	Catégorie	Accuracy
AUX	0.984	DET	0.949
VERB	0.992	NOUN	0.947
CCONJ	0.976	PRON	0.940
SCONJ	0.967	ADJ	0.841
INTJ	0.958	ADV	0.831
NUM	0.951	PROPN	0.831
ADP	0.938	X	0.875

Utilisation

from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

model_id = "Rziane/xlmr-large-kreyol-RHI-pos"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)
model.eval()

tokens = ["Mwen", "renmen", "lang", "kreyòl", "la"]
enc = tokenizer(tokens, is_split_into_words=True, return_tensors="pt")
with torch.no_grad():
    logits = model(**enc).logits
preds = logits.argmax(-1)[0]

seen = set()
for tok_idx, wid in enumerate(enc.word_ids()):
    if wid is not None and wid not in seen:
        seen.add(wid)
        print(tokens[wid], "->", model.config.id2label[preds[tok_idx].item()])

Pour taguer des fichiers CoNLL-U ou ELAN (.eaf) complets, voir le code associé : https://github.com/RZiane/RZiane-TALN2026_tagger_RHI.git (dépôt TALN 2026).

Limitations

Le modèle a été entraîné sur des transcriptions d'oral spontané issues d'un corpus radiophonique. Les performances sur d'autres registres (écrit formel) ne sont pas garanties. Les catégories les moins fréquentes (ADJ, ADV, PROPN) présentent une exactitude inférieure.

Citation

Downloads last month: 64

Safetensors

Model size

0.6B params

Tensor type

F32

Model tree for Rziane/xlmr-large-kreyol-RHI-pos

Base model

FacebookAI/xlm-roberta-large

Finetuned

Rziane/xlmr-large-kreyol-RHI

Finetuned

(1)

this model

Evaluation results

Accuracy on Radio Haïti-Inter (RHI) POS
self-reported

0.939