Instructions to use Rziane/xlmr-large-kreyol-RHI-pos with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Rziane/xlmr-large-kreyol-RHI-pos with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("token-classification", model="Rziane/xlmr-large-kreyol-RHI-pos")# Load model directly from transformers import AutoTokenizer, AutoModelForTokenClassification tokenizer = AutoTokenizer.from_pretrained("Rziane/xlmr-large-kreyol-RHI-pos") model = AutoModelForTokenClassification.from_pretrained("Rziane/xlmr-large-kreyol-RHI-pos") - Notebooks
- Google Colab
- Kaggle
xlmr-large-kreyol-RHI-pos
Étiqueteur morphosyntaxique (POS / UPOS) pour le créole haïtien (HC) parlé, spécialisé à l'oral spontané. Ce modèle accompagne l'article « Apprentissage actif pour l'annotation morphosyntaxique du créole haïtien » (TALN 2026).
Description
Le modèle est un XLMRobertaForTokenClassification (XLM-RoBERTa-large, 24 couches,
1024 dimensions cachées) fine-tuné pour la classification de tokens en parties du
discours. Il a été obtenu à partir de Rziane/xlmr-large-kreyol-RHI,
un modèle de langue adapté au domaine du HC parlé par pré-entraînement continué de
XLM-RoBERTa (Conneau et al., 2020).
Le fine-tuning POS s'appuie sur un échantillon du corpus Radio Haïti-Inter (RHI) enrichi d'annotations POS manuelles, ainsi que sur des données du Universal Dependencies pour le créole haïtien.
Jeu d'étiquettes
Le modèle prédit les 14 catégories UPOS suivantes :
ADJ, ADP, ADV, AUX, CCONJ, DET, INTJ, NOUN, NUM, PRON, PROPN,
SCONJ, VERB, X
Performances
Exactitude (accuracy) sur le jeu de validation : 93,9 %.
| Catégorie | Accuracy | Catégorie | Accuracy |
|---|---|---|---|
| AUX | 0.984 | DET | 0.949 |
| VERB | 0.992 | NOUN | 0.947 |
| CCONJ | 0.976 | PRON | 0.940 |
| SCONJ | 0.967 | ADJ | 0.841 |
| INTJ | 0.958 | ADV | 0.831 |
| NUM | 0.951 | PROPN | 0.831 |
| ADP | 0.938 | X | 0.875 |
Utilisation
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch
model_id = "Rziane/xlmr-large-kreyol-RHI-pos"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForTokenClassification.from_pretrained(model_id)
model.eval()
tokens = ["Mwen", "renmen", "lang", "kreyòl", "la"]
enc = tokenizer(tokens, is_split_into_words=True, return_tensors="pt")
with torch.no_grad():
logits = model(**enc).logits
preds = logits.argmax(-1)[0]
seen = set()
for tok_idx, wid in enumerate(enc.word_ids()):
if wid is not None and wid not in seen:
seen.add(wid)
print(tokens[wid], "->", model.config.id2label[preds[tok_idx].item()])
Pour taguer des fichiers CoNLL-U ou ELAN (.eaf) complets, voir le code associé : https://github.com/RZiane/RZiane-TALN2026_tagger_RHI.git (dépôt TALN 2026).
Limitations
Le modèle a été entraîné sur des transcriptions d'oral spontané issues d'un corpus
radiophonique. Les performances sur d'autres registres (écrit formel) ne sont pas garanties. Les catégories les moins fréquentes
(ADJ, ADV, PROPN) présentent une exactitude inférieure.
Citation
- Downloads last month
- 64
Model tree for Rziane/xlmr-large-kreyol-RHI-pos
Base model
FacebookAI/xlm-roberta-largeEvaluation results
- Accuracy on Radio Haïti-Inter (RHI) POSself-reported0.939