YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
---
language:
- "baq" # Code ISO 639-3 pour le Baoulé
- "fr" # Français
tags:
- "translation"
- "low-resource"
- "african-nlp"
- "tonal-language"
license: "apache-2.0"
datasets:
- "custom"
metrics:
- "bleu"
- "ter"
- "chrF"
widget:
- text: "Mɔ́kɛ́ mɩnɩn wɛ?"
example_title: "Salutation basique"
pipeline_tag: "translation"
---
# Tokenizer Baoulé : Modèle de Traduction Français-Baoulé
🌍 Premier tokenizer SentencePiece spécialisé pour la langue Baoulé (Côte d'Ivoire) 🇨🇮
[](https://huggingface.co/Adjoumani/BaouleTokenizer_V1)
## Fonctionnalités Clés
✅ Prise en charge complète des caractères tonals Baoulé (ɛ́, ɩ̄, ɔ̀, etc.)
✅ Optimisé pour les modèles de traduction automatique (Transformer)
✅ Vocabulaire de 206 tokens avec couverture linguistique complète
✅ Intégration native avec 🤗 Transformers et Tokenizers
✅ Compatible avec Google Traduction Custom Model et Amazon Translate
## Installation et Utilisation
```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("Adjoumani/BaouleTokenizer_V1")
# Utilisation du tokenizer
text = "Wafa sɛ yɛ ɔ fata kɛ be nga be lafi su kɛ bé trán asiɛ’n su wa’n, be bu be nga bé kɔ́ ɲanmiɛn"
encoded = tokenizer.encode(text)
decoded = tokenizer.decode(encoded)
print(f"Tokens: {tokenizer.tokenize(text)}")
# Output: ['W', 'a', 'f', 'a', '▁s', 'ɛ', '▁y', 'ɛ', '▁ɔ', '▁f', 'a', 't', 'a', '▁k', 'ɛ', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'e', '▁l', 'a', 'f', 'i', '▁s', 'u', '▁k', 'ɛ', '▁b', 'é', '▁t', 'r', 'á', 'n', '▁a', 's', 'i', 'ɛ', '’', 'n', '▁s', 'u', '▁w', 'a', '’', 'n', ',', '▁b', 'e', '▁b', 'u', '▁b', 'e', '▁n', 'g', 'a', '▁b', 'é', '▁k', 'ɔ', '́', '▁ɲ', 'a', 'n', 'm', 'i', 'ɛ', 'n']
Détails Techniques
Paramètre | Valeur |
---|---|
Architecture | SentencePiece BPE |
Taille du vocabulaire | 206 |
Caractères couverts | 1.0 (Unicode) |
Tokens spéciaux | [BOS], [EOS], [UNK], [PAD] |
Langues cibles | Français ↔ Baoulé |
Encodage | UTF-8 |
Tons Supportés
Le tokenizer gère tous les tons Baoulé selon la norme Unicode :
Caractère | Code Unicode | Exemple |
---|---|---|
ɛ́ | U+025B U+0301 | Mɔ́kɛ́ |
ɩ̄ | U+0269 U+0304 | Ɩ̄tɩ̄ |
ɔ̀ | U+0254 U+0300 | Kɔ̀lɔ̀ |
ɛ̂ | U+025B U+0302 | Ɛ̂sɛ̂ |
Cas d'Usage Recommandés
- Traduction automatique Français-Baoulé
- Synthèse vocale pour systèmes d'assistance vocale
- Reconnaissance de la parole Baoulé
- Outils éducatifs numériques
- Préservation du patrimoine linguistique
Meilleures Pratiques
# Pour gérer les phrases longues
tokenizer.model_max_length = 512
# Ajout de tokens personnalisés
new_tokens = ["<dialect:NDÊ>", "<dialect:SAFOUÈ>"]
tokenizer.add_tokens(new_tokens)
Jeu de Données d'Entraînement
Données collectées grâce à :
- Traductions de textes bibliques : Les données ont été extraites en grande partie depuis Glosbe et structurées manuellement pour assurer une qualité et une précision optimales. Le contenu a été nettoyé pour supprimer les balises HTML indésirables et formaté de manière cohérente.
- Corpus oral transcrit (projet UNESCO)
- Phrases quotidiennes annotées
- Textes gouvernementaux bilingues
Taille du corpus : 1500 phrases alignées (en cours d'expansion)
Citation
Si vous utilisez ce tokenizer dans vos recherches, merci de citer :
@misc{BaouleTokenizer2025,
author = {Koffi Wilfried Adjoumani},
title = {Baoulé Tokenizer for Low-Resource Machine Translation},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/Adjoumani/BaouleTokenizer_V1}}
}
Licence
Apache 2.0 - Voir la licence complète
Contribuer
Nous encourageons les contributions notamment pour :
- L'expansion du vocabulaire
- L'annotation des tons
- L'ajout de dialectes régionaux
Contact : contact@les-experts-en-solutions-digitales.com
Mots-clés SEO : Tokenizer Baoulé, Traduction Français-Baoulé, NLP Africain, Langues Tonales, Côte d'Ivoire AI, Modèle Linguistique Basse Ressource, SentencePiece Baoulé, Préservation Langue Africaine
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
The model cannot be deployed to the HF Inference API:
The model has no library tag.