moore-lm
Un petit modèle de langue de type GPT entraîné from scratch sur du texte en
mooré (langue parlée principalement au Burkina Faso, code ISO mos).
Architecture
| Paramètre | Valeur |
|---|---|
| Couches | 4 |
| Têtes d'attention | 4 |
| Dimension embed. | 768 |
| Longueur contexte | 512 |
| Taille vocab. | 8000 |
| Tokenizer | BPE maison (BPETokenizerSimple) |
Meilleure perte de validation : 2.744815540313721.
Utilisation
Le modèle utilise une architecture et un tokenizer personnalisés. Il faut récupérer le code et les fichiers du dépôt :
from huggingface_hub import snapshot_download
import os, torch
# Télécharge tout le dépôt (code + poids + tokenizer)
path = snapshot_download("ouilyh/moore-lm")
os.chdir(path) # le tokenizer charge vocab.json / vocab.bpe depuis le cwd
from gpt import GPTModel
from tokenizer.bpe_tokenizer_simple import BPETokenizerSimple
from generate_text import generate
from utils import text_to_token_ids, token_ids_to_text
model = GPTModel.from_pretrained("ouilyh/moore-lm")
model.eval()
tokenizer = BPETokenizerSimple()
prompt = "Ne y yibeoogo"
ids = generate(
model=model,
idx=text_to_token_ids(prompt, tokenizer),
max_new_tokens=50,
context_size=512,
temperature=0.7,
top_k=40,
)
print(token_ids_to_text(ids, tokenizer))
Limites
Modèle expérimental de petite taille, entraîné sur un corpus limité. Les générations peuvent être incohérentes et ne doivent pas être utilisées en production.
- Downloads last month
- 1,173