YAML Metadata Warning:empty or missing yaml metadata in repo card
Check out the documentation for more information.
Documentation des Modèles de Détection de Chroniques
Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.
Modèle Transformer (DistilCamemBERT)
C'est le modèle principal généré par train.py. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.
- Type de modèle : Transformer (Architecture BERT), utilisant
cmarkea/distilcamembert-base. - Nombre de paramètres : ~68 millions (au lieu de 110M pour la version base).
- Méthode d'apprentissage : Fine-tuning sur des segments de transcriptions.
- Optimisations :
- Modèle Distillé : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
- Fenêtre Contextuelle :
max_lengthde 128 tokens pour un équilibre optimal entre contexte et temps de calcul. - Efficacité : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.
Pourquoi DistilCamemBERT ?
C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.
Utilisation
Le script train.py entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script predict.py doit pointer vers le dossier models/camembert_chronicle.
Fichiers de sortie
camembert_chronicle/: Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.
Méthode d'entraînement
L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.