Documentation des Modèles de Détection de Chroniques

Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.

Modèle Transformer (DistilCamemBERT)

C'est le modèle principal généré par train.py. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.

Type de modèle : Transformer (Architecture BERT), utilisant cmarkea/distilcamembert-base.
Nombre de paramètres : ~68 millions (au lieu de 110M pour la version base).
Méthode d'apprentissage : Fine-tuning sur des segments de transcriptions.
Optimisations :
- Modèle Distillé : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
- Fenêtre Contextuelle : max_length de 128 tokens pour un équilibre optimal entre contexte et temps de calcul.
- Efficacité : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.

Pourquoi DistilCamemBERT ?

C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.

Utilisation

Le script train.py entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script predict.py doit pointer vers le dossier models/camembert_chronicle.

Fichiers de sortie

camembert_chronicle/ : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.

Méthode d'entraînement

L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support