--- language: fr tags: - french - camembert - nlp - language-model - transformers - oscar - moscar license: mit datasets: - oscar - moscar metrics: - accuracy base_model: - almanach/camembert-base --- # CamemBERT-Gpt POIDS UNIQUEMENT Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa. ## Modèle de référence Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base) ## Structure du Projet ``` cam_runX/ ├── checkpoints/ │ ├── checkpoint-XXX/ │ └── checkpoint-XXX/ ├── weights/ └── model_info.txt ``` ## Description des Runs d'Entraînement ### cam_run24 - **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française) - **Taille des données**: 1 Go de texte - **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données ### cam_run30 - **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française) - **Taille des données**: 100 Go de texte - **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original ## Données d'Entraînement Notre approche utilise exclusivement les portions françaises des datasets suivants : - **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR - [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR) - Utilisé pour le run expérimental (cam_run24) - **OSCAR**: Common Crawl filtré pour le français - [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) - Utilisé pour la réplication fidèle (cam_run30) - Même dataset que celui utilisé dans l'article original ## Paramètres d'Entraînement Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats. ## Repository GitHub associé Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt). ## Citations ```bibtex @inproceedings{martin2020camembert, title={CamemBERT: a Tasty French Language Model}, author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît}, booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}, year={2020} } ``` ## Contact Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).