BercyHub commited on
Commit
cda6162
1 Parent(s): 28ecda3

Update (README) : Ajout de documentation dans le README

Browse files
Files changed (1) hide show
  1. README.md +47 -35
README.md CHANGED
@@ -14,33 +14,21 @@ base-model:
14
  ---
15
  # Model Card for Model ID
16
 
17
- <!-- Provide a quick summary of what the model is/does. -->
18
-
19
- This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).
20
-
21
  ## Model Details
22
 
23
  ### Model Description
24
 
25
- <!-- Provide a longer summary of what this model is. -->
26
-
27
-
28
-
29
- - **Developed by:** [More Information Needed]
30
- - **Funded by [optional]:** [More Information Needed]
31
- - **Shared by [optional]:** [More Information Needed]
32
- - **Model type:** [More Information Needed]
33
- - **Language(s) (NLP):** [More Information Needed]
34
- - **License:** [More Information Needed]
35
- - **Finetuned from model [optional]:** [More Information Needed]
36
 
37
  ### Model Sources [optional]
38
 
39
  <!-- Provide the basic links for the model. -->
40
 
41
  - **Repository:** [More Information Needed]
42
- - **Paper [optional]:** [More Information Needed]
43
- - **Demo [optional]:** [More Information Needed]
44
 
45
  ## Uses
46
 
@@ -48,10 +36,7 @@ This modelcard aims to be a base template for new models. It has been generated
48
 
49
  ### Direct Use
50
 
51
- <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
52
-
53
- [More Information Needed]
54
-
55
 
56
  ### Recommendations
57
 
@@ -61,15 +46,18 @@ Users (both direct and downstream) should be made aware of the risks, biases and
61
 
62
  ## How to Get Started with the Model
63
 
64
- Use the code below to get started with the model.
65
-
66
- [More Information Needed]
 
67
 
68
  ## Training Details
69
 
70
  ### Training Data
71
 
72
- Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/#/resources
 
 
73
  (voir fichier : "discussions-annotations-public-.csv")
74
 
75
  ### Training Procedure
@@ -78,12 +66,23 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
78
 
79
  #### Preprocessing [optional]
80
 
81
- [More Information Needed]
82
-
83
 
84
  #### Training Hyperparameters
85
 
86
- - **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
 
 
 
 
 
 
 
 
 
 
 
 
87
 
88
  ## Evaluation
89
 
@@ -95,7 +94,9 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
95
 
96
  <!-- This should link to a Dataset Card if possible. -->
97
 
98
- [More Information Needed]
 
 
99
 
100
  #### Metrics
101
 
@@ -106,8 +107,23 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
106
 
107
  ### Results
108
 
109
- [More Information Needed]
110
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
111
  #### Summary
112
 
113
 
@@ -116,10 +132,6 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
116
 
117
  [More Information Needed]
118
 
119
- ### Compute Infrastructure
120
-
121
- [More Information Needed]
122
-
123
 
124
  ## Model Card Authors
125
 
 
14
  ---
15
  # Model Card for Model ID
16
 
 
 
 
 
17
  ## Model Details
18
 
19
  ### Model Description
20
 
21
+ - **Developed by:** Asma RACHIDI (BercyHub)
22
+ - **Model type:** Classification de Texte (Basé sur Camembert)
23
+ - **Language(s) (NLP):** Français FR
24
+ - **License:** MIT
25
+ - **Finetuned from model:** camembert-base
 
 
 
 
 
 
26
 
27
  ### Model Sources [optional]
28
 
29
  <!-- Provide the basic links for the model. -->
30
 
31
  - **Repository:** [More Information Needed]
 
 
32
 
33
  ## Uses
34
 
 
36
 
37
  ### Direct Use
38
 
39
+ Les utilisateurs peuvent utiliser directement le modèle pour des tâches de classification de texte, telles que la catégorisation de discussions basée sur les titres et les messages.
 
 
 
40
 
41
  ### Recommendations
42
 
 
46
 
47
  ## How to Get Started with the Model
48
 
49
+ 1) Télécharger les fichiers de poids contenu dans les dossiers .zip du modèle pré-entraîné pour la classification des commentaires.
50
+ 2) Télécharger et installer le fichier requirements.txt pour les dépendances
51
+ 3) Télécharger le fichier inference_script.py pour effectuer des prédictions avec le modèle pré-entraîné.
52
+ 4) Télécharger le fichier avec les données d'entrées à prédire
53
 
54
  ## Training Details
55
 
56
  ### Training Data
57
 
58
+ Le modèle a été entraîné sur un jeu de données annoté manuellement par Datactivist en 2021 sur un échantillon de discussions.
59
+ Le jeu de données annoté manuellement est disponible sur data.gouv.fr :
60
+ https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/#/resources
61
  (voir fichier : "discussions-annotations-public-.csv")
62
 
63
  ### Training Procedure
 
66
 
67
  #### Preprocessing [optional]
68
 
69
+ Le script effectue diverses étapes de prétraitement, notamment la gestion des valeurs manquantes, la combinaison du titre et du message, et le nettoyage des données textuelles.
 
70
 
71
  #### Training Hyperparameters
72
 
73
+ Modèle 1 - Catégories :
74
+ - Batch Size : 16
75
+ - Nombre d'Époques : 5
76
+ - learning_rate=3e-5
77
+ - weight_decay=0.01
78
+ - optimizer = AdamW
79
+
80
+ Modèle 2 - Sous-catégories :
81
+ - Taille des lots (Batch Size) : 16
82
+ - Nombre d'Époques : 10
83
+ - learning_rate=3e-5
84
+ - weight_decay=0.01
85
+ - optimizer = AdamW
86
 
87
  ## Evaluation
88
 
 
94
 
95
  <!-- This should link to a Dataset Card if possible. -->
96
 
97
+ Le modèle a été évalué, premièrement sur un ensemble de données de test dérivé du jeu de données des discussions annotées par datactivist représentant 20% de l'ensemble de données total.
98
+ Et deuxièmement sur un jeu de données du catalogue des discussions de data.gouv.fr (non-annoté):
99
+ https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/
100
 
101
  #### Metrics
102
 
 
107
 
108
  ### Results
109
 
110
+ Le modèle a obtenu des performances compétitives sur l'ensemble de test.
111
+
112
+ Modèle 1 - Catégories :
113
+ - Accuracy : 72 %
114
+ - Recall : 72%
115
+ - Precision : 71%
116
+ - F1-score : 72%
117
+
118
+ Modèle 2 - Sous-catégories :
119
+ - Accuracy : 74%
120
+ - Recall : 74%
121
+ - Precision : 70%
122
+ - F1-score : 71%
123
+
124
+ Cependant, les données d'entraînement comportent un très grand déséquilibre entre les classes, ce qui abaisse les performances au niveau des classes sous-représentées.
125
+ Ce désequilibre induit un certains biais entre les classes.
126
+
127
  #### Summary
128
 
129
 
 
132
 
133
  [More Information Needed]
134
 
 
 
 
 
135
 
136
  ## Model Card Authors
137