Francois Vieille commited on
Commit
c5055ba
1 Parent(s): 4de2bee
Files changed (1) hide show
  1. README.md +2 -1
README.md CHANGED
@@ -32,7 +32,7 @@ _Nous garantissons pas la stabilité du modèle sur le long terme. Modèle réal
32
 
33
  ## Données
34
 
35
- | Streamer | Nbr de messages | Categories notables en 2021\* |
36
  | --------------------------------------------- | --------------- | ---------------------------------- |
37
  | Ponce | 2 604 935 | Chatting/Mario Kart/FIFA |
38
  | Domingo | 1 209 703 | Chatting/talk-shows/FM2O21 |
@@ -49,6 +49,7 @@ Sur la période du 12/03/2021 au 22/07/2021. La totalité des messages comptent
49
  Les données d'entrainement sont basé sur le format d'entrainement du modèle ELECTRA. Cela nécessite de formater les données en paragraphe, séparés par phrase. Nous avons choisi de regrouper les messages dans une fenêtre de 60 secondes, faisant office de paragraphe, avec les conditions suivantes :
50
  * Longueur supérieure à 170 (ce qui représente en moyenne 50 tokens) afin de ne pas créer des instances ayant pas d’information car majoritairement vide : un padding sera nécessaire et pénalise la vitesse d’apprentissage.
51
  * 128 tokens maximums (défaut)
 
52
  Si la longueur maximale est atteinte, une deuxième instance est créée. Au final, la volumétrie d'instance d'entrainement est de 554 974.
53
 
54
 
 
32
 
33
  ## Données
34
 
35
+ | Streamer | Nbr de messages | Categories notables en 2021 |
36
  | --------------------------------------------- | --------------- | ---------------------------------- |
37
  | Ponce | 2 604 935 | Chatting/Mario Kart/FIFA |
38
  | Domingo | 1 209 703 | Chatting/talk-shows/FM2O21 |
 
49
  Les données d'entrainement sont basé sur le format d'entrainement du modèle ELECTRA. Cela nécessite de formater les données en paragraphe, séparés par phrase. Nous avons choisi de regrouper les messages dans une fenêtre de 60 secondes, faisant office de paragraphe, avec les conditions suivantes :
50
  * Longueur supérieure à 170 (ce qui représente en moyenne 50 tokens) afin de ne pas créer des instances ayant pas d’information car majoritairement vide : un padding sera nécessaire et pénalise la vitesse d’apprentissage.
51
  * 128 tokens maximums (défaut)
52
+
53
  Si la longueur maximale est atteinte, une deuxième instance est créée. Au final, la volumétrie d'instance d'entrainement est de 554 974.
54
 
55