Francois Vieille
commited on
Commit
•
c5055ba
1
Parent(s):
4de2bee
fix typo
Browse files
README.md
CHANGED
@@ -32,7 +32,7 @@ _Nous garantissons pas la stabilité du modèle sur le long terme. Modèle réal
|
|
32 |
|
33 |
## Données
|
34 |
|
35 |
-
| Streamer | Nbr de messages | Categories notables en 2021
|
36 |
| --------------------------------------------- | --------------- | ---------------------------------- |
|
37 |
| Ponce | 2 604 935 | Chatting/Mario Kart/FIFA |
|
38 |
| Domingo | 1 209 703 | Chatting/talk-shows/FM2O21 |
|
@@ -49,6 +49,7 @@ Sur la période du 12/03/2021 au 22/07/2021. La totalité des messages comptent
|
|
49 |
Les données d'entrainement sont basé sur le format d'entrainement du modèle ELECTRA. Cela nécessite de formater les données en paragraphe, séparés par phrase. Nous avons choisi de regrouper les messages dans une fenêtre de 60 secondes, faisant office de paragraphe, avec les conditions suivantes :
|
50 |
* Longueur supérieure à 170 (ce qui représente en moyenne 50 tokens) afin de ne pas créer des instances ayant pas d’information car majoritairement vide : un padding sera nécessaire et pénalise la vitesse d’apprentissage.
|
51 |
* 128 tokens maximums (défaut)
|
|
|
52 |
Si la longueur maximale est atteinte, une deuxième instance est créée. Au final, la volumétrie d'instance d'entrainement est de 554 974.
|
53 |
|
54 |
|
|
|
32 |
|
33 |
## Données
|
34 |
|
35 |
+
| Streamer | Nbr de messages | Categories notables en 2021 |
|
36 |
| --------------------------------------------- | --------------- | ---------------------------------- |
|
37 |
| Ponce | 2 604 935 | Chatting/Mario Kart/FIFA |
|
38 |
| Domingo | 1 209 703 | Chatting/talk-shows/FM2O21 |
|
|
|
49 |
Les données d'entrainement sont basé sur le format d'entrainement du modèle ELECTRA. Cela nécessite de formater les données en paragraphe, séparés par phrase. Nous avons choisi de regrouper les messages dans une fenêtre de 60 secondes, faisant office de paragraphe, avec les conditions suivantes :
|
50 |
* Longueur supérieure à 170 (ce qui représente en moyenne 50 tokens) afin de ne pas créer des instances ayant pas d’information car majoritairement vide : un padding sera nécessaire et pénalise la vitesse d’apprentissage.
|
51 |
* 128 tokens maximums (défaut)
|
52 |
+
|
53 |
Si la longueur maximale est atteinte, une deuxième instance est créée. Au final, la volumétrie d'instance d'entrainement est de 554 974.
|
54 |
|
55 |
|