zwanto
commited on
Commit
·
a057400
1
Parent(s):
0ea58e2
fix typo
Browse files
README.md
CHANGED
@@ -17,14 +17,14 @@ tags:
|
|
17 |
- flaubert
|
18 |
---
|
19 |
|
20 |
-
# Classification d'articles de presses avec Flaubert
|
21 |
|
22 |
-
Ce modèle ce base sur le modèle [`flaubert/flaubert_base_cased`](https://huggingface.co/flaubert/flaubert_base_cased)
|
23 |
-
Dans leur papier, les équipes de reciTAL et de la Sorbonne ont proposé comme ouverture de
|
24 |
|
25 |
-
Les topics ont été
|
26 |
|
27 |
-
Nous avons finalement utilisé la liste de topics
|
28 |
* Culture
|
29 |
* Economie
|
30 |
* Education
|
@@ -38,7 +38,7 @@ Nous avons finalement utilisé la liste de topics suivant:
|
|
38 |
|
39 |
## Entrainement
|
40 |
|
41 |
-
Nous avons benchmarké différents modèles en les
|
42 |
|
43 |
![Performance](./assets/Accuracy_cat.png)
|
44 |
|
|
|
17 |
- flaubert
|
18 |
---
|
19 |
|
20 |
+
# Classification d'articles de presses avec Flaubert
|
21 |
|
22 |
+
Ce modèle ce base sur le modèle [`flaubert/flaubert_base_cased`](https://huggingface.co/flaubert/flaubert_base_cased) et à été fine-tuné en utilisant des articles de presse issus de la base de données MLSUM.
|
23 |
+
Dans leur papier, les équipes de reciTAL et de la Sorbonne ont proposé comme ouverture de réaliser un modèle de détection de topic sur les articles de presse.
|
24 |
|
25 |
+
Les topics ont été extrait à partir des URL et nous avons effectué une étape de regroupement de topics pour éliminer ceux avec un trop faible volume et ceux qui paraissaient redondants.
|
26 |
|
27 |
+
Nous avons finalement utilisé la liste de topics suivante:
|
28 |
* Culture
|
29 |
* Economie
|
30 |
* Education
|
|
|
38 |
|
39 |
## Entrainement
|
40 |
|
41 |
+
Nous avons benchmarké différents modèles en les entrainant sur différentes parties des articles (titre, résumé, corps et titre+résumé) et avec des échantillons d'apprentissage de tailles différentes.
|
42 |
|
43 |
![Performance](./assets/Accuracy_cat.png)
|
44 |
|