File size: 2,416 Bytes
4b9ec57
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0ea58e2
4b9ec57
0ea58e2
4b9ec57
0ea58e2
4b9ec57
 
 
 
 
 
 
 
 
 
 
 
 
0ea58e2
4b9ec57
 
 
 
 
 
 
 
0ea58e2
4b9ec57
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
---
language: 
- fr

license: mit

datasets:
- MLSUM

pipeline_tag: "text-classification"

widget:
- text: La bourse de paris en forte baisse après que des canards ont envahit le parlement.

tags:
- text-classification
- flaubert 
---

# Classification d'articles de presses avec Flaubert :fire:

Ce modèle ce base sur le modèle [`flaubert/flaubert_base_cased`](https://huggingface.co/flaubert/flaubert_base_cased) à et à été fine-tuné en utilisant des articles de presses issus de la base de données MLSUM.  
Dans leur papier, les équipes de reciTAL et de la Sorbonne ont proposé comme ouverture de faire de la détection de topic sur les articles de presses.

Les topics ont été exraient à partir des URL et nous avons effectué une étape de regroupement de topics pour éléminer ceux avec un trop faible volume et ceux qui paraissaient redondants.

Nous avons finalement utilisé la liste de topics suivant:
* Culture
* Economie
* Education
* Environement
* Justice
* Opinion
* Politique
* Societe
* Sport
* Technologie

## Entrainement

Nous avons benchmarké différents modèles en les entrainants sur différentes parties des articles (titre, résumé, corps et titre+résumé) et avec des échantillons d'apprentissage de tailles différentes.

![Performance](./assets/Accuracy_cat.png)

Les modèles ont été entrainé sur un cloud Azure avec des Tesla V100.

## Résulats

![Matrice de confusion](assets/confusion_cat_m_0.2.png)  
*Les lignes correspondent aux labels prédits et les colonnes aux véritables topics. Les pourcentages sont calculés sur les colonnes.*  

## Utilisation

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import TextClassificationPipeline

model_name = 'lincoln/flaubert-mlsum-topic-classification'

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForSequenceClassification.from_pretrained(model_name)

nlp = TextClassificationPipeline(model=loaded_model, tokenizer=loaded_tokenizer)
nlp("Le Bayern Munich prend la grenadine.")
```

## Citation

```bibtex
@article{scialom2020mlsum,
      title={MLSUM: The Multilingual Summarization Corpus}, 
      author={Thomas Scialom and Paul-Alexis Dray and Sylvain Lamprier and Benjamin Piwowarski and Jacopo Staiano},
      year={2020},
      eprint={2004.14900},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
```