File size: 2,391 Bytes
364eee1
 
91df020
eee7e1c
0c63652
dc0b80d
364eee1
84184a5
 
2b3112d
84184a5
2b3112d
84184a5
2b3112d
 
 
 
 
 
 
 
a2bfdc7
 
84184a5
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
---
license: cc
widget:
- text: "Nouveaux records d’émissions de CO₂ du secteur énergétique en 2022, selon une étude"
- text: "Climat et énergie : les objectifs de l’Union européenne pour 2030 ont du « plomb dans l’aile »"
- text: "Municipales à Paris : Emmanuel Grégoire « se prépare méthodiquement » pour l’après Hidalgo"
---
# 🌍 Détection des articles de presse française traitant des sujets liés au climat

## 🗺️ Le contexte

## 📋 L'utilisation du modèle final

Le modèle final présenté n'est évidemment pas parfait.

## 🔎 Le détail du travail d'entrainement

### La méthodologie utilisée

Différentes pistes d'étude ont été explorées pour aboutir au modèle final :
- La **première piste** que nous avons étudiée est de faire prédire la classification des titres d'articles de presse entre "climat" et "pas climat" par [ChatGPT](https://openai.com/blog/chatgpt) grâce à du [prompt engineering](https://en.wikipedia.org/wiki/Prompt_engineering). Les résultats étaient assez intéressants mais le modèle se trompait parfois sur des cas très simples.
- La **deuxième piste** que nous avons étudiée est de vectoriser les mots des titres de presse par une méthode Tf-Idf et d'utiliser un modèle de classification ([régression logistique](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) et [random forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)). Les résultats étaient légérement meilleurs qu'avec un dummy classifier (qui prédit toujours la classe majoritaire "Climat").
- La **troisième piste** que nous avons étudiée est de vectoriser les titres des articles de presse avec un modèle de type [BERT](https://fr.wikipedia.org/wiki/BERT_(mod%C3%A8le_de_langage)) ([camemBERT](https://camembert-model.fr/) uniquement entrainé sur un corpus francophone) et ensuite d'utiliser un modèle de classification ([régression logistique](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) et [random forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)) sur les plongements. Les résultats étaient intéressants.

### Les données

### Les modèles analysés

### Le modèle final

### Les améliorations envisageables