pierre-loic's picture
Update README.md
a2bfdc7
|
raw
history blame
2.39 kB
metadata
license: cc
widget:
  - text: >-
      Nouveaux records d’émissions de CO₂ du secteur énergétique en 2022, selon
      une étude
  - text: >-
      Climat et énergie : les objectifs de l’Union européenne pour 2030 ont du «
      plomb dans l’aile »
  - text: >-
      Municipales à Paris : Emmanuel Grégoire « se prépare méthodiquement » pour
      l’après Hidalgo

🌍 Détection des articles de presse française traitant des sujets liés au climat

🗺️ Le contexte

📋 L'utilisation du modèle final

Le modèle final présenté n'est évidemment pas parfait.

🔎 Le détail du travail d'entrainement

La méthodologie utilisée

Différentes pistes d'étude ont été explorées pour aboutir au modèle final :

  • La première piste que nous avons étudiée est de faire prédire la classification des titres d'articles de presse entre "climat" et "pas climat" par ChatGPT grâce à du prompt engineering. Les résultats étaient assez intéressants mais le modèle se trompait parfois sur des cas très simples.
  • La deuxième piste que nous avons étudiée est de vectoriser les mots des titres de presse par une méthode Tf-Idf et d'utiliser un modèle de classification (régression logistique et random forest). Les résultats étaient légérement meilleurs qu'avec un dummy classifier (qui prédit toujours la classe majoritaire "Climat").
  • La troisième piste que nous avons étudiée est de vectoriser les titres des articles de presse avec un modèle de type BERT (camemBERT uniquement entrainé sur un corpus francophone) et ensuite d'utiliser un modèle de classification (régression logistique et random forest) sur les plongements. Les résultats étaient intéressants.

Les données

Les modèles analysés

Le modèle final

Les améliorations envisageables