metadata

tags:
  - summarization
  - news
language: fr
datasets:
  - mlsum
widget:
  - text: >-
      Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une
      déflagration dans une importante usine d’explosifs du centre de la Russie
      a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans
      l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à
      l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une
      explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est
      propagé sur une centaine de mètres carrés », a expliqué un porte-parole
      des services d’urgence. Des images circulant sur les réseaux sociaux
      montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de
      l’usine et près de 180 bâtiments résidentiels ont été endommagés par
      l’explosion, selon les autorités municipales. Une enquête pour de
      potentielles violations des normes de sécurité a été ouverte. Fragments de
      shrapnel Les blessés ont été soignés après avoir été atteints par des
      fragments issus de l’explosion, a précisé une porte-parole des autorités
      sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel
      d’une gravité moyenne et modérée », a-t-elle précisé. Selon des
      représentants de Kristall, cinq personnes travaillaient dans la zone où
      s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les
      pompiers locaux ont rapporté n’avoir aucune information sur des personnes
      qui se trouveraient encore dans l’usine.

French RoBERTa2RoBERTa (shared) fine-tuned on MLSUM FR for summarization

Model

camembert-base (RoBERTa Checkpoint)

Dataset

MLSUM is the first large-scale MultiLingual SUMmarization dataset. Obtained from online newspapers, it contains 1.5M+ article/summary pairs in five different languages -- namely, French, German, Spanish, Russian, Turkish. Together with English newspapers from the popular CNN/Daily mail dataset, the collected data form a large scale multilingual dataset which can enable new research directions for the text summarization community. We report cross-lingual comparative analyses based on state-of-the-art systems. These highlight existing biases which motivate the use of a multi-lingual dataset. MLSUM fr

Results

Set	Metric	# Score
Test	Rouge2 - mid -precision	14.47
Test	Rouge2 - mid - recall	12.90
Test	Rouge2 - mid - fmeasure	13.30

Usage

import torch
from transformers import RobertaTokenizerFast, EncoderDecoderModel
device = 'cuda' if torch.cuda.is_available() else 'cpu'
ckpt = 'mrm8488/camembert2camembert_shared-finetuned-french-summarization'
tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
def generate_summary(text):
   inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
   input_ids = inputs.input_ids.to(device)
   attention_mask = inputs.attention_mask.to(device)
   output = model.generate(input_ids, attention_mask=attention_mask)
   return tokenizer.decode(output[0], skip_special_tokens=True)
   
text = "Your text here..."
generate_summary(text)

Created by Manuel Romero/@mrm8488 with the support of Narrativa Made with ♥ in Spain