mrm8488 commited on
Commit
24cc9ab
1 Parent(s): 1e92a74

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +42 -0
README.md ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - summarization
4
+ - news
5
+ language: fr
6
+ datasets:
7
+ - mlsum
8
+ widget:
9
+ - text: "Un nuage de fumée juste après l’explosion, le 1er juin 2019. Une déflagration dans une importante usine d’explosifs du centre de la Russie a fait au moins 79 blessés samedi 1er juin. L’explosion a eu lieu dans l’usine Kristall à Dzerzhinsk, une ville située à environ 400 kilomètres à l’est de Moscou, dans la région de Nijni-Novgorod. « Il y a eu une explosion technique dans l’un des ateliers, suivie d’un incendie qui s’est propagé sur une centaine de mètres carrés », a expliqué un porte-parole des services d’urgence. Des images circulant sur les réseaux sociaux montraient un énorme nuage de fumée après l’explosion. Cinq bâtiments de l’usine et près de 180 bâtiments résidentiels ont été endommagés par l’explosion, selon les autorités municipales. Une enquête pour de potentielles violations des normes de sécurité a été ouverte. Fragments de shrapnel Les blessés ont été soignés après avoir été atteints par des fragments issus de l’explosion, a précisé une porte-parole des autorités sanitaires citée par Interfax. « Nous parlons de blessures par shrapnel d’une gravité moyenne et modérée », a-t-elle précisé. Selon des représentants de Kristall, cinq personnes travaillaient dans la zone où s’est produite l’explosion. Elles ont pu être évacuées en sécurité. Les pompiers locaux ont rapporté n’avoir aucune information sur des personnes qui se trouveraient encore dans l’usine."
10
+ ---
11
+ # French RoBERTa2RoBERTa (shared) fine-tuned on MLSUM FR for summarization
12
+ ## Model
13
+ [camembert-base](https://huggingface.co/camembert-base) (RoBERTa Checkpoint)
14
+ ## Dataset
15
+ **MLSUM** is the first large-scale MultiLingual SUMmarization dataset. Obtained from online newspapers, it contains 1.5M+ article/summary pairs in five different languages -- namely, **French**, German, Spanish, Russian, Turkish. Together with English newspapers from the popular CNN/Daily mail dataset, the collected data form a large scale multilingual dataset which can enable new research directions for the text summarization community. We report cross-lingual comparative analyses based on state-of-the-art systems. These highlight existing biases which motivate the use of a multi-lingual dataset.
16
+ [MLSUM fr](https://huggingface.co/datasets/viewer/?dataset=mlsum)
17
+ ## Results
18
+ |Set|Metric| # Score|
19
+ |----|------|------|
20
+ | Test |Rouge2 - mid -precision | **14.47**|
21
+ | Test | Rouge2 - mid - recall | **12.90**|
22
+ | Test | Rouge2 - mid - fmeasure | **13.30**|
23
+ ## Usage
24
+ ```python
25
+ import torch
26
+ from transformers import RobertaTokenizerFast, EncoderDecoderModel
27
+ device = 'cuda' if torch.cuda.is_available() else 'cpu'
28
+ ckpt = 'mrm8488/camembert2camembert_shared-finetuned-french-summarization'
29
+ tokenizer = RobertaTokenizerFast.from_pretrained(ckpt)
30
+ model = EncoderDecoderModel.from_pretrained(ckpt).to(device)
31
+ def generate_summary(text):
32
+ inputs = tokenizer([text], padding="max_length", truncation=True, max_length=512, return_tensors="pt")
33
+ input_ids = inputs.input_ids.to(device)
34
+ attention_mask = inputs.attention_mask.to(device)
35
+ output = model.generate(input_ids, attention_mask=attention_mask)
36
+ return tokenizer.decode(output[0], skip_special_tokens=True)
37
+
38
+ text = "Your text here..."
39
+ generate_summary(text)
40
+ ```
41
+ > Created by [Manuel Romero/@mrm8488](https://twitter.com/mrm8488) with the support of [Narrativa](https://www.narrativa.com/)
42
+ > Made with <span style="color: #e25555;">&hearts;</span> in Spain