data-silence commited on
Commit
9829a74
1 Parent(s): 77377a9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +100 -1
README.md CHANGED
@@ -1,4 +1,103 @@
1
  ---
2
  base_model: google/mt5-base
3
  pipeline_tag: text-classification
4
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  base_model: google/mt5-base
3
  pipeline_tag: text-classification
4
+ tags:
5
+ - summarization
6
+ - mT5
7
+ datasets:
8
+ - csebuetnlp/xlsum
9
+ - data-silence/sumnews
10
+ language:
11
+ - am
12
+ - ar
13
+ - az
14
+ - bn
15
+ - my
16
+ - zh
17
+ - en
18
+ - fr
19
+ - gu
20
+ - ha
21
+ - hi
22
+ - ig
23
+ - id
24
+ - ja
25
+ - rn
26
+ - ko
27
+ - ky
28
+ - mr
29
+ - ne
30
+ - om
31
+ - ps
32
+ - fa
33
+ - pcm
34
+ - pt
35
+ - pa
36
+ - ru
37
+ - gd
38
+ - sr
39
+ - si
40
+ - so
41
+ - es
42
+ - sw
43
+ - ta
44
+ - te
45
+ - th
46
+ - ti
47
+ - tr
48
+ - uk
49
+ - ur
50
+ - uz
51
+ - vi
52
+ - cy
53
+ - yo
54
+ licenses:
55
+ - cc-by-nc-sa-4.0
56
+ library_name: transformers
57
+ ---
58
+
59
+ # data-silence/any-news-sum
60
+
61
+ This repository contains the mT5 checkpoint finetuned on the 45 languages of [XL-Sum](https://huggingface.co/datasets/csebuetnlp/xlsum) dataset and trained on the summarization task.
62
+ The model is designed to simultaneously generate a headline and a summary of a news story based on its full content.
63
+ The primary focus of the training was on Russian language operation, but to some extent the model will work on text in any language supported by the mT5 mother model and XL-Sum dataset.
64
+
65
+
66
+ ## Using this model in `transformers`
67
+
68
+ ```python
69
+ import torch
70
+ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
71
+
72
+ # Загрузка модели и токенизатора
73
+ model_name = "data-silence/any-news-sum"
74
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
75
+ model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
76
+
77
+ device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
78
+
79
+
80
+ def generate_summary_with_special_tokens(text, max_length=600):
81
+ inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True).to(device)
82
+
83
+ outputs = model.generate(
84
+ **inputs,
85
+ max_length=max_length,
86
+ num_return_sequences=1,
87
+ no_repeat_ngram_size=4,
88
+ # early_stopping=True
89
+ )
90
+
91
+ generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
92
+
93
+ # Разделение на заголовок и резюме
94
+ parts = generated_text.split('<title_resume_sep>')
95
+ title = parts[0].replace("<pad> ", "").strip()
96
+ resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
97
+
98
+ return title, resume
99
+
100
+ title, resume = generate_summary_with_special_tokens('Пациенты с сердечными заболеваниями зачастую имеют низкий уровень мелатонина и нарушение цикла сна-бодрствования. До сих пор механизмы, лежащие в основе этого явления, оставались неясными. В статье, опубликованной в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе. А в качестве связующего звена между двумя органами оказывается ганглий в области шеи.')
101
+ print(title) # Ученые показал, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе
102
+ print(resume) # Ученые опубликовали статью, опубликованную в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким образом кардиальные заболевания влияет на выработку гормона сна в шишковидной железе.
103
+ ```