data-silence
commited on
Commit
•
9829a74
1
Parent(s):
77377a9
Update README.md
Browse files
README.md
CHANGED
@@ -1,4 +1,103 @@
|
|
1 |
---
|
2 |
base_model: google/mt5-base
|
3 |
pipeline_tag: text-classification
|
4 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
base_model: google/mt5-base
|
3 |
pipeline_tag: text-classification
|
4 |
+
tags:
|
5 |
+
- summarization
|
6 |
+
- mT5
|
7 |
+
datasets:
|
8 |
+
- csebuetnlp/xlsum
|
9 |
+
- data-silence/sumnews
|
10 |
+
language:
|
11 |
+
- am
|
12 |
+
- ar
|
13 |
+
- az
|
14 |
+
- bn
|
15 |
+
- my
|
16 |
+
- zh
|
17 |
+
- en
|
18 |
+
- fr
|
19 |
+
- gu
|
20 |
+
- ha
|
21 |
+
- hi
|
22 |
+
- ig
|
23 |
+
- id
|
24 |
+
- ja
|
25 |
+
- rn
|
26 |
+
- ko
|
27 |
+
- ky
|
28 |
+
- mr
|
29 |
+
- ne
|
30 |
+
- om
|
31 |
+
- ps
|
32 |
+
- fa
|
33 |
+
- pcm
|
34 |
+
- pt
|
35 |
+
- pa
|
36 |
+
- ru
|
37 |
+
- gd
|
38 |
+
- sr
|
39 |
+
- si
|
40 |
+
- so
|
41 |
+
- es
|
42 |
+
- sw
|
43 |
+
- ta
|
44 |
+
- te
|
45 |
+
- th
|
46 |
+
- ti
|
47 |
+
- tr
|
48 |
+
- uk
|
49 |
+
- ur
|
50 |
+
- uz
|
51 |
+
- vi
|
52 |
+
- cy
|
53 |
+
- yo
|
54 |
+
licenses:
|
55 |
+
- cc-by-nc-sa-4.0
|
56 |
+
library_name: transformers
|
57 |
+
---
|
58 |
+
|
59 |
+
# data-silence/any-news-sum
|
60 |
+
|
61 |
+
This repository contains the mT5 checkpoint finetuned on the 45 languages of [XL-Sum](https://huggingface.co/datasets/csebuetnlp/xlsum) dataset and trained on the summarization task.
|
62 |
+
The model is designed to simultaneously generate a headline and a summary of a news story based on its full content.
|
63 |
+
The primary focus of the training was on Russian language operation, but to some extent the model will work on text in any language supported by the mT5 mother model and XL-Sum dataset.
|
64 |
+
|
65 |
+
|
66 |
+
## Using this model in `transformers`
|
67 |
+
|
68 |
+
```python
|
69 |
+
import torch
|
70 |
+
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
|
71 |
+
|
72 |
+
# Загрузка модели и токенизатора
|
73 |
+
model_name = "data-silence/any-news-sum"
|
74 |
+
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
75 |
+
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
|
76 |
+
|
77 |
+
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
|
78 |
+
|
79 |
+
|
80 |
+
def generate_summary_with_special_tokens(text, max_length=600):
|
81 |
+
inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True).to(device)
|
82 |
+
|
83 |
+
outputs = model.generate(
|
84 |
+
**inputs,
|
85 |
+
max_length=max_length,
|
86 |
+
num_return_sequences=1,
|
87 |
+
no_repeat_ngram_size=4,
|
88 |
+
# early_stopping=True
|
89 |
+
)
|
90 |
+
|
91 |
+
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
|
92 |
+
|
93 |
+
# Разделение на заголовок и резюме
|
94 |
+
parts = generated_text.split('<title_resume_sep>')
|
95 |
+
title = parts[0].replace("<pad> ", "").strip()
|
96 |
+
resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
|
97 |
+
|
98 |
+
return title, resume
|
99 |
+
|
100 |
+
title, resume = generate_summary_with_special_tokens('Пациенты с сердечными заболеваниями зачастую имеют низкий уровень мелатонина и нарушение цикла сна-бодрствования. До сих пор механизмы, лежащие в основе этого явления, оставались неясными. В статье, опубликованной в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе. А в качестве связующего звена между двумя органами оказывается ганглий в области шеи.')
|
101 |
+
print(title) # Ученые показал, каким именно образом сердечные заболевания влияют на выработку гормона сна в шишковидной железе
|
102 |
+
print(resume) # Ученые опубликовали статью, опубликованную в журнале Science, команда Мюнхенского технического университета (TUM) показывает, каким образом кардиальные заболевания влияет на выработку гормона сна в шишковидной железе.
|
103 |
+
```
|