File size: 13,385 Bytes
fd14358 a5c8183 fd14358 a5c8183 fd14358 755738e fd14358 a5c8183 118f905 fd14358 1dacc22 fd14358 6e47664 fd14358 6e47664 fd14358 6e47664 fd14358 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 |
---
language:
- ru
- en
tags:
- summarization
- dialogue-summarization
- text2text-generation
- t5
datasets:
- d0rj/samsum-ru
- IlyaGusev/gazeta
- zjkarina/matreshka
- rcp-meetings/rudialogsum_v2
- GEM/wiki_lingua
- mlsum
metrics:
- bleu
- rouge
widget:
- example_title: Diploma Introduction
text: 'Актуальность проблемы. Электронная информация играет все большую роль во
всех сферах жизни современного общества. В последние годы объем научно-технической
текстовой информации в электронном виде возрос настолько, что возникает угроза
обесценивания этой информации в связи с трудностями поиска необходимых сведений
среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно
усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными
становятся методы автоматизации реферирования текстовой информации, то есть методы
получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического
реферирования текста и соответственно попытки ее решения с использованием различных
подходов предпринимались многими исследователями. История применения вычислительной
техники для реферирования насчитывает уже более 50 лет и связана с именами таких
исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г.
Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы
к решению данной проблемы, которые достаточно четко подразделяются на два направления:
автоматическое реферирование, основанное на экстрагировании из первичных документов
с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов),
совокупность которых образует некоторый экстракт; автоматическое реферирование,
основанное на выделении из текстов с помощью специальных информационных языков
наиболее существенной информации и порождении новых текстов (рефератов), содержательно
обобщающих первичные документы.
'
- example_title: Biological Info
text: Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству
ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на
нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого
перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка
может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными
и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих
членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более
тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и
США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в
журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных
вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда
наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих
на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый
вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой
богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого
другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme
plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны,
— говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были...
Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело
длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие
ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте,
эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью,
выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала
снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток
ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
model-index:
- name: d0rj/rut5-base-summ
results:
- task:
type: summarization
name: Summarization
dataset:
name: samsum
type: samsum
config: samsum
split: test
metrics:
- type: rouge
value: 28.8694
name: ROUGE-1
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTdhMjM4YWJiZTBiNmJhNTc0ZjQ4M2E1M2RjMDI4YThmYjEzMmJmZjdlOGRjOWRiZDA2YWEzOTU0MTMwYmJjNCIsInZlcnNpb24iOjF9.6bddYV-Rnp4zhgQjbv4cHKtXHDCLknfxTH2bYsVe6R9wgW45gUSck61EIeJdqj0PS7Vi2zcz8YW4DEXDd-UECQ
- type: rouge
value: 8.4686
name: ROUGE-2
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2NiOTdkNTE0NjVmYTcyMDY1ZjYzMjZlZjI1MDViOWFmM2M1MDZjOGZiYThlMTc4MWY5YThlNDJmOGYyNWRmZCIsInZlcnNpb24iOjF9.BLeNnva3EJFMz8xwXZamguKWhLyaGTRFr1C12Yh8xTlimrc_mENHqwshJxdi4RULcGwlQmjGjXNw1DMJ42pDCQ
- type: rouge
value: 24.2357
name: ROUGE-L
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNjM2OGMwMGYzOTgwNjhlZjhjNjU2YzU3MDZkMjljMzExZjYwNTU1MDM0YmM1NmE3OTUyYzBhMzcyOGM5ZmY1MSIsInZlcnNpb24iOjF9.ttNXKqK9rTsMM1aj4XvXUVuJZZAtgG2JE2NI3ZWT4kVcsC7F6mYFXNfUKEk2koKPkq0gwdPiAc-wrpbtmQg5Cg
- type: rouge
value: 25.8543
name: ROUGE-LSUM
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmMzNTdjMGFkNzhiYzFkYWMwNWRlZTM5ZTMxMjU5MjFiMDVjNDk3MWFlMTM5Yzc4MTFjYzNhODVmNjQ3ZTBmNyIsInZlcnNpb24iOjF9.80eUellPpBKzjW-kKDjr6WlzFh_nyC2Q4-gNtzQekOzUyuPynl913nWh4NcAw5YXbYC24dklshdFD5VheeYlBQ
- type: loss
value: 3.2456042766571045
name: loss
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOWEwZTRlMDEyZDQ0ZTBiMzAyZTkyZWUwOGYyODQ0NzA1MWM4NTE3ZDBjYTYxNmMxODIyNmNiZDM0MmYzMzNjZCIsInZlcnNpb24iOjF9.evm57JUbHamIx2FcFmjRHwvZ3e818BYxT8tuv26KVnq9IHO8xyMHPes9slOMhdTijAT_leexMIKMRT_iFOGHAg
- type: gen_len
value: 27.5543
name: gen_len
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTIzNWY2NGEyNjQyMzdmYmM4ZDI5MTVkZDQ0ZTk3NmFiOWRjNTdiMjU3MmQwY2NhZTEzNTVhZGU5NTZhN2JiZiIsInZlcnNpb24iOjF9.7C3OQP2bl0EZRhRlRYtxd6cQapif0a2Vq5kRFiSdX6KLxU_QALZAlh_9DFyyYPh39R3e6Hyi438Ox6BGaalmBA
- task:
type: summarization
name: Summarization
dataset:
name: xsum
type: xsum
config: default
split: test
metrics:
- type: rouge
value: 16.1279
name: ROUGE-1
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTgxZjgzZjAwOGViNTNjZDZhNTBhNzUzOTJiYmRkOWM5NDc0MjAxNzdjZDMyMDhlYzFiN2NlNGI5OTVkNDNiOCIsInZlcnNpb24iOjF9.Ix7CPD9gti8W7OMF4NtbMejt6fPEoZRJw2O-GeV-JRkgrIRXkrifGGE55BHdQyEe2KRcAcNCTav6igtiuEd7Cw
- type: rouge
value: 2.1128
name: ROUGE-2
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmViN2Y2OTA2YmE4YWYyODUxZDljNzkwMTM0ZWQ0ZTdjYWIzOTY0NzZjZTA1ZWNhNmE3OTU0NDAzNjVkMmE4ZSIsInZlcnNpb24iOjF9.G0EZ_XzRCLNeNL32Hzr7nGQmbX8rOjHfVuZW2zyIgnzenMMHWzAtN5vqq7R9ZVPP3roLFD5XSFyigHchIqu2Cg
- type: rouge
value: 12.2033
name: ROUGE-L
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTM3YTY2YWY5M2VhM2MyNWZhOGZlNTZlMjk5Y2MzMGViYTAyOGJjODZkZTBhMjZjOWViYTI4Y2RkMmEwZTQxNCIsInZlcnNpb24iOjF9.i3wgF36CvXF3rVGQHiR7bpkQ4zB7huuOn8yNnj-elmOkDmp7Mmw1UfGCX_1x99mBrnMHWdCJ57rCCYr2XbWrAw
- type: rouge
value: 12.4127
name: ROUGE-LSUM
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiODg2MDUxZGU3MThjNzUxY2FiYjE3NTk5ZTdkNTYzMmFmNGVmZGU0NDQwOWQzOWNiZDE5YmViNDZlMzA4OWI2ZCIsInZlcnNpb24iOjF9.VJsGd6PO5iy5p5bE2QS81UXhxocsEnRNswbPcWdMDO9yQ4rU7v0QlucI53bQ7MPGpDThMCfyjpvnu682rQDGDg
- type: loss
value: 4.575754165649414
name: loss
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMmY5NTc1MGY3MmFkNWMyZDlmNTZhOWYyYWRhNGM0MWJkYmVjZGZiODAzYmZmMDk3MjViMDNjYjFlYmJlZDhiYSIsInZlcnNpb24iOjF9.0Tc8MQAwiII5CcQTtb7MO-vZX_KXiBuKy30c4qG5MeRgcLmKMYZcG-zb2MgHr-kthgsHAasDciWOPhzMxMNzDg
- type: gen_len
value: 39.2258
name: gen_len
verified: true
verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMGM1NTgzMjJlYjMxZjhmM2E1NjIwMDI4YTJkNzI5YjNlMWNiOTQxYTMxNzg3Zjk4YjBiOGU3MGMxNWJkNzUwZSIsInZlcnNpb24iOjF9.xFEROlFxxfmkQDBXQOaCOXApaVoarWTQYTVw8pB8CCRuKSRWljDWuPARSLX79Mv0k3VtHhWNRneW4PakeVyPCA
---
# rut5-base-summ
## Model
Finetuned [ai-forever/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) for text and dialogue summarization.
## Data
- [d0rj/samsum-ru](https://huggingface.co/datasets/d0rj/samsum-ru)
- [IlyaGusev/gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta)
- [zjkarina/matreshka](https://huggingface.co/datasets/zjkarina/matreshka)
- [rcp-meetings/rudialogsum_v2](https://huggingface.co/datasets/rcp-meetings/rudialogsum_v2)
- [GEM/wiki_lingua](https://huggingface.co/datasets/GEM/wiki_lingua)
- [mlsum](https://huggingface.co/datasets/mlsum)
All 'train' subsets was concatenated and shuffled with seed `1000 - 7`.
Train subset = 155678 rows.
## Metrics
Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.
See [WandB logs](https://wandb.ai/d0rj/summarization/runs/5mmyskgi).
See report at **REPORT WIP**.
## Notes
> Scheduler, optimizer and trainer states are saved into this repo, so you can use that to continue finetune with your own data with existing gradients.
## Usage
### Summarization pipeline
```python
from transformers import pipeline
pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
pipe(text)
```
### Text-to-text generation
```python
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()
input_ids = tokenizer(text, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
```
|