rut5-base-summ / README.md
d0rj's picture
docs: update README
6e47664
metadata
language:
  - ru
  - en
datasets:
  - d0rj/samsum-ru
  - IlyaGusev/gazeta
  - zjkarina/matreshka
  - rcp-meetings/rudialogsum_v2
  - GEM/wiki_lingua
  - mlsum
metrics:
  - bleu
  - rouge
tags:
  - summarization
  - dialogue-summarization
  - text2text-generation
  - t5
widget:
  - example_title: Diploma Introduction
    text: >
      Актуальность проблемы. Электронная информация играет все большую  роль во
      всех сферах жизни современного общества. В последние годы объем
      научно-технической текстовой информации в электронном виде возрос
      настолько, что возникает угроза обесценивания этой информации в связи с
      трудностями поиска необходимых сведений среди множества доступных текстов.
      Развитие информационных ресурсов Интернет многократно усугубило проблему
      информационной перегрузки. В этой ситуации особенно актуальными становятся
      методы автоматизации реферирования текстовой информации, то есть методы
      получения сжатого представления текстовых документов–рефератов
      (аннотаций). Постановка  проблемы  автоматического реферирования текста и
      соответственно попытки ее решения с использованием различных подходов
      предпринимались многими исследователями. История применения вычислительной
      техники для реферирования  насчитывает уже более 50 лет и связана с
      именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф.
      Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы  выработаны 
      многочисленные подходы к решению данной проблемы, которые достаточно четко
      подразделяются на два направления: автоматическое реферирование,
      основанное на экстрагировании из первичных документов с помощью
      определенных формальных признаков «наиболее информативных» фраз
      (фрагментов), совокупность которых образует некоторый экстракт;
      автоматическое реферирование, основанное на выделении из текстов с помощью
      специальных информационных языков наиболее существенной информации и
      порождении новых текстов (рефератов), содержательно обобщающих первичные 
      документы.
  - example_title: Biological Info
    text: >
      Первую многоножку, у которой более тысячи ног, обнаружили в австралийских
      пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по
      количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое
      тело, похожее на нить, и большое количество конечностей, по-видимому, дает
      преимущества для быстрого перемещения и проникновения в труднодоступные
      места — ученые полагают, такая многоножка может спокойно перемещаться по
      трещинам в камнях. Австралия известна своими огромными и жутковатыми
      животными вроде 25-сантиметровых пауков. Теперь список пугающих
      членистоногих пополнился самой «многоногой» в мире многоножкой, у которой
      более тысячи ног. Необычное животное обнаружила группа исследователей из
      Австралии и США в пещерах на западе страны. Подробнее многоножку ученые
      описали в статье в журнале Scientific Reports. Исследователи занимались
      оценкой воздействия подземных вод на окружающую среду в зоне добычи
      полезных ископаемых на западе страны, когда наткнулись на новый вид
      многоножек. В отличие от большинства сородичей, живущих на поверхности,
      эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид
      исследователи назвали Eumillipes persephone, в честь Персефоны —
      древнегреческой богини подземного мира. У многоножки оказалось 1306 ног —
      больше, чем у любого другого известного вида. Предыдущей рекордсменкой
      была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног.
      «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. —
      Как только я понял, какой длины они были... Стало ясно, что это что-то
      совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и
      шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и
      конусообразная голова. Как и другие животные, живущие в постоянной
      темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее
      с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног,
      ученым пришлось сначала снять многоножку в высоком разрешении, а затем
      закрашивать на фото каждый десяток ног другим цветом.
      (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)

rut5-base-summ

Model

Finetuned ai-forever/ruT5-base for text and dialogue summarization.

Data

All 'train' subsets was concatenated and shuffled with seed 1000 - 7.

Train subset = 155678 rows.

Metrics

Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.

See WandB logs.

See report at REPORT WIP.

Notes

Scheduler, optimizer and trainer states are saved into this repo, so you can use that to continue finetune with your own data with existing gradients.

Usage

Summarization pipeline

from transformers import pipeline


pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
pipe(text)

Text-to-text generation

from transformers import T5Tokenizer, T5ForConditionalGeneration


tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()

input_ids = tokenizer(text, return_tensors='pt').input_ids
outputs = model.generate(input_ids)
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)