Russian text summarizer was fine-tuned from ai-forever/ruT5-base model and trained on ~60k rows samples' dataset.

Example Usage:

import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration


model_name = "sarahai/ruT5-base-summarizer"  
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

device = torch.device("cpu") #if you are using cpu

input_text = "Похоже, в Солнечной системе вскоре могут снова произойти изменения, связанные с переклассификацией известных науке тел. По мнению ученых, в ближайшем будущем возможно увеличение числа так называемых карликовых планет — тел, из-за которых возникает наибольшее число споров в астрономической среде. Чтобы относиться к карликовым планетам, по правилам Международного астрономического союза телу Солнечной системы необходимо удовлетворять сразу четырем критериям. Во-первых, оно должно вращаться вокруг Солнца, при этом оно не должно быть спутником одной из планет. Пространство вокруг тела должно быть «очищено» от других объектов, и, наконец, тело должно быть достаточно массивным, чтобы быть в состоянии гидростатического равновесия — иначе говоря, оно должно быть относительно круглым. Внутри Солнечной системы есть огромное число тел, удовлетворяющих первым трем критериям, особенно, находящихся внутри Главного пояса астероидов между орбитами Марса и Юпитера. Всем четырем критериям до последнего времени, как считалось, удовлетворяли пять тел Солнечной системы — транснептуновые объекты Плутон, Эрида, Макемаке, Хаумеа и наименьшая из известных карликовых планет Церера, находящаяся в поясе астероидов. Однако последние наблюдения показали, что к карликовым планетам стоит отнести еще одно тело – Гигею, четвертый по величине объект пояса астероидов после Цереры, Весты и Паллады. До недавнего времени этот астероид был мало изучен — астрономы знали, что он имеет продолговатую форму размером более 400 километров. Наблюдения, проведенные в Чили на одном из крупнейших телескопов мира Very Large Telescope (Очень большой телескоп), смогли качественно изменить представление о форме этого тела. «Благодаря уникальным возможностям инструмента SPHERE на телескопе VLT, остающемся одной из мощнейших строящих изображение систем в мире, мы смогли рассмотреть форму Гигеи, которая оказалась почти сферической, — пояснил астроном Пьер Вернацца из Астрофизической лаборатории в Марселе. — Благодаря этим снимкам Гигея может быть переклассифицирована в карликовую планету, самую маленькую в Солнечной системе». Согласно новым наблюдениям, диаметр Гигеи составляет свыше 430 километров, а период вращения вокруг собственной оси — 13,8 часа. Ученые и раньше знали, что поверхность Гигеи схожа с поверхностью Цереры и имеет такую же низкую плотность. Однако теперь стало очевидно, что Гигея почти такая же круглая, как и Церера, и потому имеет полное право тоже называться карликовой планетой. Немало удивило астрономов и другое обстоятельство — отсутствие на поверхности Гигеи крупных ударных кратеров. Дело в то, что примерно на одной орбите с Гигеей находится порядка 7 тыс. небольших астероидов схожего состава. Гигея — наиболее массивное из этих тел, принадлежащих к одному семейству. Считается, что вся группа образовалась порядка 2 миллиардов лет назад, когда удар крупного тела выбил из Гигеи множество осколков, вылетевших в окружающее пространство. Похожее событие пережила в далеком прошлом Веста, создав вокруг себя аналогичное семейство астероидов. Правда, на теле Весты до сих пор присутствуют следы этого бурного прошлого. Снимки 95% поверхности Гигеи позволили обнаружить лишь два мелких кратера на ее поверхности, которые не идут ни в какое сравнение с «ранами» на поверхности Гигеи. «Ни один из этих кратеров не мог быть вызван ударом, образовавшим семейство астероидов Гигеи, чей объем соответствует объему тела диаметром сто километров. Они слишком маленькие», — пояснил интригу Мирослав Броз, астроном из Карлова Университета в Чехии. На помощь в решении этой загадки пришло численное моделирование, часто используемое астрофизиками для описания эволюции различных астрономических систем. С его помощью астрономы показали, что округлая форма современной Гигеи и наличие рядом с ней роя астероидов — следствие сильнейшего лобового столкновения Гигеи с крупным телом, имевшим в поперечнике от 75 до 150 километров. Моделирование показало, что это соударение, произошедшее 2 млрд лет назад, почти полностью разнесло на части Гигею. Образовавшиеся после этого осколки, слипшись под действием гравитации, заново сформировали Гигею, дав ей почти идеально круглую форму. «Такие столкновения между двумя крупными телами в поясе астероидов уникальны для последних 3-4 миллиардов лет», — пояснил Равел Севечек, соавтор исследования , опубликованного в журнале Nature Astronomy. Ранее астрономы объявили об открытии, которое в очередной раз заставит авторов переписывать учебники астрономии. С конца 1990-х годов считалось, что планетой Солнечной системы, имеющей наибольшее число спутников, является Юпитер, у которого их в настоящее время насчитывается 79 штук. Вторым после него по этому показателю был Сатурн, третьим – Уран. Однако теперь рекордсменом стал именно Сатурн, которому астрономы добавили сразу 20 небольших, ранее неизвестных спутников. Теперь их у него как минимум 82 штуки. Новые спутники были открыты при помощи телескопа Subaru, расположенного на горе Мауна-Кеа на Гавайях. Обнаружить объекты позволили новые компьютерные алгоритмы, примененные для обработки данных, полученных еще в 2004-2004 годы." #your input in russian
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
outputs = model.generate(input_ids, max_length=100, min_length=50, length_penalty=2.0, num_beams=4, early_stopping=True) #change according to your preferences
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(summary)

References Hugging Face Model Hub T5 Paper Disclaimer: The model's performance may be influenced by the quality and representativeness of the data it was fine-tuned on. Users are encouraged to assess the model's suitability for their specific applications and datasets.

Downloads last month
268
Safetensors
Model size
223M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train sarahai/ruT5-base-summarizer

Spaces using sarahai/ruT5-base-summarizer 2