Model Description

The dataset contains around 40K articles about politics, science, technology, social life collected until June 2021 from Hromadske.ua.

Load the model and mt tokenizer :
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

tokenizer = AutoTokenizer.from_pretrained("google/mt5-large")

model = AutoModelForSeq2SeqLM.from_pretrained("SGaleshchuk/t5-large-ua-news")

summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, framework="pt")
##### Try on your example

summary = summarizer("російські війська захопили запорізьку аес на початку повномасштабного вторгнення 4 березня 2022 року . попри оголошену окупантами «анексію» запорізької аес, на станції продовжують працювати українські фахівці . але для роботи окупанти змушують отримувати російські паспорти й підписувати договір з «росатомом» . за даними «енергоатому», зараз усі шість енергоблоків заес зупинені, а окупанти блокують їхнє ввімкнення . окупована станція продовжує постійно споживати електроенергію на власні потреби з енергосистеми україни . «російські окупанти продовжують перетворювати запорізьку аес на військову базу, мінуючи периметр довкола станції . і ці дії не можуть не мати наслідків», - зазначили там .", min_length=3, max_length = 128)
print(summary)
[{'summary_text': 'окупаційна влада рф продовжує перетворювати запорізьку атомну електростанцію на військову базу . '}]
  • Model type: sequence-to-sequence, summarization
  • Language(s) (NLP): Ukrainian
  • Finetuned from model : mT5-large

Model Sources

  • Dataset: UberText
  • Paper: Svitlana Galeshchuk, Abstractive Summarization for the Ukrainian Language: Multi-Task Learning with Hromadske.ua News Dataset. Proceedings of UNLP Workshop at EACL 2023.
  • Demo: to be provided

Preprocessing

It is recommended to lowercase an input text.

Metrics

The benchmark metric for abstractive summarization tasks adopted by the research community is the ROUGE score. The metric compares a generated summary against a reference. We employ three sub-categories of the ROUGE score:

• ROUGE-1: unigram overlap

• ROUGE-2: bigram overlap

• ROUGE-L: Longest Common Subsequence

Results

• ROUGE-1: 22.09

• ROUGE-2: 7.04

• ROUGE-L: 22.12

Downloads last month
7
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.