PEGASUS BASE
This model was pretrained on Bulgarian language. It was intorduced in this paper.
Model description
The training data is private Bulgarian text from CNN, DailyMail articles.
Intended uses & limitations
You can use the raw model for summarization.
How to use
Here is how to use this model in PyTorch:
>>> from transformers import PegasusForConditionalGeneration, AutoTokenizer
>>>
>>> model_id = "rmihaylov/pegasus-base-cnn-dailymail-bg"
>>> model = PegasusForConditionalGeneration.from_pretrained(model_id)
>>> tokenizer = AutoTokenizer.from_pretrained(model_id)
>>>
>>> text = """Лукашенко поиска още полицията "да защити работническите колективи и организации и медии от заплахите на улицата", а който от държавните медии протестира, изобщо да не се връща на работа. На граничните служби бе наредено да засилят охраната на цялата граница, "за да не се допускат в Беларус от други държави бойци, оръжие, боеприпаси, пари за финансиране на безредиците, защото виждаме, че такива пари пристигат". Министерството на отбраната трябва да следи "движението на войски на НАТО на територията на Полша и Литва, тяхното направление и замисли, които в момента виждаме - и някои от тях ни карат да се замислим - и да не се притеснява да изкарва нашите въоръжени сили и техника в направлението на тяхното придвижване". Лукашенко изрично посочи събитията в град Гродно, "защото там има по-голямо желание за дестабилизация на обстановката, отколкото в Минск". Гродно стана вчера първият по-голям град, в който властите се разбраха с протестиращите да протестират на определени места в центъра на града. Той нарече опозицията "черносотници", тласкащи страната към пропаст и унищожение, както и към сблъсък с "исторически братския руски народ". Медиите трябва специално да се активизират срещу това, заръча Лукашенко."""
>>>
>>> batch = tokenizer(
>>> src_text,
>>> truncation=True,
>>> padding="longest",
>>> return_tensors="pt",
>>> return_token_type_ids=False)
>>>
>>> inputs = {
>>> 'max_length': 150,
>>> 'min_length': 10,
>>> 'do_sample': False,
>>> 'temperature': 1.0,
>>> 'top_k': 50,
>>> 'top_p': 1.0,
>>> 'repetition_penalty': 1.0,
>>> 'no_repeat_ngram_size': 0,
>>> 'use_cache': True,
>>> 'num_beams': 2,
>>> 'length_penalty': 1.0,
>>> 'num_return_sequences': 1,
>>> 'early_stopping': False}
>>>
>>> batch.update(inputs)
>>>
>>> summary = model.generate(**batch)
>>>
>>> tgt_text = tokenizer.batch_decode(summary, skip_special_tokens=True)
>>> print(tgt_text)
['Лукашенко изрично посочи събитията в Гродно, "защото там има по-голямо желание за дестабилизация на обстановката, отколкото в Минск" Той нарече опозицията "черносотници", тласкащи страната към пропаст и унищожение, както и сблъсък с "исторически братския руски народ"']
- Downloads last month
- 7
Inference API (serverless) has been turned off for this model.