File size: 2,767 Bytes
2c60bf5
 
 
 
 
5fe1d98
2c60bf5
 
 
 
333aa6b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
---
tags:
- summarization
- mT5
datasets:
- mirfan899/usummary
language:
- ur
---

Urdu model for abstract summarization.

```python
import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """ہوٹل کی عمارت میں آگ لگ گئی ہے اور دھوئیں کے کالے بادل دکھائی دے رہے ہیں ہوٹل کی عمارت میں آگ لگ گئی ہے اور ایمبولینس جائے وقوعہ پر پہنچ گئی ہیں۔ تاہم ابھی ہلاکتوں کی کوئی اطلاع موصول نہیں ہوئی ہے۔ اس کے علاوہ دیگر دو دھماکے متحدہ عرب امارات کے فوجیوں کی رہائش گاہ اور ہیڈ کوارٹرز پر ہوئے ہیں۔ خبر رساں ادارے روئٹرز کے مطابق مقامی باشندوں کا کہنا ہے کہ اس راکٹ حملے میں متعدد افراد ہلاک ہوئے ہیں تاہم سرکاری طور پر اس کی تصدیق نہیں ہو سکی ہے۔ سوشل میڈیا پر جاری تصاویر میں عدن کے شہر میں اس ہوٹل کے گرد کالے دھوئیں کے بادل اٹھتے دیکھے جا سکتے ہیں۔ سعودی عرب کے تعاون سے حکومت کی وفادار فوج نے جولائی میں حوثی باغیوں سے یہ شہر خالی کرایا تھا اور تب سے قصر نامی ہوٹل یمن کی سرکاری انتظامیہ کا ٹھکانہ تھا۔ حکام کے مطابق یمن کے نائب صدر خالد بحاح اور دوسرے اعلیٰ حکام حملے میں محفوظ رہے جبکہ صدر منصور ہادی کے بارے میں کہا جا رہا ہے کہ وہ بیرون ملک ہیں۔ اطلاعات کے مطابق ایک دستی بم ہوٹل کے دروازے پر داغا گیا، دوسرا آر پی جی دروازے کے قریب گرا جبکہ تیسرا راکٹ شہر کے بریقہ ضلعے میں گرا۔ ٹوئٹر پر ایک میڈیا نے ہوٹل کی حفاظت پر معمور گارڈز کی ہلاکتوں کا ذکر کیا ہے۔
"""

model_name = "mirfan899/usum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]
output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]
summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)
print(summary)
```