Urdu model for abstract summarization.

import re
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
article_text = """ہوٹل کی عمارت میں آگ لگ گئی ہے اور دھوئیں کے کالے بادل دکھائی دے رہے ہیں ہوٹل کی عمارت میں آگ لگ گئی ہے اور ایمبولینس جائے وقوعہ پر پہنچ گئی ہیں۔ تاہم ابھی ہلاکتوں کی کوئی اطلاع موصول نہیں ہوئی ہے۔ اس کے علاوہ دیگر دو دھماکے متحدہ عرب امارات کے فوجیوں کی رہائش گاہ اور ہیڈ کوارٹرز پر ہوئے ہیں۔ خبر رساں ادارے روئٹرز کے مطابق مقامی باشندوں کا کہنا ہے کہ اس راکٹ حملے میں متعدد افراد ہلاک ہوئے ہیں تاہم سرکاری طور پر اس کی تصدیق نہیں ہو سکی ہے۔ سوشل میڈیا پر جاری تصاویر میں عدن کے شہر میں اس ہوٹل کے گرد کالے دھوئیں کے بادل اٹھتے دیکھے جا سکتے ہیں۔ سعودی عرب کے تعاون سے حکومت کی وفادار فوج نے جولائی میں حوثی باغیوں سے یہ شہر خالی کرایا تھا اور تب سے قصر نامی ہوٹل یمن کی سرکاری انتظامیہ کا ٹھکانہ تھا۔ حکام کے مطابق یمن کے نائب صدر خالد بحاح اور دوسرے اعلیٰ حکام حملے میں محفوظ رہے جبکہ صدر منصور ہادی کے بارے میں کہا جا رہا ہے کہ وہ بیرون ملک ہیں۔ اطلاعات کے مطابق ایک دستی بم ہوٹل کے دروازے پر داغا گیا، دوسرا آر پی جی دروازے کے قریب گرا جبکہ تیسرا راکٹ شہر کے بریقہ ضلعے میں گرا۔ ٹوئٹر پر ایک میڈیا نے ہوٹل کی حفاظت پر معمور گارڈز کی ہلاکتوں کا ذکر کیا ہے۔
"""

model_name = "mirfan899/usum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=512
)["input_ids"]
output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]
summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)
print(summary)
Downloads last month
12
Safetensors
Model size
582M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train mirfan899/usum