Output is the same as input; Code example please

#2
by KadriMufti - opened

I am testing the model summarization using the below code but the model output is just the same input.

from transformers import AutoTokenizer, AutoModelForCausalLM

model_path = "path/to/AraBART"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

From https://ar.wikipedia.org/wiki/%D8%B3%D9%88%D8%B1%D9%8A%D8%A7#%D8%A7%D9%84%D8%AA%D8%B9%D9%84%D9%8A%D9%85

ARTICLE_TO_SUMMARIZE = "ينصّ الدستور على كون التعليم حقًا من حقوق كل مواطن، وهو إلزامي في مرحلة التعليم الأساسي ومجاني في جميع المراحل. إلى جانب المدارس التي تديرها الدولة عن طريق وزارة التربية والتعليم، فإنّ القطاع الخاص يستثمر في مجال التعليم أيضًا، مع ملاحظة إجبارية مواد المنهاج التي تصدره الوزارة. التعليم الماقبل الجامعي في سوريا، ينقسم إلى مرحلتين: التعليم الأساسي من 6-15 عام وهو مكوّن من حلقتين، ومرحلة التعليم الثانوي من 15 - 18 عامًا، وتشمل ثلاثة فروع هي العلمي والأدبي والشرعي، وسبعة فروع مهنية هي الصناعي والزراعي والتجاري والسياحي والمعلوماتي والفنّي، وينتهي بنيل الطالب شهادة الثانوية العامة، والتي تؤهله بحسب معدله وبناءً على مفاضلة تصدرها وزارة التعليم العالي اختصاصه النهائي في الجامعات. غالب السوريين يتجه للدراسة في جامعات الدولة، وأقدمها جامعة دمشق. وضعت الدولة عام 1972 قانونًا لمحو الأميّة، غير أنها لم تفلح في تطبيقه تمامًا، وقد انخفضت نسبة الأميين من 19% عام 2000 إلى 14.2% عام 2008، وبهذا تحتل سوريا المرتبة التاسعة عربيًا والمرتبة 119 عالميًا في محو الأمية. ينظم في البلاد سنويًا عدد كبير من المهرجانات الثقافية ومعارض الكتب أبرزها «معرض دمشق للكتاب»، وتدير الحكومة عددًا من المكتبات وقاعات المطالعة، ولعلّ أبرز المكتبات العامة هي مكتبة الأسد الوطنية. كذلك تحوي المدن مراكز المحافظات ومراكز المناطق على دور ثقافية ومسارح تديرها وزارة الثقافة، وتحوي مكتبات عامّة صغيرة الحجم، وتنظم من خلالها المهرجانات وسائر الأيام الثقافية."

inputs = tokenizer(ARTICLE_TO_SUMMARIZE, return_tensors="pt")

Generate Summary

summary_ids = model.generate(**inputs, num_beams=4, max_length=1024)
print(tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])

Regardless of the max_length and num_beams parameters, the model input is exactly the same as the input.

Sign up or log in to comment