Edit model card
YAML Metadata Error: "datasets[0]" with value "Arabic Poetry Dataset (6th - 21st century)" is not valid. If possible, use a dataset id from https://hf.co/datasets.

GPT2-Medium-Arabic-Poetry

Fine-tuned aubmindlab/aragpt2-medium on the Arabic Poetry Dataset (6th - 21st century) using 41,922 lines of poetry as the train split and 9,007 (by poets not in the train split) for validation.

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer, set_seed

set_seed(42)
model_name = "elgeish/gpt2-medium-arabic-poetry"
model = AutoModelForCausalLM.from_pretrained(model_name).to("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "للوهلة الأولى قرأت في عينيه"
input_ids = tokenizer.encode(prompt, return_tensors="pt")
samples = model.generate(
    input_ids.to("cuda"),
    do_sample=True,
    early_stopping=True,
    max_length=32,
    min_length=16,
    num_return_sequences=3,
    pad_token_id=50256,
    repetition_penalty=1.5,
    top_k=32,
    top_p=0.95,
)

for sample in samples:
    print(tokenizer.decode(sample.tolist()))
    print("--")

Here's the output:

للوهلة الأولى قرأت في عينيه عن تلك النسم لم تذكر شيءا فلربما نامت علي كتفيها العصافير وتناثرت اوراق التوت عليها وغابت الوردة من
--
للوهلة الأولى قرأت في عينيه اية نشوة من ناره وهي تنظر الي المستقبل بعيون خلاقة ورسمت خطوطه العريضة علي جبينك العاري رسمت الخطوط الحمر فوق شعرك
--
للوهلة الأولى قرأت في عينيه كل ما كان وما سيكون غدا اذا لم تكن امراة ستكبر كثيرا علي الورق الابيض او لا تري مثلا خطوطا رفيعة فوق صفحة الماء
--
Downloads last month
33
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Evaluation results

  • Validation Perplexity on Arabic Poetry Dataset (6th - 21st century)
    self-reported
    282.090