PaddleOCR-VL Arabic Handwritten OCR
Fine-tuned from PaddlePaddle/PaddleOCR-VL-1.6 on khatt-augmented-arabic-20k-s3.
Benchmark Results
Evaluation on 200 held-out handwritten Arabic text line images (from khatt-augmented-arabic-20k-s3, not seen during training):
| Model | WER | CER |
|---|---|---|
| PaddleOCR-VL-1.6 Base (no fine-tune) | 0.8057 | 0.3690 |
| Qwen2.5-VL-7B-Instruct (no fine-tune) | 0.6322 | 0.3292 |
| Qwen3.5-2B (no fine-tune) | 1.0575 | 0.6062 |
| Qwen3.5-4B (no fine-tune) | 2.8650 | 2.5711 |
| PaddleOCR-VL-1.6 Fine-tuned (this model) | 0.0077 | 0.0056 |
The fine-tuned model achieves 99.0% WER reduction and 98.5% CER reduction compared to the base model, significantly outperforming all Qwen VL baselines on this Arabic handwritten OCR task.
Sample Predictions
Perfect (WER=0.0)
Reference: أو الشعر الجاهلي أو النثر الجاهلي أو أي أدب أو علم جاهلي، الجودة ، ونالت لقب "الحديقة المتميزة عند انخفاض الماء @ باليابس عن طريق مخاضة يبلغ طولها السويس والإسماعيلية وشمال سيناء وبور سعيد وجنوب سيناء، فجامعة الباحثون والدارسون يتهيبون ابحث فيها والغوص في مجاهل تاريخها، وما كان وما شابه ذلك "ابن بتع" أو "ابن همدان"، و المقصود من الجملتين هو "من بتع" ويميز الكتاب بين نوعين من الإدارة العامة هما الإدارة المركزية والإدارة اللا مركزية،
Base pred: أو الشعر المباهلي أو الشرالمهاهلي أو أبي أرب أرعلم ساهلين البوده و وانات لعب "الحيوية الميمزية" عند رضفا من المياعى سجيم بالبابين عن مدربين كما منه ببلع منولما السويس والاحماء الميلوح والصال سناك وبوصصيد وصبوب سينياء فهما معقبة المامهور و لبارور يهديب امبععها ولمؤس من بماصل تاريخ ودكام وماشاب ذلك «ابسبح أو ""البه همران""، والمعقور مسالمطلبي هو ""مسبح"" وبميز الكتاب بين نؤمين من الإدارة العامة مما الإدارة المركزية والإدارة اللامركزية
FT pred: أو الشعر الجاهلي أو النثر الجاهلي أو أي أدب أو علم جاهلي، الجودة ، ونالت لقب "الحديقة المتميزة عند انخفاض الماء @ باليابس عن طريق مخاضة يبلغ طولها السويس والإسماعيلية وشمال سيناء وبور سعيد وجنوب سيناء، فجامعة الباحثون والدارسون يتهيبون ابحث فيها والغوص في مجاهل تاريخها، وما كان وما شابه ذلك "ابن بتع" أو "ابن همدان"، و المقصود من الجملتين هو "من بتع" ويميز الكتاب بين نوعين من الإدارة العامة هما الإدارة المركزية والإدارة اللا مركزية،
Perfect (WER=0.0)
Reference: لهذا لم يتوقف عن الذهاب إلى ملتقيات التوظيف قال تشه: "في السابق، لم يكن @ عسيرا السدّ و إصلاحه في عام 657 الحميري، انحداراً شديداً قصيراً وسواحلها المهيمنة على البحر، صخرية في اغلب الأحيان، يصعب رسو السفن فيها أن القراءات المنسوبة إليهم هي قراءات لا يمكن أن تكون قراءات لنصوص جاهلية، وقد يأخذ ابن عرس فيدخله في كمه ويخرجه من الآخر، كالذي يحمل الطائر على يده، فإذا صاد شيئاً انتفع وهذا نرى لفظة "أخبار" بمعنى تاريخ، ورد في "الفهرست" في أثناء الحديث عن في كتاب "الإكليل" ما يشير إلى جاهلية وأصل جاهلي، و أما في سائر الأصول التاريخية الأخرى، فهي مقتضبة تبرز ضفة من هذه الجزيرة باتجاه فتحة الخليج على شكل صدفة محارية ذات سلسلة
FT pred: لهذا لم يتوقف عن الذهاب إلى ملتقيات التوظيف قال تشه: "في السابق، لم يكن @ عسيرا السدّ و إصلاحه في عام 657 الحميري، انحداراً شديداً قصيراً وسواحلها المهيمنة على البحر، صخرية في اغلب الأحيان، يصعب رسو السفن فيها أن القراءات المنسوبة إليهم هي قراءات لا يمكن أن تكون قراءات لنصوص جاهلية، وقد يأخذ ابن عرس فيدخله في كمه ويخرجه من الآخر، كالذي يحمل الطائر على يده، فإذا صاد شيئاً انتفع وهذا نرى لفظة "أخبار" بمعنى تاريخ، ورد في "الفهرست" في أثناء الحديث عن في كتاب "الإكليل" ما يشير إلى جاهلية وأصل جاهلي، و أما في سائر الأصول التاريخية الأخرى، فهي مقتضبة تبرز ضفة من هذه الجزيرة باتجاه فتحة الخليج على شكل صدفة محارية ذات سلسلة
Minor errors (WER=0.23)
Reference: قفزت مالي وعلى ما تفرع منها من لهجات عن ذلك فيما بعد وهو رأي العدنانيين @ جنانه في نضال ثقافي طويل وعلى مدى أربعون عاماً من والاقتصاد، واحترام وبر الوالدين والجد في الدراسة هذه المعلقات من الجغرافيين العرب الحربي ( ت 385هـ/898م) جاعلاً إياها على طريق الحج والتجارة اليمني الساحلي وفي ظل هذا الوضع يمكن الحديث عن كيانات مصرفية إسلامية
FT pred: قفزت مالي وعلى ما تفرع منها من لهجات عن ذلك فيما بعد وهو رأي العدنانيين @ جنانه في نضال ثقافي طويل وعلى مدى أربعون عاماً من والاقتصاد، واحترام وبر الوالدين والجد في الدراسة هذه المعلقات من الجغرافيين العرب الحربي ( ت 385هـ/898م جاعلاً إياها على طريق الحج والتجارة اليمني الساحلي وفي ظل هذا الوضع يمكن الحديث عن كيانات مصرفية إسلامية
Usage
from PIL import Image
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText
processor = AutoProcessor.from_pretrained("Waqf-AI/written_ocr_paddle1.6", trust_remote_code=True)
model = AutoModelForImageTextToText.from_pretrained(
"Waqf-AI/written_ocr_paddle1.6",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).to("cuda").eval()
image = Image.open("test.png").convert("RGB")
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": image},
{"type": "text", "text": "OCR:"},
],
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=256)
pred = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True).strip()
print(pred)
Training Data
- Dataset: khatt-augmented-arabic-20k-s3 (~20k synthetic augmented Arabic handwritten text images)
- Base model: PaddlePaddle/PaddleOCR-VL-1.6
- Downloads last month
- 94


