arabic-ner / README.md
julien-c's picture
julien-c HF staff
Migrate model card from transformers-repo
6dd6d08
metadata
language: ar

Arabic Named Entity Recognition Model

Pretrained BERT-based (arabic-bert-base) Named Entity Recognition model for Arabic.

The pre-trained model can recognize the following entities:

  1. PERSON
  • و هذا ما نفاه المعاون السياسي للرئيس نبيه بري ، النائب علي حسن خليل

  • لكن أوساط الحريري تعتبر أنه ضحى كثيرا في سبيل البلد

  • و ستفقد الملكة إليزابيث الثانية بذلك سيادتها على واحدة من آخر ممالك الكومنولث

  1. ORGANIZATION
  • حسب أرقام البنك الدولي

  • أعلن الجيش العراقي

  • و نقلت وكالة رويترز عن ثلاثة دبلوماسيين في الاتحاد الأوروبي ، أن بلجيكا و إيرلندا و لوكسمبورغ تريد أيضاً مناقشة

  • الحكومة الاتحادية و حكومة إقليم كردستان

  • و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام برشلونة الإسباني في

  1. LOCATION
  • الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى أثينا

  • جزيرة ساكيز تبعد 1 كم عن إزمير

  1. DATE
  • غدا الجمعة

  • 06 أكتوبر 2020

  • العام السابق

  1. PRODUCT
  • عبر حسابه ب تطبيق “ إنستغرام ”

  • الجيل الثاني من نظارة الواقع الافتراضي أوكولوس كويست تحت اسم " أوكولوس كويست 2 "

  1. COMPETITION
  • عدم المشاركة في بطولة فرنسا المفتوحة للتنس

  • في مباراة كأس السوبر الأوروبي

  1. PRIZE
  • جائزة نوبل ل لآداب

  • الذي فاز ب جائزة “ إيمي ” لأفضل دور مساند

  1. EVENT
  • تسجّل أغنية جديدة خاصة ب العيد الوطني السعودي

  • مهرجان المرأة يافوية في دورته الرابعة

  1. DISEASE
  • في مكافحة فيروس كورونا و عدد من الأمراض

  • الأزمات المشابهة مثل “ انفلونزا الطيور ” و ” انفلونزا الخنازير

Example

Find here a complete example to use this model

Here is the map from index to label:

id2label = {
    "0": "B-PERSON",
    "1": "I-PERSON",
    "2": "B-ORGANIZATION",
    "3": "I-ORGANIZATION",
    "4": "B-LOCATION",
    "5": "I-LOCATION",
    "6": "B-DATE",
    "7": "I-DATE"",
    "8": "B-COMPETITION",
    "9": "I-COMPETITION",
    "10": "B-PRIZE",
    "11": "I-PRIZE",
    "12": "O",
    "13": "B-PRODUCT",
    "14": "I-PRODUCT",
    "15": "B-EVENT",
    "16": "I-EVENT",
    "17": "B-DISEASE",
    "18": "I-DISEASE",
}

Training Corpus

The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually.

Results

The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.