metadata

language: ar

Arabic Named Entity Recognition Model

Pretrained BERT-based (arabic-bert-base) Named Entity Recognition model for Arabic.

The pre-trained model can recognize the following entities:

PERSON

و هذا ما نفاه المعاون السياسي للرئيس نبيه بري ، النائب علي حسن خليل
لكن أوساط الحريري تعتبر أنه ضحى كثيرا في سبيل البلد
و ستفقد الملكة إليزابيث الثانية بذلك سيادتها على واحدة من آخر ممالك الكومنولث

ORGANIZATION

حسب أرقام البنك الدولي
أعلن الجيش العراقي
و نقلت وكالة رويترز عن ثلاثة دبلوماسيين في الاتحاد الأوروبي ، أن بلجيكا و إيرلندا و لوكسمبورغ تريد أيضاً مناقشة
الحكومة الاتحادية و حكومة إقليم كردستان
و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام برشلونة الإسباني في

LOCATION

الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى أثينا ”
جزيرة ساكيز تبعد 1 كم عن إزمير

DATE

غدا الجمعة
06 أكتوبر 2020
العام السابق

PRODUCT

عبر حسابه ب تطبيق “ إنستغرام ”
الجيل الثاني من نظارة الواقع الافتراضي أوكولوس كويست تحت اسم " أوكولوس كويست 2 "

COMPETITION

عدم المشاركة في بطولة فرنسا المفتوحة للتنس
في مباراة كأس السوبر الأوروبي

PRIZE

جائزة نوبل ل لآداب
الذي فاز ب جائزة “ إيمي ” لأفضل دور مساند

EVENT

تسجّل أغنية جديدة خاصة ب العيد الوطني السعودي
مهرجان المرأة يافوية في دورته الرابعة

DISEASE

في مكافحة فيروس كورونا و عدد من الأمراض
الأزمات المشابهة مثل “ انفلونزا الطيور ” و ” انفلونزا الخنازير

Example

Find here a complete example to use this model

Here is the map from index to label:

id2label = {
    "0": "B-PERSON",
    "1": "I-PERSON",
    "2": "B-ORGANIZATION",
    "3": "I-ORGANIZATION",
    "4": "B-LOCATION",
    "5": "I-LOCATION",
    "6": "B-DATE",
    "7": "I-DATE"",
    "8": "B-COMPETITION",
    "9": "I-COMPETITION",
    "10": "B-PRIZE",
    "11": "I-PRIZE",
    "12": "O",
    "13": "B-PRODUCT",
    "14": "I-PRODUCT",
    "15": "B-EVENT",
    "16": "I-EVENT",
    "17": "B-DISEASE",
    "18": "I-DISEASE",
}

Training Corpus

The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually.

Results

The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.