--- language: ar --- # Arabic Named Entity Recognition Model Pretrained BERT-based ([arabic-bert-base](https://huggingface.co/asafaya/bert-base-arabic)) Named Entity Recognition model for Arabic. The pre-trained model can recognize the following entities: 1. **PERSON** - و هذا ما نفاه المعاون السياسي للرئيس ***نبيه بري*** ، النائب ***علي حسن خليل*** - لكن أوساط ***الحريري*** تعتبر أنه ضحى كثيرا في سبيل البلد - و ستفقد الملكة ***إليزابيث الثانية*** بذلك سيادتها على واحدة من آخر ممالك الكومنولث 2. **ORGANIZATION** - حسب أرقام ***البنك الدولي*** - أعلن ***الجيش العراقي*** - و نقلت وكالة ***رويترز*** عن ثلاثة دبلوماسيين في ***الاتحاد الأوروبي*** ، أن ***بلجيكا*** و ***إيرلندا*** و ***لوكسمبورغ*** تريد أيضاً مناقشة - ***الحكومة الاتحادية*** و ***حكومة إقليم كردستان*** - و هو ما يثير الشكوك حول مشاركة النجم البرتغالي في المباراة المرتقبة أمام ***برشلونة*** الإسباني في 3. ***LOCATION*** - الجديد هو تمكين اللاجئين من “ مغادرة الجزيرة تدريجياً و بهدوء إلى ***أثينا*** ” - ***جزيرة ساكيز*** تبعد 1 كم عن ***إزمير*** 4. **DATE** - ***غدا الجمعة*** - ***06 أكتوبر 2020*** - ***العام السابق*** 5. **PRODUCT** - عبر حسابه ب ***تطبيق “ إنستغرام ”*** - الجيل الثاني من ***نظارة الواقع الافتراضي أوكولوس كويست*** تحت اسم " ***أوكولوس كويست 2*** " 6. **COMPETITION** - عدم المشاركة في ***بطولة فرنسا المفتوحة للتنس*** - في مباراة ***كأس السوبر الأوروبي*** 7. **PRIZE** - ***جائزة نوبل ل لآداب*** - الذي فاز ب ***جائزة “ إيمي ” لأفضل دور مساند*** 8. **EVENT** - تسجّل أغنية جديدة خاصة ب ***العيد الوطني السعودي*** - ***مهرجان المرأة يافوية*** في دورته الرابعة 9. **DISEASE** - في مكافحة فيروس ***كورونا*** و عدد من الأمراض - الأزمات المشابهة مثل “ ***انفلونزا الطيور*** ” و ” ***انفلونزا الخنازير*** ## Example [Find here a complete example to use this model](https://github.com/hatmimoha/arabic-ner) Here is the map from index to label: ``` id2label = { "0": "B-PERSON", "1": "I-PERSON", "2": "B-ORGANIZATION", "3": "I-ORGANIZATION", "4": "B-LOCATION", "5": "I-LOCATION", "6": "B-DATE", "7": "I-DATE"", "8": "B-COMPETITION", "9": "I-COMPETITION", "10": "B-PRIZE", "11": "I-PRIZE", "12": "O", "13": "B-PRODUCT", "14": "I-PRODUCT", "15": "B-EVENT", "16": "I-EVENT", "17": "B-DISEASE", "18": "I-DISEASE", } ``` ## Training Corpus The training corpus is made of 378.000 tokens (14.000 sentences) collected from the Web and annotated manually. ## Results The results on a valid corpus made of 30.000 tokens shows an F-measure of ~87%.