support new transformers pipeline version
Browse files
README.md
CHANGED
@@ -33,14 +33,13 @@ Person, Location, Organization, Nationality, Job, Product, Event, Time, Art-Work
|
|
33 |
|
34 |
Install the following Python packages
|
35 |
|
36 |
-
`$ pip3 install
|
37 |
|
38 |
> If you are using `Google Colab`, please restart your runtime after installing the packages.
|
39 |
|
40 |
-----------
|
41 |
|
42 |
```python
|
43 |
-
from simpletransformers.ner import NERModel, NERArgs
|
44 |
import logging
|
45 |
import re
|
46 |
|
@@ -50,89 +49,67 @@ from nltk.tokenize import word_tokenize
|
|
50 |
|
51 |
# disable INFO Logs
|
52 |
transformers_logger = logging.getLogger("transformers")
|
53 |
-
simpletransformers_logger = logging.getLogger("simpletransformers")
|
54 |
-
simpletransformers_ner_logger = logging.getLogger("simpletransformers.ner")
|
55 |
transformers_logger.setLevel(logging.WARNING)
|
56 |
-
simpletransformers_logger.setLevel(logging.WARNING)
|
57 |
-
simpletransformers_ner_logger.setLevel(logging.WARNING)
|
58 |
|
59 |
-
# Load the Model
|
60 |
custom_labels = ["O", "B-job", "I-job", "B-nationality", "B-person", "I-person", "B-location",
|
61 |
"B-time", "I-time", "B-event", "I-event", "B-organization", "I-organization",
|
62 |
"I-location", "I-nationality", "B-product", "I-product", "B-artwork", "I-artwork"]
|
63 |
|
64 |
-
|
65 |
-
|
66 |
|
67 |
-
|
68 |
-
|
69 |
-
|
70 |
-
|
71 |
-
|
|
|
72 |
|
73 |
# Model Inference
|
74 |
samples = [
|
75 |
"تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م. تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده",
|
76 |
"بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته",
|
77 |
"امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو",
|
78 |
-
"Government extends flight ban from India
|
79 |
]
|
80 |
|
81 |
# Preprocess
|
82 |
samples = [ " ".join(word_tokenize(sample.strip())) for sample in samples if sample.strip() != "" ]
|
83 |
|
84 |
-
|
85 |
-
|
86 |
-
|
87 |
-
|
88 |
-
|
89 |
-
|
90 |
-
|
91 |
-
for rec in pred:
|
92 |
-
|
93 |
-
token = list(rec.keys())[0]
|
94 |
-
label = rec[token]
|
95 |
-
|
96 |
-
if label == "O":
|
97 |
-
continue
|
98 |
-
|
99 |
-
if "B-" in label:
|
100 |
-
grouped_entities.append({"token": token, "label": label.replace("B-","")})
|
101 |
-
elif "I-" in label and len(grouped_entities) > 0:
|
102 |
-
grouped_entities[-1]["token"] += f" {token}"
|
103 |
-
|
104 |
-
entities.append(grouped_entities)
|
105 |
-
|
106 |
-
# Print the model outputs
|
107 |
-
for sample, results in zip(samples, entities):
|
108 |
-
print(sample)
|
109 |
-
for res in results:
|
110 |
-
print("\t", res["token"], "=>", res["label"])
|
111 |
-
print("==================")
|
112 |
|
113 |
###
|
114 |
# تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م . تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده
|
115 |
-
#
|
116 |
-
#
|
117 |
-
#
|
118 |
-
#
|
119 |
-
#
|
|
|
120 |
# بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته
|
121 |
-
#
|
122 |
-
#
|
123 |
-
#
|
124 |
-
#
|
125 |
-
#
|
|
|
126 |
# امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في ��ياب الدون كرستيانو رونالدو
|
127 |
-
#
|
128 |
-
#
|
129 |
-
#
|
130 |
-
#
|
131 |
-
|
132 |
-
#
|
133 |
-
#
|
134 |
-
#
|
135 |
-
#
|
|
|
136 |
###
|
137 |
```
|
138 |
|
|
|
33 |
|
34 |
Install the following Python packages
|
35 |
|
36 |
+
`$ pip3 install transformers==4.7.0 nltk==3.5 protobuf==3.15.3 torch==1.7.1`
|
37 |
|
38 |
> If you are using `Google Colab`, please restart your runtime after installing the packages.
|
39 |
|
40 |
-----------
|
41 |
|
42 |
```python
|
|
|
43 |
import logging
|
44 |
import re
|
45 |
|
|
|
49 |
|
50 |
# disable INFO Logs
|
51 |
transformers_logger = logging.getLogger("transformers")
|
|
|
|
|
52 |
transformers_logger.setLevel(logging.WARNING)
|
|
|
|
|
53 |
|
|
|
54 |
custom_labels = ["O", "B-job", "I-job", "B-nationality", "B-person", "I-person", "B-location",
|
55 |
"B-time", "I-time", "B-event", "I-event", "B-organization", "I-organization",
|
56 |
"I-location", "I-nationality", "B-product", "I-product", "B-artwork", "I-artwork"]
|
57 |
|
58 |
+
from transformers import AutoTokenizer, AutoModelForTokenClassification
|
59 |
+
from transformers import pipeline
|
60 |
|
61 |
+
# ===== import the model
|
62 |
+
m_name = "marefa-nlp/marefa-ner"
|
63 |
+
tokenizer = AutoTokenizer.from_pretrained(m_name)
|
64 |
+
model = AutoModelForTokenClassification.from_pretrained(m_name)
|
65 |
+
|
66 |
+
ar_ner = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True, aggregation_strategy="simple")
|
67 |
|
68 |
# Model Inference
|
69 |
samples = [
|
70 |
"تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م. تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده",
|
71 |
"بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته",
|
72 |
"امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في غياب الدون كرستيانو رونالدو",
|
73 |
+
"Government extends flight ban from India and Pakistan until June 21"
|
74 |
]
|
75 |
|
76 |
# Preprocess
|
77 |
samples = [ " ".join(word_tokenize(sample.strip())) for sample in samples if sample.strip() != "" ]
|
78 |
|
79 |
+
for sample in samples:
|
80 |
+
results = ar_ner(sample)
|
81 |
+
print(sample)
|
82 |
+
for result in results:
|
83 |
+
print("\t", result["word"], "=>", result["entity_group"])
|
84 |
+
|
85 |
+
print("=========\n")
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
86 |
|
87 |
###
|
88 |
# تلقى تعليمه في الكتاب ثم انضم الى الأزهر عام 1873م . تعلم على يد السيد جمال الدين الأفغاني والشيخ محمد عبده
|
89 |
+
# الأزهر => organization
|
90 |
+
# عام 1873م => time
|
91 |
+
# جمال الدين الأفغاني => person
|
92 |
+
# محمد عبده => person
|
93 |
+
# =========
|
94 |
+
|
95 |
# بعد عودته إلى القاهرة، التحق نجيب الريحاني فرقة جورج أبيض، الذي كان قد ضمَّ - قُبيل ذلك - فرقته إلى فرقة سلامة حجازي . و منها ذاع صيته
|
96 |
+
# القاهرة => location
|
97 |
+
# نجيب الريحاني => person
|
98 |
+
# فرقة جورج أبيض => organization
|
99 |
+
# فرقة سلامة حجازي => organization
|
100 |
+
# =========
|
101 |
+
|
102 |
# امبارح اتفرجت على مباراة مانشستر يونايتد مع ريال مدريد في ��ياب الدون كرستيانو رونالدو
|
103 |
+
# مانشستر يونايتد => organization
|
104 |
+
# ريال مدريد => organization
|
105 |
+
# كرستيانو رونالدو => person
|
106 |
+
# =========
|
107 |
+
|
108 |
+
# Government extends flight ban from India and Pakistan until June 21
|
109 |
+
# India => location
|
110 |
+
# Pakistan => location
|
111 |
+
# June 21 => time
|
112 |
+
# =========
|
113 |
###
|
114 |
```
|
115 |
|