yeshpanovrustem
/

xlm-roberta-large-ner-kazakh

@@ -40,11 +40,22 @@ from transformers import pipeline
 tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
 model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
-nlp = pipeline("ner", model = model, tokenizer = tokenizer)
 example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
 ner_results = nlp(example)
-print(ner_results)
 token = ""
 label_list = []
@@ -63,6 +74,28 @@ token_list.append(token.replace("▁", ""))
 for token, label in zip(token_list, label_list):
     print(f"{token}\t{label}")
 ```
 ## Evaluation results on the validation and test sets

 tokenizer = AutoTokenizer.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
 model = AutoModelForTokenClassification.from_pretrained("yeshpanovrustem/xlm-roberta-large-ner-kazakh")
+# aggregation_strategy = "none"
+nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "none")
 example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
 ner_results = nlp(example)
+for result in ner_results:
+    print(result)
+# output:
+# {'entity': 'B-GPE', 'score': 0.9995646, 'index': 1, 'word': '▁Қазақстан', 'start': 0, 'end': 9}
+# {'entity': 'I-GPE', 'score': 0.9994935, 'index': 2, 'word': '▁Республикасы', 'start': 10, 'end': 22}
+# {'entity': 'B-LOCATION', 'score': 0.99906737, 'index': 4, 'word': '▁Шығыс', 'start': 25, 'end': 30}
+# {'entity': 'I-LOCATION', 'score': 0.999153, 'index': 5, 'word': '▁Еуропа', 'start': 31, 'end': 37}
+# {'entity': 'B-LOCATION', 'score': 0.9991597, 'index': 7, 'word': '▁Орталық', 'start': 42, 'end': 49}
+# {'entity': 'I-LOCATION', 'score': 0.9991725, 'index': 8, 'word': '▁Азия', 'start': 50, 'end': 54}
+# {'entity': 'I-LOCATION', 'score': 0.9992299, 'index': 9, 'word': 'да', 'start': 54, 'end': 56}
 token = ""
 label_list = []
 for token, label in zip(token_list, label_list):
     print(f"{token}\t{label}")
+# output:
+# Қазақстан	B-GPE
+# Республикасы	I-GPE
+# Шығыс	B-LOCATION
+# Еуропа	I-LOCATION
+# Орталық	B-LOCATION
+# Азияда	I-LOCATION
+# aggregation_strategy = "simple"
+nlp = pipeline("ner", model = model, tokenizer = tokenizer, aggregation_strategy = "simple")
+example = "Қазақстан Республикасы — Шығыс Еуропа мен Орталық Азияда орналасқан мемлекет."
+ner_results = nlp(example)
+for result in ner_results:
+    print(result)
+# output:
+# {'entity_group': 'GPE', 'score': 0.999529, 'word': 'Қазақстан Республикасы', 'start': 0, 'end': 22}
+# {'entity_group': 'LOCATION', 'score': 0.9991102, 'word': 'Шығыс Еуропа', 'start': 25, 'end': 37}
+# {'entity_group': 'LOCATION', 'score': 0.9991874, 'word': 'Орталық Азияда', 'start': 42, 'end': 56}
 ```
 ## Evaluation results on the validation and test sets