ukr-models commited on
Commit
e4e7738
1 Parent(s): 31d1947

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +36 -0
README.md ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - uk
4
+ tags:
5
+ - ukrainian
6
+ widget:
7
+ - text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
8
+ license: mit
9
+ ---
10
+ ## Model Description
11
+ Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic NER dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth) with B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG tags
12
+
13
+ ## How to Use
14
+
15
+ Huggingface pipeline way (returns tokens with labels):
16
+ ```py
17
+ from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
18
+
19
+ tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
20
+ model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
21
+
22
+ ner = pipeline('ner', model=model, tokenizer=tokenizer)
23
+ ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
24
+ ```
25
+
26
+ If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)
27
+
28
+ ```py
29
+ from transformers import AutoTokenizer, AutoModelForTokenClassification
30
+ from get_predictions import get_word_predictions
31
+
32
+ tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
33
+ model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')
34
+
35
+ get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
36
+ ```