ukr-models
/

uk-ner

Token Classification

Inference Endpoints

Model card Files Files and versions Community

uk-ner / README.md

ukr-models's picture

Create README.md

e4e7738 about 2 years ago

|

raw history blame

No virus

2.47 kB

	---
	language:
	- uk
	tags:
	- ukrainian
	widget:
	- text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
	license: mit
	---
	## Model Description
	Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic NER dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth) with B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG tags

	## How to Use

	Huggingface pipeline way (returns tokens with labels):
	```py
	from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification

	tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
	model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')

	ner = pipeline('ner', model=model, tokenizer=tokenizer)
	ner("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
	```

	If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)

	```py
	from transformers import AutoTokenizer, AutoModelForTokenClassification
	from get_predictions import get_word_predictions

	tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-ner')
	model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-ner')

	get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
	```