ukr-models
/

uk-morph

Token Classification

Inference Endpoints

Model card Files Files and versions Community

uk-morph / README.md

ukr-models's picture

Create README.md

f6b2ab2 over 2 years ago

|

history blame contribute delete

2.55 kB

	---
	language:
	- uk
	tags:
	- ukrainian
	widget:
	- text: "Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."
	license: mit
	---
	## Model Description
	Fine-tuning of [XLM-RoBERTa-Uk](https://huggingface.co/ukr-models/xlm-roberta-base-uk) model on [synthetic morphological dataset](https://huggingface.co/datasets/ukr-models/Ukr-Synth), returns both UPOS and morphological features (joined by double underscore symbol)

	## How to Use

	Huggingface pipeline way (returns tokens with labels):
	```py
	from transformers import TokenClassificationPipeline, AutoTokenizer, AutoModelForTokenClassification
	tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
	model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')
	ppln = TokenClassificationPipeline(model=model, tokenizer=tokenizer)
	ppln("Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера.")
	```

	If you wish to get predictions split by words, not by tokens, you may use the following approach (download script get_predictions.py from the repository, it uses [package tokenize_uk](https://pypi.org/project/tokenize_uk/) for splitting)
	```py
	from transformers import AutoTokenizer, AutoModelForTokenClassification
	from get_predictions import get_word_predictions

	tokenizer = AutoTokenizer.from_pretrained('ukr-models/uk-morph')
	model = AutoModelForTokenClassification.from_pretrained('ukr-models/uk-morph')

	get_word_predictions(model, tokenizer, ["Могила Тараса Шевченка — місце поховання видатного українського поета Тараса Шевченка в місті Канів (Черкаська область) на Чернечій горі, над яким із 1939 року височіє бронзовий пам'ятник роботи скульптора Матвія Манізера."])
	```