Davlan
/

bert-base-multilingual-cased-finetuned-yoruba

Fill-Mask Transformers PyTorch TensorFlow JAX bert Inference Endpoints

Model card Files Files and versions Community

Davlan commited on May 9, 2021

Commit

8c6d20a

•

1 Parent(s): d335cc2

updating Readme

Browse files

Files changed (1) hide show

README.md +9 -13

README.md CHANGED Viewed

@@ -2,7 +2,8 @@ Hugging Face's logo
 ---
 language: yo
 datasets:
-- Bible, JW300, [Menyo-20k](https://huggingface.co/datasets/menyo20k_mt), [Yoruba Embedding corpus](https://huggingface.co/datasets/yoruba_text_c3) and [CC-Aligned](https://opus.nlpl.eu/), Wikipedia, news corpora (BBC Yoruba, VON Yoruba, Asejere, Alaroye), and other small datasets curated from friends.
 ---
 # bert-base-multilingual-cased-finetuned-yoruba
 ## Model description
@@ -13,19 +14,15 @@ Specifically, this model is a *bert-base-multilingual-cased* model that was fine
 #### How to use
 You can use this model with Transformers *pipeline* for masked token prediction.
 ```python
-from transformers import AutoTokenizer, AutoModelForTokenClassification
 from transformers import pipeline
-tokenizer = AutoTokenizer.from_pretrained("")
-model = AutoModelForTokenClassification.from_pretrained("")
-nlp = pipeline("", model=model, tokenizer=tokenizer)
-example = "Emir of Kano turban Zhang wey don spend 18 years for Nigeria"
-ner_results = nlp(example)
-print(ner_results)
 ```
 #### Limitations and bias
 This model is limited by its training dataset of entity-annotated news articles from a specific span of time. This may not generalize well for all use cases in different domains.
 ## Training data
-This model was fine-tuned on on  JW300 Yorùbá corpus and [Menyo-20k](https://huggingface.co/datasets/menyo20k_mt) dataset
 ## Training procedure
 This model was trained on a single NVIDIA V100 GPU
@@ -33,10 +30,9 @@ This model was trained on a single NVIDIA V100 GPU
 ## Eval results on Test set (F-score)
 Dataset|F1-score
 -|-
-Yoruba GV NER |86.26
-MasakhaNER |75.76
-BBC Yoruba |91.75
 ### BibTeX entry and citation info
 By David Adelani

 ---
 language: yo
 datasets:
+- [Menyo-20k](https://huggingface.co/datasets/menyo20k_mt)
+- [Yoruba Embedding corpus](https://huggingface.co/datasets/yoruba_text_c3)
 ---
 # bert-base-multilingual-cased-finetuned-yoruba
 ## Model description
 #### How to use
 You can use this model with Transformers *pipeline* for masked token prediction.
 ```python
 from transformers import pipeline
+>>> from transformers import pipeline
+>>> unmasker = pipeline('fill-mask', model='Davlan/bert-base-multilingual-cased-finetuned-yoruba')
+>>> unmasker("Arẹmọ Phillip to jẹ ọkọ [MASK] Elizabeth to ti wa lori aisan ti dagbere faye lẹni ọdun mọkandilọgọrun")
 ```
 #### Limitations and bias
 This model is limited by its training dataset of entity-annotated news articles from a specific span of time. This may not generalize well for all use cases in different domains.
 ## Training data
+This model was fine-tuned on on  Bible, JW300, [Menyo-20k](https://huggingface.co/datasets/menyo20k_mt), [Yoruba Embedding corpus](https://huggingface.co/datasets/yoruba_text_c3) and [CC-Aligned](https://opus.nlpl.eu/), Wikipedia, news corpora (BBC Yoruba, VON Yoruba, Asejere, Alaroye), and other small datasets curated from friends.
 ## Training procedure
 This model was trained on a single NVIDIA V100 GPU
 ## Eval results on Test set (F-score)
 Dataset|F1-score
 -|-
+Yoruba GV NER |75.34
+MasakhaNER |80.82
+BBC Yoruba |80.66
 ### BibTeX entry and citation info
 By David Adelani