jkeruotis
/

LitBERTa-uncased

Fill-Mask Transformers PyTorch JAX Safetensors Lithuanian roberta exbert Inference Endpoints

Model card Files Files and versions Community

Mindaugas Pranckevicius commited on Mar 19, 2021

Commit

4235589

•

1 Parent(s): d3a3b7a

Add readme

Files changed (1) hide show

README.md +36 -0

README.md ADDED Viewed

	@@ -0,0 +1,36 @@

+---
+language: lt
+tags:
+- litberta
+license: mit
+---
+# LitBERTa uncased model
+Not the best model because of limited resources (Trained on ~4.7 GB of data on RTX2070 8GB for ~10 days) but it covers special lithuanian symbols `ąčęėįšųūž`. 128K vocabulary chosen because language has a lot of word forms.
+## How to use
+```python
+from transformers import pipeline
+unmasker = pipeline('fill-mask', model='jkeruotis/LitBERTa-uncased')
+unmasker('lietuvių kalba yra viena iš <mask> kalbų pasaulyje.')
+[{'sequence': 'lietuvių kalba yra viena iš nedaugelio kalbų pasaulyje.',
+  'score': 0.13811470568180084,
+  'token': 28150,
+  'token_str': ' nedaugelio'},
+ {'sequence': 'lietuvių kalba yra viena iš geriausių kalbų pasaulyje.',
+  'score': 0.12880706787109375,
+  'token': 5617,
+  'token_str': ' geriausių'},
+ {'sequence': 'lietuvių kalba yra viena iš populiariausių kalbų pasaulyje.',
+  'score': 0.12645503878593445,
+  'token': 9404,
+  'token_str': ' populiariausių'},
+ {'sequence': 'lietuvių kalba yra viena iš seniausių kalbų pasaulyje.',
+  'score': 0.08773279190063477,
+  'token': 14775,
+  'token_str': ' seniausių'},
+ {'sequence': 'lietuvių kalba yra viena iš svarbiausių kalbų pasaulyje.',
+  'score': 0.08201173692941666,
+  'token': 6641,
+  'token_str': ' svarbiausių'}]
+```