Mindaugas Pranckevicius
commited on
Commit
•
4235589
1
Parent(s):
d3a3b7a
Add readme
Browse files
README.md
ADDED
@@ -0,0 +1,36 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: lt
|
3 |
+
tags:
|
4 |
+
- litberta
|
5 |
+
license: mit
|
6 |
+
---
|
7 |
+
# LitBERTa uncased model
|
8 |
+
|
9 |
+
Not the best model because of limited resources (Trained on ~4.7 GB of data on RTX2070 8GB for ~10 days) but it covers special lithuanian symbols `ąčęėįšųūž`. 128K vocabulary chosen because language has a lot of word forms.
|
10 |
+
|
11 |
+
## How to use
|
12 |
+
```python
|
13 |
+
from transformers import pipeline
|
14 |
+
unmasker = pipeline('fill-mask', model='jkeruotis/LitBERTa-uncased')
|
15 |
+
unmasker('lietuvių kalba yra viena iš <mask> kalbų pasaulyje.')
|
16 |
+
[{'sequence': 'lietuvių kalba yra viena iš nedaugelio kalbų pasaulyje.',
|
17 |
+
'score': 0.13811470568180084,
|
18 |
+
'token': 28150,
|
19 |
+
'token_str': ' nedaugelio'},
|
20 |
+
{'sequence': 'lietuvių kalba yra viena iš geriausių kalbų pasaulyje.',
|
21 |
+
'score': 0.12880706787109375,
|
22 |
+
'token': 5617,
|
23 |
+
'token_str': ' geriausių'},
|
24 |
+
{'sequence': 'lietuvių kalba yra viena iš populiariausių kalbų pasaulyje.',
|
25 |
+
'score': 0.12645503878593445,
|
26 |
+
'token': 9404,
|
27 |
+
'token_str': ' populiariausių'},
|
28 |
+
{'sequence': 'lietuvių kalba yra viena iš seniausių kalbų pasaulyje.',
|
29 |
+
'score': 0.08773279190063477,
|
30 |
+
'token': 14775,
|
31 |
+
'token_str': ' seniausių'},
|
32 |
+
{'sequence': 'lietuvių kalba yra viena iš svarbiausių kalbų pasaulyje.',
|
33 |
+
'score': 0.08201173692941666,
|
34 |
+
'token': 6641,
|
35 |
+
'token_str': ' svarbiausių'}]
|
36 |
+
```
|