Mindaugas Pranckevicius commited on
Commit
4235589
1 Parent(s): d3a3b7a

Add readme

Browse files
Files changed (1) hide show
  1. README.md +36 -0
README.md ADDED
@@ -0,0 +1,36 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: lt
3
+ tags:
4
+ - litberta
5
+ license: mit
6
+ ---
7
+ # LitBERTa uncased model
8
+
9
+ Not the best model because of limited resources (Trained on ~4.7 GB of data on RTX2070 8GB for ~10 days) but it covers special lithuanian symbols `ąčęėįšųūž`. 128K vocabulary chosen because language has a lot of word forms.
10
+
11
+ ## How to use
12
+ ```python
13
+ from transformers import pipeline
14
+ unmasker = pipeline('fill-mask', model='jkeruotis/LitBERTa-uncased')
15
+ unmasker('lietuvių kalba yra viena iš <mask> kalbų pasaulyje.')
16
+ [{'sequence': 'lietuvių kalba yra viena iš nedaugelio kalbų pasaulyje.',
17
+ 'score': 0.13811470568180084,
18
+ 'token': 28150,
19
+ 'token_str': ' nedaugelio'},
20
+ {'sequence': 'lietuvių kalba yra viena iš geriausių kalbų pasaulyje.',
21
+ 'score': 0.12880706787109375,
22
+ 'token': 5617,
23
+ 'token_str': ' geriausių'},
24
+ {'sequence': 'lietuvių kalba yra viena iš populiariausių kalbų pasaulyje.',
25
+ 'score': 0.12645503878593445,
26
+ 'token': 9404,
27
+ 'token_str': ' populiariausių'},
28
+ {'sequence': 'lietuvių kalba yra viena iš seniausių kalbų pasaulyje.',
29
+ 'score': 0.08773279190063477,
30
+ 'token': 14775,
31
+ 'token_str': ' seniausių'},
32
+ {'sequence': 'lietuvių kalba yra viena iš svarbiausių kalbų pasaulyje.',
33
+ 'score': 0.08201173692941666,
34
+ 'token': 6641,
35
+ 'token_str': ' svarbiausių'}]
36
+ ```