File size: 2,536 Bytes
e1e2c2a
 
 
 
 
 
8f8814c
 
fd9675b
2be973e
fd9675b
 
 
 
 
 
 
 
 
 
 
 
 
 
8f8814c
 
6aeda95
8f8814c
 
e5fe4c7
6aeda95
8f8814c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e5fe4c7
6aeda95
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2be973e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e5fe4c7
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
---
datasets:
- oscar-corpus/OSCAR-2301
language:
- az
library_name: transformers
---

Roberta base model trained on Azerbaijani subset of OSCAR corpus.


## Usage
```python
from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani")

model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani")
```
```python
from transformers import pipeline
model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani')
model_mask("Le tweet <mask>.")
```

## Examples
```python

fill_mask("azərtac xəbər <mask> ki")
```
```
[{'sequence': 'azərtac xəbər verir ki',
  'score': 0.9791690707206726,
  'token': 1053,
  'token_str': ' verir'},
 {'sequence': 'azərtac xəbər verib ki',
  'score': 0.004408467561006546,
  'token': 2313,
  'token_str': ' verib'},
 {'sequence': 'azərtac xəbər yayıb ki',
  'score': 0.00216124439612031,
  'token': 6580,
  'token_str': ' yayıb'},
 {'sequence': 'azərtac xəbər agentliyi ki',
  'score': 0.0014381826622411609,
  'token': 14711,
  'token_str': ' agentliyi'},
 {'sequence': 'azərtac xəbəraz ki',
  'score': 0.0012858203845098615,
  'token': 320,
  'token_str': 'az'}]
```

```python
fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver")
```
```
[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver',
  'score': 0.5982716083526611,
  'token': 716,
  'token_str': ' daha'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver',
  'score': 0.1061108186841011,
  'token': 374,
  'token_str': ' bir'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver',
  'score': 0.05577299743890762,
  'token': 1331,
  'token_str': ' biri'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver',
  'score': 0.029407601803541183,
  'token': 745,
  'token_str': ' ən'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver',
  'score': 0.011952652595937252,
  'token': 524,
  'token_str': ' çox'}]
```

## Config
```json
attention_probs_dropout_prob:0.1
bos_token_id:0
classifier_dropout:null
eos_token_id:2
gradient_checkpointing:false
hidden_act:"gelu"
hidden_dropout_prob:0.1
hidden_size:768
initializer_range:0.02
intermediate_size:3072
layer_norm_eps:1e-12
max_position_embeddings:514
model_type:"roberta"
num_attention_heads:12
num_hidden_layers:6
pad_token_id:1
position_embedding_type:"absolute"
torch_dtype:"float32"
transformers_version:"4.10.0"
type_vocab_size:1
use_cache:true
vocab_size:52000
```