File size: 2,536 Bytes

---
datasets:
- oscar-corpus/OSCAR-2301
language:
- az
library_name: transformers
---

Roberta base model trained on Azerbaijani subset of OSCAR corpus.


## Usage
```python
from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani")

model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani")
```
```python
from transformers import pipeline
model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani')
model_mask("Le tweet <mask>.")
```

## Examples
```python

fill_mask("azərtac xəbər <mask> ki")
```
```
[{'sequence': 'azərtac xəbər verir ki',
  'score': 0.9791690707206726,
  'token': 1053,
  'token_str': ' verir'},
 {'sequence': 'azərtac xəbər verib ki',
  'score': 0.004408467561006546,
  'token': 2313,
  'token_str': ' verib'},
 {'sequence': 'azərtac xəbər yayıb ki',
  'score': 0.00216124439612031,
  'token': 6580,
  'token_str': ' yayıb'},
 {'sequence': 'azərtac xəbər agentliyi ki',
  'score': 0.0014381826622411609,
  'token': 14711,
  'token_str': ' agentliyi'},
 {'sequence': 'azərtac xəbəraz ki',
  'score': 0.0012858203845098615,
  'token': 320,
  'token_str': 'az'}]
```

```python
fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver")
```
```
[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver',
  'score': 0.5982716083526611,
  'token': 716,
  'token_str': ' daha'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver',
  'score': 0.1061108186841011,
  'token': 374,
  'token_str': ' bir'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver',
  'score': 0.05577299743890762,
  'token': 1331,
  'token_str': ' biri'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver',
  'score': 0.029407601803541183,
  'token': 745,
  'token_str': ' ən'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver',
  'score': 0.011952652595937252,
  'token': 524,
  'token_str': ' çox'}]
```

## Config
```json
attention_probs_dropout_prob:0.1
bos_token_id:0
classifier_dropout:null
eos_token_id:2
gradient_checkpointing:false
hidden_act:"gelu"
hidden_dropout_prob:0.1
hidden_size:768
initializer_range:0.02
intermediate_size:3072
layer_norm_eps:1e-12
max_position_embeddings:514
model_type:"roberta"
num_attention_heads:12
num_hidden_layers:6
pad_token_id:1
position_embedding_type:"absolute"
torch_dtype:"float32"
transformers_version:"4.10.0"
type_vocab_size:1
use_cache:true
vocab_size:52000
```