|
--- |
|
datasets: |
|
- oscar-corpus/OSCAR-2301 |
|
language: |
|
- az |
|
library_name: transformers |
|
--- |
|
|
|
Roberta base model trained on Azerbaijani subset of OSCAR corpus. |
|
|
|
|
|
## Usage |
|
```python |
|
from transformers import AutoTokenizer, AutoModelWithLMHead |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani") |
|
|
|
model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani") |
|
``` |
|
```python |
|
from transformers import pipeline |
|
model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani') |
|
model_mask("Le tweet <mask>.") |
|
``` |
|
|
|
## Examples |
|
```python |
|
|
|
fill_mask("azərtac xəbər <mask> ki") |
|
``` |
|
``` |
|
[{'sequence': 'azərtac xəbər verir ki', |
|
'score': 0.9791690707206726, |
|
'token': 1053, |
|
'token_str': ' verir'}, |
|
{'sequence': 'azərtac xəbər verib ki', |
|
'score': 0.004408467561006546, |
|
'token': 2313, |
|
'token_str': ' verib'}, |
|
{'sequence': 'azərtac xəbər yayıb ki', |
|
'score': 0.00216124439612031, |
|
'token': 6580, |
|
'token_str': ' yayıb'}, |
|
{'sequence': 'azərtac xəbər agentliyi ki', |
|
'score': 0.0014381826622411609, |
|
'token': 14711, |
|
'token_str': ' agentliyi'}, |
|
{'sequence': 'azərtac xəbəraz ki', |
|
'score': 0.0012858203845098615, |
|
'token': 320, |
|
'token_str': 'az'}] |
|
``` |
|
|
|
```python |
|
fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver") |
|
``` |
|
``` |
|
[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver', |
|
'score': 0.5982716083526611, |
|
'token': 716, |
|
'token_str': ' daha'}, |
|
{'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver', |
|
'score': 0.1061108186841011, |
|
'token': 374, |
|
'token_str': ' bir'}, |
|
{'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver', |
|
'score': 0.05577299743890762, |
|
'token': 1331, |
|
'token_str': ' biri'}, |
|
{'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver', |
|
'score': 0.029407601803541183, |
|
'token': 745, |
|
'token_str': ' ən'}, |
|
{'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver', |
|
'score': 0.011952652595937252, |
|
'token': 524, |
|
'token_str': ' çox'}] |
|
``` |
|
|
|
## Config |
|
```json |
|
attention_probs_dropout_prob:0.1 |
|
bos_token_id:0 |
|
classifier_dropout:null |
|
eos_token_id:2 |
|
gradient_checkpointing:false |
|
hidden_act:"gelu" |
|
hidden_dropout_prob:0.1 |
|
hidden_size:768 |
|
initializer_range:0.02 |
|
intermediate_size:3072 |
|
layer_norm_eps:1e-12 |
|
max_position_embeddings:514 |
|
model_type:"roberta" |
|
num_attention_heads:12 |
|
num_hidden_layers:6 |
|
pad_token_id:1 |
|
position_embedding_type:"absolute" |
|
torch_dtype:"float32" |
|
transformers_version:"4.10.0" |
|
type_vocab_size:1 |
|
use_cache:true |
|
vocab_size:52000 |
|
``` |