Edit model card

Roberta base model trained on Azerbaijani subset of OSCAR corpus.

Usage

from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani")

model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani")
from transformers import pipeline
model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani')
model_mask("Le tweet <mask>.")

Examples


fill_mask("azərtac xəbər <mask> ki")
[{'sequence': 'azərtac xəbər verir ki',
  'score': 0.9791690707206726,
  'token': 1053,
  'token_str': ' verir'},
 {'sequence': 'azərtac xəbər verib ki',
  'score': 0.004408467561006546,
  'token': 2313,
  'token_str': ' verib'},
 {'sequence': 'azərtac xəbər yayıb ki',
  'score': 0.00216124439612031,
  'token': 6580,
  'token_str': ' yayıb'},
 {'sequence': 'azərtac xəbər agentliyi ki',
  'score': 0.0014381826622411609,
  'token': 14711,
  'token_str': ' agentliyi'},
 {'sequence': 'azərtac xəbəraz ki',
  'score': 0.0012858203845098615,
  'token': 320,
  'token_str': 'az'}]
fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver")
[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver',
  'score': 0.5982716083526611,
  'token': 716,
  'token_str': ' daha'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver',
  'score': 0.1061108186841011,
  'token': 374,
  'token_str': ' bir'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver',
  'score': 0.05577299743890762,
  'token': 1331,
  'token_str': ' biri'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver',
  'score': 0.029407601803541183,
  'token': 745,
  'token_str': ' ən'},
 {'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver',
  'score': 0.011952652595937252,
  'token': 524,
  'token_str': ' çox'}]

Config

attention_probs_dropout_prob:0.1
bos_token_id:0
classifier_dropout:null
eos_token_id:2
gradient_checkpointing:false
hidden_act:"gelu"
hidden_dropout_prob:0.1
hidden_size:768
initializer_range:0.02
intermediate_size:3072
layer_norm_eps:1e-12
max_position_embeddings:514
model_type:"roberta"
num_attention_heads:12
num_hidden_layers:6
pad_token_id:1
position_embedding_type:"absolute"
torch_dtype:"float32"
transformers_version:"4.10.0"
type_vocab_size:1
use_cache:true
vocab_size:52000
Downloads last month
2

Dataset used to train iamdenay/roberta-azerbaijani