iamdenay
/

roberta-azerbaijani

Inference Endpoints

Model card Files Files and versions Community

roberta-azerbaijani / README.md

iamdenay's picture

Update README.md

2be973e verified 8 months ago

|

history blame contribute delete

No virus

2.54 kB

	---
	datasets:
	- oscar-corpus/OSCAR-2301
	language:
	- az
	library_name: transformers
	---

	Roberta base model trained on Azerbaijani subset of OSCAR corpus.


	## Usage
	```python
	from transformers import AutoTokenizer, AutoModelWithLMHead

	tokenizer = AutoTokenizer.from_pretrained("iamdenay/roberta-azerbaijani")

	model = AutoModelWithLMHead.from_pretrained("iamdenay/roberta-azerbaijani")
	```
	```python
	from transformers import pipeline
	model_mask = pipeline('fill-mask', model='iamdenay/roberta-azerbaijani')
	model_mask("Le tweet <mask>.")
	```

	## Examples
	```python

	fill_mask("azərtac xəbər <mask> ki")
	```
	```
	[{'sequence': 'azərtac xəbər verir ki',
	'score': 0.9791690707206726,
	'token': 1053,
	'token_str': ' verir'},
	{'sequence': 'azərtac xəbər verib ki',
	'score': 0.004408467561006546,
	'token': 2313,
	'token_str': ' verib'},
	{'sequence': 'azərtac xəbər yayıb ki',
	'score': 0.00216124439612031,
	'token': 6580,
	'token_str': ' yayıb'},
	{'sequence': 'azərtac xəbər agentliyi ki',
	'score': 0.0014381826622411609,
	'token': 14711,
	'token_str': ' agentliyi'},
	{'sequence': 'azərtac xəbəraz ki',
	'score': 0.0012858203845098615,
	'token': 320,
	'token_str': 'az'}]
	```

	```python
	fill_mask("Mənə o yumşaq fransız bulkalarından <mask> çox ver")
	```
	```
	[{'sequence': 'Mənə o yumşaq fransız bulkalarından daha çox ver',
	'score': 0.5982716083526611,
	'token': 716,
	'token_str': ' daha'},
	{'sequence': 'Mənə o yumşaq fransız bulkalarından bir çox ver',
	'score': 0.1061108186841011,
	'token': 374,
	'token_str': ' bir'},
	{'sequence': 'Mənə o yumşaq fransız bulkalarından biri çox ver',
	'score': 0.05577299743890762,
	'token': 1331,
	'token_str': ' biri'},
	{'sequence': 'Mənə o yumşaq fransız bulkalarından ən çox ver',
	'score': 0.029407601803541183,
	'token': 745,
	'token_str': ' ən'},
	{'sequence': 'Mənə o yumşaq fransız bulkalarından çox çox ver',
	'score': 0.011952652595937252,
	'token': 524,
	'token_str': ' çox'}]
	```

	## Config
	```json
	attention_probs_dropout_prob:0.1
	bos_token_id:0
	classifier_dropout:null
	eos_token_id:2
	gradient_checkpointing:false
	hidden_act:"gelu"
	hidden_dropout_prob:0.1
	hidden_size:768
	initializer_range:0.02
	intermediate_size:3072
	layer_norm_eps:1e-12
	max_position_embeddings:514
	model_type:"roberta"
	num_attention_heads:12
	num_hidden_layers:6
	pad_token_id:1
	position_embedding_type:"absolute"
	torch_dtype:"float32"
	transformers_version:"4.10.0"
	type_vocab_size:1
	use_cache:true
	vocab_size:52000
	```