File size: 2,106 Bytes
f679e8b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
---
language: ru
widget:
- text: "Мозг — это машина <mask>, которая пытается снизить ошибку в прогнозе."
---

# RoBERTa-like language model trained on part of part of TAIGA corpus

## Training Details

- about 60k steps

![]()

## Example pipeline

```python
from transformers import pipeline
from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained('blinoff/roberta-base-russian-v0', max_len=512)

fill_mask = pipeline(
    "fill-mask",
    model="blinoff/roberta-base-russian-v0",
    tokenizer=tokenizer
)

fill_mask("Мозг — это машина <mask>, которая пытается снизить ошибку в прогнозе.")

# {
#     'sequence': '<s>Мозг — это машина города, которая пытается снизить ошибку в прогнозе.</s>',
#     'score': 0.012859329581260681,
#     'token': 2144,
#     'token_str': 'ĠгоÑĢода'
# },
# {
#     'sequence': '<s>Мозг — это машина человека, которая пытается снизить ошибку в прогнозе.</s>',
#     'score': 0.01185101643204689,
#     'token': 1470,
#     'token_str': 'ĠÑĩеловека'
# },
# {
#     'sequence': '<s>Мозг — это машина дома, которая пытается снизить ошибку в прогнозе.</s>',
#     'score': 0.009940559044480324,
#     'token': 1411,
#     'token_str': 'Ġдома'
# },
# {
#     'sequence': '<s>Мозг — это машина женщина, которая пытается снизить ошибку в прогнозе.</s>',
#     'score': 0.007794599514454603,
#     'token': 2707,
#     'token_str': 'ĠженÑīина'
# },
# {
#     'sequence': '<s>Мозг — это машина женщины, которая пытается снизить ошибку в прогнозе.</s>',
#     'score': 0.007725382689386606,
#     'token': 3546,
#     'token_str': 'ĠженÑīинÑĭ'
# }
```