File size: 3,631 Bytes
57e0c7f
 
aee4743
 
 
 
 
 
 
 
 
 
50ec522
57e0c7f
 
 
766b574
 
 
 
21318ee
 
766b574
21318ee
766b574
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
21318ee
766b574
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
21318ee
766b574
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
21318ee
766b574
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
# BERTpt

```
from transformers import BertModel, BertTokenizerFast
tokenizer = BertTokenizerFast.from_pretrained('joaomsimoes/bertpt-portuguese-portugal')
model = BertModel.from_pretrained("joaomsimoes/bertpt-portuguese-portugal")

text = "Tudo vale a pena quando a alma não é pequena."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
```

Pretrained model on Portuguese (Portugal) language using a masked language modeling (MLM) objective. [Notebook](https://colab.research.google.com/drive/1OaSDl7oVrbg2tYrT24xWPWxAyKmu4cNp?usp=sharing)

## Training data

Scrapped data from diferent portugues websites, blogs and news channels. Around 2Gb of data.

## Limitations and Bias
```
from transformers import pipeline
fill_mask= pipeline('fill-mask', model='joaomsimoes/bertpt-portuguese-portugal')

fill_mask("2020 foi um ano [MASK].")

[{'sequence': '[CLS] 2020 foi um ano dificil. [SEP]',
  'score': 0.146935	,
  'token': 7591,
  'token_str': 'dificil'},
 {'sequence': '[CLS] 2020 foi um ano historico. [SEP]',
  'score': 0.101181,
  'token': 9902,
  'token_str': 'historico'},
 {'sequence': '[CLS] 2020 foi um ano terrivel. [SEP]',
  'score': 0.080123,
  'token': 19675,
  'token_str': 'terrivel'},
 {'sequence': '[CLS] 2020 foi um ano especial. [SEP]',
  'score': 0.034216,
  'token': 6835,
  'token_str': 'especial'},
 {'sequence': '[CLS] 2020 foi um ano complicado. [SEP]',
  'score': 0.028791,
  'token': 12082,
  'token_str': 'complicado'}]

    
fill_mask("O FCPorto é melhor que o [MASK].")
  
[{'sequence': '[CLS] O FCPorto é melhor que o benfica. [SEP]',
  'score': 0.608609,
  'token': 7709,
  'token_str': 'benfica'},
 {'sequence': '[CLS] O FCPorto é melhor que o sporting. [SEP]',
  'score': 0.188474,
  'token': 7935,
  'token_str': 'sporting'},
 {'sequence': '[CLS] O FCPorto é melhor que o atletico. [SEP]',
  'score': 0.023601,
  'token': 16116,
  'token_str': 'atletico'},
 {'sequence': '[CLS] O FCPorto é melhor que o boavista. [SEP]',
  'score': 0.010015,
  'token': 16116,
  'token_str': 'boavista'},
 {'sequence': '[CLS] O FCPorto é melhor que o barcelona. [SEP]',
  'score': 0.009242,
  'token': 10609,
  'token_str': 'barcelona'}]

    
fill_mask("[MASK] é uma boa linguagem de programacao")
  
[{'sequence': '[CLS] python é uma boa linguagem de programacao [SEP]',
  'score': 0.155832,
  'token': 27384,
  'token_str': 'python'},
 {'sequence': '[CLS] java é uma boa linguagem de programacao [SEP]',
  'score': 0.152056,
  'token': 14348,
  'token_str': 'java'},
 {'sequence': '[CLS] programacao é uma boa linguagem de programacao [SEP]',
  'score': 0.106369,
  'token': 11304,
  'token_str': 'programacao'},
 {'sequence': '[CLS] isto é uma boa linguagem de programacao [SEP]',
  'score': 0.056731,
  'token': 6267,
  'token_str': 'isto'},
 {'sequence': '[CLS] linguagem é uma boa linguagem de programacao [SEP]',
  'score': 0.044161,
  'token': 13206,
  'token_str': 'linguagem'}]

    
fill_mask("Eu quero uma [MASK] melhor.")
  
[{'sequence': '[CLS] Eu quero uma vida melhor. [SEP]',
  'score': 0.138783,
  'token': 6503,
  'token_str': 'vida'},
 {'sequence': '[CLS] Eu quero uma experiencia melhor. [SEP]',
  'score': 0.083636,
  'token': 7479,
  'token_str': 'experiencia'},
 {'sequence': '[CLS] Eu quero uma internet melhor. [SEP]',
  'score': 0.059155,
  'token': 7051,
  'token_str': 'internet'},
 {'sequence': '[CLS] Eu quero uma coisa melhor. [SEP]',
  'score': 0.059155,
  'token': 6645,
  'token_str': 'coisa'},
 {'sequence': '[CLS] Eu quero uma plataforma melhor. [SEP]',
  'score': 0.044105,
  'token': 7834,
  'token_str': 'plataforma'}]
```