Fernando Carneiro commited on
Commit
1bcd20e
1 Parent(s): 786a2bc
Files changed (1) hide show
  1. README.md +25 -3
README.md CHANGED
@@ -21,10 +21,10 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
21
  # INPUT TWEET IS ALREADY NORMALIZED!
22
  line = "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL"
23
 
24
- input_ids = tokenizer(line, return_tensors="pt")
25
 
26
  with torch.no_grad():
27
- features = model(**input_ids) # Models outputs are now tuples
28
  ```
29
 
30
  ### Normalize raw input Tweets
@@ -35,7 +35,7 @@ import torch
35
  from transformers import AutoModel, AutoTokenizer
36
 
37
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
38
- tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
39
 
40
  tokenizer.demojizer = lambda x: demojize(x, language='pt')
41
  ```
@@ -51,4 +51,26 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
51
  filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
52
 
53
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
54
  ```
 
21
  # INPUT TWEET IS ALREADY NORMALIZED!
22
  line = "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL"
23
 
24
+ encoded_input = = tokenizer(line, return_tensors="pt")
25
 
26
  with torch.no_grad():
27
+ features = model(**encoded_input) # Models outputs are now tuples
28
  ```
29
 
30
  ### Normalize raw input Tweets
 
35
  from transformers import AutoModel, AutoTokenizer
36
 
37
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
38
+ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=True)
39
 
40
  tokenizer.demojizer = lambda x: demojize(x, language='pt')
41
  ```
 
51
  filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
52
 
53
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
54
+
55
+
56
+ [{'sequence': 'Rio é a melhor cidade do Brasil.',
57
+ 'score': 0.9871652126312256,
58
+ 'token': 120,
59
+ 'token_str': 'm e l h o r'},
60
+ {'sequence': 'Rio é a pior cidade do Brasil.',
61
+ 'score': 0.005050931591540575,
62
+ 'token': 316,
63
+ 'token_str': 'p i o r'},
64
+ {'sequence': 'Rio é a maior cidade do Brasil.',
65
+ 'score': 0.004420778248459101,
66
+ 'token': 389,
67
+ 'token_str': 'm a i o r'},
68
+ {'sequence': 'Rio é a minha cidade do Brasil.',
69
+ 'score': 0.0021856199018657207,
70
+ 'token': 38,
71
+ 'token_str': 'm i n h a'},
72
+ {'sequence': 'Rio é a segunda cidade do Brasil.',
73
+ 'score': 0.0002110043278662488,
74
+ 'token': 667,
75
+ 'token_str': 's e g u n d a'}]
76
  ```