Fernando Carneiro commited on
Commit
f38ec9f
1 Parent(s): 1bcd20e
Files changed (2) hide show
  1. README.md +10 -5
  2. images/hidden_states.png +0 -0
README.md CHANGED
@@ -18,13 +18,19 @@ from transformers import AutoModel, AutoTokenizer
18
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
19
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
20
 
21
- # INPUT TWEET IS ALREADY NORMALIZED!
22
- line = "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL"
 
 
 
23
 
24
- encoded_input = = tokenizer(line, return_tensors="pt")
25
 
26
  with torch.no_grad():
27
- features = model(**encoded_input) # Models outputs are now tuples
 
 
 
28
  ```
29
 
30
  ### Normalize raw input Tweets
@@ -52,7 +58,6 @@ filler_mask = pipeline("fill-mask", model=model_name, tokenizer=tokenizer)
52
 
53
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
54
 
55
-
56
  [{'sequence': 'Rio é a melhor cidade do Brasil.',
57
  'score': 0.9871652126312256,
58
  'token': 120,
 
18
  model = AutoModel.from_pretrained('melll-uff/bertweetbr')
19
  tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=False)
20
 
21
+ # INPUT TWEETS ALREADY NORMALIZED!
22
+ line = [
23
+ "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
24
+ "Que jogo ontem @USER :mãos_juntas:",
25
+ "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:"]
26
 
27
+ encoded_input = tokenizer(line, return_tensors="pt", padding=True)
28
 
29
  with torch.no_grad():
30
+ last_hidden_states = model(**encoded_input)
31
+
32
+ # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
33
+ last_hidden_states[0][:,0,:]
34
  ```
35
 
36
  ### Normalize raw input Tweets
 
58
 
59
  filler_mask("Rio é a <mask> cidade do Brasil.", top_k=5)
60
 
 
61
  [{'sequence': 'Rio é a melhor cidade do Brasil.',
62
  'score': 0.9871652126312256,
63
  'token': 120,
images/hidden_states.png ADDED