Fernando Carneiro commited on
Commit
5af2a4f
1 Parent(s): 24940da
Files changed (1) hide show
  1. README.md +15 -2
README.md CHANGED
@@ -20,9 +20,8 @@ tokenizer = AutoTokenizer.from_pretrained('melll-uff/bertweetbr', normalization=
20
 
21
  # INPUT TWEETS ALREADY NORMALIZED!
22
  inputs = [
23
- "Tem vídeo novo no canal do @USER :rosto_sorridente_com_olhos_de_coração: Passem por lá e confiram : HTTPURL",
24
- "Que jogo ontem @USER :mãos_juntas:",
25
  "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
 
26
  "Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
27
 
28
  encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
@@ -32,6 +31,10 @@ with torch.no_grad():
32
 
33
  # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
34
  last_hidden_states[0][:,0,:]
 
 
 
 
35
  ```
36
 
37
  ### Normalize raw input Tweets
@@ -58,7 +61,17 @@ tokenizer.demojizer = lambda x: demojize(x, language='pt')
58
  'Que jogo ontem @USER :mãos_juntas:',
59
  'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
60
 
 
 
 
 
 
 
 
61
 
 
 
 
62
  ```
63
 
64
  ### Mask Filling with Pipeline
 
20
 
21
  # INPUT TWEETS ALREADY NORMALIZED!
22
  inputs = [
 
 
23
  "Procuro um amor , que seja bom pra mim ... vou procurar , eu vou até o fim :nota_musical:",
24
+ "Que jogo ontem @USER :mãos_juntas:",
25
  "Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL"]
26
 
27
  encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
 
31
 
32
  # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
33
  last_hidden_states[0][:,0,:]
34
+
35
+ tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
36
+ [-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
37
+ [-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
38
  ```
39
 
40
  ### Normalize raw input Tweets
 
61
  'Que jogo ontem @USER :mãos_juntas:',
62
  'Demojizer para Python é :polegar_para_cima: e está disponível em HTTPURL']
63
 
64
+ encoded_inputs = tokenizer(inputs, return_tensors="pt", padding=True)
65
+
66
+ with torch.no_grad():
67
+ last_hidden_states = model(**encoded_inputs)
68
+
69
+ # CLS Token of last hidden states. Shape: (number of input sentences, hidden sizeof the model)
70
+ last_hidden_states[0][:,0,:]
71
 
72
+ tensor([[-0.1430, -0.1325, 0.1595, ..., -0.0802, -0.0153, -0.1358],
73
+ [-0.0108, 0.1415, 0.0695, ..., 0.1420, 0.1153, -0.0176],
74
+ [-0.1854, 0.1866, 0.3163, ..., -0.2117, 0.2123, -0.1907]])
75
  ```
76
 
77
  ### Mask Filling with Pipeline