Update with new preprocessing

Browse files

Files changed (7) hide show

added_tokens.json +1 -0
config.json +11 -7
pytorch_model.bin +2 -2
special_tokens_map.json +1 -1
tokenizer.json +0 -0
tokenizer_config.json +1 -1
vocab.txt +36 -36

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"[EMOJI]": 31004, "[USER]": 31002, "[HASHTAG]": 31003}

config.json CHANGED Viewed

@@ -1,23 +1,24 @@
 {
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.2,
   "hidden_size": 768,
   "id2label": {
-    "0": "NEG",
     "1": "NEU",
-    "2": "POS"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "NEG": 0,
     "NEU": 1,
-    "POS": 2
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
@@ -26,7 +27,10 @@
   "num_hidden_layers": 12,
   "output_past": true,
   "pad_token_id": 1,
-  "return_dict": true,
   "type_vocab_size": 2,
-  "vocab_size": 31002
 }

 {
+  "_name_or_path": "dccuchile/bert-base-spanish-wwm-cased",
   "architectures": [
     "BertForSequenceClassification"
   ],
   "attention_probs_dropout_prob": 0.1,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
+    "0": "N",
     "1": "NEU",
+    "2": "P"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "N": 0,
     "NEU": 1,
+    "P": 2
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
   "num_hidden_layers": 12,
   "output_past": true,
   "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "4.6.1",
   "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 31005
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20536fde3deecaba37ff4b84c4116259ad86c419ad4a464cb1b2387993674d22
-size 439465385

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae62aae323fb95e9a89a10783c6d54565251135d6e5e3ebfbaaa1cede9b26c8d
+size 439508881

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}


1	+ {"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "additional_special_tokens": ["[USER]", "[HASHTAG]", "[EMOJI]"]}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"do_lower_case": false, "special_tokens_map_file": "/home/jmperez/.cache/~~torch~~/transformers/~~aa40d465a73f3614a619f68336225bb02e1d0917937da285039a618a5135724d~~.~~275045728fbf41c11d3dae08b8742c054377e18d92cc7b72b6351152a99b64e4~~"~~, "full_tokenizer_file": null~~}

+ {"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": false, "name_or_path": "dccuchile/bert-base-spanish-wwm-cased", "do_basic_tokenize": true, "never_split": null, "model_max_length": 512, "special_tokens_map_file": "/home/jmperez/.cache/huggingface/transformers/9848a00af462c42dfb4ec88ef438fbab5256330f7f6f50badc48d277f9367d49.f982506b52498d4adb4bd491f593dc92b2ef6be61bfdbe9d30f53f963f9f5b66"}

vocab.txt CHANGED Viewed

@@ -939,42 +939,42 @@
 [unused932]
 [unused933]
 [unused934]
-[unused935]
-[unused936]
-[unused937]
-[unused938]
-[unused939]
-[unused940]
-[unused941]
-[unused942]
-[unused943]
-[unused944]
-[unused945]
-[unused946]
-[unused947]
-[unused948]
-[unused949]
-[unused950]
-[unused951]
-[unused952]
-[unused953]
-[unused954]
-[unused955]
-[unused956]
-[unused957]
-[unused958]
-[unused959]
-[unused960]
-[unused961]
-[unused962]
-[unused963]
-[unused964]
-[unused965]
-[unused966]
-[unused967]
-[unused968]
-[unused969]
-[unused970]
 ##7
 7
 ##w

 [unused932]
 [unused933]
 [unused934]
+##|
+|
+##}
+}
+##{
+{
+##_
+_
+##+
++
+##*
+*
+##&
+&
+##$
+$
+##]
+]
+##[
+[
+##=
+=
+##>
+>
+##<
+<
+##@
+@
+##\
+\
+##/
+/
+##%
+%
+##;
+;
 ##7
 7
 ##w