solved tokenizer-vocab incompatibility

Browse files

Files changed (4) hide show

special_tokens_map.json +51 -1
tokenizer.json +0 -0
tokenizer_config.json +41 -38
vocab.json +0 -0

special_tokens_map.json CHANGED Viewed

	@@ -1 +1,51 @@
1	- {"bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}}

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,63 +1,66 @@
 {
-  "unk_token": {
-    "content": "<unk>",
-    "single_word": false,
     "lstrip": false,
-    "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
   },
-  "bos_token": {
     "content": "<s>",
-    "single_word": false,
     "lstrip": false,
-    "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
   },
   "eos_token": {
     "content": "</s>",
-    "single_word": false,
     "lstrip": false,
-    "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
   },
-  "add_prefix_space": false,
   "errors": "replace",
-  "sep_token": {
-    "content": "</s>",
-    "single_word": false,
-    "lstrip": false,
-    "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
-  },
-  "cls_token": {
-    "content": "<s>",
-    "single_word": false,
-    "lstrip": false,
     "rstrip": false,
-    "normalized": true,
-    "__type": "AddedToken"
   },
   "pad_token": {
     "content": "<pad>",
-    "single_word": false,
     "lstrip": false,
-    "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
-  },
-  "mask_token": {
-    "content": "<mask>",
-    "single_word": false,
-    "lstrip": true,
     "rstrip": false,
     "normalized": true,
-    "__type": "AddedToken"
   },
-  "max_len": 512,
   "special_tokens_map_file": null,
-  "name_or_path": "/gpfs/projects/bsc88/tools/corpus-utils-lm/17-06-2021-python/output/bne_es_output/roberta-2021-06-17-1849-3a6a-9c4f/train_tokenizer_output/train-tokenizer-2021-06-17-2216-3a6a-3cd6"
-}

 {
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
     "lstrip": false,
     "normalized": true,
+    "rstrip": false,
+    "single_word": false
   },
+  "cls_token": {
+    "__type": "AddedToken",
     "content": "<s>",
     "lstrip": false,
     "normalized": true,
+    "rstrip": false,
+    "single_word": false
   },
   "eos_token": {
+    "__type": "AddedToken",
     "content": "</s>",
     "lstrip": false,
     "normalized": true,
+    "rstrip": false,
+    "single_word": false
   },
   "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
     "normalized": true,
     "rstrip": false,
+    "single_word": false
   },
+  "max_len": 512,
+  "model_max_length": 512,
+  "name_or_path": "./roberta-base-bne/",
   "pad_token": {
+    "__type": "AddedToken",
     "content": "<pad>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
     "normalized": true,
+    "rstrip": false,
+    "single_word": false
   },
   "special_tokens_map_file": null,
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff