Added tokenizer files

Browse files

Files changed (4) hide show

merges.txt +0 -0
special_tokens_map.json +1 -0
tokenizer_config.json +64 -0
vocab.json +0 -0

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "errors": "replace",
+  "unk_token": {
+    "content": "<unk>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "bos_token": {
+    "content": "<s>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "eos_token": {
+    "content": "</s>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "add_prefix_space": false,
+  "sep_token": {
+    "content": "</s>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "cls_token": {
+    "content": "<s>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "single_word": false,
+    "lstrip": false,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "single_word": false,
+    "lstrip": true,
+    "rstrip": false,
+    "normalized": true,
+    "__type": "AddedToken"
+  },
+  "model_max_length": 512,
+  "special_tokens_map_file": null,
+  "name_or_path": "roberta-base",
+  "tokenizer_class": "RobertaTokenizer"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff