Upload tokenizer

Files changed (3) hide show

tokenizer.json CHANGED Viewed

@@ -879,25 +879,17 @@
   ],
   "normalizer": null,
   "pre_tokenizer": {
-    "type": "Sequence",
-    "pretokenizers": [
-      {
-        "type": "Split",
-        "pattern": {
-          "Regex": "(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"
-        },
-        "behavior": "Removed",
-        "invert": true
-      },
-      {
-        "type": "ByteLevel",
-        "add_prefix_space": false,
-        "trim_offsets": true,
-        "use_regex": false
-      }
-    ]
   },
-  "post_processor": null,
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,

   ],
   "normalizer": null,
   "pre_tokenizer": {
+    "type": "ByteLevel",
+    "add_prefix_space": false,
+    "trim_offsets": true,
+    "use_regex": true
+  },
+  "post_processor": {
+    "type": "ByteLevel",
+    "add_prefix_space": true,
+    "trim_offsets": false,
+    "use_regex": true
   },
   "decoder": {
     "type": "ByteLevel",
     "add_prefix_space": true,

tokenizer_config.json CHANGED Viewed

@@ -785,7 +785,6 @@
   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
-  "from_slow": true,
   "legacy": false,
   "model_max_length": 16384,
   "pad_token": "<|dummy_87|>",

   "eos_token": "<|im_end|>",
   "errors": "replace",
   "extra_special_tokens": {},
   "legacy": false,
   "model_max_length": 16384,
   "pad_token": "<|dummy_87|>",

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff