Add `eos_token` to the tokenizer config. (#17)

- Add `eos_token` to the tokenizer config. (58feb13af624846db7c9cb1c5c03498e5e49daef)
- Update tokenizer_config.json (64490687ea7285075e66616b8dd628b8d93d7fda)

Co-authored-by: Lucain Pouget <Wauplin@users.noreply.huggingface.co>

Files changed (1) hide show

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,23 @@
 {
   "model_max_length": 1024,
-  "chat_template": "{% for message in messages %}{{ message.content }}{{ eos_token }}{% endfor %}"
-}

 {
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "chat_template": "{% for message in messages %}{{ message.content }}{{ eos_token }}{% endfor %}",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
   "model_max_length": 1024,
+  "pad_token": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}