Upload tokenizer

Files changed (4) hide show

emoji.json ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -1,9 +1,6 @@
 {
-  "bos_token": "<s>",
-  "cls_token": "[CLS]",
-  "eos_token": "</s>",
-  "mask_token": "[MASK]",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "unk_token": "<unk>"
 }

 {
+  "bos_token": "<|startoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
 }

tokenizer_config.json CHANGED Viewed

@@ -1,17 +1,11 @@
 {
-  "additional_special_tokens": [],
-  "bos_token": "<s>",
-  "cls_token": "[CLS]",
-  "do_lower_case": true,
-  "eos_token": "</s>",
-  "extra_ids": 0,
-  "mask_token": "[MASK]",
-  "model_max_length": 512,
-  "name_or_path": "rinna/japanese-gpt2-medium",
-  "pad_token": "[PAD]",
-  "sep_token": "[SEP]",
-  "sp_model_kwargs": {},
-  "special_tokens_map_file": "/root/.cache/huggingface/hub/models--rinna--japanese-gpt2-medium/snapshots/f464b76739c884d8b0479a0a7705b7fa71c3fd5a/special_tokens_map.json",
-  "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>"
 }

 {
+  "bos_token": "<|startoftext|>",
+  "do_clean_text": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 256,
+  "name_or_path": "abeja/gpt-neox-japanese-2.7b",
+  "pad_token": "<|endoftext|>",
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPTNeoXJapaneseTokenizer",
+  "unk_token": "<|endoftext|>"
 }

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff