fix tokenizer

Files changed (3) hide show

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .DS_Store

README.md CHANGED Viewed

@@ -7,12 +7,12 @@ This repository provides a medium-sized Japanese GPT-2 model trained on [Japanes
 # Use the model
-*NOTE:* Use `T5Tokenizer` to initiate the tokenizer if AutoTokenizer encounters any errors.
 ~~~~
 from transformers import T5Tokenizer, AutoModelForCausalLM
-tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium")
 model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")
 ~~~~

 # Use the model
+*NOTE:* Use `T5Tokenizer` to initiate the tokenizer with argument `extra_ids=0`.
 ~~~~
 from transformers import T5Tokenizer, AutoModelForCausalLM
+tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt2-medium", extra_ids=0)
 model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")
 ~~~~

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "[PAD]", "additional_special_tokens": [], "bos_token": "<s>", "cls_token": "[CLS]", "sep_token": "[SEP]", "mask_token": "[MASK]", "do_lower_case": true}


1	+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "[PAD]", "additional_special_tokens": [], "bos_token": "<s>", "cls_token": "[CLS]", "sep_token": "[SEP]", "mask_token": "[MASK]", "do_lower_case": true, "extra_ids": 0}