update tokenizer resources

Browse files

Files changed (4) hide show

sentencepiece.bpe.model +0 -0
special_tokens_map.json +1 -1
tokenizer.json +0 -0
tokenizer_config.json +1 -1

sentencepiece.bpe.model CHANGED Viewed

Binary files a/sentencepiece.bpe.model and b/sentencepiece.bpe.model differ

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": ~~true~~}}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "~~unk_token~~": "~~<unk~~>", "~~sep_token~~": "</s>", "~~cls_token~~": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "~~sp_model_kwargs": {}, "do_lower_case": false, "~~model_max_length": 512, "special_tokens_map_file": null, "~~tokenizer_file": "tokenizer.json", "~~name_or_path": "xlm-roberta-large"}


1	+ {"bos_token": "<s>", "eos_token": "</s>", "sep_token": "</s>", "cls_token": "<s>", "unk_token": "<unk>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "xlm-roberta-large"}