up

Browse files

Files changed (5) hide show

.hypothesis/unicode_data/13.0.0/charmap.json.gz +0 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +1 -1
tokenizer.json +0 -0
tokenizer_config.json +1 -1

.hypothesis/unicode_data/13.0.0/charmap.json.gz ADDED Viewed

Binary file (21 kB). View file

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8dfd1eae4522281b1b839eab877a791befec7a1663a41c814c77d9c89c748f2d
+size 253154

special_tokens_map.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": ~~false~~}, "additional_special_tokens": ["ar_AR", "cs_CZ", "de_DE", "en_XX", "es_XX", "et_EE", "fi_FI", "fr_XX", "gu_IN", "hi_IN", "it_IT", "ja_XX", "kk_KZ", "ko_KR", "lt_LT", "lv_LV", "my_MM", "ne_NP", "nl_XX", "ro_RO", "ru_RU", "si_LK", "tr_TR", "vi_VN", "zh_CN"]}

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true}, "additional_special_tokens": ["ar_AR", "cs_CZ", "de_DE", "en_XX", "es_XX", "et_EE", "fi_FI", "fr_XX", "gu_IN", "hi_IN", "it_IT", "ja_XX", "kk_KZ", "ko_KR", "lt_LT", "lv_LV", "my_MM", "ne_NP", "nl_XX", "ro_RO", "ru_RU", "si_LK", "tr_TR", "vi_VN", "zh_CN"]}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"bos_token": "<s>", "eos_token": "</s>", "~~sep_token~~": "~~</s~~>", "~~cls_token~~": "<s>", "~~unk_token~~": "<~~unk~~>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": ~~false~~, "__type": "AddedToken"}, "~~src_lang~~": ~~null~~, "~~tgt_lang~~": ~~null,~~ "~~additional_special_tokens~~"~~: ["ar_AR"~~, "~~cs_CZ~~", ~~"de_DE"~~, "~~en_XX~~", ~~"es_XX"~~, "~~et_EE~~", ~~"fi_FI"~~, "~~fr_XX~~", ~~"gu_IN"~~, "~~hi_IN~~"~~, "it_IT", "ja_XX", "kk_KZ", "ko_KR", "lt_LT", "lv_LV", "my_MM", "ne_NP", "nl_XX", "ro_RO", "ru_RU", "si_LK", "tr_TR", "vi_VN", "zh_CN"], "model_max_length"~~: ~~1024,~~ "~~special_tokens_map_file~~"~~: null~~, "name_or_path": "~~facebook/mbart-large-cc25~~", "tokenizer_class": "MBartTokenizer"}

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "sp_model_kwargs": {}, "tokenizer_file": "./tokenizer.json", "src_lang": null, "tgt_lang": null, "additional_special_tokens": null, "keep_accents": true, "special_tokens_map_file": "./special_tokens_map.json", "name_or_path": "./", "tokenizer_class": "MBartTokenizer"}