Upload tokenizer

Browse files

Files changed (5) hide show

merges.txt +0 -0
special_tokens_map.json +49 -108
tokenizer.json +0 -0
tokenizer_config.json +61 -114
vocab.json +0 -0

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -1,110 +1,51 @@
 {
-  "additional_special_tokens": [
-    "<mask_1>",
-    "<unk_2>",
-    "<unk_3>",
-    "<unk_4>",
-    "<unk_5>",
-    "<unk_6>",
-    "<unk_7>",
-    "<unk_8>",
-    "<unk_9>",
-    "<unk_10>",
-    "<unk_11>",
-    "<unk_12>",
-    "<unk_13>",
-    "<unk_14>",
-    "<unk_15>",
-    "<unk_16>",
-    "<unk_17>",
-    "<unk_18>",
-    "<unk_19>",
-    "<unk_20>",
-    "<unk_21>",
-    "<unk_22>",
-    "<unk_23>",
-    "<unk_24>",
-    "<unk_25>",
-    "<unk_26>",
-    "<unk_27>",
-    "<unk_28>",
-    "<unk_29>",
-    "<unk_30>",
-    "<unk_31>",
-    "<unk_32>",
-    "<unk_33>",
-    "<unk_34>",
-    "<unk_35>",
-    "<unk_36>",
-    "<unk_37>",
-    "<unk_38>",
-    "<unk_39>",
-    "<unk_40>",
-    "<unk_41>",
-    "<unk_42>",
-    "<unk_43>",
-    "<unk_44>",
-    "<unk_45>",
-    "<unk_46>",
-    "<unk_47>",
-    "<unk_48>",
-    "<unk_49>",
-    "<unk_50>",
-    "<unk_51>",
-    "<unk_52>",
-    "<unk_53>",
-    "<unk_54>",
-    "<unk_55>",
-    "<unk_56>",
-    "<unk_57>",
-    "<unk_58>",
-    "<unk_59>",
-    "<unk_60>",
-    "<unk_61>",
-    "<unk_62>",
-    "<unk_63>",
-    "<unk_64>",
-    "<unk_65>",
-    "<unk_66>",
-    "<unk_67>",
-    "<unk_68>",
-    "<unk_69>",
-    "<unk_70>",
-    "<unk_71>",
-    "<unk_72>",
-    "<unk_73>",
-    "<unk_74>",
-    "<unk_75>",
-    "<unk_76>",
-    "<unk_77>",
-    "<unk_78>",
-    "<unk_79>",
-    "<unk_80>",
-    "<unk_81>",
-    "<unk_82>",
-    "<unk_83>",
-    "<unk_84>",
-    "<unk_85>",
-    "<unk_86>",
-    "<unk_87>",
-    "<unk_88>",
-    "<unk_89>",
-    "<unk_90>",
-    "<unk_91>",
-    "<unk_92>",
-    "<unk_93>",
-    "<unk_94>",
-    "<unk_95>",
-    "<unk_96>",
-    "<unk_97>",
-    "<unk_98>",
-    "<unk_99>",
-    "<unk_100>",
-    "<unk_101>",
-    "<unk_102>"
-  ],
-  "eos_token": "</s>",
-  "mask_token": "<mask_2>",
-  "pad_token": "<pad>",
-  "unk_token": "<unk>"
 }

 {
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,118 +1,65 @@
 {
-  "additional_special_tokens": [
-    "<mask_1>",
-    "<unk_2>",
-    "<unk_3>",
-    "<unk_4>",
-    "<unk_5>",
-    "<unk_6>",
-    "<unk_7>",
-    "<unk_8>",
-    "<unk_9>",
-    "<unk_10>",
-    "<unk_11>",
-    "<unk_12>",
-    "<unk_13>",
-    "<unk_14>",
-    "<unk_15>",
-    "<unk_16>",
-    "<unk_17>",
-    "<unk_18>",
-    "<unk_19>",
-    "<unk_20>",
-    "<unk_21>",
-    "<unk_22>",
-    "<unk_23>",
-    "<unk_24>",
-    "<unk_25>",
-    "<unk_26>",
-    "<unk_27>",
-    "<unk_28>",
-    "<unk_29>",
-    "<unk_30>",
-    "<unk_31>",
-    "<unk_32>",
-    "<unk_33>",
-    "<unk_34>",
-    "<unk_35>",
-    "<unk_36>",
-    "<unk_37>",
-    "<unk_38>",
-    "<unk_39>",
-    "<unk_40>",
-    "<unk_41>",
-    "<unk_42>",
-    "<unk_43>",
-    "<unk_44>",
-    "<unk_45>",
-    "<unk_46>",
-    "<unk_47>",
-    "<unk_48>",
-    "<unk_49>",
-    "<unk_50>",
-    "<unk_51>",
-    "<unk_52>",
-    "<unk_53>",
-    "<unk_54>",
-    "<unk_55>",
-    "<unk_56>",
-    "<unk_57>",
-    "<unk_58>",
-    "<unk_59>",
-    "<unk_60>",
-    "<unk_61>",
-    "<unk_62>",
-    "<unk_63>",
-    "<unk_64>",
-    "<unk_65>",
-    "<unk_66>",
-    "<unk_67>",
-    "<unk_68>",
-    "<unk_69>",
-    "<unk_70>",
-    "<unk_71>",
-    "<unk_72>",
-    "<unk_73>",
-    "<unk_74>",
-    "<unk_75>",
-    "<unk_76>",
-    "<unk_77>",
-    "<unk_78>",
-    "<unk_79>",
-    "<unk_80>",
-    "<unk_81>",
-    "<unk_82>",
-    "<unk_83>",
-    "<unk_84>",
-    "<unk_85>",
-    "<unk_86>",
-    "<unk_87>",
-    "<unk_88>",
-    "<unk_89>",
-    "<unk_90>",
-    "<unk_91>",
-    "<unk_92>",
-    "<unk_93>",
-    "<unk_94>",
-    "<unk_95>",
-    "<unk_96>",
-    "<unk_97>",
-    "<unk_98>",
-    "<unk_99>",
-    "<unk_100>",
-    "<unk_101>",
-    "<unk_102>"
-  ],
-  "eos_token": "</s>",
-  "full_tokenizer_file": null,
-  "mask_token": "<mask_2>",
-  "mask_token_sent": "<mask_1>",
   "model_max_length": 1024,
-  "name_or_path": "sshleifer/distill-pegasus-cnn-16-4",
-  "offset": 103,
-  "pad_token": "<pad>",
-  "sp_model_kwargs": {},
   "special_tokens_map_file": null,
-  "tokenizer_class": "PegasusTokenizer",
-  "unk_token": "<unk>"
 }

 {
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "model_max_length": 1024,
+  "name_or_path": "sshleifer/distilbart-cnn-12-6",
+  "pad_token": {
+    "__type": "AddedToken",
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "special_tokens_map_file": null,
+  "tokenizer_class": "BartTokenizer",
+  "trim_offsets": true,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff