Upload tokenizer

Browse files

Files changed (3) hide show

special_tokens_map.json +51 -0
tokenizer.json +245 -0
tokenizer_config.json +58 -0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,245 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [
+    {
+      "id": 86,
+      "content": "<unk>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 87,
+      "content": "<pad>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 88,
+      "content": "<s>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 89,
+      "content": "</s>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 90,
+      "content": "<mask>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    }
+  ],
+  "normalizer": {
+    "type": "Sequence",
+    "normalizers": [
+      {
+        "type": "Lowercase"
+      },
+      {
+        "type": "Strip",
+        "strip_left": true,
+        "strip_right": true
+      }
+    ]
+  },
+  "pre_tokenizer": {
+    "type": "Whitespace"
+  },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "<s>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "</s>",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "<s>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "</s>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "</s>",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "</s>": {
+        "id": "</s>",
+        "ids": [
+          89
+        ],
+        "tokens": [
+          "</s>"
+        ]
+      },
+      "<s>": {
+        "id": "<s>",
+        "ids": [
+          88
+        ],
+        "tokens": [
+          "<s>"
+        ]
+      }
+    }
+  },
+  "decoder": {
+    "type": "WordPiece",
+    "prefix": "",
+    "cleanup": true
+  },
+  "model": {
+    "type": "WordLevel",
+    "vocab": {
+      "aɪ": 0,
+      "aʊ": 1,
+      "b": 2,
+      "d": 3,
+      "d͡ʒ": 4,
+      "eɪ": 5,
+      "f": 6,
+      "h": 7,
+      "i": 8,
+      "j": 9,
+      "k": 10,
+      "l": 11,
+      "m": 12,
+      "n": 13,
+      "oʊ": 14,
+      "p": 15,
+      "s": 16,
+      "t": 17,
+      "t͡ʃ": 18,
+      "u": 19,
+      "v": 20,
+      "w": 21,
+      "z": 22,
+      "æ": 23,
+      "ð": 24,
+      "ŋ": 25,
+      "ɑ": 26,
+      "ɔ": 27,
+      "ɔɪ": 28,
+      "ə": 29,
+      "ɚ": 30,
+      "ɛ": 31,
+      "ɡ": 32,
+      "ɪ": 33,
+      "ɹ": 34,
+      "ʃ": 35,
+      "ʊ": 36,
+      "ʌ": 37,
+      "ʒ": 38,
+      "ˈaɪ": 39,
+      "ˈaʊ": 40,
+      "ˈeɪ": 41,
+      "ˈi": 42,
+      "ˈoʊ": 43,
+      "ˈu": 44,
+      "ˈæ": 45,
+      "ˈɑ": 46,
+      "ˈɔ": 47,
+      "ˈɔɪ": 48,
+      "ˈɚ": 49,
+      "ˈɛ": 50,
+      "ˈɪ": 51,
+      "ˈʊ": 52,
+      "ˈʌ": 53,
+      "ˌaɪ": 54,
+      "ˌaʊ": 55,
+      "ˌeɪ": 56,
+      "ˌi": 57,
+      "ˌoʊ": 58,
+      "ˌu": 59,
+      "ˌæ": 60,
+      "ˌɑ": 61,
+      "ˌɔ": 62,
+      "ˌɔɪ": 63,
+      "ˌɚ": 64,
+      "ˌɛ": 65,
+      "ˌɪ": 66,
+      "ˌʊ": 67,
+      "ˌʌ": 68,
+      "θ": 69,
+      "\"": 70,
+      " ": 71,
+      "_": 72,
+      "^": 73,
+      "$": 74,
+      "!": 75,
+      "#": 76,
+      "'": 77,
+      "(": 78,
+      ")": 79,
+      ",": 80,
+      "-": 81,
+      ".": 82,
+      ":": 83,
+      ";": 84,
+      "?": 85,
+      "<unk>": 86,
+      "<pad>": 87,
+      "<s>": 88,
+      "</s>": 89,
+      "<mask>": 90
+    },
+    "unk_token": "<unk>"
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "86": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "87": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "88": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "89": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "90": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": "<mask>",
+  "max_length": null,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "<pad>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}