Upload tokenizer

Browse files

Files changed (3) hide show

special_tokens_map.json +1 -0
tokenizer.json +162 -0
tokenizer_config.json +6 -0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,162 @@

+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [
+    {
+      "id": 0,
+      "special": false,
+      "content": "<>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 1,
+      "special": false,
+      "content": "bob",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 2,
+      "special": false,
+      "content": "tom",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 3,
+      "special": false,
+      "content": "bike",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 4,
+      "special": false,
+      "content": "speech",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 5,
+      "special": false,
+      "content": "take",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 6,
+      "special": false,
+      "content": "use",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 7,
+      "special": false,
+      "content": "talk",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 8,
+      "special": false,
+      "content": "go",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 9,
+      "special": false,
+      "content": "good",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 10,
+      "special": false,
+      "content": "active",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 11,
+      "special": false,
+      "content": "not",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 12,
+      "special": false,
+      "content": "and",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 13,
+      "special": false,
+      "content": "then",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 14,
+      "special": false,
+      "content": "but",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    },
+    {
+      "id": 15,
+      "special": false,
+      "content": ".",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": true
+    }
+  ],
+  "normalizer": null,
+  "pre_tokenizer": {
+    "type": "Whitespace"
+  },
+  "post_processor": null,
+  "decoder": null,
+  "model": {
+    "type": "WordLevel",
+    "vocab": {},
+    "unk_token": "<>"
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "vocab_size": 16
+}