Upload tokenizer

Browse files

Files changed (3) hide show

tokenizer.json +95 -51
tokenizer_config.json +1 -1
vocab.json +1 -1

tokenizer.json CHANGED Viewed

@@ -22,7 +22,7 @@
       "special": true
     },
     {
-      "id": 5,
       "content": "UTT_BOUNDARY",
       "single_word": false,
       "lstrip": false,
@@ -34,13 +34,6 @@
   "normalizer": {
     "type": "Sequence",
     "normalizers": [
-      {
-        "type": "Replace",
-        "pattern": {
-          "String": "\n"
-        },
-        "content": " UTT_BOUNDARY"
-      },
       {
         "type": "Strip",
         "strip_left": true,
@@ -51,55 +44,106 @@
   "pre_tokenizer": {
     "type": "Whitespace"
   },
-  "post_processor": null,
   "decoder": null,
   "model": {
     "type": "WordLevel",
     "vocab": {
       "UNK": 0,
       "PAD": 1,
-      "BOS": 2,
-      "EOS": 3,
-      "WORD_BOUNDARY": 4,
-      "UTT_BOUNDARY": 5,
-      "oɪ": 6,
-      "a": 7,
-      "ɾ": 8,
-      "k": 9,
-      "t̠ʃ": 10,
-      "i": 11,
-      "s̺": 12,
-      "l": 13,
-      "p": 14,
-      "o": 15,
-      "r": 16,
-      "aɪ": 17,
-      "n": 18,
-      "m": 19,
-      "ð": 20,
-      "e": 21,
-      "ts̻": 22,
-      "β": 23,
-      "s̻": 24,
-      "ʎ": 25,
-      "b": 26,
-      "aʊ": 27,
-      "t": 28,
-      "ɣ": 29,
-      "ɡ": 30,
-      "c": 31,
-      "u": 32,
-      "eɪ": 33,
-      "d": 34,
-      "ts̺": 35,
-      "j": 36,
-      "ɲ": 37,
-      "f": 38,
-      "ʃ": 39,
-      "ɟ": 40,
-      "eʊ": 41,
-      "θ": 42,
-      "x": 43
     },
     "unk_token": "UNK"
   }

       "special": true
     },
     {
+      "id": 3,
       "content": "UTT_BOUNDARY",
       "single_word": false,
       "lstrip": false,
   "normalizer": {
     "type": "Sequence",
     "normalizers": [
       {
         "type": "Strip",
         "strip_left": true,
   "pre_tokenizer": {
     "type": "Whitespace"
   },
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "UTT_BOUNDARY",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "UTT_BOUNDARY": {
+        "id": "UTT_BOUNDARY",
+        "ids": [
+          3
+        ],
+        "tokens": [
+          "UTT_BOUNDARY"
+        ]
+      }
+    }
+  },
   "decoder": null,
   "model": {
     "type": "WordLevel",
     "vocab": {
       "UNK": 0,
       "PAD": 1,
+      "WORD_BOUNDARY": 2,
+      "UTT_BOUNDARY": 3,
+      "oɪ": 4,
+      "a": 5,
+      "ɾ": 6,
+      "k": 7,
+      "t̠ʃ": 8,
+      "i": 9,
+      "s̺": 10,
+      "l": 11,
+      "p": 12,
+      "o": 13,
+      "r": 14,
+      "aɪ": 15,
+      "n": 16,
+      "m": 17,
+      "ð": 18,
+      "e": 19,
+      "ts̻": 20,
+      "β": 21,
+      "s̻": 22,
+      "ʎ": 23,
+      "b": 24,
+      "aʊ": 25,
+      "t": 26,
+      "ɣ": 27,
+      "ɡ": 28,
+      "c": 29,
+      "u": 30,
+      "eɪ": 31,
+      "d": 32,
+      "ts̺": 33,
+      "j": 34,
+      "ɲ": 35,
+      "f": 36,
+      "ʃ": 37,
+      "ɟ": 38,
+      "eʊ": 39,
+      "θ": 40,
+      "x": 41
     },
     "unk_token": "UNK"
   }

tokenizer_config.json CHANGED Viewed

@@ -17,7 +17,7 @@
       "single_word": false,
       "special": true
     },
-    "5": {
       "content": "UTT_BOUNDARY",
       "lstrip": false,
       "normalized": false,

       "single_word": false,
       "special": true
     },
+    "3": {
       "content": "UTT_BOUNDARY",
       "lstrip": false,
       "normalized": false,

vocab.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"UNK":0,"PAD":1,"~~BOS~~":2,"~~EOS~~":3,"~~WORD_BOUNDARY~~":4,"~~UTT_BOUNDARY~~":5,"oɪ":6,"a":7,"~~ɾ":8,"k":9,"~~t̠ʃ":10,"i":11,"s̺":12,"l":13,"p":14,"o":15,"r":16,"aɪ":17,"n":18,"m":19,"ð":20,"e":21,"ts̻":22,"β":23,"s̻":24,"ʎ":25,"b":26,"aʊ":27,"t":28,"ɣ":29,"ɡ":30,"c":31,"u":32,"eɪ":33,"d":34,"ts̺":35,"j":36,"ɲ":37,"f":38,"ʃ":39,"ɟ":40,"eʊ":41,"θ":42,"x":43}


1	+ {"UNK":0,"PAD":1,"WORD_BOUNDARY":2,"UTT_BOUNDARY":3,"oɪ":4,"a":5,"ɾ":6,"k":7,"t̠ʃ":8,"i":9,"s̺":10,"l":11,"p":12,"o":13,"r":14,"aɪ":15,"n":16,"m":17,"ð":18,"e":19,"ts̻":20,"β":21,"s̻":22,"ʎ":23,"b":24,"aʊ":25,"t":26,"ɣ":27,"ɡ":28,"c":29,"u":30,"eɪ":31,"d":32,"ts̺":33,"j":34,"ɲ":35,"f":36,"ʃ":37,"ɟ":38,"eʊ":39,"θ":40,"x":41}