Changes for fast tokenizer (#20)

- Update tokens (4080f4e993d5ae739ccdf4359347a24ea63e5ca0)
- Add tokenizer.json (906330ca580f0d119131905cc24dc97534acc616)

Co-authored-by: Jonatan Kłosko <jonatanklosko@users.noreply.huggingface.co>

Files changed (5) hide show

added_tokens.json CHANGED Viewed

@@ -17,7 +17,6 @@
   "<|da|>": 50285,
   "<|de|>": 50261,
   "<|el|>": 50281,
-  "<|endoftext|>": 50257,
   "<|en|>": 50259,
   "<|es|>": 50262,
   "<|et|>": 50307,

   "<|da|>": 50285,
   "<|de|>": 50261,
   "<|el|>": 50281,
   "<|en|>": 50259,
   "<|es|>": 50262,
   "<|et|>": 50307,

special_tokens_map.json CHANGED Viewed

@@ -124,7 +124,7 @@
   },
   "pad_token": "<|endoftext|>",
   "unk_token": {
-    "content": "",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

   },
   "pad_token": "<|endoftext|>",
   "unk_token": {
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -27,7 +27,7 @@
   "tokenizer_class": "WhisperTokenizer",
   "unk_token": {
     "__type": "AddedToken",
-    "content": "",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

   "tokenizer_class": "WhisperTokenizer",
   "unk_token": {
     "__type": "AddedToken",
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

vocab.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "": 50256,
   "!": 0,
   "!!": 1432,
   "!!!": 4589,

 {
   "": 50256,
+  "<|endoftext|>": 50257,
   "!": 0,
   "!!": 1432,
   "!!!": 4589,