hamedjahantigh
/

parsig_tokenizer

hamedjahantigh commited on Dec 22, 2023

Commit

5da4ade

•

1 Parent(s): 448c578

Upload tokenizer

Files changed (3) hide show

tokenizer.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "added_tokens": [
     {
       "id": 0,
-      "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
@@ -14,7 +14,7 @@
     },
     {
       "id": 1,
-      "content": "[CLS]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
@@ -23,7 +23,7 @@
     },
     {
       "id": 2,
-      "content": "[SEP]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
@@ -32,7 +32,7 @@
     },
     {
       "id": 3,
-      "content": "[MASK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
@@ -41,7 +41,7 @@
     },
     {
       "id": 4,
-      "content": "[UNK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
@@ -156,7 +156,7 @@
       "[CLS]": {
         "id": "[CLS]",
         "ids": [
-          1
         ],
         "tokens": [
           "[CLS]"
@@ -165,7 +165,7 @@
       "[SEP]": {
         "id": "[SEP]",
         "ids": [
-          2
         ],
         "tokens": [
           "[SEP]"
@@ -177,17 +177,17 @@
   "model": {
     "type": "BPE",
     "dropout": null,
-    "unk_token": "[PAD]",
     "continuing_subword_prefix": null,
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
-      "[PAD]": 0,
-      "[CLS]": 1,
-      "[SEP]": 2,
-      "[MASK]": 3,
-      "[UNK]": 4,
       "#": 5,
       "-": 6,
       ".": 7,

   "added_tokens": [
     {
       "id": 0,
+      "content": "[UNK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
     },
     {
       "id": 1,
+      "content": "[SEP]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
     },
     {
       "id": 2,
+      "content": "[MASK]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
     },
     {
       "id": 3,
+      "content": "[CLS]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
     },
     {
       "id": 4,
+      "content": "[PAD]",
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
       "[CLS]": {
         "id": "[CLS]",
         "ids": [
+          3
         ],
         "tokens": [
           "[CLS]"
       "[SEP]": {
         "id": "[SEP]",
         "ids": [
+          1
         ],
         "tokens": [
           "[SEP]"
   "model": {
     "type": "BPE",
     "dropout": null,
+    "unk_token": "[UNK]",
     "continuing_subword_prefix": null,
     "end_of_word_suffix": null,
     "fuse_unk": false,
     "byte_fallback": false,
     "vocab": {
+      "[UNK]": 0,
+      "[SEP]": 1,
+      "[MASK]": 2,
+      "[CLS]": 3,
+      "[PAD]": 4,
       "#": 5,
       "-": 6,
       ".": 7,

tokenizer_config.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
-      "content": "[PAD]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -10,7 +10,7 @@
       "special": true
     },
     "1": {
-      "content": "[CLS]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -18,7 +18,7 @@
       "special": true
     },
     "2": {
-      "content": "[SEP]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -26,7 +26,7 @@
       "special": true
     },
     "3": {
-      "content": "[MASK]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
@@ -34,7 +34,7 @@
       "special": true
     },
     "4": {
-      "content": "[UNK]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,

   "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
+      "content": "[UNK]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "1": {
+      "content": "[SEP]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "2": {
+      "content": "[MASK]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "3": {
+      "content": "[CLS]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,
       "special": true
     },
     "4": {
+      "content": "[PAD]",
       "lstrip": false,
       "normalized": false,
       "rstrip": false,

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff