align tokenizer with llama 2

Files changed (5) hide show

config.json CHANGED Viewed

@@ -13,11 +13,11 @@
   "model_type": "llama",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
-  "pad_token_id": 1,
   "rms_norm_eps": 1e-06,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.30.0.dev0",
   "use_cache": true,
   "vocab_size": 32000
 }

   "model_type": "llama",
   "num_attention_heads": 12,
   "num_hidden_layers": 12,
+  "num_key_value_heads": 12,
   "rms_norm_eps": 1e-06,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.31.0.dev0",
   "use_cache": true,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -1,7 +1,6 @@
 {
-  "_from_model_config": true,
-  "bos_token_id": 0,
   "eos_token_id": 2,
-  "pad_token_id": 1,
-  "transformers_version": "4.30.0.dev0"
 }

 {
+  "bos_token_id": 1,
   "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.31.0.dev0"
 }

special_tokens_map.json CHANGED Viewed

@@ -2,21 +2,21 @@
   "bos_token": {
     "content": "<s>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "</s>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   }

   "bos_token": {
     "content": "<s>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "</s>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<unk>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   }

tokenizer.json CHANGED Viewed

@@ -9,7 +9,7 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
@@ -18,7 +18,7 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     },
     {
@@ -27,7 +27,7 @@
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
-      "normalized": true,
       "special": true
     }
   ],
@@ -53,7 +53,7 @@
     "single": [
       {
         "SpecialToken": {
-          "id": "",
           "type_id": 0
         }
       },
@@ -67,7 +67,7 @@
     "pair": [
       {
         "SpecialToken": {
-          "id": "",
           "type_id": 0
         }
       },
@@ -79,7 +79,7 @@
       },
       {
         "SpecialToken": {
-          "id": "",
           "type_id": 1
         }
       },
@@ -91,13 +91,13 @@
       }
     ],
     "special_tokens": {
-      "": {
-        "id": "",
         "ids": [
-          0
         ],
         "tokens": [
-          ""
         ]
       }
     }

       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     },
     {
       "single_word": false,
       "lstrip": false,
       "rstrip": false,
+      "normalized": false,
       "special": true
     }
   ],
     "single": [
       {
         "SpecialToken": {
+          "id": "<s>",
           "type_id": 0
         }
       },
     "pair": [
       {
         "SpecialToken": {
+          "id": "<s>",
           "type_id": 0
         }
       },
       },
       {
         "SpecialToken": {
+          "id": "<s>",
           "type_id": 1
         }
       },
       }
     ],
     "special_tokens": {
+      "<s>": {
+        "id": "<s>",
         "ids": [
+          1
         ],
         "tokens": [
+          "<s>"
         ]
       }
     }

tokenizer_config.json CHANGED Viewed

@@ -5,7 +5,7 @@
     "__type": "AddedToken",
     "content": "<s>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
@@ -14,21 +14,22 @@
     "__type": "AddedToken",
     "content": "</s>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": null,
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
     "content": "<unk>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
-  },
-  "use_fast": true
 }

     "__type": "AddedToken",
     "content": "<s>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
     "__type": "AddedToken",
     "content": "</s>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
+  "legacy": false,
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": null,
+  "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
     "content": "<unk>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
+  }
 }