Update tokenizer config

Files changed (3) hide show

config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "/home/ubuntu/model_weights/backup/vicuna-13b-20230322-clean-lang-fp16/",
   "architectures": [
     "LlamaForCausalLM"
   ],
@@ -9,7 +8,7 @@
   "hidden_size": 5120,
   "initializer_range": 0.02,
   "intermediate_size": 13824,
-  "max_sequence_length": 2048,
   "model_type": "llama",
   "num_attention_heads": 40,
   "num_hidden_layers": 40,

 {
   "architectures": [
     "LlamaForCausalLM"
   ],
   "hidden_size": 5120,
   "initializer_range": 0.02,
   "intermediate_size": 13824,
+  "max_position_embeddings": 2048,
   "model_type": "llama",
   "num_attention_heads": 40,
   "num_hidden_layers": 40,

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,23 @@
 {
-  "bos_token": "</s>",
-  "eos_token": "</s>",
-  "pad_token": "[PAD]",
-  "unk_token": "</s>"
 }

 {
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -1,9 +1,33 @@
 {
-  "bos_token": "",
-  "eos_token": "",
-  "model_max_length": 2048,
-  "padding_side": "right",
-  "special_tokens_map_file": "/home/gcpuser/hf-output/llama-13b/special_tokens_map.json",
   "tokenizer_class": "LlamaTokenizer",
-  "unk_token": ""
 }

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }