Upload LlamaForCausalLM

Browse files

Files changed (9) hide show

config.json +5 -5
generation_config.json +3 -7
model-00001-of-00006.safetensors +2 -2
model-00002-of-00006.safetensors +2 -2
model-00003-of-00006.safetensors +2 -2
model-00004-of-00006.safetensors +2 -2
model-00005-of-00006.safetensors +2 -2
model-00006-of-00006.safetensors +2 -2
model.safetensors.index.json +63 -63

config.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-  "_name_or_path": "/home/paperspace/models/tm14b1/",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "bos_token_id": 1,
-  "eos_token_id": 2,
   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
-  "intermediate_size": 13824,
   "max_position_embeddings": 4096,
   "mlp_bias": false,
   "model_type": "llama",
@@ -25,5 +25,5 @@
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.1",
   "use_cache": true,
-  "vocab_size": 32000
 }

 {
+  "_name_or_path": "/home/paperspace/models/tm14B1/",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "bos_token_id": 100257,
+  "eos_token_id": 100257,
   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
+  "intermediate_size": 14100,
   "max_position_embeddings": 4096,
   "mlp_bias": false,
   "model_type": "llama",
   "torch_dtype": "bfloat16",
   "transformers_version": "4.44.1",
   "use_cache": true,
+  "vocab_size": 100288
 }

generation_config.json CHANGED Viewed

@@ -1,10 +1,6 @@
 {
-  "bos_token_id": 1,
-  "do_sample": true,
-  "eos_token_id": 2,
-  "max_length": 4096,
-  "pad_token_id": 0,
-  "temperature": 0.6,
-  "top_p": 0.9,
   "transformers_version": "4.44.1"
 }

 {
+  "_from_model_config": true,
+  "bos_token_id": 100257,
+  "eos_token_id": 100257,
   "transformers_version": "4.44.1"
 }

model-00001-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d16ae12d206903962c589dc4687a2abcc3e03705a26b17cf5b80698e3cbf0358
-size 4978265800

 version https://git-lfs.github.com/spec/v1
+oid sha256:144d1bee9d0db88256602fd58807428472419f3d422210af4edfcb21b0f1be23
+size 4989139424

model-00002-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b38e6e14de170f3de5d89e5cae66b7f35216d3fa80d489f020f0214dc360cc3d
-size 4970422232

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2e15bf6935931537f325e5279cdd4719d680489deced5c95f2048364de353e2
+size 4893847152

model-00003-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be21d30c0328def90b901ebdd57a5e1fb433c3f69057492c04bcec22bbb4e1da
-size 4970422256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c131198b4abcd06e0ef59f447e56cca24774486b44ef76d78e6432086421cc
+size 4998725736

model-00004-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b35ad53f9951b84c0e9423e926d7f910bb89ec9802154b3f155441c9a5ca53d
-size 4933701504

 version https://git-lfs.github.com/spec/v1
+oid sha256:e39d9ae5eedf01635d2d5c13e9c7d906005cfcc322ee16610bd8a24edba27a9d
+size 4998725728

model-00005-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e57cfc836452bbc2f7a447a51efc0d40ae5daa9857f5e31fb627198977139070
-size 4933722216

 version https://git-lfs.github.com/spec/v1
+oid sha256:d17fc5b5fc0b1f67aaed743c631502fe439a1633433812f29866639d4a4a0085
+size 4985823096

model-00006-of-00006.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6578c544525b23ba5ce603086e16fd459c7ea4ff5bbebf917fbb37e0cbd8fdc8
-size 1245236920

 version https://git-lfs.github.com/spec/v1
+oid sha256:194fdabb6398dbd880f15be8ce125bb88960584857644b611675349859697d5a
+size 2903196856

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 26031728640
   },
   "weight_map": {
     "lm_head.weight": "model-00006-of-00006.safetensors",
@@ -50,32 +50,32 @@
     "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
@@ -131,24 +131,24 @@
     "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.23.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.23.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
@@ -203,11 +203,11 @@
     "model.layers.28.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.28.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.28.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00004-of-00006.safetensors",
-    "model.layers.29.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.29.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.29.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.29.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.29.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.29.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.29.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
@@ -223,13 +223,13 @@
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.30.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.30.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.30.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.30.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.31.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.31.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
@@ -284,24 +284,24 @@
     "model.layers.36.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.input_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.37.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.38.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
-    "model.layers.38.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.38.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
-    "model.layers.38.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.38.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.38.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
-    "model.layers.38.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.39.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
@@ -329,24 +329,24 @@
     "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",

 {
   "metadata": {
+    "total_size": 27769415680
   },
   "weight_map": {
     "lm_head.weight": "model-00006-of-00006.safetensors",
     "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.15.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.16.input_layernorm.weight": "model-00003-of-00006.safetensors",
     "model.layers.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00006.safetensors",
     "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00006.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.23.input_layernorm.weight": "model-00004-of-00006.safetensors",
     "model.layers.23.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.23.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.28.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.28.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.28.self_attn.v_proj.weight": "model-00004-of-00006.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.29.self_attn.k_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.29.self_attn.o_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.29.self_attn.q_proj.weight": "model-00004-of-00006.safetensors",
     "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.30.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.30.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.30.post_attention_layernorm.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.31.input_layernorm.weight": "model-00005-of-00006.safetensors",
     "model.layers.31.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.31.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.self_attn.o_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
     "model.layers.36.self_attn.v_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00005-of-00006.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.38.post_attention_layernorm.weight": "model-00006-of-00006.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00006-of-00006.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.39.input_layernorm.weight": "model-00006-of-00006.safetensors",
     "model.layers.39.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.39.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
     "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
     "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00006.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00006.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.input_layernorm.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
     "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",