Training in progress, step 550

Browse files

Files changed (9) hide show

adapter_config.json +29 -0
adapter_model.safetensors +3 -0
config.json +30 -29
model-00001-of-00003.safetensors +2 -2
model-00002-of-00003.safetensors +2 -2
model-00003-of-00003.safetensors +2 -2
model.safetensors.index.json +291 -291
sparsification_sftt.py +1 -0
training_args.bin +1 -1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "up_proj",
+    "gate_proj",
+    "down_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:202d396a5e1092600aa9a5c2e16776525c65d2365b419b7b3a3d8b2f44ea0343
+size 281061608

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "mistralai/Mistral-7B-v0.1",
   "architectures": [
     "SparseMistralforCausalLM"
   ],
@@ -23,43 +23,44 @@
   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "thresholds": [
-    0.027081236243247986,
     0.037111327052116394,
-    0.07923770695924759,
-    0.07923770695924759,
-    0.09127381443977356,
-    0.10531593859195709,
-    0.10932797938585281,
-    0.1153460294008255,
-    0.11935807019472122,
-    0.11935807019472122,
-    0.12938815355300903,
     0.13340020179748535,
-    0.14343027770519257,
-    0.14343027770519257,
-    0.15346036851406097,
-    0.17151454091072083,
-    0.19157472252845764,
-    0.21564693748950958,
-    0.22768303751945496,
     0.24172517657279968,
-    0.24774321913719177,
-    0.2577733099460602,
-    0.2577733099460602,
-    0.26379138231277466,
-    0.26379138231277466,
-    0.26379138231277466,
-    0.26379138231277466,
-    0.26379138231277466,
     0.26579737663269043,
-    0.26980942487716675,
-    0.30190572142601013,
-    0.5386158227920532
   ],
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
   "use_cache": false,
   "use_sparse_model": true,
   "use_sparse_predictor": false,
   "use_sparse_regularization": false,

 {
+  "_name_or_path": "/scr/jay/ckpt/Mistral_Sparse_refined_web_70p",
   "architectures": [
     "SparseMistralforCausalLM"
   ],
   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "thresholds": [
     0.037111327052116394,
+    0.05315947160124779,
+    0.06720159947872162,
+    0.08525575697422028,
+    0.11133399605751038,
     0.13340020179748535,
+    0.14744232594966888,
+    0.16549648344516754,
+    0.17552657425403595,
+    0.1775325983762741,
+    0.18154463171958923,
+    0.18555666506290436,
+    0.18956869840621948,
+    0.1935807317495346,
+    0.2096288800239563,
+    0.22166499495506287,
+    0.23771312832832336,
     0.24172517657279968,
+    0.25376129150390625,
+    0.25977933406829834,
+    0.2617853581905365,
     0.26579737663269043,
+    0.26579737663269043,
+    0.26579737663269043,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286,
+    0.2678034007549286
   ],
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
   "use_cache": false,
+  "use_relu": false,
   "use_sparse_model": true,
   "use_sparse_predictor": false,
   "use_sparse_regularization": false,

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0c61edb0e98751a0f778d8d0a0b9ea175e91980b755c615051f8b7d1bd57e0b
-size 4943163992

 version https://git-lfs.github.com/spec/v1
+oid sha256:926ad289ffdf77974545ba4b5536df9e17efd3e57ca8c03c5ffab79565bd4ebe
+size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:454e336cba7cbc747b1cc746101181c9c2f9aa960ebe7bcee79bee0633c618b4
-size 4999821144

 version https://git-lfs.github.com/spec/v1
+oid sha256:67d121ed5fdea2c4313698d45947e3fd6fc2acfa32ce70226d98031a67768ad9
+size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ae884c75cdae5bf5f5657fd22168350f4c2d3585dfe0f9f1b552d4494c41903
-size 4540517840

 version https://git-lfs.github.com/spec/v1
+oid sha256:201c5c3752091873297146720180b767f0097ebc97add003b1dd83d2a93e3193
+size 4540516344

model.safetensors.index.json CHANGED Viewed

@@ -3,296 +3,296 @@
     "total_size": 14483464192
   },
   "weight_map": {
-    "base_model.model.lm_head.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.embed_tokens.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "base_model.model.model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
-    "base_model.model.model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "base_model.model.model.norm.weight": "model-00003-of-00003.safetensors"
   }
 }

     "total_size": 14483464192
   },
   "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
   }
 }

sparsification_sftt.py CHANGED Viewed

@@ -551,6 +551,7 @@ class SparseMistralforCausalLM(MistralForCausalLM):
                         m.mlp.dead_threshold = config.thresholds[idx]
                         m.mlp.sparse_act_fn.set_new_threshold(m.mlp.dead_threshold)
                         m.mlp.kill_sparse_swish_outputs = True
         if config.use_sparse_predictor:
             self.apply_sparse_predictor(init_svd=config.init_svd)

                         m.mlp.dead_threshold = config.thresholds[idx]
                         m.mlp.sparse_act_fn.set_new_threshold(m.mlp.dead_threshold)
                         m.mlp.kill_sparse_swish_outputs = True
+                        m.mlp.use_relu = config.use_relu
         if config.use_sparse_predictor:
             self.apply_sparse_predictor(init_svd=config.init_svd)

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a26e098ad94464b8a24afc280fbfa799c23d2fd91b18354b170ceecf708f2e1
 size 6456

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c230c4a76feef1f1869d4277cd20574c6d2f4a752d464deb958409289a032f0
 size 6456