update weights

Files changed (6) hide show

config.json +1 -1
model-00001-of-00005.safetensors +2 -2
model-00002-of-00005.safetensors +2 -2
model-00003-of-00005.safetensors +2 -2
model-00004-of-00005.safetensors +2 -2
model.safetensors.index.json +39 -39

config.json CHANGED Viewed

@@ -8,7 +8,7 @@
   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
-  "intermediate_size": 13696,
   "max_position_embeddings": 32768,
   "max_window_layers": 35,
   "model_type": "qwen2",

   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
+  "intermediate_size": 14336,
   "max_position_embeddings": 32768,
   "max_window_layers": 35,
   "model_type": "qwen2",

model-00001-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a8a5d3acefb3f5b44d0cb74e83f10e45f40ad932dd1dcd63f5e9dc184d267ab
-size 3996880360

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1feec0077fd4055e9fb6a5db24240a81ac41ff117cda1a67670a6149c3791f6
+size 3995509184

model-00002-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74b932e8d51140fa28a5105ecc01f0cf23aa3838ce87ff4d9dc6b0f5cd0eb364
-size 3946910664

 version https://git-lfs.github.com/spec/v1
+oid sha256:4479a9d40667ba0fbcd6edba3a18dc552e5550b59fe438721b260ece78abfae1
+size 3995886232

model-00003-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c18a21157df97466eb43e2d68e63ddf785a0ce9acc4c5c082830da298cb26679
-size 4000006064

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c4b900993032a3f94adc2f20a593bf3884bfc7b089a7061137e52f20cf120d
+size 3995886344

model-00004-of-00005.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbd61adb26287b891a6247d921b62f1e59ca9405372c6b6a965b947f28331a58
-size 2530332544

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d6701d5280d5764aa071fae569cc7535b563c7b5efa6cdd81964a90abf78008
+size 2889484712

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 16031098880
   },
   "weight_map": {
     "lm_head.weight": "model-00005-of-00005.safetensors",
@@ -413,16 +413,16 @@
     "model.layers.18.self_attn.v_proj.qzeros": "model-00002-of-00005.safetensors",
     "model.layers.18.self_attn.v_proj.scales": "model-00002-of-00005.safetensors",
     "model.layers.19.input_layernorm.weight": "model-00003-of-00005.safetensors",
-    "model.layers.19.mlp.down_proj.bias": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.down_proj.g_idx": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.down_proj.qweight": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.down_proj.qzeros": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.down_proj.scales": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.gate_proj.bias": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.gate_proj.g_idx": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.gate_proj.qweight": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.gate_proj.qzeros": "model-00002-of-00005.safetensors",
-    "model.layers.19.mlp.gate_proj.scales": "model-00002-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.bias": "model-00003-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.g_idx": "model-00003-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.qweight": "model-00003-of-00005.safetensors",
@@ -930,23 +930,23 @@
     "model.layers.30.self_attn.v_proj.qweight": "model-00003-of-00005.safetensors",
     "model.layers.30.self_attn.v_proj.qzeros": "model-00003-of-00005.safetensors",
     "model.layers.30.self_attn.v_proj.scales": "model-00003-of-00005.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.down_proj.bias": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.down_proj.g_idx": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.down_proj.qweight": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.down_proj.qzeros": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.down_proj.scales": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.gate_proj.bias": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.gate_proj.g_idx": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.gate_proj.qweight": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.gate_proj.qzeros": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.gate_proj.scales": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.up_proj.bias": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.up_proj.g_idx": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.up_proj.qweight": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.up_proj.qzeros": "model-00003-of-00005.safetensors",
-    "model.layers.31.mlp.up_proj.scales": "model-00003-of-00005.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.g_idx": "model-00003-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.qweight": "model-00003-of-00005.safetensors",
@@ -984,14 +984,14 @@
     "model.layers.32.mlp.up_proj.qzeros": "model-00004-of-00005.safetensors",
     "model.layers.32.mlp.up_proj.scales": "model-00004-of-00005.safetensors",
     "model.layers.32.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
-    "model.layers.32.self_attn.k_proj.bias": "model-00003-of-00005.safetensors",
-    "model.layers.32.self_attn.k_proj.g_idx": "model-00003-of-00005.safetensors",
-    "model.layers.32.self_attn.k_proj.qweight": "model-00003-of-00005.safetensors",
-    "model.layers.32.self_attn.k_proj.qzeros": "model-00003-of-00005.safetensors",
-    "model.layers.32.self_attn.k_proj.scales": "model-00003-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.bias": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.g_idx": "model-00004-of-00005.safetensors",
-    "model.layers.32.self_attn.o_proj.qweight": "model-00003-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.qzeros": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.scales": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.q_proj.bias": "model-00004-of-00005.safetensors",
@@ -1375,11 +1375,11 @@
     "model.layers.6.self_attn.v_proj.qzeros": "model-00001-of-00005.safetensors",
     "model.layers.6.self_attn.v_proj.scales": "model-00001-of-00005.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00002-of-00005.safetensors",
-    "model.layers.7.mlp.down_proj.bias": "model-00001-of-00005.safetensors",
-    "model.layers.7.mlp.down_proj.g_idx": "model-00001-of-00005.safetensors",
-    "model.layers.7.mlp.down_proj.qweight": "model-00001-of-00005.safetensors",
-    "model.layers.7.mlp.down_proj.qzeros": "model-00001-of-00005.safetensors",
-    "model.layers.7.mlp.down_proj.scales": "model-00001-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.bias": "model-00002-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.g_idx": "model-00002-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.qweight": "model-00002-of-00005.safetensors",

 {
   "metadata": {
+    "total_size": 16433735680
   },
   "weight_map": {
     "lm_head.weight": "model-00005-of-00005.safetensors",
     "model.layers.18.self_attn.v_proj.qzeros": "model-00002-of-00005.safetensors",
     "model.layers.18.self_attn.v_proj.scales": "model-00002-of-00005.safetensors",
     "model.layers.19.input_layernorm.weight": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.bias": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.g_idx": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.qweight": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.qzeros": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.down_proj.scales": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.bias": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.g_idx": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.qweight": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.qzeros": "model-00003-of-00005.safetensors",
+    "model.layers.19.mlp.gate_proj.scales": "model-00003-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.bias": "model-00003-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.g_idx": "model-00003-of-00005.safetensors",
     "model.layers.19.mlp.up_proj.qweight": "model-00003-of-00005.safetensors",
     "model.layers.30.self_attn.v_proj.qweight": "model-00003-of-00005.safetensors",
     "model.layers.30.self_attn.v_proj.qzeros": "model-00003-of-00005.safetensors",
     "model.layers.30.self_attn.v_proj.scales": "model-00003-of-00005.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.bias": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.g_idx": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.qweight": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.qzeros": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.down_proj.scales": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.bias": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.g_idx": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.qweight": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.qzeros": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.gate_proj.scales": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.bias": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.g_idx": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.qweight": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.qzeros": "model-00004-of-00005.safetensors",
+    "model.layers.31.mlp.up_proj.scales": "model-00004-of-00005.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.bias": "model-00003-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.g_idx": "model-00003-of-00005.safetensors",
     "model.layers.31.self_attn.k_proj.qweight": "model-00003-of-00005.safetensors",
     "model.layers.32.mlp.up_proj.qzeros": "model-00004-of-00005.safetensors",
     "model.layers.32.mlp.up_proj.scales": "model-00004-of-00005.safetensors",
     "model.layers.32.post_attention_layernorm.weight": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.g_idx": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.qweight": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.qzeros": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.k_proj.scales": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.bias": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.g_idx": "model-00004-of-00005.safetensors",
+    "model.layers.32.self_attn.o_proj.qweight": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.qzeros": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.o_proj.scales": "model-00004-of-00005.safetensors",
     "model.layers.32.self_attn.q_proj.bias": "model-00004-of-00005.safetensors",
     "model.layers.6.self_attn.v_proj.qzeros": "model-00001-of-00005.safetensors",
     "model.layers.6.self_attn.v_proj.scales": "model-00001-of-00005.safetensors",
     "model.layers.7.input_layernorm.weight": "model-00002-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.bias": "model-00002-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.g_idx": "model-00002-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.qweight": "model-00002-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.qzeros": "model-00002-of-00005.safetensors",
+    "model.layers.7.mlp.down_proj.scales": "model-00002-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.bias": "model-00002-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.g_idx": "model-00002-of-00005.safetensors",
     "model.layers.7.mlp.gate_proj.qweight": "model-00002-of-00005.safetensors",