Upload model

Browse files

Files changed (7) hide show

config.json +4 -33
model-00001.safetensors +2 -2
model-00002.safetensors +2 -2
model.safetensors.index.json +43 -43
special_tokens_map.json +1 -2
tokenizer.json +2 -2
tokenizer_config.json +2 -3

config.json CHANGED Viewed

@@ -5,8 +5,8 @@
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "bos_token_id": 100000,
-  "eos_token_id": 100001,
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
@@ -19,35 +19,6 @@
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "pretraining_tp": 1,
-  "quantization_config": {
-    "config_groups": {
-      "group_0": {
-        "input_activations": null,
-        "output_activations": null,
-        "targets": [
-          "Linear"
-        ],
-        "weights": {
-          "actorder": null,
-          "block_structure": null,
-          "dynamic": false,
-          "group_size": null,
-          "num_bits": 8,
-          "observer": "minmax",
-          "observer_kwargs": {},
-          "strategy": "channel",
-          "symmetric": true,
-          "type": "int"
-        }
-      }
-    },
-    "format": "pack-quantized",
-    "global_compression_ratio": 1.4619484106630287,
-    "ignore": [],
-    "kv_cache_scheme": null,
-    "quant_method": "compressed-tensors",
-    "quantization_status": "compressed"
-  },
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
     "factor": 8.0,
@@ -61,5 +32,5 @@
   "torch_dtype": "float32",
   "transformers_version": "4.46.0.dev0",
   "use_cache": true,
-  "vocab_size": 100002
-}

   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
+  "bos_token_id": 65536,
+  "eos_token_id": 65537,
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "num_hidden_layers": 32,
   "num_key_value_heads": 8,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": {
     "factor": 8.0,
   "torch_dtype": "float32",
   "transformers_version": "4.46.0.dev0",
   "use_cache": true,
+  "vocab_size": 65538
+}

model-00001.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48160d25c83dfc459c49756b32fbd49d9c7801975b40ae597f96a30bf048693d
-size 2127121391

 version https://git-lfs.github.com/spec/v1
+oid sha256:644c7e8c9d89b656ed00686ffb9c0777f52cf7f728cecaa6c944682a92b4804b
+size 2127429138

model-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7eb1fffe38a0b19c802ee4bb8866f911ca60663226132dee352e55f8a1fce6ac
-size 1744022174

 version https://git-lfs.github.com/spec/v1
+oid sha256:2403e31af850bba0af949ad5113fed4ca735f791ace8d28c82dfca0500b075ad
+size 1442447190

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 3870899005
     },
     "weight_map": {
         "model.layers.0.self_attn.q_proj.weight.shape": "model-00001.safetensors",
@@ -873,6 +873,20 @@
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
         "model.embed_tokens.weight.dtype": "model-00001.safetensors",
         "model.layers.0.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.0.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
@@ -934,20 +948,6 @@
         "model.layers.28.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.29.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.29.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_scale.dtype": "model-00001.safetensors",
         "model.layers.30.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.30.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
@@ -1392,6 +1392,20 @@
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
         "model.layers.0.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.0.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.1.input_layernorm.weight.shape": "model-00001.safetensors",
@@ -1452,20 +1466,6 @@
         "model.layers.28.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.29.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.29.post_attention_layernorm.weight.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_scale.shape": "model-00001.safetensors",
         "model.layers.30.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.30.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
@@ -1913,6 +1913,20 @@
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
         "model.layers.0.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.0.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.1.input_layernorm.weight.compressed": "model-00002.safetensors",
@@ -1973,20 +1987,6 @@
         "model.layers.28.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.29.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.29.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.self_attn.o_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.gate_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.up_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",
-        "model.layers.30.mlp.down_proj.weight.gptq_8_bit_scale.compressed": "model-00002.safetensors",
         "model.layers.30.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.30.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",

 {
     "metadata": {
+        "total_size": 3569631824
     },
     "weight_map": {
         "model.layers.0.self_attn.q_proj.weight.shape": "model-00001.safetensors",
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_weight_packed.dtype": "model-00001.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_scale.dtype": "model-00001.safetensors",
         "model.embed_tokens.weight.dtype": "model-00001.safetensors",
         "model.layers.0.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.0.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.28.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.29.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.29.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.30.input_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.30.post_attention_layernorm.weight.dtype": "model-00001.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.dtype": "model-00001.safetensors",
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_weight_packed.shape": "model-00001.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_scale.shape": "model-00001.safetensors",
         "model.layers.0.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.0.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.1.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.28.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.29.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.29.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.30.input_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.30.post_attention_layernorm.weight.shape": "model-00001.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.shape": "model-00001.safetensors",
         "model.layers.29.mlp.up_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
         "model.layers.29.mlp.down_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.up_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_weight_packed.compressed": "model-00002.safetensors",
+        "model.layers.30.mlp.down_proj.weight.gptq_4_bit_scale.compressed": "model-00002.safetensors",
         "model.layers.0.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.0.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.1.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.28.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.29.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.29.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.30.input_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.30.post_attention_layernorm.weight.compressed": "model-00002.safetensors",
         "model.layers.31.self_attn.q_proj.weight.gptq_8_bit_weight_packed.compressed": "model-00002.safetensors",

special_tokens_map.json CHANGED Viewed

@@ -12,6 +12,5 @@
     "normalized": false,
     "rstrip": false,
     "single_word": false
-  },
-  "pad_token": "<|end_of_text|>"
 }

     "normalized": false,
     "rstrip": false,
     "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbe66b593b7f6eca213bdf982d2bb8c425912ed230cc96dc57741ae935fba514
-size 2408643

 version https://git-lfs.github.com/spec/v1
+oid sha256:5916f74b4ae404700bdca21094462c34ad42a61c06e79dee8f203b34b6e9bf31
+size 8803976

tokenizer_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "added_tokens_decoder": {
-    "100002": {
       "content": "<|begin_of_text|>",
       "lstrip": false,
       "normalized": false,
@@ -8,7 +8,7 @@
       "single_word": false,
       "special": true
     },
-    "100003": {
       "content": "<|end_of_text|>",
       "lstrip": false,
       "normalized": false,
@@ -25,6 +25,5 @@
     "attention_mask"
   ],
   "model_max_length": 131072,
-  "pad_token": "<|end_of_text|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

 {
   "added_tokens_decoder": {
+    "65538": {
       "content": "<|begin_of_text|>",
       "lstrip": false,
       "normalized": false,
       "single_word": false,
       "special": true
     },
+    "65539": {
       "content": "<|end_of_text|>",
       "lstrip": false,
       "normalized": false,
     "attention_mask"
   ],
   "model_max_length": 131072,
   "tokenizer_class": "PreTrainedTokenizerFast"
 }