Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

README.md +183 -0
added_tokens.json +7 -0
config.json +29 -0
mergekit_config.yml +137 -0
model-00001-of-00001.safetensors +3 -0
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +1 -0
special_tokens_map.json +37 -0
tokenizer.model +3 -0
tokenizer_config.json +95 -0

README.md ADDED Viewed

	@@ -0,0 +1,183 @@

+---
+base_model:
+- DewEfresh/neo_7b
+- m-a-p/neo_7b
+tags:
+- merge
+- mergekit
+- lazymergekit
+- DewEfresh/neo_7b
+- m-a-p/neo_7b
+---
+# Neo_7b-merge21
+Neo_7b-merge21 is a merge of the following models using [LazyMergekit](https://colab.research.google.com/drive/1obulZ1ROXHjYLn6PPZJwRR6GzgQogxxb?usp=sharing):
+* [DewEfresh/neo_7b](https://huggingface.co/DewEfresh/neo_7b)
+* [m-a-p/neo_7b](https://huggingface.co/m-a-p/neo_7b)
+## 🧩 Configuration
+```yaml
+# Define the slices for the model merging process
+slices:
+  - sources:
+      # First part: merge layer 0 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [0, 1]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Second part: merge layer 1 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [1, 2]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Third part: merge layer 2 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [2, 3]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Fourth part: merge layer 4 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [4, 5]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Fifth part: merge layer 5 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [5, 6]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Sixth part: merge layer 6 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [6, 7]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Seventh part: merge layer 8 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [8, 9]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Eighth part: merge layer 9 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [9, 10]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Ninth part: merge layer 10 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [10, 11]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Tenth part: merge layer 12 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [12, 13]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Eleventh part: merge layer 13 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [13, 14]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Twelfth part: merge layer 14 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [14, 15]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Thirteenth part: merge layer 16 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [16, 17]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Fourteenth part: merge layer 17 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [17, 18]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Fifteenth part: merge layer 18 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [18, 19]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Sixteenth part: merge layer 20 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [20, 21]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Seventeenth part: merge layer 21 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [21, 22]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Eighteenth part: merge layer 22 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [22, 23]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Nineteenth part: merge layer 24 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [24, 25]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+  - sources:
+      # Twentieth part: merge layer 25 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [25, 26]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+  - sources:
+      # Twenty-first part: merge layer 26 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [26, 27]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+# Specify the merging method for the slices
+merge_method: slerp
+base_model: DewEfresh/neo_7b
+normalize: true
+parameters:
+  t: 0 # Set global interpolation value to 33.33%
+dtype: bfloat16
+```
+## 💻 Usage
+```python
+!pip install -qU transformers accelerate
+from transformers import AutoTokenizer
+import transformers
+import torch
+model = "DewEfresh/Neo_7b-merge21"
+messages = [{"role": "user", "content": "What is a large language model?"}]
+tokenizer = AutoTokenizer.from_pretrained(model)
+prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+pipeline = transformers.pipeline(
+    "text-generation",
+    model=model,
+    torch_dtype=torch.float16,
+    device_map="auto",
+)
+outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
+print(outputs[0]["generated_text"])
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "<|CLS|>": 64000,
+  "<|EOD|>": 64002,
+  "<|MASK|>": 64003,
+  "<|PAD|>": 64004,
+  "<|SEP|>": 64001
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "DewEfresh/neo_7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 24576,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 21,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.42.3",
+  "use_cache": true,
+  "vocab_size": 64256
+}

mergekit_config.yml ADDED Viewed

	@@ -0,0 +1,137 @@

+# Define the slices for the model merging process
+slices:
+  - sources:
+      # First part: merge layer 0 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [0, 1]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Second part: merge layer 1 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [1, 2]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Third part: merge layer 2 with layer 3
+      - model: DewEfresh/neo_7b
+        layer_range: [2, 3]
+      - model: m-a-p/neo_7b
+        layer_range: [3, 4]
+  - sources:
+      # Fourth part: merge layer 4 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [4, 5]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Fifth part: merge layer 5 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [5, 6]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Sixth part: merge layer 6 with layer 7
+      - model: DewEfresh/neo_7b
+        layer_range: [6, 7]
+      - model: m-a-p/neo_7b
+        layer_range: [7, 8]
+  - sources:
+      # Seventh part: merge layer 8 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [8, 9]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Eighth part: merge layer 9 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [9, 10]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Ninth part: merge layer 10 with layer 11
+      - model: DewEfresh/neo_7b
+        layer_range: [10, 11]
+      - model: m-a-p/neo_7b
+        layer_range: [11, 12]
+  - sources:
+      # Tenth part: merge layer 12 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [12, 13]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Eleventh part: merge layer 13 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [13, 14]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Twelfth part: merge layer 14 with layer 15
+      - model: DewEfresh/neo_7b
+        layer_range: [14, 15]
+      - model: m-a-p/neo_7b
+        layer_range: [15, 16]
+  - sources:
+      # Thirteenth part: merge layer 16 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [16, 17]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Fourteenth part: merge layer 17 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [17, 18]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Fifteenth part: merge layer 18 with layer 19
+      - model: DewEfresh/neo_7b
+        layer_range: [18, 19]
+      - model: m-a-p/neo_7b
+        layer_range: [19, 20]
+  - sources:
+      # Sixteenth part: merge layer 20 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [20, 21]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Seventeenth part: merge layer 21 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [21, 22]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Eighteenth part: merge layer 22 with layer 23
+      - model: DewEfresh/neo_7b
+        layer_range: [22, 23]
+      - model: m-a-p/neo_7b
+        layer_range: [23, 24]
+  - sources:
+      # Nineteenth part: merge layer 24 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [24, 25]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+  - sources:
+      # Twentieth part: merge layer 25 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [25, 26]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+  - sources:
+      # Twenty-first part: merge layer 26 with layer 27
+      - model: DewEfresh/neo_7b
+        layer_range: [26, 27]
+      - model: m-a-p/neo_7b
+        layer_range: [26, 27]
+# Specify the merging method for the slices
+merge_method: slerp
+base_model: DewEfresh/neo_7b
+normalize: true
+parameters:
+  t: 0 # Set global interpolation value to 33.33%
+dtype: bfloat16

model-00001-of-00001.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41209159383a6438fa1e73146df470aae582c40bf510ec2495a3f8780477ce87
+size 789584192

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8bc500425c26a69b1171125917ea6804ae316278eb786d1005e3d3e3980b8cb
+size 4942051384

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e8436c8c2821de6bdee2be5fc9b9bf5e9665457c8562841103df1add244084
+size 4907455808

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd1690755bdd3a90576e47a96861211acabc5c6a8a4fed470a05d3cfeff6690c
+size 2038485400

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"metadata": {"mergekit_version": "0.0.4.4", "total_size": 11887970304}, "weight_map": {"lm_head.weight": "model-00001-of-00003.safetensors", "model.embed_tokens.weight": "model-00001-of-00003.safetensors", "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.10.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.11.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.13.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.12.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.14.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.mlp.up_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00003.safetensors", "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00003.safetensors", "model.layers.17.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.16.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.15.input_layernorm.weight": "model-00001-of-00003.safetensors", "model.layers.17.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.16.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.15.mlp.down_proj.weight": "model-00001-of-00003.safetensors", "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.1.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.0.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.2.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.mlp.up_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.self_attn.q_proj.weight": "model-00002-of-00003.safetensors", "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.0.self_attn.v_proj.weight": "model-00002-of-00003.safetensors", "model.layers.5.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.4.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.3.input_layernorm.weight": "model-00002-of-00003.safetensors", "model.layers.5.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.4.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.3.mlp.down_proj.weight": "model-00002-of-00003.safetensors", "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00003.safetensors", "model.layers.4.mlp.gate_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.mlp.gate_proj.weight": "model-00003-of-00003.safetensors", "model.layers.5.mlp.up_proj.weight": "model-00003-of-00003.safetensors", "model.layers.4.mlp.up_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.mlp.up_proj.weight": "model-00003-of-00003.safetensors", "model.layers.5.post_attention_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.4.post_attention_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.3.post_attention_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.5.self_attn.k_proj.weight": "model-00003-of-00003.safetensors", "model.layers.4.self_attn.k_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.self_attn.k_proj.weight": "model-00003-of-00003.safetensors", "model.layers.5.self_attn.o_proj.weight": "model-00003-of-00003.safetensors", "model.layers.4.self_attn.o_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.self_attn.o_proj.weight": "model-00003-of-00003.safetensors", "model.layers.5.self_attn.q_proj.weight": "model-00003-of-00003.safetensors", "model.layers.4.self_attn.q_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.self_attn.q_proj.weight": "model-00003-of-00003.safetensors", "model.layers.5.self_attn.v_proj.weight": "model-00003-of-00003.safetensors", "model.layers.4.self_attn.v_proj.weight": "model-00003-of-00003.safetensors", "model.layers.3.self_attn.v_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.input_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.6.mlp.down_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.mlp.gate_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.mlp.up_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.6.self_attn.k_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.self_attn.o_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.self_attn.q_proj.weight": "model-00003-of-00003.safetensors", "model.layers.6.self_attn.v_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.input_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.7.mlp.down_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.mlp.up_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00003.safetensors", "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00003.safetensors", "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00003.safetensors", "model.norm.weight": "model-00003-of-00003.safetensors"}}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "additional_special_tokens": [
+    "<|CLS|>",
+    "<|SEP|>",
+    "<|EOD|>",
+    "<|MASK|>",
+    "<|PAD|>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6a2447b0e5664cabb2481587597102d82f42f0ccb7ef22e1c2d95494a8b03c5
+size 1002561

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "64000": {
+      "content": "<|CLS|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64001": {
+      "content": "<|SEP|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64002": {
+      "content": "<|EOD|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64003": {
+      "content": "<|MASK|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64004": {
+      "content": "<|PAD|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|CLS|>",
+    "<|SEP|>",
+    "<|EOD|>",
+    "<|MASK|>",
+    "<|PAD|>"
+  ],
+  "auto_map": {
+    "AutoTokenizer": [
+      "DewEfresh/neo_7b--tokenization_neo.NEOTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% set system_message = 'You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\\n\\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don\\'t know the answer to a question, please don\\'t share false information.' %}{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if loop.index0 == 0 and system_message is defined %}{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}{% endif %}{% if message['role'] == 'user' %}{{ '<s>' + '[INST] ' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "NEOTokenizer",
+  "unk_token": "<unk>",
+  "use_fast": false
+}