Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +191 -0
added_tokens.json +7 -0
config.json +29 -0
mergekit_config.yml +145 -0
model-00001-of-00001.safetensors +3 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +1 -0
special_tokens_map.json +37 -0
tokenizer.model +3 -0
tokenizer_config.json +95 -0

README.md ADDED Viewed

	@@ -0,0 +1,191 @@

+---
+base_model:
+- m-a-p/neo_7b
+- DewEfresh/neo_7b
+tags:
+- merge
+- mergekit
+- lazymergekit
+- m-a-p/neo_7b
+- DewEfresh/neo_7b
+---
+# Neo_7b-merge8
+Neo_7b-merge8 is a merge of the following models using [LazyMergekit](https://colab.research.google.com/drive/1obulZ1ROXHjYLn6PPZJwRR6GzgQogxxb?usp=sharing):
+* [m-a-p/neo_7b](https://huggingface.co/m-a-p/neo_7b)
+* [DewEfresh/neo_7b](https://huggingface.co/DewEfresh/neo_7b)
+## 🧩 Configuration
+```yaml
+slices:
+  # Group 1 (layers 0-3 to 0-2)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [0, 0]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [1, 1]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [2, 2]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  # Group 2 (layers 4-7 to 3-5)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [3, 3]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [4, 4]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [5, 5]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  # Group 3 (layers 8-11 to 6-8)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [6, 6]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [7, 7]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [8, 8]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  # Group 4 (layers 12-15 to 9-11)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [9, 9]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [10, 10]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [11, 11]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  # Group 5 (layers 16-19 to 12-14)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [12, 12]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [13, 13]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [14, 14]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  # Group 6 (layers 20-23 to 15-17)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [15, 15]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [16, 16]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [17, 17]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  # Group 7 (layers 24-27 to 18-20)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [18, 18]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [19, 19]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [20, 20]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+merge_method: slerp
+base_model: m-a-p/neo_7b
+parameters:
+  t:
+    - 0.75  # Weight for m-a-p/neo_7b layer
+    - 0.25  # Weight for the 4th DewEfresh/neo_7b layer being merged
+dtype: bfloat16
+output_path: ./merged_reduced_map_dewefresh_neo_7b
+model_config:
+  architectures: ["LlamaForCausalLM"]
+  attention_bias: false
+  attention_dropout: 0.0
+  hidden_act: "silu"
+  hidden_size: 3072
+  intermediate_size: 24576
+  max_position_embeddings: 8192
+  model_type: "llama"
+  num_attention_heads: 16
+  num_hidden_layers: 21  # Reduced from 28 to 21
+  num_key_value_heads: 16
+  rms_norm_eps: 1e-05
+  rope_theta: 10000.0
+  use_cache: true
+  vocab_size: 64256
+```
+## 💻 Usage
+```python
+!pip install -qU transformers accelerate
+from transformers import AutoTokenizer
+import transformers
+import torch
+model = "DewEfresh/Neo_7b-merge8"
+messages = [{"role": "user", "content": "What is a large language model?"}]
+tokenizer = AutoTokenizer.from_pretrained(model)
+prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+pipeline = transformers.pipeline(
+    "text-generation",
+    model=model,
+    torch_dtype=torch.float16,
+    device_map="auto",
+)
+outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
+print(outputs[0]["generated_text"])
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "<|CLS|>": 64000,
+  "<|EOD|>": 64002,
+  "<|MASK|>": 64003,
+  "<|PAD|>": 64004,
+  "<|SEP|>": 64001
+}

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "m-a-p/neo_7b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 24576,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 0,
+  "num_key_value_heads": 16,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.42.3",
+  "use_cache": true,
+  "vocab_size": 64256
+}

mergekit_config.yml ADDED Viewed

	@@ -0,0 +1,145 @@

+slices:
+  # Group 1 (layers 0-3 to 0-2)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [0, 0]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [1, 1]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [2, 2]
+      - model: DewEfresh/neo_7b
+        layer_range: [3, 3]
+  # Group 2 (layers 4-7 to 3-5)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [3, 3]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [4, 4]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [5, 5]
+      - model: DewEfresh/neo_7b
+        layer_range: [7, 7]
+  # Group 3 (layers 8-11 to 6-8)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [6, 6]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [7, 7]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [8, 8]
+      - model: DewEfresh/neo_7b
+        layer_range: [11, 11]
+  # Group 4 (layers 12-15 to 9-11)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [9, 9]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [10, 10]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [11, 11]
+      - model: DewEfresh/neo_7b
+        layer_range: [15, 15]
+  # Group 5 (layers 16-19 to 12-14)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [12, 12]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [13, 13]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [14, 14]
+      - model: DewEfresh/neo_7b
+        layer_range: [19, 19]
+  # Group 6 (layers 20-23 to 15-17)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [15, 15]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [16, 16]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [17, 17]
+      - model: DewEfresh/neo_7b
+        layer_range: [23, 23]
+  # Group 7 (layers 24-27 to 18-20)
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [18, 18]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [19, 19]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+  - sources:
+      - model: m-a-p/neo_7b
+        layer_range: [20, 20]
+      - model: DewEfresh/neo_7b
+        layer_range: [27, 27]
+merge_method: slerp
+base_model: m-a-p/neo_7b
+parameters:
+  t:
+    - 0.75  # Weight for m-a-p/neo_7b layer
+    - 0.25  # Weight for the 4th DewEfresh/neo_7b layer being merged
+dtype: bfloat16
+output_path: ./merged_reduced_map_dewefresh_neo_7b
+model_config:
+  architectures: ["LlamaForCausalLM"]
+  attention_bias: false
+  attention_dropout: 0.0
+  hidden_act: "silu"
+  hidden_size: 3072
+  intermediate_size: 24576
+  max_position_embeddings: 8192
+  model_type: "llama"
+  num_attention_heads: 16
+  num_hidden_layers: 21  # Reduced from 28 to 21
+  num_key_value_heads: 16
+  rms_norm_eps: 1e-05
+  rope_theta: 10000.0
+  use_cache: true
+  vocab_size: 64256

model-00001-of-00001.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41209159383a6438fa1e73146df470aae582c40bf510ec2495a3f8780477ce87
+size 789584192

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93f2a7f3db85521671732789bb8fd1bb3ae3a7e0d33170ea530f53a25346fcdd
+size 4998668592

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1227a57ac0fc74f5a2c223e5e41dd53ba09f50acbf6d63e5f166a8e1fc740c5e
+size 4926336584

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:842f7380860bf7fcbc76d2380d90cadd65d691872aea7b707c770947a2456da6
+size 4907455800

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c646eb68fbc0f40d473ef6eb80dd23fcb436002f2f32848ec9e4c3e46ad8e216
+size 755001136

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"metadata": {"mergekit_version": "0.0.4.4", "total_size": 789583872}, "weight_map": {"lm_head.weight": "model-00001-of-00001.safetensors", "model.embed_tokens.weight": "model-00001-of-00001.safetensors", "model.norm.weight": "model-00001-of-00001.safetensors"}}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "additional_special_tokens": [
+    "<|CLS|>",
+    "<|SEP|>",
+    "<|EOD|>",
+    "<|MASK|>",
+    "<|PAD|>"
+  ],
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": true
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6a2447b0e5664cabb2481587597102d82f42f0ccb7ef22e1c2d95494a8b03c5
+size 1002561

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": true,
+      "special": true
+    },
+    "64000": {
+      "content": "<|CLS|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64001": {
+      "content": "<|SEP|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64002": {
+      "content": "<|EOD|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64003": {
+      "content": "<|MASK|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "64004": {
+      "content": "<|PAD|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|CLS|>",
+    "<|SEP|>",
+    "<|EOD|>",
+    "<|MASK|>",
+    "<|PAD|>"
+  ],
+  "auto_map": {
+    "AutoTokenizer": [
+      "m-a-p/neo_7b--tokenization_neo.NEOTokenizer",
+      null
+    ]
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% set system_message = 'You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\\n\\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don\\'t know the answer to a question, please don\\'t share false information.' %}{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if loop.index0 == 0 and system_message is defined %}{% set content = '<<SYS>>\\n' + system_message + '\\n<</SYS>>\\n\\n' + message['content'] %}{% endif %}{% if message['role'] == 'user' %}{{ '<s>' + '[INST] ' + content + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "NEOTokenizer",
+  "unk_token": "<unk>",
+  "use_fast": false
+}