first!

Browse files

Files changed (4) hide show

.gitattributes +1 -0
Gonzo-Chat-7B-Q4_K_M.gguf +3 -0
README.md +52 -1
config.json +26 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+Gonzo-Chat-7B-Q4_K_M.gguf filter=lfs diff=lfs merge=lfs -text

Gonzo-Chat-7B-Q4_K_M.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6eb3cd62f932af310ef8eea9fb1297f009969d2d772efa90ea0d1a5c7601532
+size 4523063008

README.md CHANGED Viewed

@@ -1,3 +1,54 @@
 ---
-license: apache-2.0
 ---

 ---
+base_model:
+- Nondzu/Mistral-7B-Instruct-v0.2-code-ft
+- NousResearch/Nous-Hermes-2-Mistral-7B-DPO
+- cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser
+- eren23/ogno-monarch-jaskier-merge-7b-OH-PREF-DPO
+library_name: transformers
+tags:
+- mergekit
+- merge
 ---
+# Gonzo-Chat-7B
+This is a merge of pre-trained language models created using [mergekit](https://github.com/cg123/mergekit).
+## Merge Details
+### Merge Method
+This model was merged using the [DARE](https://arxiv.org/abs/2311.03099) [TIES](https://arxiv.org/abs/2306.01708) merge method using [eren23/ogno-monarch-jaskier-merge-7b-OH-PREF-DPO](https://huggingface.co/eren23/ogno-monarch-jaskier-merge-7b-OH-PREF-DPO) as a base.
+### Models Merged
+The following models were included in the merge:
+* [Nondzu/Mistral-7B-Instruct-v0.2-code-ft](https://huggingface.co/Nondzu/Mistral-7B-Instruct-v0.2-code-ft)
+* [NousResearch/Nous-Hermes-2-Mistral-7B-DPO](https://huggingface.co/NousResearch/Nous-Hermes-2-Mistral-7B-DPO)
+* [cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser](https://huggingface.co/cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser)
+### Configuration
+The following YAML configuration was used to produce this model:
+```yaml
+models:
+  - model: eren23/ogno-monarch-jaskier-merge-7b-OH-PREF-DPO
+    # No parameters necessary for base model
+  - model: cognitivecomputations/dolphin-2.6-mistral-7b-dpo-laser
+    parameters:
+      density: 0.53
+      weight: 0.4
+  - model:  NousResearch/Nous-Hermes-2-Mistral-7B-DPO
+    parameters:
+      density: 0.53
+      weight: 0.3
+  - model: Nondzu/Mistral-7B-Instruct-v0.2-code-ft
+    parameters:
+      density: 0.53
+      weight: 0.3
+merge_method: dare_ties
+base_model: eren23/ogno-monarch-jaskier-merge-7b-OH-PREF-DPO
+parameters:
+  int8_mask: true
+dtype: bfloat16
+```

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "Gonzo-Chat-7B",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
+  "use_cache": true,
+  "vocab_size": 32000
+}