AlexWortega
/

miqu-1-70b-AQLM-2Bit-1x16-hf

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

AlexWortega commited on Mar 10, 2024

Commit

3b5b4b4

·

verified ·

1 Parent(s): a001a21

Upload config.json with huggingface_hub

Files changed (1) hide show

config.json +14 -13

config.json CHANGED Viewed

@@ -1,20 +1,10 @@
 {
-  "_name_or_path": "/extra_disk_1/blacksamorez/miqu-1-70b-AQLM-2Bit-1x16-hf/",
-  "aqlm": {
-    "in_group_size": 8,
-    "nbits_per_codebook": 16,
-    "num_codebooks": 1,
-    "out_group_size": 1
-  },
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
-  "auto_map": {
-    "AutoConfig": "configuration_llama_aqlm.LlamaConfig",
-    "AutoModelForCausalLM": "modeling_llama_aqlm.LlamaForCausalLM"
-  },
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
@@ -22,18 +12,29 @@
   "initializer_range": 0.02,
   "intermediate_size": 28672,
   "max_position_embeddings": 32764,
-  "model_type": "llama_aqlm",
   "num_attention_heads": 64,
   "num_hidden_layers": 80,
   "num_key_value_heads": 8,
   "pad_token_id": 0,
   "pretraining_tp": 1,
   "rms_norm_eps": 1e-05,
   "rope_scaling": null,
   "rope_theta": 1000000,
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
-  "transformers_version": "4.38.0.dev0",
   "use_cache": true,
   "vocab_size": 32000
 }

 {
+  "_name_or_path": "AlexWortega/miqu-1-70b-AQLM-2Bit-1x16-hf",
   "architectures": [
     "LlamaForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "initializer_range": 0.02,
   "intermediate_size": 28672,
   "max_position_embeddings": 32764,
+  "model_type": "llama",
   "num_attention_heads": 64,
   "num_hidden_layers": 80,
   "num_key_value_heads": 8,
   "pad_token_id": 0,
   "pretraining_tp": 1,
+  "quantization_config": {
+    "in_group_size": 8,
+    "linear_weights_not_to_quantize": [
+      "model.embed_tokens.weight",
+      "lm_head.weight"
+    ],
+    "nbits_per_codebook": 16,
+    "num_codebooks": 1,
+    "out_group_size": 1,
+    "quant_method": "aqlm"
+  },
   "rms_norm_eps": 1e-05,
   "rope_scaling": null,
   "rope_theta": 1000000,
   "tie_word_embeddings": false,
   "torch_dtype": "float16",
+  "transformers_version": "4.38.2",
   "use_cache": true,
   "vocab_size": 32000
 }