OPEA
/

Llama-3.1-Nemotron-70B-Instruct-HF-int4-sym-inc

Safetensors

llama

4-bit precision

intel/auto-round

Model card Files Files and versions Community

wenhuach commited on Dec 6, 2024

Commit

996a178

1 Parent(s): 77e8fae

autoround format

Browse files

Signed-off-by: wenhuach <wenhuach87@gmail.com>

Files changed (2) hide show

config.json +9 -10
quantize_config.json +0 -108

config.json CHANGED Viewed

@@ -26,22 +26,22 @@
   "quantization_config": {
     "amp": true,
     "autoround_version": "0.4.2.dev",
     "batch_size": 8,
     "bits": 4,
-    "damp_percent": 0.01,
     "data_type": "int",
-    "desc_act": false,
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
     "gradient_accumulate_steps": 1,
     "group_size": 128,
-    "iters": 1000,
-    "low_gpu_mem_usage": true,
-    "lr": 0.001,
-    "minmax_lr": 0.001,
-    "nsamples": 512,
-    "quant_method": "gptq",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
@@ -128,8 +128,7 @@
         "model.layers.78",
         "model.layers.79"
       ]
-    ],
-    "true_sequential": false
   },
   "rms_norm_eps": 1e-05,
   "rope_scaling": {

   "quantization_config": {
     "amp": true,
     "autoround_version": "0.4.2.dev",
+    "backend": "auto_round:gptq:exllamav2",
     "batch_size": 8,
     "bits": 4,
     "data_type": "int",
+    "dataset": "NeelNanda/pile-10k",
     "enable_minmax_tuning": true,
     "enable_norm_bias_tuning": false,
     "enable_quanted_input": true,
     "gradient_accumulate_steps": 1,
     "group_size": 128,
+    "iters": 200,
+    "low_gpu_mem_usage": false,
+    "lr": 0.005,
+    "minmax_lr": 0.005,
+    "nsamples": 128,
+    "quant_method": "intel/auto-round",
     "scale_dtype": "torch.float16",
     "seqlen": 2048,
     "sym": true,
         "model.layers.78",
         "model.layers.79"
       ]
+    ]
   },
   "rms_norm_eps": 1e-05,
   "rope_scaling": {

quantize_config.json DELETED Viewed

@@ -1,108 +0,0 @@
-{
-  "bits": 4,
-  "group_size": 128,
-  "sym": true,
-  "data_type": "int",
-  "enable_quanted_input": true,
-  "enable_minmax_tuning": true,
-  "seqlen": 2048,
-  "batch_size": 8,
-  "scale_dtype": "torch.float16",
-  "lr": 0.001,
-  "minmax_lr": 0.001,
-  "gradient_accumulate_steps": 1,
-  "iters": 1000,
-  "amp": true,
-  "nsamples": 512,
-  "low_gpu_mem_usage": true,
-  "to_quant_block_names": [
-    [
-      "model.layers.0",
-      "model.layers.1",
-      "model.layers.2",
-      "model.layers.3",
-      "model.layers.4",
-      "model.layers.5",
-      "model.layers.6",
-      "model.layers.7",
-      "model.layers.8",
-      "model.layers.9",
-      "model.layers.10",
-      "model.layers.11",
-      "model.layers.12",
-      "model.layers.13",
-      "model.layers.14",
-      "model.layers.15",
-      "model.layers.16",
-      "model.layers.17",
-      "model.layers.18",
-      "model.layers.19",
-      "model.layers.20",
-      "model.layers.21",
-      "model.layers.22",
-      "model.layers.23",
-      "model.layers.24",
-      "model.layers.25",
-      "model.layers.26",
-      "model.layers.27",
-      "model.layers.28",
-      "model.layers.29",
-      "model.layers.30",
-      "model.layers.31",
-      "model.layers.32",
-      "model.layers.33",
-      "model.layers.34",
-      "model.layers.35",
-      "model.layers.36",
-      "model.layers.37",
-      "model.layers.38",
-      "model.layers.39",
-      "model.layers.40",
-      "model.layers.41",
-      "model.layers.42",
-      "model.layers.43",
-      "model.layers.44",
-      "model.layers.45",
-      "model.layers.46",
-      "model.layers.47",
-      "model.layers.48",
-      "model.layers.49",
-      "model.layers.50",
-      "model.layers.51",
-      "model.layers.52",
-      "model.layers.53",
-      "model.layers.54",
-      "model.layers.55",
-      "model.layers.56",
-      "model.layers.57",
-      "model.layers.58",
-      "model.layers.59",
-      "model.layers.60",
-      "model.layers.61",
-      "model.layers.62",
-      "model.layers.63",
-      "model.layers.64",
-      "model.layers.65",
-      "model.layers.66",
-      "model.layers.67",
-      "model.layers.68",
-      "model.layers.69",
-      "model.layers.70",
-      "model.layers.71",
-      "model.layers.72",
-      "model.layers.73",
-      "model.layers.74",
-      "model.layers.75",
-      "model.layers.76",
-      "model.layers.77",
-      "model.layers.78",
-      "model.layers.79"
-    ]
-  ],
-  "enable_norm_bias_tuning": false,
-  "autoround_version": "0.4.2.dev",
-  "quant_method": "gptq",
-  "desc_act": false,
-  "true_sequential": false,
-  "damp_percent": 0.01
-}