Spaces:

Alovestocode
/

ZeroGPU-LLM-Inference

Sleeping

Alikestocode commited on Nov 10

Commit

022b2da

1 Parent(s): 33a1d2e

Fix AWQModifier: use quantization_config with num_bits

- AWQModifier requires quantization_config parameter
- Create QuantizationConfig with num_bits=4, group_size=128
- Fixes assertion error about num_bits configuration

Files changed (1) hide show

quantize_to_awq_colab.ipynb +13 -4

quantize_to_awq_colab.ipynb CHANGED Viewed

@@ -254,10 +254,19 @@
         "        print(f\"  → Starting quantization with LLM Compressor...\")\n",
         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
-        "        # AWQModifier API: Use AWQModifier() without parameters\n",
-        "        # The modifier uses default 4-bit AWQ settings\n",
-        "        print(f\"  → Creating AWQModifier with default settings...\")\n",
-        "        modifiers = [AWQModifier()]\n",
         "        print(f\"  → AWQModifier created successfully\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",

         "        print(f\"  → Starting quantization with LLM Compressor...\")\n",
         "        print(f\"  → This may take 30-60 minutes depending on model size...\")\n",
         "        \n",
+        "        # AWQModifier requires quantization_config with num_bits\n",
+        "        # Create quantization config for 4-bit AWQ\n",
+        "        from compressed_tensors.quantization import QuantizationConfig\n",
+        "        \n",
+        "        print(f\"  → Creating quantization config for 4-bit AWQ...\")\n",
+        "        quant_config = QuantizationConfig(\n",
+        "            num_bits=4,  # 4-bit quantization\n",
+        "            group_size=128,  # Group size\n",
+        "            zero_point=True  # Zero-point quantization\n",
+        "        )\n",
+        "        \n",
+        "        print(f\"  → Creating AWQModifier with quantization config...\")\n",
+        "        modifiers = [AWQModifier(quantization_config=quant_config)]\n",
         "        print(f\"  → AWQModifier created successfully\")\n",
         "        \n",
         "        # Call oneshot with the modifier\n",