Intel
/

Qwen3-235B-A22B-Instruct-2507-int4-mixed-AutoRound

4-bit precision

Model card Files Files and versions

wenhuach commited on Jul 28

Commit

76db5e3

·

verified ·

1 Parent(s): 75bd1a7

Update README.md

Files changed (1) hide show

README.md +2 -3

README.md CHANGED Viewed

@@ -73,7 +73,7 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
 from auto_round import AutoRound
-model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
 model = AutoModelForCausalLM.from_pretrained(model_name,
                                              device_map="cpu", torch_dtype="auto")
@@ -88,7 +88,7 @@ for n, m in model.named_modules():
         layer_config[n] = {"bits": 8, "group_size": 128}
 autoround = AutoRound(model, tokenizer, iters=0, group_size=64, layer_config=layer_config)
-output_dir = "/dataset/Qwen3-235B-A22B-Thinking-2507-int4-mixed"
 autoround.quantize_and_save(output_dir)
 ## tricky code to handle qkv fusing issue, we will fix it in vllm later
@@ -106,7 +106,6 @@ for i in range(num_hidden_layers):
     extra_config[qkv_name] = {"bits": 8, "group_size": 128}
 with open(config_path, "w") as file:
     json.dump(config, file, indent=2)
-exit()
 ```

 from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig
 from auto_round import AutoRound
+model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"
 model = AutoModelForCausalLM.from_pretrained(model_name,
                                              device_map="cpu", torch_dtype="auto")
         layer_config[n] = {"bits": 8, "group_size": 128}
 autoround = AutoRound(model, tokenizer, iters=0, group_size=64, layer_config=layer_config)
+output_dir = "/dataset/Qwen3-235B-A22B-Instruct-2507-int4-mixed"
 autoround.quantize_and_save(output_dir)
 ## tricky code to handle qkv fusing issue, we will fix it in vllm later
     extra_config[qkv_name] = {"bits": 8, "group_size": 128}
 with open(config_path, "w") as file:
     json.dump(config, file, indent=2)
 ```