bjaidi
/

Phi-3-medium-128k-instruct-awq

Text Generation

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

bjaidi commited on Jun 20

Commit

30b44fc

•

1 Parent(s): 790b042

update README.md

Files changed (1) hide show

README.md +26 -0

README.md CHANGED Viewed

@@ -1,3 +1,29 @@
 ---
 license: mit
 ---

+Generated using autoawq: `pip install git+https://github.com/casper-hansen/AutoAWQ.git@f0321eedca887c12680553fc561d176b03b1b9a5 flash_attn'
+Following code used for generation:
+```python
+from awq import AutoAWQForCausalLM
+from transformers import AutoTokenizer
+model_path = 'models/Phi-3-medium-128k-instruct'
+quant_path = 'models/Phi-3-medium-128k-instruct-awq'
+quant_config = { "zero_point": True, "q_group_size": 128, "w_bit": 4, "version": "GEMM" }
+# Load model
+model = AutoAWQForCausalLM.from_pretrained(model_path, **{"device_map": "auto"})
+tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
+# Quantize
+model.quantize(tokenizer, quant_config=quant_config)
+# Save quantized model
+model.save_quantized(quant_path)
+tokenizer.save_pretrained(quant_path)
+```
+Original model here: https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
 ---
 license: mit
 ---