arishiki
/

Llama-3.2-1B-Instruct-quantized-gptq-4g01

4-bit precision

Model card Files Files and versions Community

arishiki commited on Oct 21, 2024

Commit

1ae2e3b

·

verified ·

1 Parent(s): 0ad6b36

Update Readme.md

Files changed (1) hide show

README.md +26 -3

README.md CHANGED Viewed

@@ -1,3 +1,26 @@
----
-license: llama3.2
----

+---
+license: llama3.2
+base_model:
+- meta-llama/Llama-3.2-1B-Instruct
+---
+This model is a quantized version of Llama-3.2-1B-Instruct.
+Code used for generation is as follows:
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig
+import torch
+model_id = "meta-llama/Llama-3.2-1B-Instruct"
+quantization_config = GPTQConfig(
+     bits=4,
+     group_size=128,
+     dataset="c4",
+     desc_act=False,
+)
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+quant_model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=quantization_config, device_map='auto')
+```