yujiepan
/

llama-3-tiny-random-gptq-w4

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

yujiepan commited on Apr 20

Commit

f258fb5

•

1 Parent(s): c9f47b0

Update README.md

Files changed (1) hide show

README.md +11 -3

README.md CHANGED Viewed

@@ -7,14 +7,22 @@ tags: []
 4-bit weight only quantization by AutoGPTQ on [yujiepan/llama-3-tiny-random](https://huggingface.co/yujiepan/llama-3-tiny-random)
-```
 from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig
 import torch
 model_id = "yujiepan/llama-3-tiny-random"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-quantization_config = GPTQConfig(bits=4, group_size=-1, dataset="c4", tokenizer=tokenizer)
-model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", quantization_config=quantization_config)
 ```

 4-bit weight only quantization by AutoGPTQ on [yujiepan/llama-3-tiny-random](https://huggingface.co/yujiepan/llama-3-tiny-random)
+```python
 from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig
 import torch
 model_id = "yujiepan/llama-3-tiny-random"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+quantization_config = GPTQConfig(
+    bits=4, group_size=-1,
+    dataset="c4",
+    tokenizer=tokenizer,
+)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    device_map="auto",
+    quantization_config=quantization_config,
+)
 ```