hugging-quants
/

Meta-Llama-3.1-8B-Instruct-GPTQ-INT4

@@ -49,13 +49,18 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4"
 prompt = [
   {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
   {"role": "user", "content": "What's Deep Learning?"},
 ]
-tokenizer = AutoTokenizer.from_pretrained(model_id)
 inputs = tokenizer.apply_chat_template(
   prompt,
   tokenize=True,
@@ -64,13 +69,6 @@ inputs = tokenizer.apply_chat_template(
   return_dict=True,
 ).to("cuda")
-model = AutoModelForCausalLM.from_pretrained(
-  model_id,
-  torch_dtype=torch.float16,
-  low_cpu_mem_usage=True,
-  device_map="auto",
-)
 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
@@ -92,13 +90,18 @@ from auto_gptq import AutoGPTQForCausalLM
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4"
 prompt = [
   {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
   {"role": "user", "content": "What's Deep Learning?"},
 ]
-tokenizer = AutoTokenizer.from_pretrained(model_id)
 inputs = tokenizer.apply_chat_template(
   prompt,
   tokenize=True,
@@ -107,13 +110,6 @@ inputs = tokenizer.apply_chat_template(
   return_dict=True,
 ).to("cuda")
-model = AutoGPTQForCausalLM.from_pretrained(
-  model_id,
-  torch_dtype=torch.float16,
-  low_cpu_mem_usage=True,
-  device_map="auto",
-)
 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
@@ -135,7 +131,6 @@ Then you just need to run the TGI v2.2.0 (or higher) Docker container as follows
 docker run --gpus all --shm-size 1g -ti -p 8080:80 \
   -v hf_cache:/data \
   -e MODEL_ID=hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4 \
-  -e NUM_SHARD=4 \
   -e QUANTIZE=gptq \
   -e HF_TOKEN=$(cat ~/.cache/huggingface/token) \
   -e MAX_INPUT_LENGTH=4000 \
@@ -214,7 +209,6 @@ docker run --runtime nvidia --gpus all --ipc=host -p 8000:8000 \
   vllm/vllm-openai:latest \
   --model hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4 \
   --quantization gptq_marlin \
-  --tensor-parallel-size 4 \
   --max-model-len 4096
 ```

 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(
+  model_id,
+  torch_dtype=torch.float16,
+  low_cpu_mem_usage=True,
+  device_map="auto",
+)
 prompt = [
   {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
   {"role": "user", "content": "What's Deep Learning?"},
 ]
 inputs = tokenizer.apply_chat_template(
   prompt,
   tokenize=True,
   return_dict=True,
 ).to("cuda")
 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoGPTQForCausalLM.from_pretrained(
+  model_id,
+  torch_dtype=torch.float16,
+  low_cpu_mem_usage=True,
+  device_map="auto",
+)
 prompt = [
   {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
   {"role": "user", "content": "What's Deep Learning?"},
 ]
 inputs = tokenizer.apply_chat_template(
   prompt,
   tokenize=True,
   return_dict=True,
 ).to("cuda")
 outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```
 docker run --gpus all --shm-size 1g -ti -p 8080:80 \
   -v hf_cache:/data \
   -e MODEL_ID=hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4 \
   -e QUANTIZE=gptq \
   -e HF_TOKEN=$(cat ~/.cache/huggingface/token) \
   -e MAX_INPUT_LENGTH=4000 \
   vllm/vllm-openai:latest \
   --model hugging-quants/Meta-Llama-3.1-8B-Instruct-GPTQ-INT4 \
   --quantization gptq_marlin \
   --max-model-len 4096
 ```