hugging-quants
/

Meta-Llama-3.1-405B-Instruct-GPTQ-INT4

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

alvarobartt HF staff commited on Jul 23, 2024

Commit

feb68a2

·

verified ·

1 Parent(s): 51daf1f

Update README.md

Files changed (1) hide show

README.md +8 -2

README.md CHANGED Viewed

@@ -129,7 +129,13 @@ prompt = [
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-inputs = tokenizer.apply_chat_template(prompt, tokenize=True, add_generation_prompt=True, return_tensors="pt").cuda()
 model = AutoGPTQForCausalLM.from_pretrained(
   model_id,
@@ -138,7 +144,7 @@ model = AutoGPTQForCausalLM.from_pretrained(
   device_map="auto",
 )
-outputs = model.generate(inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```

 tokenizer = AutoTokenizer.from_pretrained(model_id)
+inputs = tokenizer.apply_chat_template(
+  prompt,
+  tokenize=True,
+  add_generation_prompt=True,
+  return_tensors="pt",
+  return_dict=True,
+).to("cuda")
 model = AutoGPTQForCausalLM.from_pretrained(
   model_id,
   device_map="auto",
 )
+outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
 print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
 ```