compressed-llm
/

llama-2-13b-chat-gptq

Text Generation

Inference Endpoints

Model card Files Files and versions Community

jhao commited on Oct 7, 2023

Commit

91b21f4

•

1 Parent(s): 8b53fcf

Update README.md

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -1,4 +1,4 @@
 from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM
 model_path = 'efficient-llm/llama-2-13b-chat-gptq'
@@ -15,3 +15,4 @@ tokenizer = AutoTokenizer.from_pretrained(tokenizer_path, trust_remote_code=True
 input_ids = tokenizer('How are you?', return_tensors='pt').input_ids.to('cuda')
 outputs = model.generate(input_ids=input_ids, max_length=128)
 print(tokenizer.decode(outputs[0]))

+```
 from transformers import AutoTokenizer
 from auto_gptq import AutoGPTQForCausalLM
 model_path = 'efficient-llm/llama-2-13b-chat-gptq'
 input_ids = tokenizer('How are you?', return_tensors='pt').input_ids.to('cuda')
 outputs = model.generate(input_ids=input_ids, max_length=128)
 print(tokenizer.decode(outputs[0]))
+```