Spaces:

binary1ne
/

vllm-llama2

Paused

binary1ne commited on Aug 14

Commit

91fb57d

verified ·

1 Parent(s): 3664d44

Create inference.py

Files changed (1) hide show

inference.py ADDED Viewed

+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-3B-bnb-4bit")
+model = AutoModelForCausalLM.from_pretrained(
+    "unsloth/Llama-3.2-3B-bnb-4bit",
+    trust_remote_code=True,
+    load_in_4bit=True,
+    device_map={"": 0}
+)
+input_ids = tokenizer("Hello, how are you?", return_tensors="pt").input_ids
+output = model.generate(input_ids, max_new_tokens=50)
+print(tokenizer.decode(output[0], skip_special_tokens=True))