azhiboedova
/

Meta-Llama-3.1-8B-Instruct-AQLM-2Bit-1x16

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

azhiboedova commited on Jul 30, 2024

Commit

84b6a82

·

verified ·

1 Parent(s): a7b60dc

Update README.md

Files changed (1) hide show

README.md +18 -6

README.md CHANGED Viewed

@@ -39,13 +39,25 @@ To import this model with Python and run it, you can use the following code:
 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "azhiboedova/Meta-Llama-3.1-8B-Instruct-AQLM-2Bit-1x16"
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(model_id)
-# Example usage
-inputs = tokenizer("Hello, how can I assist you today?", return_tensors="pt")
-outputs = model.generate(inputs["input_ids"])
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 **Model Developers**

 from transformers import AutoModelForCausalLM, AutoTokenizer
 model_id = "azhiboedova/Meta-Llama-3.1-8B-Instruct-AQLM-2Bit-1x16"
+pipeline = transformers.pipeline(
+    "text-generation",
+    model=model_id,
+    model_kwargs={"torch_dtype": torch.bfloat16},
+    device_map="auto",
+)
+messages = [
+    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
+    {"role": "user", "content": "Translate English to German!: How are you?"},
+]
+outputs = pipeline(
+    messages,
+    max_new_tokens=256,
+)
+print(outputs[0]["generated_text"][-1]["content"])
 ```
 **Model Developers**