Qwen
/

Qwen1.5-0.5B-Chat

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

JustinLin610 commited on Jan 31, 2024

Commit

ab0b543

·

verified ·

1 Parent(s): cffcc20

Update README.md

Files changed (1) hide show

README.md +16 -8

README.md CHANGED Viewed

@@ -46,23 +46,31 @@ Here provides a code snippet with `apply_chat_template` to show you how to load
 from transformers import AutoModelForCausalLM, AutoTokenizer
 device = "cuda" # the device to load the model onto
-model = AutoModelForCausalLM.from_pretrained("Qwen2/Qwen2-beta-0_5B-Chat", device_map="auto")
 tokenizer = AutoTokenizer.from_pretrained("Qwen2/Qwen2-beta-0_5B-Chat")
 prompt = "Give me a short introduction to large language model."
 messages = [
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": prompt}
 ]
-text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
 model_inputs = tokenizer([text], return_tensors="pt").to(device)
-generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
-generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 ```

 from transformers import AutoModelForCausalLM, AutoTokenizer
 device = "cuda" # the device to load the model onto
+model = AutoModelForCausalLM.from_pretrained(
+    "Qwen2/Qwen2-beta-0_5B-Chat",
+    device_map="auto"
+)
 tokenizer = AutoTokenizer.from_pretrained("Qwen2/Qwen2-beta-0_5B-Chat")
 prompt = "Give me a short introduction to large language model."
 messages = [
     {"role": "system", "content": "You are a helpful assistant."},
     {"role": "user", "content": prompt}
 ]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
 model_inputs = tokenizer([text], return_tensors="pt").to(device)
+generated_ids = model.generate(
+    model_inputs.input_ids,
+    max_new_tokens=512
+)
+generated_ids = [
+    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
+]
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 ```