Llama-3.2-1B-Instruct

Running on Zero

vilarin commited on May 23

Commit

0c20d85

•

1 Parent(s): fd6304d

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -69,7 +69,6 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
-    prompt_padded_len = len(input_ids[0])
     gen_tokens= model.generate(
         input_ids,
@@ -78,11 +77,7 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         temperature=temperature,
     )
-    gen_tokens = [
-      gt[prompt_padded_len:] for gt in gen_tokens
-    ]
-    gen_text = tokenizer.batch_decode(gen_tokens, skip_special_tokens=True)
     return gen_text

     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
     gen_tokens= model.generate(
         input_ids,
         temperature=temperature,
     )
+    gen_text = tokenizer.decode(gen_tokens[0], skip_special_tokens=True)
     return gen_text