Spaces:

flash88
/

glm4-9b-sft-uncensored-64k

Runtime error

vilarin commited on Jun 5

Commit

0961bc7

•

1 Parent(s): f663115

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,7 +49,6 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True).to(model.device)
- #  streamer = TextIteratorStreamer(tokenizer, timeout=60, skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         input_ids=input_ids,
@@ -60,17 +59,9 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         temperature=temperature,
         repetition_penalty=1.2,
     )
-'''
-    thread = Thread(target=model.generate, kwargs=generate_kwargs)
-    thread.start()
-    buffer = ""
-    for new_text in streamer:
-        buffer[-1][1] += new_text
-        yield buffer
-'''
     with torch.no_grad():
-        outputs = model.generate(**inputs, **gen_kwargs)
         outputs = outputs[:, inputs['input_ids'].shape[1]:]
         results = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return results

     input_ids = tokenizer.apply_chat_template(conversation, tokenize=True, add_generation_prompt=True, return_tensors="pt", return_dict=True).to(model.device)
     generate_kwargs = dict(
         input_ids=input_ids,
         temperature=temperature,
         repetition_penalty=1.2,
     )
     with torch.no_grad():
+        outputs = model.generate(**generate_kwargs)
         outputs = outputs[:, inputs['input_ids'].shape[1]:]
         results = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return results