Zai

Running

huynhkimthien commited on Oct 25

Commit

d596d0e

verified ·

1 Parent(s): 5fab0e2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,15 +31,17 @@ class ChatRequest(BaseModel):
 @app.post("/chat")
 async def chat(request: ChatRequest):
     messages = [{"role": "user", "content": request.message}]
-    inputs = tokenizer.apply_chat_template(
         messages,
         add_generation_prompt=True,
         return_tensors="pt"
     ).to(model.device)
     outputs = model.generate(
-        **inputs,
         max_new_tokens=100,
         temperature=0.7,
         top_k=50,
@@ -48,8 +50,12 @@ async def chat(request: ChatRequest):
         do_sample=True
     )
-    response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True)
     return {"response": response}
 # 🕒 Tác vụ định kỳ để giữ mô hình hoạt động
 def keep_model_alive():
     while True:

 @app.post("/chat")
 async def chat(request: ChatRequest):
     messages = [{"role": "user", "content": request.message}]
+    # Tạo đầu vào từ tokenizer
+    input_ids = tokenizer.apply_chat_template(
         messages,
         add_generation_prompt=True,
         return_tensors="pt"
     ).to(model.device)
+    # Sinh phản hồi từ mô hình
     outputs = model.generate(
+        input_ids=input_ids,
         max_new_tokens=100,
         temperature=0.7,
         top_k=50,
         do_sample=True
     )
+    # Giải mã phản hồi
+    response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
     return {"response": response}
 # 🕒 Tác vụ định kỳ để giữ mô hình hoạt động
 def keep_model_alive():
     while True: