Zai

Running

huynhkimthien commited on 18 days ago

Commit

40d82fc

verified ·

1 Parent(s): d966327

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,35 +1,36 @@
-from transformers import AutoModelForCausalLM, AutoTokenizer
 from fastapi import FastAPI
 app = FastAPI()
 model_name = "Qwen/Qwen3-4B-Instruct-2507"
-# load the tokenizer and the model
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    dtype="auto",
-    device_map="auto"
 )
-# prepare the model input
-prompt = "trả lời bằng tiếng việt, ngắn gọn."
-messages = [
-    {"role": "user", "content": prompt}
-]
-text = tokenizer.apply_chat_template(
-    messages,
-    tokenize=False,
-    add_generation_prompt=True,
-)
-model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
-# conduct text completion
-generated_ids = model.generate(
-    **model_inputs,
-    max_new_tokens=200
-)
-output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
-content = tokenizer.decode(output_ids, skip_special_tokens=True)
-print("content:", content)

 from fastapi import FastAPI
+from pydantic import BaseModel
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+import os
 app = FastAPI()
 model_name = "Qwen/Qwen3-4B-Instruct-2507"
+# Load tokenizer và model (CPU)
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    device_map={"": "cpu"},  # Spaces Free không có GPU
+    torch_dtype=torch.float32
 )
+class ChatRequest(BaseModel):
+    message: str
+@app.get("/")
+def read_root():
+    return {"message": "Ứng dụng đang chạy!"}
+@app.post("/chat")
+async def chat(request: ChatRequest):
+    messages = [{"role": "user", "content": request.message}]
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    with torch.inference_mode():
+        generated_ids = model.generate(**model_inputs, max_new_tokens=200)
+    output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
+    content = tokenizer.decode(output_ids, skip_special_tokens=True)
+    return {"response": content}