Spaces:

Valtry
/

AI-Machine

Sleeping

App Files Files Community

Valtry commited on 20 days ago

Commit

16c8676

verified ·

1 Parent(s): 03b0e50

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -67

app.py CHANGED Viewed

@@ -1,9 +1,7 @@
-from fastapi import FastAPI, Request
-from fastapi.responses import StreamingResponse
 from pydantic import BaseModel
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
-from threading import Thread
 import uvicorn
 # -----------------------
@@ -12,6 +10,7 @@ import uvicorn
 MODEL_ID = "microsoft/phi-2"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="cpu",
@@ -26,36 +25,20 @@ torch.set_num_threads(2)
 # -----------------------
 app = FastAPI()
-# stop flag (global)
-stop_generation = False
 class ChatRequest(BaseModel):
     message: str
 @app.get("/")
 def home():
-    return {"status": "Streaming API running 🚀"}
-# -----------------------
-# STOP ENDPOINT
-# -----------------------
-@app.post("/stop")
-def stop():
-    global stop_generation
-    stop_generation = True
-    return {"status": "stopping"}
 # -----------------------
-# STREAMING CHAT
 # -----------------------
 @app.post("/chat")
-async def chat(req: ChatRequest):
-    global stop_generation
-    stop_generation = False
     prompt = f"""You are a concise assistant.
 Return plain text only.
@@ -70,58 +53,34 @@ Assistant:"""
     inputs = tokenizer(prompt, return_tensors="pt")
-    streamer = TextIteratorStreamer(
-        tokenizer,
-        skip_prompt=True,
-        skip_special_tokens=True
     )
-    # ✅ Define stop tokens
-    stop_tokens = ["User:", "\n\n"]
-    stop_token_ids = [
-        tokenizer.encode(token, add_special_tokens=False)
-        for token in stop_tokens
-    ]
-    def generate():
-        model.generate(
-            **inputs,
-            streamer=streamer,
-            max_new_tokens=100,
-            temperature=0.5,
-            do_sample=True,
-            eos_token_id=tokenizer.eos_token_id,
-            pad_token_id=tokenizer.eos_token_id
-        )
-    Thread(target=generate).start()
-    async def stream():
-        global stop_generation
-        buffer_ids = []
-        for token in streamer:
-            if stop_generation:
-                break
-            # convert token → ids
-            token_ids = tokenizer.encode(token, add_special_tokens=False)
-            buffer_ids.extend(token_ids)
-            # 🔥 STOP TOKEN CHECK (clean, not hacky)
-            for stop_seq in stop_token_ids:
-                if buffer_ids[-len(stop_seq):] == stop_seq:
-                    return
-            yield token
-    return StreamingResponse(
-        stream(),
-        media_type="text/plain",
-        headers={"Transfer-Encoding": "identity"}
-    )
 # -----------------------
 # START SERVER

+from fastapi import FastAPI
 from pydantic import BaseModel
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import uvicorn
 # -----------------------
 MODEL_ID = "microsoft/phi-2"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="cpu",
 # -----------------------
 app = FastAPI()
 class ChatRequest(BaseModel):
     message: str
 @app.get("/")
 def home():
+    return {"status": "API running 🚀"}
 # -----------------------
+# CHAT (NO STREAMING)
 # -----------------------
 @app.post("/chat")
+def chat(req: ChatRequest):
     prompt = f"""You are a concise assistant.
 Return plain text only.
     inputs = tokenizer(prompt, return_tensors="pt")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=80,
+        temperature=0.5,
+        do_sample=True,
+        eos_token_id=tokenizer.eos_token_id,
+        pad_token_id=tokenizer.eos_token_id
     )
+    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # 🔥 CLEAN OUTPUT
+    if "Assistant:" in text:
+        text = text.split("Assistant:")[-1]
+    if "User:" in text:
+        text = text.split("User:")[0]
+    text = text.strip()
+    # remove unwanted formatting
+    text = text.replace("\n", " ")
+    text = text.replace("  ", " ")
+    return {
+        "response": text
+    }
 # -----------------------
 # START SERVER