Spaces:

novamysticX
/

mistrial-props

Runtime error

App Files Files Community

novamysticX commited on Oct 11, 2024

Commit

4c5cefd

verified ·

1 Parent(s): 74d0bae

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -78

app.py CHANGED Viewed

@@ -1,86 +1,24 @@
-import os
-import torch
-from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
-from threading import Thread
-app = FastAPI()
-# Model Settings
-MODEL_ID = "mistralai/Mistral-Nemo-Instruct-2407"  # Update if needed
-# Load model and tokenizer
-device = "cpu"  # Ensure it's on CPU
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_ID,
-    torch_dtype=torch.float32,  # Ensure compatibility with CPU
-    device_map="cpu",           # Make sure model runs on CPU
-    ignore_mismatched_sizes=True
-)
-# Request model
-class RequestModel(BaseModel):
-    message: str
-    history: list = []
-    temperature: float = 0.3
-    max_new_tokens: int = 1024
-    top_p: float = 1.0
-    top_k: int = 20
-    penalty: float = 1.2
-@app.post("/generate")
-async def generate_text(request: RequestModel):
-    try:
-        # Prepare conversation
-        conversation = []
-        for prompt, answer in request.history:
-            conversation.extend([
-                {"role": "user", "content": prompt},
-                {"role": "assistant", "content": answer},
-            ])
-        conversation.append({"role": "user", "content": request.message})
-        # Tokenize input
-        input_text = tokenizer.apply_chat_template(conversation, tokenize=False)
-        inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
-        # Streaming setup
-        streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
-        # Generation parameters
-        generate_kwargs = dict(
-            input_ids=inputs,
-            max_new_tokens=request.max_new_tokens,
-            do_sample=False if request.temperature == 0 else True,
-            top_p=request.top_p,
-            top_k=request.top_k,
-            temperature=request.temperature,
-            streamer=streamer,
-            repetition_penalty=request.penalty,
-            pad_token_id=tokenizer.pad_token_id
-        )
-        # Start model generation
-        with torch.no_grad():
-            thread = Thread(target=model.generate, kwargs=generate_kwargs)
-            thread.start()
-        # Stream output
-        buffer = ""
-        for new_text in streamer:
-            buffer += new_text
-        # Return response
-        return {"response": buffer}
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=str(e))
-# Root endpoint
-@app.get("/")
-def root():
-    return {"message": "Welcome to the Mistral-Nemo text generation API"}

+from fastapi import FastAPI
+from transformers import pipeline
+## create a new FASTAPI app instance
+app=FastAPI()
+# Initialize the text generation pipeline
+pipe = pipeline("text-generation", model="Qwen/Qwen2.5-1.5B-Instruct")
+@app.get("/")
+def home():
+    return {"message":"Hello World"}
+# Define a function to handle the GET request at `/generate`
+@app.get("/generate")
+def generate(text:str):
+    ## use the pipeline to generate text from given input text
+    output=pipe(text)
+    ## return the generate text in Json reposne
+    return {"output":output[0]['generated_text']}