Spaces:

matthoffner
/

starchat-ggml

Paused

matthoffner commited on May 29, 2023

Commit

1044c29

1 Parent(s): 5d8b6f6

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -2,14 +2,19 @@ import fastapi
 import json
 import markdown
 import uvicorn
 from fastapi.responses import HTMLResponse
 from fastapi.middleware.cors import CORSMiddleware
 from sse_starlette.sse import EventSourceResponse
 from ctransformers.langchain import CTransformers
 from pydantic import BaseModel
-llm = CTransformers(model='ggml-model-q4_1.bin', model_type='starcoder')
-app = fastapi.FastAPI()
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
@@ -26,17 +31,16 @@ async def index():
     return HTMLResponse(content=html_content, status_code=200)
 class ChatCompletionRequest(BaseModel):
-    prompt: str
 @app.post("/v1/chat/completions")
 async def chat(request: ChatCompletionRequest, response_mode=None):
-    completion = llm(request.prompt)
     async def server_sent_events(chat_chunks):
-        for chat_chunk in chat_chunks:
-            yield dict(data=json.dumps(chat_chunk))
-        yield dict(data="[DONE]")
-    return EventSourceResponse(server_sent_events(completion))
 if __name__ == "__main__":
   uvicorn.run(app, host="0.0.0.0", port=8000)

 import json
 import markdown
 import uvicorn
+from ctransformers import AutoModelForCausalLM
 from fastapi.responses import HTMLResponse
 from fastapi.middleware.cors import CORSMiddleware
 from sse_starlette.sse import EventSourceResponse
 from ctransformers.langchain import CTransformers
 from pydantic import BaseModel
+from typing import List, Any
+llm = AutoModelForCausalLM.from_pretrained("starchat-alpha-GGML",
+                                           model_file="starchat-alpha-ggml-q4_0.bin",
+                                           model_type="starcoder")
+app = fastapi.FastAPI(title="Starchat Alpha")
 app.add_middleware(
     CORSMiddleware,
     allow_origins=["*"],
     return HTMLResponse(content=html_content, status_code=200)
 class ChatCompletionRequest(BaseModel):
+    messages: List[Any]
 @app.post("/v1/chat/completions")
 async def chat(request: ChatCompletionRequest, response_mode=None):
+    tokens = llm.tokenize(request.messages)
     async def server_sent_events(chat_chunks):
+        for token in llm.generate(chat_chunks):
+            yield llm.detokenize(token)
+    return EventSourceResponse(server_sent_events(tokens))
 if __name__ == "__main__":
   uvicorn.run(app, host="0.0.0.0", port=8000)