llama-cpp-api2

Sleeping

toaster61 commited on Sep 30, 2023

Commit

559ea97

1 Parent(s): be3d3fd

not working commit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
-import random
-from quart import Quart
 app = Quart(__name__)
@@ -8,19 +8,20 @@ with open('system.prompt', 'r', encoding='utf-8') as f:
 @app.post("/request")
 async def echo():
-    data = await request.get_json()
-    if data.get("max_tokens") != None and data.get("max_tokens") > 500: data['max_tokens'] = 500
-    userPrompt = prompt + "\n\nUser: " + data['request'] + "\nAssistant: "
-    input_ids = tokenizer.encode(userPrompt, return_tensors='pt')
-    with torch.no_grad():
-        output_ids = model.generate(
-            input_ids=input_ids,
-            do_sample=random.choice([True, False]), temperature=float(random.randint(7,20)) / 10.0,
-            max_new_tokens=data.get("max_tokens") or random.randomint(200,500),
-            eos_token_id=tokenizer.eos_token_id, return_full_text = False)
-        output = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     return {"output": output}
 @app.get("/")
 async def get():
-    return "better to run it on own container"

+from quart import Quart, request
+from llama_cpp import Llama
 app = Quart(__name__)
 @app.post("/request")
 async def echo():
+    try:
+        data = await request.get_json()
+        if data.get("max_tokens") != None and data.get("max_tokens") > 500: data['max_tokens'] = 500
+        userPrompt = prompt + "\n\nUser: " + data['request'] + "\nAssistant: "
+    except: return {"error": "Not enough data"}, 400
     return {"output": output}
 @app.get("/")
 async def get():
+    return '''<h1>Hello, world!</h1>
+This is showcase how to make own server with OpenBuddy's model.<br>
+I'm using here 3b model just for example. Also here's only CPU power.<br>
+But you can use GPU power as well!<br>
+<br>
+<h1>How to GPU?</h1>
+'''