llama-cpp-api2

Sleeping

imperialwool commited on Aug 30, 2023

Commit

536efdb

1 Parent(s): 6522af3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ tokenizer = AutoTokenizer.from_pretrained("OpenBuddy/openbuddy-openllama-3b-v10-
 model = AutoModelForCausalLM.from_pretrained("OpenBuddy/openbuddy-openllama-3b-v10-bf16")
 model.eval()
-with open('../system.prompt', 'r', encoding='utf-8') as f:
     prompt = f.read()
 @app.post("/request")
@@ -16,7 +16,7 @@ async def echo():
     data = await request.get_json()
     if data.get("max_tokens") != None and data.get("max_tokens") > 500: data['max_tokens'] = 500
     userPrompt = prompt + "\n\nUser: " + data['request'] + "\nAssistant: "
-    input_ids = tokenizer.encode(prompt, return_tensors='pt')
     with torch.no_grad():
         output_ids = model.generate(
             input_ids=input_ids,

 model = AutoModelForCausalLM.from_pretrained("OpenBuddy/openbuddy-openllama-3b-v10-bf16")
 model.eval()
+with open('system.prompt', 'r', encoding='utf-8') as f:
     prompt = f.read()
 @app.post("/request")
     data = await request.get_json()
     if data.get("max_tokens") != None and data.get("max_tokens") > 500: data['max_tokens'] = 500
     userPrompt = prompt + "\n\nUser: " + data['request'] + "\nAssistant: "
+    input_ids = tokenizer.encode(userPrompt, return_tensors='pt')
     with torch.no_grad():
         output_ids = model.generate(
             input_ids=input_ids,