Spaces:

Prabhash
/

LLM_Deployment

Build error

Prabhash commited on Apr 11

Commit

35c95d7

•

1 Parent(s): 9d2536a

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -1,32 +1,26 @@
-from transformers import AutoTokenizer, AutoModelForCausalLM
-import os
-from fastapi import FastAPI
 from pydantic import BaseModel
-# Load Gemma-2B tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it", token=os.environ["token"])
-model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", token=os.environ["token"])
-# Define Pydantic object for input validation
-class GenerationRequest(BaseModel):
     prompt: str
-    repeat_penalty: float = 1.0  # Default repeat penalty
-# Initialize FastAPI
 app = FastAPI()
-# Define route for generating text
-@app.post("/generate_text")
-async def generate_text(request: GenerationRequest):
-    # Tokenize the input prompt
-    input_prompt = "<s>Below is an instruction that describes a task. Write a response that appropriately completes the request.</s>" + "\n" + "<s>" + request.prompt + "</s>"
-    # Encode the input prompt
-    input_ids = tokenizer.encode(input_prompt, return_tensors="pt")
-    # Generate text based on the input prompt
-    outputs = model.generate(input_ids, repeat_penalty=request.repeat_penalty)
-    # Decode the generated output and return
-    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return {"generated_text": generated_text}

+from ctransformers import AutoModelForCausalLM
+from fastapi import FastAPI, Form
 from pydantic import BaseModel
+#Model loading
+llm = AutoModelForCausalLM.from_pretrained("zephyr-7b-beta.Q4_K_S.gguf",
+    model_type='mistral',
+    max_new_tokens = 1096,
+    threads = 3,
+)
+#Pydantic object
+class validation(BaseModel):
     prompt: str
+#Fast API
 app = FastAPI()
+#Zephyr completion
+@app.post("/llm_on_cpu")
+async def stream(item: validation):
+    system_prompt = 'Below is an instruction that describes a task. Write a response that appropriately completes the request.'
+    E_INST = "</s>"
+    user, assistant = "<|user|>", "<|assistant|>"
+    prompt = f"{system_prompt}{E_INST}\n{user}\n{item.prompt.strip()}{E_INST}\n{assistant}\n"
+    return llm(prompt)