Ll3doke

Running

App Files Files Community

Ashrafb commited on Apr 26

Commit

71b54be

•

1 Parent(s): 007094d

Rename app.py to main.py

Browse files

Files changed (2) hide show

app.py +0 -105
main.py +60 -0

app.py DELETED Viewed

@@ -1,105 +0,0 @@
-from huggingface_hub import InferenceClient
-import gradio as gr
-import random
-API_URL = "https://api-inference.huggingface.co/models/"
-client = InferenceClient(
-    "mistralai/Mistral-7B-Instruct-v0.1"
-)
-def format_prompt(message, history):
-  prompt = "<s>"
-  for user_prompt, bot_response in history:
-    prompt += f"[INST] {user_prompt} [/INST]"
-    prompt += f" {bot_response}</s> "
-  prompt += f"[INST] {message} [/INST]"
-  return prompt
-def generate(prompt, history, temperature=0.9, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
-    temperature = float(temperature)
-    if temperature < 1e-2:
-        temperature = 1e-2
-    top_p = float(top_p)
-    generate_kwargs = dict(
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
-        top_p=top_p,
-        repetition_penalty=repetition_penalty,
-        do_sample=True,
-        seed=random.randint(0, 10**7),
-    )
-    formatted_prompt = format_prompt(prompt, history)
-    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-    output = ""
-    for response in stream:
-        output += response.token.text
-        yield output
-    return output
-chatbot = gr.Chatbot(label='Chatbot',show_share_button=False)
-additional_inputs=[
-    gr.Slider(
-        label="Temperature",
-        value=0.9,
-        minimum=0.0,
-        maximum=1.0,
-        step=0.05,
-        interactive=True,
-        info="Higher values produce more diverse outputs",
-    ),
-    gr.Slider(
-        label="Max new tokens",
-        value=512,
-        minimum=64,
-        maximum=1024,
-        step=64,
-        interactive=True,
-        info="The maximum numbers of new tokens",
-    ),
-    gr.Slider(
-        label="Top-p (nucleus sampling)",
-        value=0.90,
-        minimum=0.0,
-        maximum=1,
-        step=0.05,
-        interactive=True,
-        info="Higher values sample more low-probability tokens",
-    ),
-    gr.Slider(
-        label="Repetition penalty",
-        value=1.2,
-        minimum=1.0,
-        maximum=2.0,
-        step=0.05,
-        interactive=True,
-        info="Penalize repeated tokens",
-    )
-]
-customCSS = """
-#component-7 { # this is the default element ID of the chat component
-  height: 1000px; # adjust the height as needed
-  flex-grow: 1;
-}
-footer{display:none !important;}
-.gr-share {display:none !important;} /* Hide the share button */
-"""
-with gr.Blocks(title="<span style='color: crimson ;'>Aiconvert.online</span>", css=customCSS, theme=gr.themes.Base()) as demo:
-    gr.ChatInterface(
-        generate,
-        chatbot = chatbot,
-        additional_inputs=additional_inputs,
-        title="<span style='color: crimson ;'>Aiconvert.online</span>",
-    )
-demo.queue().launch(debug=True)

main.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from fastapi import FastAPI, Request, Form
+from fastapi.responses import HTMLResponse
+from fastapi.staticfiles import StaticFiles
+from fastapi.templating import Jinja2Templates
+from huggingface_hub import InferenceClient
+import random
+API_URL = "https://api-inference.huggingface.co/models/"
+client = InferenceClient(
+    "mistralai/Mistral-7B-Instruct-v0.1"
+)
+app = FastAPI()
+app.mount("/static", StaticFiles(directory="static"), name="static")
+templates = Jinja2Templates(directory="templates")
+def format_prompt(message, history):
+    prompt = "<s>"
+    for user_prompt, bot_response in history:
+        prompt += f"[INST] {user_prompt} [/INST]"
+        prompt += f" {bot_response}</s> "
+    prompt += f"[INST] {message} [/INST]"
+    return prompt
+def generate(prompt, history, temperature=0.9, max_new_tokens=512, top_p=0.95, repetition_penalty=1.0):
+    temperature = float(temperature)
+    if temperature < 1e-2:
+        temperature = 1e-2
+    top_p = float(top_p)
+    generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=max_new_tokens,
+        top_p=top_p,
+        repetition_penalty=repetition_penalty,
+        do_sample=True,
+        seed=random.randint(0, 10**7),
+    )
+    formatted_prompt = format_prompt(prompt, history)
+    output = ""
+    for response in client.text_generation(formatted_prompt, **generate_kwargs, stream=False, details=False):
+        output += response.token.text
+    return output
+@app.get("/", response_class=HTMLResponse)
+async def home(request: Request):
+    return templates.TemplateResponse("index.html", {"request": request})
+@app.post("/generate/")
+async def generate_chat(request: Request, prompt: str = Form(...), history: str = Form(...), temperature: float = Form(0.9), max_new_tokens: int = Form(512), top_p: float = Form(0.95), repetition_penalty: float = Form(1.0)):
+    history = eval(history)  # Convert history string back to list
+    response = generate(prompt, history, temperature, max_new_tokens, top_p, repetition_penalty)
+    return {"response": response}