mistral-super-fast

Sleeping

App Files Files Community

wop commited on Feb 29, 2024

Commit

cf25a56

verified ·

1 Parent(s): e5ec746

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -21

app.py CHANGED Viewed

@@ -1,10 +1,23 @@
 from huggingface_hub import InferenceClient
 import gradio as gr
 client = InferenceClient(
     "mistralai/Mistral-7B-Instruct-v0.1"
 )
 def format_prompt(message, history):
     prompt = "<s>"
@@ -14,32 +27,28 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
 def generate(
-    prompt, history, temperature=0.9, max_new_tokens=2000, top_p=0.9, repetition_penalty=1.2,
 ):
     temperature = float(temperature)
     if temperature < 1e-2:
         temperature = 1e-2
     top_p = float(top_p)
-    generate_kwargs = dict(
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
-        top_p=top_p,
-        repetition_penalty=repetition_penalty,
-        do_sample=True,
-        seed=42,
-    )
     formatted_prompt = format_prompt(prompt, history)
-    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-    output = ""
-    for response in stream:
-        output += response.token.text
-        yield output
-    return output
 css = """
   #mkd {
@@ -50,12 +59,10 @@ css = """
 """
 with gr.Blocks(css=css) as demo:
-    gr.HTML("<h1><center><h1><center>")
-    gr.HTML("<h3><center><h3><center>")
-    gr.HTML("<h3><center><h3><center>")
     gr.ChatInterface(
         generate,
-        examples=[["What is the secret to life?"], ["Write me a recipe for pancakes."], ["Write a short story about Paris."]]
     )
 demo.launch(debug=True)

 from huggingface_hub import InferenceClient
 import gradio as gr
+import json
 client = InferenceClient(
     "mistralai/Mistral-7B-Instruct-v0.1"
 )
+DATABASE_PATH = "database.json"
+def load_database():
+    try:
+        with open(DATABASE_PATH, "r") as file:
+            return json.load(file)
+    except FileNotFoundError:
+        return {}
+def save_database(database):
+    with open(DATABASE_PATH, "w") as file:
+        json.dump(database, file)
 def format_prompt(message, history):
     prompt = "<s>"
     prompt += f"[INST] {message} [/INST]"
     return prompt
+def generate_response(prompt, database):
+    if prompt in database:
+        return database[prompt]
+    else:
+        response = next(client.text_generation(prompt, details=True, return_full_text=False)).token.text
+        database[prompt] = response
+        save_database(database)
+        return response
 def generate(
+    prompt, history, database, temperature=0.9, max_new_tokens=2000, top_p=0.9, repetition_penalty=1.2,
 ):
     temperature = float(temperature)
     if temperature < 1e-2:
         temperature = 1e-2
     top_p = float(top_p)
     formatted_prompt = format_prompt(prompt, history)
+    response = generate_response(formatted_prompt, database)
+    yield response
+database = load_database()
 css = """
   #mkd {
 """
 with gr.Blocks(css=css) as demo:
     gr.ChatInterface(
         generate,
+        examples=[["What is the secret to life?"], ["Write me a recipe for pancakes."], ["Write a short story about Paris."]],
+        database=database
     )
 demo.launch(debug=True)