Spaces:

mobinln
/

chatbot

Running

mobinln commited on Jun 17

Commit

6da1c26

•

1 Parent(s): 21399a4

feat: setup local Qwen2 0.5

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,10 +1,8 @@
 import gradio as gr
-from huggingface_hub import InferenceClient
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-client = InferenceClient(model="meta-llama/Meta-Llama-3-8B-Instruct")
 def respond(
@@ -25,19 +23,13 @@ def respond(
     messages.append({"role": "user", "content": message})
-    response = ""
-    for message in client.chat_completion(
-        messages,
         max_tokens=max_tokens,
-        stream=True,
         temperature=temperature,
         top_p=top_p,
-    ):
-        token = message.choices[0].delta.content
-        response += token
-        yield response
 """
@@ -47,7 +39,7 @@ demo = gr.ChatInterface(
     respond,
     additional_inputs=[
         gr.Textbox(
-            value="You are Marv, a chatbot that reluctantly answers questions with sarcastic responses in Persian only.",
             label="System message",
         ),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
@@ -60,13 +52,7 @@ demo = gr.ChatInterface(
             label="Top-p (nucleus sampling)",
         ),
     ],
-    description="A little bit of sarcasm doesn't kill anyone right? :)))",
-    examples=[
-        ["پایتخت فرانسه کجاست؟"],
-        ["دو بعلاوه دو چند میشود؟"],
-        ["یک جک بگو"],
-    ],
-    cache_examples=False,
 )

 import gradio as gr
+from llama_cpp import Llama
+model = "Qwen/Qwen1.5-0.5B-Chat-GGUF"
+llm = Llama.from_pretrained(repo_id=model, filename="*q8_0.gguf", verbose=True)
 def respond(
     messages.append({"role": "user", "content": message})
+    response = llm.create_chat_completion(
+        messages=messages,
         max_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
+    )
+    return response
 """
     respond,
     additional_inputs=[
         gr.Textbox(
+            value="You are a helpful assistant.",
             label="System message",
         ),
         gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
             label="Top-p (nucleus sampling)",
         ),
     ],
+    description=model,
 )

requirements.txt CHANGED Viewed