Spaces:

Azure99
/

Blossom-V6.2-36B-Demo

Running on Zero

App Files Files Community

Azure99 commited on 28 days ago

Commit

1c29543

verified ·

1 Parent(s): eaaf5ea

Create app.py

Browse files

Files changed (1) hide show

app.py +115 -0

app.py ADDED Viewed

	@@ -0,0 +1,115 @@

+import json
+import gradio as gr
+import spaces
+from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+from transformers import AutoTokenizer
+MAX_NEW_TOKENS = 8192
+MODEL_NAME = "Azure99/Blossom-V6.1-32B"
+MODEL_GGUF_REPO = f"{MODEL_NAME}-GGUF"
+MODEL_FILE = "blossom-v6.1-32b-q8_0.gguf"
+MODEL_LOCAL_DIR = "./"
+hf_hub_download(repo_id=MODEL_GGUF_REPO, filename=MODEL_FILE, local_dir=MODEL_LOCAL_DIR)
+llm: Llama = None
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+def get_messages(user, history):
+    try:
+        parsed_body = json.loads(user)
+        if parsed_body.get("by_json_str"):
+            return parsed_body["messages"]
+    except:
+        pass
+    messages = []
+    messages.extend(history or [])
+    messages.append({"role": "user", "content": user})
+    return messages
+@spaces.GPU(duration=120)
+def chat(user, history, temperature, top_p, repetition_penalty):
+    global llm
+    if llm is None:
+        llm = Llama(
+            model_path=MODEL_FILE, n_gpu_layers=-1, flash_attn=True, n_ctx=16384
+        )
+    messages = get_messages(user, history)
+    print(f"Messages: {messages}")
+    input_ids = tokenizer.apply_chat_template(messages)
+    generate_config = dict(
+        temperature=temperature,
+        top_p=top_p,
+        repeat_penalty=repetition_penalty,
+        top_k=50,
+        stream=True,
+        max_tokens=MAX_NEW_TOKENS,
+    )
+    outputs = ""
+    for chunk in llm(input_ids, **generate_config):
+        outputs += chunk["choices"][0]["text"]
+        yield outputs
+additional_inputs = [
+    gr.Slider(
+        label="Temperature",
+        value=0.5,
+        minimum=0.0,
+        maximum=1.0,
+        step=0.05,
+        interactive=True,
+        info="Controls randomness in choosing words.",
+    ),
+    gr.Slider(
+        label="Top-P",
+        value=0.85,
+        minimum=0.0,
+        maximum=1.0,
+        step=0.05,
+        interactive=True,
+        info="Picks words until their combined probability is at least top_p.",
+    ),
+    gr.Slider(
+        label="Repetition penalty",
+        value=1.05,
+        minimum=1.0,
+        maximum=1.2,
+        step=0.01,
+        interactive=True,
+        info="Repetition Penalty: Controls how much repetition is penalized.",
+    ),
+]
+gr.ChatInterface(
+    chat,
+    type="messages",
+    chatbot=gr.Chatbot(
+        show_label=False,
+        height=500,
+        show_copy_button=True,
+        render_markdown=True,
+        type="messages",
+        latex_delimiters=[{"left": "\\[", "right": "\\]", "display": True}],
+    ),
+    textbox=gr.Textbox(placeholder="", container=False, scale=7),
+    title=f"{MODEL_NAME} Demo",
+    description="Hello, I am Blossom, an open source conversational large language model.🌠"
+    '<a href="https://github.com/Azure99/BlossomLM">GitHub</a>',
+    theme="soft",
+    examples=[
+        ["Hello"],
+        ["What is MBTI"],
+        ["用Python实现二分查找"],
+        ["为switch写一篇小红书种草文案，带上emoji"],
+    ],
+    cache_examples=False,
+    additional_inputs=additional_inputs,
+    additional_inputs_accordion=gr.Accordion(label="Config", open=True),
+).queue().launch()