Spaces:

YingxuHe
/

chitchat

Sleeping

App Files Files Community

YingxuHe commited on Feb 3

Commit

73bf78a

•

1 Parent(s): affab3c

update parameters

Browse files

Files changed (1) hide show

app.py +22 -19

app.py CHANGED Viewed

@@ -16,17 +16,18 @@ urllib.request.urlretrieve(
 parser = argparse.ArgumentParser()
 parser.add_argument("-m", "--model", default=DEFAULT_MODEL_PATH, type=Path, help="model path")
 parser.add_argument("--mode", default="chat", type=str, choices=["chat", "generate"], help="inference mode")
-parser.add_argument("-l", "--max_length", default=2048, type=int, help="max total length including prompt and output")
-parser.add_argument("-c", "--max_context_length", default=512, type=int, help="max context length")
-parser.add_argument("--top_k", default=0, type=int, help="top-k sampling")
 parser.add_argument("--top_p", default=0.7, type=float, help="top-p sampling")
-parser.add_argument("--temp", default=0.95, type=float, help="temperature")
 parser.add_argument("--repeat_penalty", default=1.0, type=float, help="penalize repeat sequence of tokens")
 parser.add_argument("-t", "--threads", default=0, type=int, help="number of threads for inference")
 parser.add_argument("--plain", action="store_true", help="display in plain text without markdown support")
 args = parser.parse_args()
 pipeline = chatglm_cpp.Pipeline(args.model)
 def postprocess(text):
@@ -38,6 +39,7 @@ def postprocess(text):
 def predict(input, chatbot, max_length, top_p, temperature, messages):
     chatbot.append((postprocess(input), ""))
     messages.append(chatglm_cpp.ChatMessage(role="user", content=input))
     generation_kwargs = dict(
         max_length=max_length,
@@ -52,19 +54,13 @@ def predict(input, chatbot, max_length, top_p, temperature, messages):
     )
     response = ""
-    if args.mode == "chat":
-        chunks = []
-        for chunk in pipeline.chat(messages, **generation_kwargs):
-            response += chunk.content
-            chunks.append(chunk)
-            chatbot[-1] = (chatbot[-1][0], postprocess(response))
-            yield chatbot, messages
-        messages.append(pipeline.merge_streaming_messages(chunks))
-    else:
-        for chunk in pipeline.generate(input, **generation_kwargs):
-            response += chunk
-            chatbot[-1] = (chatbot[-1][0], postprocess(response))
-            yield chatbot, messages
     yield chatbot, messages
@@ -76,9 +72,16 @@ def reset_user_input():
 def reset_state():
     return [], []
 with gr.Blocks() as demo:
-    gr.HTML("""<h1 align="center">ChatGLM.cpp</h1>""")
     chatbot = gr.Chatbot()
     with gr.Row():
@@ -86,7 +89,7 @@ with gr.Blocks() as demo:
             user_input = gr.Textbox(show_label=False, placeholder="Input...", lines=8)
             submitBtn = gr.Button("Submit", variant="primary")
         with gr.Column(scale=1):
-            max_length = gr.Slider(0, 2048, value=args.max_length, step=1.0, label="Maximum Length", interactive=True)
             top_p = gr.Slider(0, 1, value=args.top_p, step=0.01, label="Top P", interactive=True)
             temperature = gr.Slider(0, 1, value=args.temp, step=0.01, label="Temperature", interactive=True)
             emptyBtn = gr.Button("Clear History")

 parser = argparse.ArgumentParser()
 parser.add_argument("-m", "--model", default=DEFAULT_MODEL_PATH, type=Path, help="model path")
 parser.add_argument("--mode", default="chat", type=str, choices=["chat", "generate"], help="inference mode")
+parser.add_argument("-l", "--max_length", default=64, type=int, help="max total length including prompt and output")
+parser.add_argument("-c", "--max_context_length", default=1024, type=int, help="max context length")
+parser.add_argument("--top_k", default=40, type=int, help="top-k sampling")
 parser.add_argument("--top_p", default=0.7, type=float, help="top-p sampling")
+parser.add_argument("--temp", default=0.5, type=float, help="temperature")
 parser.add_argument("--repeat_penalty", default=1.0, type=float, help="penalize repeat sequence of tokens")
 parser.add_argument("-t", "--threads", default=0, type=int, help="number of threads for inference")
 parser.add_argument("--plain", action="store_true", help="display in plain text without markdown support")
 args = parser.parse_args()
 pipeline = chatglm_cpp.Pipeline(args.model)
+system_message = chatglm_cpp.ChatMessage(role="system", content="请你现在扮演一个软件工程师，名字叫做贺英旭。你需要以这个身份和朋友们对话。")
 def postprocess(text):
 def predict(input, chatbot, max_length, top_p, temperature, messages):
     chatbot.append((postprocess(input), ""))
     messages.append(chatglm_cpp.ChatMessage(role="user", content=input))
+    full_messages = [system_message] + messages
     generation_kwargs = dict(
         max_length=max_length,
     )
     response = ""
+    chunks = []
+    for chunk in pipeline.chat(full_messages, **generation_kwargs):
+        response += chunk.content
+        chunks.append(chunk)
+        chatbot[-1] = (chatbot[-1][0], postprocess(response))
+        yield chatbot, messages
+    messages.append(pipeline.merge_streaming_messages(chunks))
     yield chatbot, messages
 def reset_state():
     return [], []
+title = """
+<div style="text-align: center;max-width: 700px;">
+    <h1>Chichat</h1>
+    <p style="text-align: center;">Free feel to talk about anything :)</p>
+</div>
+"""
 with gr.Blocks() as demo:
+    gr.HTML(title)
     chatbot = gr.Chatbot()
     with gr.Row():
             user_input = gr.Textbox(show_label=False, placeholder="Input...", lines=8)
             submitBtn = gr.Button("Submit", variant="primary")
         with gr.Column(scale=1):
+            max_length = gr.Slider(0, 512, value=args.max_length, step=1.0, label="Maximum Length", interactive=True)
             top_p = gr.Slider(0, 1, value=args.top_p, step=0.01, label="Top P", interactive=True)
             temperature = gr.Slider(0, 1, value=args.temp, step=0.01, label="Temperature", interactive=True)
             emptyBtn = gr.Button("Clear History")