NeuralChat

Paused

App Files Files Community

Tonic commited on Nov 23, 2023

Commit

fd37061

•

1 Parent(s): 714d3ed

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -23

app.py CHANGED Viewed

@@ -5,9 +5,10 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import gradio as gr
 import sentencepiece
 title = "Welcome to 🙋🏻‍♂️Tonic's🌷Tulu Chat!"
-description = "[allenai/tulu-2-dpo-7b](https://huggingface.co/allenai/tulu-2-dpo-7b) and larger Tulu-2 models are Instruct Llama Finetunes using the [mistralai/Mistral-7B](https://huggingface.co/mistralai/Mistral-7B-v0.1) recipe. You can use [allenai/tulu-2-13b](https://huggingface.co/allenai/tulu-2-13b) here via API using Gradio by scrolling down and clicking Use 'Via API' or privately by [cloning this space on huggingface](https://huggingface.co/spaces/Tonic1/TuluDemo?duplicate=true) See also the large model here : [allenai/tulu-2-dpo-70b](https://huggingface.co/allenai/tulu-2-dpo-70b) . [Join my active builders' server on discord](https://discord.gg/VqTxc76K3u). Let's build together!. [add this space as a discord bot on your server](https://discord.com/oauth2/authorize?client_id=1176628808212828231&scope=bot+applications.commands&permissions=326417525824) Big thanks to 🤗Huggingface for the🫂Community Grant!"
 os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:50'
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
@@ -28,7 +29,7 @@ class TuluChatBot:
         prompt = f"<|assistant|>\n {self.system_message}\n\n <|user|>{user_message}\n\n<|assistant|>\n"
         return prompt
-    def predict(self, user_message, temperature=0.4, max_new_tokens=70, top_p=0.99, repetition_penalty=1.9):
         prompt = self.format_prompt(user_message)
         inputs = self.tokenizer(prompt, return_tensors='pt', add_special_tokens=False)
         input_ids = inputs["input_ids"].to(self.model.device)
@@ -42,33 +43,50 @@ class TuluChatBot:
             temperature=temperature,
             top_p=top_p,
             repetition_penalty=repetition_penalty,
-            do_sample=True
         )
         response = self.tokenizer.decode(output_ids[0], skip_special_tokens=True)
         return response
-def gradio_predict(user_message, system_message, max_new_tokens, temperature, top_p, repetition_penalty):
     Tulu_bot.set_system_message(system_message)
-    response = Tulu_bot.predict(user_message, temperature, max_new_tokens, top_p, repetition_penalty)
     return response
 Tulu_bot = TuluChatBot(model, tokenizer)
-iface = gr.Interface(
-    fn=gradio_predict,
-    title=title,
-    description=description,
-    inputs=[
-        gr.Textbox(label="Your Message", type="text", lines=3),
-        gr.Textbox(label="Introduce a Character Here or Set a Scene (system prompt)", type="text", lines=2),
-        gr.Slider(label="Max new tokens", value=1269, minimum=550, maximum=3200, step=1),
-        gr.Slider(label="Temperature", value=1.2, minimum=0.05, maximum=4.0, step=0.05),
-        gr.Slider(label="Top-p (nucleus sampling)", value=0.90, minimum=0.01, maximum=0.99, step=0.05),
-        gr.Slider(label="Repetition penalty", value=1.9, minimum=1.0, maximum=2.0, step=0.05)
-    ],
-    outputs="text",
-    theme="ParityError/Anime"
-)
-iface.queue(max_size=5).launch()

 import torch
 import gradio as gr
 import sentencepiece
+from tokenization_xgen import XgenTokenizer
 title = "Welcome to 🙋🏻‍♂️Tonic's🌷Tulu Chat!"
+description = "[allenai/tulu-2-dpo-7b](https://huggingface.co/allenai/tulu-2-dpo-7b) and larger Tulu-2 models are Instruct Llama Finetunes using the [mistralai/Mistral-7B](https://huggingface.co/mistralai/Mistral-7B-v0.1) recipe. You can use [allenai/tulu-2-13b](https://huggingface.co/allenai/tulu-2-13b) here via API using Gradio by scrolling down and clicking Use 'Via API' or privately by [cloning this space on huggingface](https://huggingface.co/spaces/Tonic1/TuluDemo?duplicate=true) See also the large model here : [allenai/tulu-2-dpo-70b](https://huggingface.co/allenai/tulu-2-dpo-70b) . [Join my active builders' server on discord](https://discord.gg/VqTxc76K3u). Let's build together!."
 os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:50'
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
         prompt = f"<|assistant|>\n {self.system_message}\n\n <|user|>{user_message}\n\n<|assistant|>\n"
         return prompt
+    def predict(self, user_message, temperature, max_new_tokens, top_p, repetition_penalty, do_sample):
         prompt = self.format_prompt(user_message)
         inputs = self.tokenizer(prompt, return_tensors='pt', add_special_tokens=False)
         input_ids = inputs["input_ids"].to(self.model.device)
             temperature=temperature,
             top_p=top_p,
             repetition_penalty=repetition_penalty,
+            do_sample=do_sample
         )
         response = self.tokenizer.decode(output_ids[0], skip_special_tokens=True)
         return response
+def gradio_predict(user_message, system_message, max_new_tokens, temperature, top_p, repetition_penalty, do_sample):
     Tulu_bot.set_system_message(system_message)
+    if not do_sample:
+        max_length = 1269
+        temperature = 1.2  # Default value
+        top_p = 0.9        # Default value
+        repetition_penalty = 0.9  # Default value
+    response = Tulu_bot.predict(user_message, temperature, max_new_tokens, top_p, repetition_penalty, do_sample)
     return response
 Tulu_bot = TuluChatBot(model, tokenizer)
+with gr.Blocks() as demo:
+    with gr.Row():
+        system_message = gr.Textbox(label="Optional 🌷Tulu Assistant Message", lines=2)
+        user_message = gr.Textbox(label="Your Message", lines=3)
+    with gr.Row():
+        do_sample = gr.Checkbox(label="Advanced", value=False)
+    with gr.Accordion("Advanced Settings", open=lambda do_sample: do_sample):
+        with gr.Row():
+            max_new_tokens = gr.Slider(label="Max new tokens", value=1269, minimum=550, maximum=3200, step=1)
+            temperature = gr.Slider(label="Temperature", value=1.2, minimum=0.05, maximum=4.0, step=0.05)
+            top_p = gr.Slider(label="Top-p (nucleus sampling)", value=0.90, minimum=0.01, maximum=0.99, step=0.05)
+            repetition_penalty = gr.Slider(label="Repetition penalty", value=1.9, minimum=1.0, maximum=2.0, step=0.05)
+    submit_button = gr.Button("Submit")
+    output_text = gr.Textbox(label="🌷Tulu Response")
+    def process(user_message, system_message, max_new_tokens, temperature, top_p, repetition_penalty, do_sample):
+        return gradio_predict(user_message, system_message, max_new_tokens, temperature, top_p, repetition_penalty, do_sample)
+    submit_button.click(
+        process,
+        inputs=[user_message, system_message, max_new_tokens, temperature, top_p, repetition_penalty, do_sample],
+        outputs=output_text
+    )
+theme = "ParityError/Anime"
+demo.launch()