Spaces:

intuitivo
/

mixtral-8x7b-chat

Paused

App Files Files Community

joselobenitezg commited on Dec 11, 2023

Commit

4d76536

1 Parent(s): ab17b93

Update app.py

Browse files

Files changed (1) hide show

app.py +0 -44

app.py CHANGED Viewed

@@ -1,21 +1,3 @@
-# import gradio as gr
-# import torch
-# from transformers import AutoModelForCausalLM, AutoTokenizer
-# def load_model():
-#     model = AutoModelForCausalLM.from_pretrained("mattshumer/mistral-8x7b-chat", trust_remote_code=True)
-#     tok = AutoTokenizer.from_pretrained("mattshumer/mistral-8x7b-chat")
-#     return model, tok
-# def inference(model, tok, PROMPT):
-#     x = tok.encode(PROMPT, return_tensors="pt").cuda()
-#     x = model.generate(x, max_new_tokens=512).cpu()
-#     return tok.batch_decode(x)
-# gr.ChatInterface(inference).queue().launch()
 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
@@ -52,10 +34,6 @@ def predict(message, history):
     messages = "".join(["".join(["\n<human>:"+item[0], "\n<bot>:"+item[1]])  #curr_system_message +
                 for item in history_transformer_format])
-    #     x = tok.encode(PROMPT, return_tensors="pt").cuda()
-    #     x = model.generate(x, max_new_tokens=512).cpu()
-    #     return tok.batch_decode(x)
     model_inputs = tokenizer([messages], return_tensors="pt").to("cuda")
     streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
@@ -81,25 +59,3 @@ def predict(message, history):
 gr.ChatInterface(predict).queue().launch()
-def predict(message, history):
-    history_openai_format = []
-    for human, assistant in history:
-        history_openai_format.append({"role": "user", "content": human })
-        history_openai_format.append({"role": "assistant", "content":assistant})
-    history_openai_format.append({"role": "user", "content": message})
-    response = openai.ChatCompletion.create(
-        model='gpt-3.5-turbo',
-        messages= history_openai_format,
-        temperature=1.0,
-        stream=True
-    )
-    partial_message = ""
-    for chunk in response:
-        if len(chunk['choices'][0]['delta']) != 0:
-            partial_message = partial_message + chunk['choices'][0]['delta']['content']
-            yield partial_message

 import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
     messages = "".join(["".join(["\n<human>:"+item[0], "\n<bot>:"+item[1]])  #curr_system_message +
                 for item in history_transformer_format])
     model_inputs = tokenizer([messages], return_tensors="pt").to("cuda")
     streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
 gr.ChatInterface(predict).queue().launch()