Spaces:

bragour
/

Camel-space

Sleeping

bragour commited on Jun 7

Commit

a40bb81

•

1 Parent(s): 8008ee1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,13 @@
 import gradio as gr
 import torch
-from transformers import pipeline
-# Initialize the inference client with the model ID
-client = pipeline(model="bragour/Camel-7b-chat")
 def respond(
     message,
@@ -11,15 +15,20 @@ def respond(
     temperature,
     top_p,
 ):
     # Generate the response from the API
-    result = client(
-        message,
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
     )
-    response = result[0]['generated_text']
     return response

 import gradio as gr
 import torch
+from transformers import AutoTokenizer
+from awq import AutoAWQForCausalLM
+model_path = "bragour/Camel-7b-chat-awq"
+model  = AutoAWQForCausalLM.from_quantized(model_path, fuse_layers=True, trust_remote_code=False, safetensors=True)
+tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=False)
 def respond(
     message,
     temperature,
     top_p,
 ):
+    formatted_prompt = f"<s>[INST]{message}[/INST]"
+    tokens = tokenizer(formatted_prompt,return_tensors='pt').input_ids.cuda()
     # Generate the response from the API
+    result = model.generate(
+        tokens,
+        do_sample=False
         max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
     )
+    response = tokenizer.decode(result[0], skip_special_tokens=True)
     return response