Spaces:

saikrishnagorijala
/

Friday-V1

Build error

saikrishnagorijala commited on 10 days ago

Commit

ff4d990

verified ·

1 Parent(s): b5db786

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import gradio as gr
 import torch
@@ -7,36 +7,31 @@ model_id = "saikrishnagorijala/friday-V1"
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-# Load model in 8-bit mode (requires bitsandbytes)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
-    device_map="auto",   # automatically put layers on GPU
-    load_in_8bit=True,   # enable 8-bit quantization
-    torch_dtype=torch.float16  # keep computations in FP16 where needed
 )
 def chat(prompt):
-    # Tokenize input and move to model device
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    # Generate response
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
-        do_sample=True,       # allow sampling for varied responses
-        temperature=1.2,      # optional creativity control
         top_p=0.9
     )
-    # Decode and return text
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# Gradio interface
-demo = gr.Interface(
-    fn=chat,
-    inputs="text",
-    outputs="text",
-    title="Friday-V1 Chatbot"
-)
 demo.launch()

+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 import gradio as gr
 import torch
 # Load tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+# Define quantization config for 8-bit inference
+bnb_config = BitsAndBytesConfig(
+    load_in_8bit=True,
+    bnb_8bit_use_double_quant=True,
+    bnb_8bit_quant_type="nf4",
+    bnb_8bit_compute_dtype=torch.float16
+)
+# Load model with quantization_config
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
+    device_map="auto",
+    quantization_config=bnb_config
 )
 def chat(prompt):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=200,
+        do_sample=True,
+        temperature=1.2,
         top_p=0.9
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
+demo = gr.Interface(fn=chat, inputs="text", outputs="text", title="Friday-V1 Chatbot")
 demo.launch()