Spaces:

made1570
/

TestingModelAPI

Paused

made1570 commited on 30 days ago

Commit

3ea1454

verified ·

1 Parent(s): 7afcb61

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ base_model_name = "unsloth/gemma-3-12b-it-unsloth-bnb-4bit"
 adapter_name = "adarsh3601/my_gemma3_pt"
 device = "cuda" if torch.cuda.is_available() else "cpu"
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
     device_map={"": device},
@@ -15,6 +16,7 @@ base_model = AutoModelForCausalLM.from_pretrained(
     load_in_4bit=True
 )
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 model = PeftModel.from_pretrained(base_model, adapter_name)
 model.to(device)
@@ -22,7 +24,14 @@ model.to(device)
 # Chat function
 def chat(message):
     inputs = tokenizer(message, return_tensors="pt")
-    inputs = {k: v.to(device).half() for k, v in inputs.items()}
     outputs = model.generate(**inputs, max_new_tokens=150, do_sample=True)
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return response

 adapter_name = "adarsh3601/my_gemma3_pt"
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# Load base model
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
     device_map={"": device},
     load_in_4bit=True
 )
+# Load tokenizer and adapter
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 model = PeftModel.from_pretrained(base_model, adapter_name)
 model.to(device)
 # Chat function
 def chat(message):
     inputs = tokenizer(message, return_tensors="pt")
+    # Move tensors to the correct device and convert only float tensors to half
+    for k in inputs:
+        if inputs[k].dtype == torch.float32:
+            inputs[k] = inputs[k].to(device).half()
+        else:
+            inputs[k] = inputs[k].to(device)
     outputs = model.generate(**inputs, max_new_tokens=150, do_sample=True)
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return response