tcm03
/

tsbir

Feature Extraction

generic

text-sketch

endpoints-template

Inference Endpoints

Model card Files Files and versions Community

tcm03 commited on 26 days ago

Commit

8cda892

1 Parent(s): 941ce80

Add image encoding

Browse files

Files changed (1) hide show

inference.py +29 -18

inference.py CHANGED Viewed

@@ -33,14 +33,12 @@ def load_model():
         model.load_state_dict(sd, strict=False)
         model = model.to(device).eval()
-        # Initialize transformer
         global transformer
         transformer = _transform(model.visual.input_resolution, is_train=False)
         print("Model loaded successfully.")
-# Preprocessing Functions
 def preprocess_image(image_base64):
-    """Convert base64 encoded image to tensor."""
     image = Image.open(BytesIO(base64.b64decode(image_base64))).convert("RGB")
     image = transformer(image).unsqueeze(0).to(device)
     return image
@@ -49,39 +47,52 @@ def preprocess_text(text):
     """Tokenize text query."""
     return tokenize([str(text)])[0].unsqueeze(0).to(device)
-def get_fused_embedding(image_base64, text):
     """Fuse sketch and text features into a single embedding."""
     with torch.no_grad():
-        # Preprocess Inputs
-        image_tensor = preprocess_image(image_base64)
         text_tensor = preprocess_text(text)
-        # Extract Features
-        sketch_feature = model.encode_sketch(image_tensor)
         text_feature = model.encode_text(text_tensor)
-        # Normalize Features
         sketch_feature = sketch_feature / sketch_feature.norm(dim=-1, keepdim=True)
         text_feature = text_feature / text_feature.norm(dim=-1, keepdim=True)
-        # Fuse Features
         fused_embedding = model.feature_fuse(sketch_feature, text_feature)
     return fused_embedding.cpu().numpy().tolist()
 # Hugging Face Inference API Entry Point
 def infer(inputs):
     """
     Inference API entry point.
     Inputs:
-      - 'image': Base64 encoded sketch image.
       - 'text': Text query.
     """
     load_model()  # Ensure the model is loaded once
-    image_base64 = inputs.get("image", "")
-    text_query = inputs.get("text", "")
-    if not image_base64 or not text_query:
-        return {"error": "Both 'image' (base64) and 'text' are required inputs."}
-    # Generate Fused Embedding
-    fused_embedding = get_fused_embedding(image_base64, text_query)
-    return {"fused_embedding": fused_embedding}

         model.load_state_dict(sd, strict=False)
         model = model.to(device).eval()
         global transformer
         transformer = _transform(model.visual.input_resolution, is_train=False)
         print("Model loaded successfully.")
 def preprocess_image(image_base64):
+    """Convert base64 encoded sketch to tensor."""
     image = Image.open(BytesIO(base64.b64decode(image_base64))).convert("RGB")
     image = transformer(image).unsqueeze(0).to(device)
     return image
     """Tokenize text query."""
     return tokenize([str(text)])[0].unsqueeze(0).to(device)
+def get_fused_embedding(sketch_base64, text):
     """Fuse sketch and text features into a single embedding."""
     with torch.no_grad():
+        sketch_tensor = preprocess_image(sketch_base64)
         text_tensor = preprocess_text(text)
+        sketch_feature = model.encode_sketch(sketch_tensor)
         text_feature = model.encode_text(text_tensor)
         sketch_feature = sketch_feature / sketch_feature.norm(dim=-1, keepdim=True)
         text_feature = text_feature / text_feature.norm(dim=-1, keepdim=True)
         fused_embedding = model.feature_fuse(sketch_feature, text_feature)
     return fused_embedding.cpu().numpy().tolist()
+def get_image_embedding(image_base64):
+    """Convert base64 encoded image to tensor."""
+    image_tensor = preprocess_image(image_base64)
+    with torch.no_grad():
+        image_feature = model.encode_image(image_tensor)
+        image_feature = image_feature / image_feature.norm(dim=-1, keepdim=True)
+    return image_feature.cpu().numpy().tolist()
 # Hugging Face Inference API Entry Point
 def infer(inputs):
     """
     Inference API entry point.
     Inputs:
+      - 'sketch': Base64 encoded sketch image.
       - 'text': Text query.
     """
     load_model()  # Ensure the model is loaded once
+    if "sketch" in inputs:
+        sketch_base64 = inputs.get("sketch", "")
+        text_query = inputs.get("text", "")
+        if not sketch_base64 or not text_query:
+            return {"error": "Both 'sketch' (base64) and 'text' are required inputs."}
+        # Generate Fused Embedding
+        fused_embedding = get_fused_embedding(sketch_base64, text_query)
+        return {"embedding": fused_embedding}
+    elif "image" in inputs:
+        image_base64 = inputs.get("image", "")
+        if not image_base64:
+            return {"error": "Image 'image' (base64) is required input."}
+        embedding = get_image_embedding(image_base64)
+        return {"embedding": embedding}
+    else:
+        return {"error": "Input 'sketch' or 'image' is required."}