Spaces:

Monimoy
/

image_question_answer

Running on Zero

Monimoy commited on 29 days ago

Commit

a0852ae

verified ·

1 Parent(s): 4e8f700

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -147,11 +147,12 @@ def predict1(image_input, question):
         with torch.no_grad():
             # Get image embeddings
             image_embeddings = image_encoder(image)
-            projected_image_embeddings = model.image_projection(image_embeddings)
             # Reshape image embeddings to (batch_size, 1, phi3_embed_dim)
-            projected_image_embeddings = projected_image_embeddings.unsqueeze(1)
             # Concatenate along the sequence dimension (dim=1)
             extended_attention_mask = torch.cat([torch.ones(projected_image_embeddings.shape[:2], device=encoded["attention_mask"].device), encoded["attention_mask"]], dim=1)
             extended_input_ids = torch.cat([torch.zeros(projected_image_embeddings.shape[:2], dtype=torch.long, device=encoded["input_ids"].device), encoded["input_ids"]], dim=1)

         with torch.no_grad():
             # Get image embeddings
             image_embeddings = image_encoder(image)
+            #projected_image_embeddings = model.image_projection(image_embeddings)
             # Reshape image embeddings to (batch_size, 1, phi3_embed_dim)
+            #projected_image_embeddings = projected_image_embeddings.unsqueeze(1)
+            projected_image_embeddings = image_embeddings.unsqueeze(1)
             # Concatenate along the sequence dimension (dim=1)
             extended_attention_mask = torch.cat([torch.ones(projected_image_embeddings.shape[:2], device=encoded["attention_mask"].device), encoded["attention_mask"]], dim=1)
             extended_input_ids = torch.cat([torch.zeros(projected_image_embeddings.shape[:2], dtype=torch.long, device=encoded["input_ids"].device), encoded["input_ids"]], dim=1)