damerajee
/

GPT-Vision

Vision Language Model

Inference Endpoints

Model card Files Files and versions Community

damerajee commited on Aug 5, 2024

Commit

5595e84

•

1 Parent(s): d6792f7

Update vision_encoder.py

Files changed (1) hide show

vision_encoder.py +8 -7

vision_encoder.py CHANGED Viewed

@@ -1,9 +1,7 @@
-from transformers import  ViTModel
 from torchvision import transforms
-import torch
-import torch.nn as nn
-import transformers
 transformers.logging.set_verbosity_error()
@@ -17,9 +15,12 @@ class VisionEncoder(nn.Module):
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
-    def forward(self, images,device):
         processed_images = torch.stack([self.image_transform(image) for image in images]).to(device)
         with torch.no_grad():
             pixel_values = self.vision_model(processed_images)
             image_features = pixel_values.last_hidden_state
-        return image_features

+from transformers import ViTModel
 from torchvision import transforms
+import torch
+import torch.nn as nn
 transformers.logging.set_verbosity_error()
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ])
+    def forward(self, images, device):
+        if not isinstance(images, list):
+            images = [images]
         processed_images = torch.stack([self.image_transform(image) for image in images]).to(device)
         with torch.no_grad():
             pixel_values = self.vision_model(processed_images)
             image_features = pixel_values.last_hidden_state
+        return image_features