TIGER-Lab
/

VLM2Vec-Full

@@ -41,7 +41,7 @@ from transformers.image_transforms import (
 from transformers.image_utils import (
     OPENAI_CLIP_MEAN,
     OPENAI_CLIP_STD,
-    ImageInput,
     make_list_of_images,
     valid_images,
 )
@@ -57,6 +57,7 @@ if is_vision_available():
 import torch
 import torchvision
 def padding_336(b):
     width, height = b.size
@@ -139,6 +140,11 @@ def pad_to_max_num_crops_tensor(images, max_crops=5):
         images = torch.cat([images, pad], dim=0)
     return images
 class Phi3VImageProcessor(BaseImageProcessor):
     r"""
@@ -330,7 +336,7 @@ class Phi3VProcessor(ProcessorMixin):
     def __call__(
         self,
         text: Union[TextInput, List[TextInput]],
-        images: ImageInput = None,
         padding: Union[bool, str, PaddingStrategy] = False,
         truncation: Union[bool, str, TruncationStrategy] = None,
         max_length=None,
@@ -382,6 +388,8 @@ class Phi3VProcessor(ProcessorMixin):
             - **pixel_values** -- Pixel values to be fed to a model. Returned when `images` is not `None`.
         """
         if images is not None:
             image_inputs = self.image_processor(images, return_tensors=return_tensors)
         else:
             image_inputs = {}
@@ -421,7 +429,14 @@ class Phi3VProcessor(ProcessorMixin):
             return BatchFeature(data={**model_inputs})
         pattern = r"<\|image_\d+\|>"
-        prompt_chunks = [self.tokenizer(chunk, truncation=truncation, max_length=max_length).input_ids for chunk in re.split(pattern, texts)]
         if 'num_img_tokens' in images:
             num_img_tokens = images['num_img_tokens']
@@ -433,18 +448,23 @@ class Phi3VProcessor(ProcessorMixin):
         images, image_sizes = images['pixel_values'], images['image_sizes']
         # image_tags needs to start from 1 to n
-        image_tags = re.findall(pattern, texts)
         # image_ids = [int(s.split("|")[1].split("_")[-1]) * -1 for s in image_tags]
         # image_ids_pad = [[iid]*num_img_tokens[i] for i, iid in enumerate(image_ids)]
-        image_ids = [int(s.split("|")[1].split("_")[-1]) for s in image_tags]
-        unique_image_ids = sorted(list(set(image_ids)))
         # image_ids must start from 1, and must be continuous int, e.g. [1, 2, 3], cannot be [1, 4, 5]
         # check the condition
         assert unique_image_ids == list(range(1, len(unique_image_ids) + 1)), f"image_ids must start from 1, and must be continuous int, e.g. [1, 2, 3], cannot be {unique_image_ids}"
         # total images must be the same as the number of image tags
         assert len(unique_image_ids) == len(images), f"total images must be the same as the number of image tags, got {len(unique_image_ids)} image tags and {len(images)} images"
-        image_ids_pad = [[-iid] * num_img_tokens[iid - 1] for iid in image_ids]
         def insert_separator(X, sep_list):
             if len(X) > len(sep_list):
@@ -452,12 +472,15 @@ class Phi3VProcessor(ProcessorMixin):
             return [ele for sublist in zip(X, sep_list) for ele in sublist]
         input_ids = []
-        offset = 0
-        for x in insert_separator(prompt_chunks, image_ids_pad):
-            input_ids.extend(x[offset:])
-        input_ids = torch.tensor(input_ids, dtype=torch.long).unsqueeze(0)
         attention_mask = (input_ids > -1000000).to(torch.long)
         return BatchFeature(data={"input_ids": input_ids,
                                   "attention_mask": attention_mask,

 from transformers.image_utils import (
     OPENAI_CLIP_MEAN,
     OPENAI_CLIP_STD,
+    is_valid_image,
     make_list_of_images,
     valid_images,
 )
 import torch
 import torchvision
+MultiFrameImageInput = Union[List[List["Image.Image"]], List[List[np.ndarray]], List[List["torch.Tensor"]]]
 def padding_336(b):
     width, height = b.size
         images = torch.cat([images, pad], dim=0)
     return images
+def is_multi_frames(images):
+    if isinstance(images, (list, tuple)) and isinstance(images[0], (list, tuple)):
+        return is_valid_image(images[0][0])
+    else:
+        return False
 class Phi3VImageProcessor(BaseImageProcessor):
     r"""
     def __call__(
         self,
         text: Union[TextInput, List[TextInput]],
+        images: Union[ImageInput, MultiFrameImageInput] = None,
         padding: Union[bool, str, PaddingStrategy] = False,
         truncation: Union[bool, str, TruncationStrategy] = None,
         max_length=None,
             - **pixel_values** -- Pixel values to be fed to a model. Returned when `images` is not `None`.
         """
         if images is not None:
+            if is_multi_frames(images):
+                images = [image for sample_images in images for image in sample_images]
             image_inputs = self.image_processor(images, return_tensors=return_tensors)
         else:
             image_inputs = {}
             return BatchFeature(data={**model_inputs})
         pattern = r"<\|image_\d+\|>"
+        if isinstance(texts, str):
+           texts = [texts]
+        prompt_chunks = []
+        image_tags = []
+        for text in texts:
+            prompt_chunks.append([self.tokenizer(chunk, truncation=truncation, max_length=max_length).input_ids for chunk in re.split(pattern, text)])
+            image_tags.append(re.findall(pattern, text))
         if 'num_img_tokens' in images:
             num_img_tokens = images['num_img_tokens']
         images, image_sizes = images['pixel_values'], images['image_sizes']
         # image_tags needs to start from 1 to n
+        # image_tags = re.findall(pattern, texts)
         # image_ids = [int(s.split("|")[1].split("_")[-1]) * -1 for s in image_tags]
         # image_ids_pad = [[iid]*num_img_tokens[i] for i, iid in enumerate(image_ids)]
+        image_ids_counter = 0
+        image_ids = []
+        for tags in image_tags:
+            image_ids.append([int(s.split("|")[1].split("_")[-1]) + image_ids_counter for s in tags])
+            image_ids_counter += len(tags)
+        unique_image_ids = sorted(list(set([iid for ids in image_ids for iid in ids])))
         # image_ids must start from 1, and must be continuous int, e.g. [1, 2, 3], cannot be [1, 4, 5]
         # check the condition
         assert unique_image_ids == list(range(1, len(unique_image_ids) + 1)), f"image_ids must start from 1, and must be continuous int, e.g. [1, 2, 3], cannot be {unique_image_ids}"
         # total images must be the same as the number of image tags
         assert len(unique_image_ids) == len(images), f"total images must be the same as the number of image tags, got {len(unique_image_ids)} image tags and {len(images)} images"
+        image_ids_pad = [[[-iid]*num_img_tokens[iid-1] for iid in ids] for ids in image_ids]
         def insert_separator(X, sep_list):
             if len(X) > len(sep_list):
             return [ele for sublist in zip(X, sep_list) for ele in sublist]
         input_ids = []
+        for sub_prompt_chunks, sub_image_ids_pad in zip(prompt_chunks, image_ids_pad):
+            input_ids.append([])
+            offset = 0
+            for x in insert_separator(sub_prompt_chunks, sub_image_ids_pad):
+                input_ids[-1].extend(x[offset:])
+        input_ids = torch.tensor(input_ids, dtype=torch.long)
         attention_mask = (input_ids > -1000000).to(torch.long)
+        attention_mask[input_ids == self.tokenizer.pad_token_id] = 0
         return BatchFeature(data={"input_ids": input_ids,
                                   "attention_mask": attention_mask,