AMI-Video-Recall

Paused

zhanghaoji commited on Jun 26

Commit

cc32390

•

1 Parent(s): 5d42cba

fix tensor

Files changed (2) hide show

app.py CHANGED Viewed

@@ -53,11 +53,11 @@ def generate(video, textbox_in, first_run, state, state_, images_tensor):
     if os.path.exists(video):
         video_tensor = handler._get_rawvideo_dec(video, image_processor, max_frames=MAX_IMAGE_LENGTH)
-        for img in video_tensor:
-            images_tensor.append(image_processor(img, return_tensors='pt')['pixel_values'][0].to(handler.model.device, dtype=torch.float16))
     if os.path.exists(video):
-        text_en_in = DEFAULT_IMAGE_TOKEN * len(video_tensor) + '\n' + text_en_in
     text_en_out, state_ = handler.generate(images_tensor, text_en_in, first_run=first_run, state=state_)
     state_.messages[-1] = (state_.roles[1], text_en_out)

     if os.path.exists(video):
         video_tensor = handler._get_rawvideo_dec(video, image_processor, max_frames=MAX_IMAGE_LENGTH)
+        images_tensor = image_processor(video_tensor, return_tensors='pt')['pixel_values'].to(handler.model.device, dtype=torch.float16)
+        print("video_tensor", video_tensor.shape)
     if os.path.exists(video):
+        text_en_in = DEFAULT_IMAGE_TOKEN + '\n' + text_en_in
     text_en_out, state_ = handler.generate(images_tensor, text_en_in, first_run=first_run, state=state_)
     state_.messages[-1] = (state_.roles[1], text_en_out)

flash_vstream/serve/demo.py CHANGED Viewed

@@ -75,14 +75,13 @@ class Chat:
             return patch_images
     @torch.inference_mode()
-    def generate(self, images_tensor: list, prompt: str, first_run: bool, state):
         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
         state = self.get_prompt(prompt, state)
         prompt = state.get_prompt()
         print(prompt)
-        images_tensor = torch.stack(images_tensor, dim=0)
         input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
         temperature = 0.2

             return patch_images
     @torch.inference_mode()
+    def generate(self, images_tensor, prompt, first_run, state):
         tokenizer, model, image_processor = self.tokenizer, self.model, self.image_processor
         state = self.get_prompt(prompt, state)
         prompt = state.get_prompt()
         print(prompt)
         input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
         temperature = 0.2