Spaces:

omni-research
/

Tarsier2-7b

Running on Zero

App Files Files Community

0nejiawei commited on Nov 5, 2024

Commit

9a1832e

1 Parent(s): 0621bf5

fix image upload bug

Browse files

Files changed (2) hide show

app.py +5 -5
tools/conversation.py +5 -0

app.py CHANGED Viewed

@@ -25,10 +25,10 @@ import torch
 # huggingface-cli login
-device = 'cuda'
 model_path = os.getenv("MODEL_PATH", "omni-research/Tarsier2-7b")
-max_n_frames = int(os.getenv("MAX_N_FRAMES", 8))
 debug = False
 # ========================================
 #             Model Initialization
@@ -60,7 +60,7 @@ def gradio_reset(chat_state, img_file, img_list):
 def upload_img(gr_img, gr_video, gr_gif, chat_state, num_frames):
-    print(gr_img, gr_video)
     conv_type = ''
     if 'tarsier2-7b' in model_path.lower():
         conv_type = 'tarsier2-7b'
@@ -78,7 +78,7 @@ def upload_img(gr_img, gr_video, gr_gif, chat_state, num_frames):
     if gr_img is None and gr_video is None and gr_gif is None:
         return None, None, None, gr.update(interactive=True), gr.update(interactive=True, placeholder='Please upload video/image first!'), chat_state, None, None
     if gr_video or gr_img or gr_gif:
-        for img_file in [gr_video, gr_video, gr_gif]:
             if img_file is not None:
                 break
         return gr.update(interactive=True), gr.update(interactive=True), gr.update(interactive=True), gr.update(interactive=True, placeholder='Type and press Enter'), gr.update(value="Start Chatting", interactive=False), chat_state, img_file, img_list
@@ -87,7 +87,7 @@ def upload_img(gr_img, gr_video, gr_gif, chat_state, num_frames):
 def gradio_ask(user_message, chatbot, chat_state):
     if len(user_message) == 0:
         return gr.update(interactive=True, placeholder='Input should not be empty!'), chatbot, chat_state
-    chat_state =  chat.ask(user_message, chat_state)
     chatbot = chatbot + [[user_message, None]]
     return '', chatbot, chat_state

 # huggingface-cli login
 model_path = os.getenv("MODEL_PATH", "omni-research/Tarsier2-7b")
+max_n_frames = int(os.getenv("MAX_N_FRAMES", 16))
 debug = False
+device = 'cuda' if not debug else 'cpu'
 # ========================================
 #             Model Initialization
 def upload_img(gr_img, gr_video, gr_gif, chat_state, num_frames):
+    print("video, image or gif:", gr_video, gr_img, gr_gif)
     conv_type = ''
     if 'tarsier2-7b' in model_path.lower():
         conv_type = 'tarsier2-7b'
     if gr_img is None and gr_video is None and gr_gif is None:
         return None, None, None, gr.update(interactive=True), gr.update(interactive=True, placeholder='Please upload video/image first!'), chat_state, None, None
     if gr_video or gr_img or gr_gif:
+        for img_file in [gr_video, gr_img, gr_gif]:
             if img_file is not None:
                 break
         return gr.update(interactive=True), gr.update(interactive=True), gr.update(interactive=True), gr.update(interactive=True, placeholder='Type and press Enter'), gr.update(value="Start Chatting", interactive=False), chat_state, img_file, img_list
 def gradio_ask(user_message, chatbot, chat_state):
     if len(user_message) == 0:
         return gr.update(interactive=True, placeholder='Input should not be empty!'), chatbot, chat_state
+    chat_state = chat.ask(user_message, chat_state)
     chatbot = chatbot + [[user_message, None]]
     return '', chatbot, chat_state

tools/conversation.py CHANGED Viewed

@@ -78,6 +78,7 @@ class Chat:
     def prepare_model_inputs(self, conv, visual_data_file=None, images=None, n_frames=None):
         conv.messages.append([conv.roles[1], None])
         conv.messages[0][1] = re.sub(f"({IMAGE_TOKEN}|{VIDEO_TOKEN})\n*", "", conv.messages[0][1])
         if images is None or isinstance(images, list) and len(images) == 0:
@@ -89,6 +90,10 @@ class Chat:
                 images = None
             else:
                 raise NotImplementedError
         if isinstance(images, list) and len(images) > 0:
             conv.messages[0][1] = IMAGE_TOKEN*len(images) + '\n' + conv.messages[0][1]

     def prepare_model_inputs(self, conv, visual_data_file=None, images=None, n_frames=None):
         conv.messages.append([conv.roles[1], None])
+        print(conv.messages)
         conv.messages[0][1] = re.sub(f"({IMAGE_TOKEN}|{VIDEO_TOKEN})\n*", "", conv.messages[0][1])
         if images is None or isinstance(images, list) and len(images) == 0:
                 images = None
             else:
                 raise NotImplementedError
+        # os.system("rm tmp_images/*")
+        # for i, img in enumerate(images):
+        #     img.save(f"tmp_images/{i+1}.jpg")
         if isinstance(images, list) and len(images) > 0:
             conv.messages[0][1] = IMAGE_TOKEN*len(images) + '\n' + conv.messages[0][1]