mmgpt

Sleeping

App Files Files Community

sanjanatule commited on Jan 28

Commit

2b5d0a7

•

1 Parent(s): 015cbbb

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -51,7 +51,7 @@ def model_generate_ans(img=None,img_audio=None,val_q=None):
     with torch.no_grad():
         # image
-        if img:
             image_processed  = processor(images=img, return_tensors="pt").to(device)
             clip_val_outputs = clip_model(**image_processed).last_hidden_state[:,1:,:]
             val_image_embeds = projection(clip_val_outputs)
@@ -61,7 +61,7 @@ def model_generate_ans(img=None,img_audio=None,val_q=None):
             img_token_embeds = merged_model.model.embed_tokens(img_token_tensor).unsqueeze(0).unsqueeze(0)
         # audio
-        if img_audio:
             audio_result = audio_model.transcribe(audio)
             audio_text = ''
             for seg in audio_result['segments']:
@@ -71,19 +71,19 @@ def model_generate_ans(img=None,img_audio=None,val_q=None):
             audio_embeds    = merged_model.model.embed_tokens(audio_tokens).unsqueeze(0)
         # text question
-        if val_q:
             val_q_tokenised = tokenizer(val_q, return_tensors="pt", return_attention_mask=False)['input_ids'].squeeze(0).to(device)
             val_q_embeds    = merged_model.model.embed_tokens(val_q_tokenised).unsqueeze(0)
         val_combined_embeds = []
-        if img:
             #val_combined_embeds = torch.cat([val_combined_embeds, val_image_embeds, img_token_embeds], dim=1)
             val_combined_embeds.append(val_image_embeds)
             val_combined_embeds.append(img_token_embeds)
-        if img_audio:
             #val_combined_embeds = torch.cat([val_combined_embeds, audio_embeds], dim=1)
             val_combined_embeds.append(audio_embeds)
-        if val_q:
             #val_combined_embeds = torch.cat([val_combined_embeds, val_q_embeds], dim=1)
             val_combined_embeds.append(val_q_embeds)
@@ -117,7 +117,7 @@ with gr.Blocks() as demo:
     # app GUI
     with gr.Row():
         with gr.Column():
-            img_input    = gr.Image(label='Image')
             img_audio    = gr.Audio(label="Audio Query", sources=['microphone', 'upload'], type='filepath')
             img_question = gr.Text(label ='Text Query')
         with gr.Column():

     with torch.no_grad():
         # image
+        if img is not None:
             image_processed  = processor(images=img, return_tensors="pt").to(device)
             clip_val_outputs = clip_model(**image_processed).last_hidden_state[:,1:,:]
             val_image_embeds = projection(clip_val_outputs)
             img_token_embeds = merged_model.model.embed_tokens(img_token_tensor).unsqueeze(0).unsqueeze(0)
         # audio
+        if img_audio is not None:
             audio_result = audio_model.transcribe(audio)
             audio_text = ''
             for seg in audio_result['segments']:
             audio_embeds    = merged_model.model.embed_tokens(audio_tokens).unsqueeze(0)
         # text question
+        if val_q is not None:
             val_q_tokenised = tokenizer(val_q, return_tensors="pt", return_attention_mask=False)['input_ids'].squeeze(0).to(device)
             val_q_embeds    = merged_model.model.embed_tokens(val_q_tokenised).unsqueeze(0)
         val_combined_embeds = []
+        if img is not None:
             #val_combined_embeds = torch.cat([val_combined_embeds, val_image_embeds, img_token_embeds], dim=1)
             val_combined_embeds.append(val_image_embeds)
             val_combined_embeds.append(img_token_embeds)
+        if img_audio is not None:
             #val_combined_embeds = torch.cat([val_combined_embeds, audio_embeds], dim=1)
             val_combined_embeds.append(audio_embeds)
+        if val_q is not None:
             #val_combined_embeds = torch.cat([val_combined_embeds, val_q_embeds], dim=1)
             val_combined_embeds.append(val_q_embeds)
     # app GUI
     with gr.Row():
         with gr.Column():
+            img_input    = gr.Image(label='Image',type="pil")
             img_audio    = gr.Audio(label="Audio Query", sources=['microphone', 'upload'], type='filepath')
             img_question = gr.Text(label ='Text Query')
         with gr.Column():