mmgpt

Sleeping

sanjanatule commited on Jan 28

Commit

4e448ea

•

1 Parent(s): 79438f3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -75,14 +75,19 @@ def model_generate_ans(img=None,img_audio=None,val_q=None):
             val_q_tokenised = tokenizer(val_q, return_tensors="pt", return_attention_mask=False)['input_ids'].squeeze(0).to(device)
             val_q_embeds    = merged_model.model.embed_tokens(val_q_tokenised).unsqueeze(0)
-        val_combined_embeds = torch.empty(5,3,0)
         if image:
-            val_combined_embeds = torch.cat([val_combined_embeds, val_image_embeds, img_token_embeds], dim=1)
         if img_audio:
-            val_combined_embeds = torch.cat([val_combined_embeds, audio_embeds], dim=1)
         if val_q:
-            val_combined_embeds = torch.cat([val_combined_embeds, val_q_embeds], dim=1)
         #val_combined_embeds = torch.cat([val_image_embeds, img_token_embeds, val_q_embeds], dim=1) # 4, 69, 2560
         predicted_caption = torch.full((1,max_generate_length),50256).to(device)

             val_q_tokenised = tokenizer(val_q, return_tensors="pt", return_attention_mask=False)['input_ids'].squeeze(0).to(device)
             val_q_embeds    = merged_model.model.embed_tokens(val_q_tokenised).unsqueeze(0)
+        val_combined_embeds = []
         if image:
+            #val_combined_embeds = torch.cat([val_combined_embeds, val_image_embeds, img_token_embeds], dim=1)
+            val_combined_embeds.append(val_image_embeds)
+            val_combined_embeds.append(img_token_embeds)
         if img_audio:
+            #val_combined_embeds = torch.cat([val_combined_embeds, audio_embeds], dim=1)
+            val_combined_embeds.append(audio_embeds)
         if val_q:
+            #val_combined_embeds = torch.cat([val_combined_embeds, val_q_embeds], dim=1)
+            val_combined_embeds.append(val_q_embeds)
+        val_combined_embeds = torch.cat(val_combined_embeds,dim=1)
         #val_combined_embeds = torch.cat([val_image_embeds, img_token_embeds, val_q_embeds], dim=1) # 4, 69, 2560
         predicted_caption = torch.full((1,max_generate_length),50256).to(device)