Spaces:

xxx1
/

VQA_CAP_GPT

Runtime error

xxx1 commited on Mar 10, 2023

Commit

f66ceb8

•

1 Parent(s): eef074b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,23 +5,23 @@ import torch
 from models.VLE import VLEForVQA, VLEProcessor, VLEForVQAPipeline
 from PIL import Image
-# model_name="hfl/vle-base-for-vqa"
-# model = VLEForVQA.from_pretrained(model_name)
-# vle_processor = VLEProcessor.from_pretrained(model_name)
-# vqa_pipeline = VLEForVQAPipeline(model=model, device='cpu', vle_processor=vle_processor)
 from transformers import BlipForQuestionAnswering, BlipProcessor
-# device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
-# processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
-# model_vqa = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large").to(device)
 from transformers import BlipProcessor, BlipForConditionalGeneration
-# cap_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-# cap_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
@@ -165,7 +165,7 @@ with gr.Blocks(
                         '''
         with gr.Column():
             gr.Markdown(description1)
-            caption_output = gr.Textbox(lines=0, label="* VQA + LLM (short answer):\n The captioning model generates a caption \n of the image. We feed the caption")
             caption_output_v1 = gr.Textbox(lines=0, label="VQA + LLM (short answer)")
             gpt3_output_v1 = gr.Textbox(lines=0, label="VQA+LLM (long answer)")

 from models.VLE import VLEForVQA, VLEProcessor, VLEForVQAPipeline
 from PIL import Image
+model_name="hfl/vle-base-for-vqa"
+model = VLEForVQA.from_pretrained(model_name)
+vle_processor = VLEProcessor.from_pretrained(model_name)
+vqa_pipeline = VLEForVQAPipeline(model=model, device='cpu', vle_processor=vle_processor)
 from transformers import BlipForQuestionAnswering, BlipProcessor
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-capfilt-large")
+model_vqa = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-capfilt-large").to(device)
 from transformers import BlipProcessor, BlipForConditionalGeneration
+cap_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+cap_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
                         '''
         with gr.Column():
             gr.Markdown(description1)
+            caption_output = gr.Textbox(lines=0, label="VQA")
             caption_output_v1 = gr.Textbox(lines=0, label="VQA + LLM (short answer)")
             gpt3_output_v1 = gr.Textbox(lines=0, label="VQA+LLM (long answer)")