comparing-captioning-models

Runtime error

App Files Files Community

kasun commited on Jun 12, 2023

Commit

a5ad655

1 Parent(s): 6381706

disabled models except blip2

Browse files

Files changed (1) hide show

app.py +16 -14

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import gradio as gr
-from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
 import open_clip
@@ -18,17 +20,17 @@ torch.hub.download_url_to_file('https://cdn.openai.com/dall-e-2/demos/text2im/as
 # git_processor_large_textcaps = AutoProcessor.from_pretrained("microsoft/git-large-r-textcaps")
 # git_model_large_textcaps = AutoModelForCausalLM.from_pretrained("microsoft/git-large-r-textcaps")
-# blip_processor_base = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
-# blip_model_base = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
-blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
-blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
 # blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16)
-blip2_processor_8_bit = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
-blip2_model_8_bit = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_8bit=True)
 # vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 # vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
@@ -42,10 +44,10 @@ blip2_model_8_bit = Blip2ForConditionalGeneration.from_pretrained("Salesforce/bl
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # git_model_base.to(device)
-# blip_model_base.to(device)
 # git_model_large_coco.to(device)
 # git_model_large_textcaps.to(device)
-blip_model_large.to(device)
 # vitgpt_model.to(device)
 # coca_model.to(device)
 # blip2_model.to(device)
@@ -80,9 +82,9 @@ def generate_captions(image):
     # caption_git_large_textcaps = generate_caption(git_processor_large_textcaps, git_model_large_textcaps, image)
-    # caption_blip_base = generate_caption(blip_processor_base, blip_model_base, image)
-    caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
     # caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
@@ -90,16 +92,16 @@ def generate_captions(image):
     # caption_blip2 = generate_caption(blip2_processor, blip2_model, image, use_float_16=True).strip()
-    caption_blip2_8_bit = generate_caption(blip2_processor_8_bit, blip2_model_8_bit, image, use_float_16=True).strip()
     # return caption_git_large_coco, caption_git_large_textcaps, caption_blip_large, caption_coca, caption_blip2_8_bit
-    return caption_blip_large, caption_blip2_8_bit
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
-outputs = [gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."

 import gradio as gr
+from transformers import AutoProcessor, BlipForConditionalGeneration
+# from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, Blip2ForConditionalGeneration, VisionEncoderDecoderModel
 import torch
 import open_clip
 # git_processor_large_textcaps = AutoProcessor.from_pretrained("microsoft/git-large-r-textcaps")
 # git_model_large_textcaps = AutoModelForCausalLM.from_pretrained("microsoft/git-large-r-textcaps")
+blip_processor_base = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
+blip_model_base = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
+# blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+# blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
 # blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-2.7b")
 # blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-2.7b", torch_dtype=torch.float16)
+# blip2_processor_8_bit = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
+# blip2_model_8_bit = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_8bit=True)
 # vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 # vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 # git_model_base.to(device)
+blip_model_base.to(device)
 # git_model_large_coco.to(device)
 # git_model_large_textcaps.to(device)
+# blip_model_large.to(device)
 # vitgpt_model.to(device)
 # coca_model.to(device)
 # blip2_model.to(device)
     # caption_git_large_textcaps = generate_caption(git_processor_large_textcaps, git_model_large_textcaps, image)
+    caption_blip_base = generate_caption(blip_processor_base, blip_model_base, image)
+    # caption_blip_large = generate_caption(blip_processor_large, blip_model_large, image)
     # caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
     # caption_blip2 = generate_caption(blip2_processor, blip2_model, image, use_float_16=True).strip()
+    # caption_blip2_8_bit = generate_caption(blip2_processor_8_bit, blip2_model_8_bit, image, use_float_16=True).strip()
     # return caption_git_large_coco, caption_git_large_textcaps, caption_blip_large, caption_coca, caption_blip2_8_bit
+    return caption_blip_base
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
 # outputs = [gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on COCO"), gr.outputs.Textbox(label="Caption generated by GIT-large fine-tuned on TextCaps"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by CoCa"), gr.outputs.Textbox(label="Caption generated by BLIP-2 OPT 6.7b")]
+outputs = [gr.outputs.Textbox(label="Caption generated by BLIP-base"),]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP, CoCa, and BLIP-2, 4 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."