comparing-captioning-models

Runtime error

App Files Files Community

nielsr HF staff commited on Feb 3, 2023

Commit

c57b6d0

•

1 Parent(s): 6334863

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -2

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, VisionEncoderDecoderModel
 import torch
 torch.hub.download_url_to_file('http://images.cocodataset.org/val2017/000000039769.jpg', 'cats.jpg')
 torch.hub.download_url_to_file('https://huggingface.co/datasets/nielsr/textcaps-sample/resolve/main/stop_sign.png', 'stop_sign.png')
@@ -22,6 +23,11 @@ vitgpt_processor = AutoImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image
 vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 device = "cuda" if torch.cuda.is_available() else "cpu"
 git_model_base.to(device)
@@ -29,6 +35,7 @@ blip_model_base.to(device)
 git_model_large.to(device)
 blip_model_large.to(device)
 vitgpt_model.to(device)
 def generate_caption(processor, model, image, tokenizer=None):
     inputs = processor(images=image, return_tensors="pt").to(device)
@@ -43,6 +50,12 @@ def generate_caption(processor, model, image, tokenizer=None):
     return generated_caption
 def generate_captions(image):
     caption_git_base = generate_caption(git_processor_base, git_model_base, image)
@@ -54,11 +67,13 @@ def generate_captions(image):
     caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
-    return caption_git_base, caption_git_large, caption_blip_base, caption_blip_large, caption_vitgpt
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
-outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base"), gr.outputs.Textbox(label="Caption generated by GIT-large"), gr.outputs.Textbox(label="Caption generated by BLIP-base"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by ViT+GPT-2")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP and ViT+GPT2, 3 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."

 import gradio as gr
 from transformers import AutoProcessor, AutoTokenizer, AutoImageProcessor, AutoModelForCausalLM, BlipForConditionalGeneration, VisionEncoderDecoderModel
 import torch
+import open_clip
 torch.hub.download_url_to_file('http://images.cocodataset.org/val2017/000000039769.jpg', 'cats.jpg')
 torch.hub.download_url_to_file('https://huggingface.co/datasets/nielsr/textcaps-sample/resolve/main/stop_sign.png', 'stop_sign.png')
 vitgpt_model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 vitgpt_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+coca_model, _, coca_transform = open_clip.create_model_and_transforms(
+    "coca_ViT-L-14",
+    pretrained="laion2B-s13B-b90k-mscoco-2014.pt"
+)
 device = "cuda" if torch.cuda.is_available() else "cpu"
 git_model_base.to(device)
 git_model_large.to(device)
 blip_model_large.to(device)
 vitgpt_model.to(device)
+coca_model.to(device)
 def generate_caption(processor, model, image, tokenizer=None):
     inputs = processor(images=image, return_tensors="pt").to(device)
     return generated_caption
+def generate_caption_coca(model, transform, image):
+    im = transform(image).unsqueeze(0).to(device)
+    generated = model.generate(im, seq_len=20)
+    return open_clip.decode(generated[0].detach()).split("<end_of_text>")[0].replace("<start_of_text>", "")
 def generate_captions(image):
     caption_git_base = generate_caption(git_processor_base, git_model_base, image)
     caption_vitgpt = generate_caption(vitgpt_processor, vitgpt_model, image, vitgpt_tokenizer)
+    caption_coca = generate_caption_coca(coca_model, coca_transform, image)
+    return caption_git_base, caption_git_large, caption_blip_base, caption_blip_large, caption_vitgpt, caption_coca
 examples = [["cats.jpg"], ["stop_sign.png"], ["astronaut.jpg"]]
+outputs = [gr.outputs.Textbox(label="Caption generated by GIT-base"), gr.outputs.Textbox(label="Caption generated by GIT-large"), gr.outputs.Textbox(label="Caption generated by BLIP-base"), gr.outputs.Textbox(label="Caption generated by BLIP-large"), gr.outputs.Textbox(label="Caption generated by ViT+GPT-2"), gr.outputs.Textbox(label="Caption generated by CoCa")]
 title = "Interactive demo: comparing image captioning models"
 description = "Gradio Demo to compare GIT, BLIP and ViT+GPT2, 3 state-of-the-art vision+language models. To use it, simply upload your image and click 'submit', or click one of the examples to load them. Read more at the links below."