comparing-captioning-models

Runtime error

App Files Files Community

nielsr HF staff commited on Jul 13, 2023

Commit

740fb26

•

1 Parent(s): 1c3da59

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -4

app.py CHANGED Viewed

@@ -18,10 +18,10 @@ blip_processor_large = AutoProcessor.from_pretrained("Salesforce/blip-image-capt
 blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
 blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
-blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", torch_dtype=torch.float16)
 instructblip_processor = AutoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
-instructblip_model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b").to(device)
 def generate_caption(processor, model, image, tokenizer=None, use_float_16=False):
     inputs = processor(images=image, return_tensors="pt").to(device)
@@ -42,7 +42,7 @@ def generate_caption(processor, model, image, tokenizer=None, use_float_16=False
 def generate_caption_blip2(processor, model, image, replace_token=False):
     prompt = "Generate a caption for the image:"
-    inputs = processor(images=image, text=prompt, return_tensors="pt").to(device=device, dtype=torch.float16)
     generated_ids = model.generate(pixel_values=inputs.pixel_values,
                                    num_beams=5, max_length=50, min_length=1, top_p=0.9,
@@ -61,7 +61,7 @@ def generate_captions(image):
     caption_blip2 = generate_caption_blip2(blip2_processor, blip2_model, image).strip()
-    caption_instructblip = generate_caption_blip2(instructblip_processor, instructblip_model, image)
     return caption_git_large_coco, caption_blip_large, caption_blip2, caption_instructblip

 blip_model_large = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large").to(device)
 blip2_processor = AutoProcessor.from_pretrained("Salesforce/blip2-opt-6.7b")
+blip2_model = Blip2ForConditionalGeneration.from_pretrained("Salesforce/blip2-opt-6.7b", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
 instructblip_processor = AutoProcessor.from_pretrained("Salesforce/instructblip-vicuna-7b")
+instructblip_model = InstructBlipForConditionalGeneration.from_pretrained("Salesforce/instructblip-vicuna-7b", device_map="auto", load_in_4bit=True, torch_dtype=torch.float16)
 def generate_caption(processor, model, image, tokenizer=None, use_float_16=False):
     inputs = processor(images=image, return_tensors="pt").to(device)
 def generate_caption_blip2(processor, model, image, replace_token=False):
     prompt = "Generate a caption for the image:"
+    inputs = processor(images=image, text=prompt, return_tensors="pt").to(device=model.device, dtype=torch.float16)
     generated_ids = model.generate(pixel_values=inputs.pixel_values,
                                    num_beams=5, max_length=50, min_length=1, top_p=0.9,
     caption_blip2 = generate_caption_blip2(blip2_processor, blip2_model, image).strip()
+    caption_instructblip = generate_caption_blip2(instructblip_processor, instructblip_model, image, replace_token=True)
     return caption_git_large_coco, caption_blip_large, caption_blip2, caption_instructblip