FuseCap-image-captioning

Running

noamrot commited on May 25, 2023

Commit

9578b89

•

1 Parent(s): 3407b67

fix input bugs

Files changed (6) hide show

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

BLIP/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

README.md DELETED Viewed

@@ -1,13 +0,0 @@
----
-title: FuseCap
-emoji: 📊
-colorFrom: pink
-colorTo: red
-sdk: gradio
-sdk_version: 3.29.0
-app_file: app.py
-pinned: false
-license: mit
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py CHANGED Viewed

@@ -26,7 +26,7 @@ def inference(raw_image):
     # raw_image = torch.tensor(raw_image)
     image = transform(raw_image).unsqueeze(0).to(device)
     with torch.no_grad():
-          caption = model.generate(image, sample=False, num_beams=1, max_length=200, min_length=5)
     return caption[0]
@@ -34,7 +34,7 @@ inputs = [gr.Image(type='pil', interactive=False),]
 outputs = gr.outputs.Textbox(label="Caption")
 description = "Gradio demo for FuseCap: Leveraging Large Language Models to Fuse Visual Data into Enriched Image Captions. This demo features a BLIP-based model, trained using FuseCap."
-examples = [["birthday_dog.jpeg"], ["surfer.jpg"], ["bike.jpg"]]
 article = "<p style='text-align: center'><a href='google.com' target='_blank'>place holder</a>"

     # raw_image = torch.tensor(raw_image)
     image = transform(raw_image).unsqueeze(0).to(device)
     with torch.no_grad():
+          caption = model.generate(image, sample=False, num_beams=3, max_length=60, min_length=5)
     return caption[0]
 outputs = gr.outputs.Textbox(label="Caption")
 description = "Gradio demo for FuseCap: Leveraging Large Language Models to Fuse Visual Data into Enriched Image Captions. This demo features a BLIP-based model, trained using FuseCap."
+examples = [["surfer.jpg"], ["bike.jpg"]]
 article = "<p style='text-align: center'><a href='google.com' target='_blank'>place holder</a>"

bike.jpg CHANGED Viewed

surfer.jpg CHANGED Viewed