florence-sam2-masking

Running on Zero

App Files Files Community

jiuface commited on Aug 22

Commit

caa3c61

•

1 Parent(s): f7e0c7d

bug fix

Browse files

Files changed (2) hide show

app.py +21 -29
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -5,6 +5,9 @@ import spaces
 import supervision as sv
 import torch
 from PIL import Image
 from utils.florence import load_florence_model, run_florence_inference, \
     FLORENCE_OPEN_VOCABULARY_DETECTION_TASK
@@ -26,7 +29,7 @@ SAM_IMAGE_MODEL = load_sam_image_model(device=DEVICE)
 @spaces.GPU(duration=20)
 @torch.inference_mode()
 @torch.autocast(device_type="cuda", dtype=torch.bfloat16)
-def process_image(image_input, task_prompt, text_input) -> Optional[Image.Image]:
     if not image_input:
         gr.Info("Please upload an image.")
         return None
@@ -36,6 +39,14 @@ def process_image(image_input, task_prompt, text_input) -> Optional[Image.Image]
     if not text_input:
         gr.Info("Please enter a text prompt.")
         return None
     _, result = run_florence_inference(
         model=FLORENCE_MODEL,
         processor=FLORENCE_PROCESSOR,
@@ -67,38 +78,19 @@ with gr.Blocks() as demo:
             image = gr.Image(type='pil', label='Upload image')
             image_url =  gr.Textbox( label='Image url', placeholder='Enter text prompts (Optional)')
             task_prompt = gr.Dropdown(
-                [
-                    "<CAPTION>",
-                    "<DETAILED_CAPTION>",
-                    "<MORE_DETAILED_CAPTION>",
-                    "<CAPTION_TO_PHRASE_GROUNDING>",
-                    "<OPEN_VOCABULARY_DETECTION>",
-                    '<DENSE_REGION_CAPTION>'
-                ], value="<CAPTION_TO_PHRASE_GROUNDING>", label="Task Prompt", info="task prompts"
-            ),
             text_prompt = gr.Textbox(label='Text prompt', placeholder='Enter text prompts')
             submit_button = gr.Button(value='Submit', variant='primary')
         with gr.Column():
-            image_gallery = gr.Gallery(label="Generated images")
-    text_prompt.sumbit(
-        fn=process_image,
-        inputs=[
-            image,
-            task_prompt,
-            text_prompt
-        ],
-        outputs=image_gallery
-    )
     submit_button.click(
-        fn=process_image,
-        inputs=[
-            image,
-            task_prompt,
-            text_prompt
-        ],
-        outputs=image_gallery
     )
 demo.launch(debug=True, show_error=True)

 import supervision as sv
 import torch
 from PIL import Image
+from io import BytesIO
+import PIL.Image
+import requests
 from utils.florence import load_florence_model, run_florence_inference, \
     FLORENCE_OPEN_VOCABULARY_DETECTION_TASK
 @spaces.GPU(duration=20)
 @torch.inference_mode()
 @torch.autocast(device_type="cuda", dtype=torch.bfloat16)
+def process_image(image_input, image_url, task_prompt, text_input) -> Optional[Image.Image]:
     if not image_input:
         gr.Info("Please upload an image.")
         return None
     if not text_input:
         gr.Info("Please enter a text prompt.")
         return None
+    if image_url:
+        print("start to fetch image from url", image_url)
+        response = requests.get(image_url)
+        response.raise_for_status()
+        image_input = PIL.Image.open(BytesIO(response.content))
+        print("fetch image success")
     _, result = run_florence_inference(
         model=FLORENCE_MODEL,
         processor=FLORENCE_PROCESSOR,
             image = gr.Image(type='pil', label='Upload image')
             image_url =  gr.Textbox( label='Image url', placeholder='Enter text prompts (Optional)')
             task_prompt = gr.Dropdown(
+                ["<CAPTION>", "<DETAILED_CAPTION>",  "<MORE_DETAILED_CAPTION>",  "<CAPTION_TO_PHRASE_GROUNDING>",  "<OPEN_VOCABULARY_DETECTION>", "<DENSE_REGION_CAPTION>"], value="<CAPTION_TO_PHRASE_GROUNDING>", label="Task Prompt", info="task prompts"
+            )
             text_prompt = gr.Textbox(label='Text prompt', placeholder='Enter text prompts')
             submit_button = gr.Button(value='Submit', variant='primary')
         with gr.Column():
+            image_gallery = gr.Gallery(label="Generated images", show_label=False, elem_id="gallery", columns=[3], rows=[1], object_fit="contain", height="auto")
+    print(image, image_url, task_prompt, text_prompt, image_gallery)
     submit_button.click(
+        fn = process_image,
+        inputs = [image, image_url, task_prompt, text_prompt],
+        outputs = [image_gallery,],
+        show_api=False
     )
 demo.launch(debug=True, show_error=True)

requirements.txt CHANGED Viewed

@@ -7,4 +7,5 @@ samv2
 gradio
 supervision
 opencv-python
-pytest

 gradio
 supervision
 opencv-python
+pytest
+requests