Spaces:

captain-awesome
/

Image_object_detection

Running

App Files Files Community

captain-awesome commited on Mar 7

Commit

90d7fd0

•

1 Parent(s): 5c73650

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -32

app.py CHANGED Viewed

@@ -1,34 +1,81 @@
 import gradio as gr
-models = {
-    "object-detection": "facebook/detr-resnet-50",
-    # "image-classification": "microsoft/resnet-50",
-    # "text-to-image": "runwayml/stable-diffusion-v1-5",
-    # "image-to-text": "nlpconnect/vit-gpt2-image-captioning",
-    # "audio-classification": "mtg-upf/discogs-maest-30s-pw-73e-ts",
-    # "audio-to-audio": "speechbrain/mtl-mimic-voicebank",
-    # "automatic-speech-recognition": "jonatasgrosman/wav2vec2-large-xlsr-53-english",
-    # "conversational": "microsoft/DialoGPT-medium",
-    # "feature-extraction": "cambridgeltl/SapBERT-from-PubMedBERT-fulltext",
-    # "fill-mask": "bert-base-uncased",
-    # "question-answering": "deepset/roberta-base-squad2",
-    # "summarization": "facebook/bart-large-cnn",
-    # "text-classification": "cardiffnlp/twitter-roberta-base-sentiment-latest",
-    # "text-generation": "gpt2",
-    # "text2text-generation": "vennify/t5-base-grammar-correction",
-    # "translation": "Helsinki-NLP/opus-mt-fr-en",
-    # "zero-shot-classification": "facebook/bart-large-mnli",
-    # "sentence-similarity": "sentence-transformers/all-mpnet-base-v2",
-    # "text-to-speech": "facebook/mms-tts-eng",
-    # "token-classification": "benjamin/wtp-canine-s-1l",
-    # "document-question-answering": "fxmarty/tiny-doc-qa-vision-encoder-decoder",
-    # "visual-question-answering": "Salesforce/blip-vqa-capfilt-large",
-}
-with gr.Blocks() as demo:
-    trust_remote_code=True
-    gr.Markdown("## Gradio Pipelines Tasks")
-    for k, v in models.items():
-        with gr.Tab(k):
-            gr.load(v, src="models")
-demo.launch()

+Hugging Face's logo
+Hugging Face
+Search models, datasets, users...
+Models
+Datasets
+Spaces
+Posts
+Docs
+Solutions
+Pricing
+Spaces:
+Satyacoder
+/
+vision_test
+like
+0
+App
+Files
+Community
+vision_test
+/
+app.py
+Satyacoder's picture
+Satyacoder
+Update app.py
+8602d39
+5 months ago
+raw
+history
+blame
+contribute
+delete
+No virus
+1.72 kB
+from transformers import DetrImageProcessor, DetrForObjectDetection
+from transformers import BlipProcessor, BlipForConditionalGeneration
+import torch
+from PIL import Image
+import requests
 import gradio as gr
+box_processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50")
+box_model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")
+caption_processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
+caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")
+def predict_bounding_boxes(imageurl:str):
+    try:
+        response = requests.get(imageurl, stream=True)
+        response.raise_for_status()
+        image_data = Image.open(response.raw)
+        inputs = box_processor(images=image_data, return_tensors="pt")
+        outputs = box_model(**inputs)
+        target_sizes = torch.tensor([image_data.size[::-1]])
+        results = box_processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.70)[0]
+        detections = [{"score": score.item(), "label": box_model.config.id2label[label.item()], "box": box.tolist()} for score, label, box in zip(results["scores"], results["labels"], results["boxes"])]
+        raw_image = image_data.convert('RGB')
+        inputs = caption_processor(raw_image, return_tensors="pt")
+        out = caption_model.generate(**inputs)
+        label = caption_processor.decode(out[0], skip_special_tokens=True)
+        return {"image label": label, "detections": detections}
+    except Exception as e:
+        return {"error": str(e)}
+app = gr.Interface(fn=predict_bounding_boxes, inputs="text", outputs="json")
+app.api = True
+app.launch()