quadranttechnologies
/

qhub-blip-image-captioning-finetuned

@@ -19,29 +19,44 @@ This is a fine-tuned version of BLIP for visual answering on images. This model
 This experimental model can be used for answering questions on product images in retail industry. Product meta data enrichment, Validation of human generated product description are some of the examples sue case.
-Examples: (place images here)
-           Input Image                                                                                                      |      Model Output
-___________________________________________________________________________________________________________________________________________________________________________
-![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/-Ux5mU-JDpZvdhNq-sSiw.jpeg)        Model Output:- chips nachos
-![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/-Z87gp9zWg2FiLTUCu8Ir.jpeg)       Model Output:- a man in a suit walking across a crosswalk
-![image/png](https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/YcSs_CFcRj-Tb4woXIArC.png)          Model Output:- bush ' s best white beans
-## Sample model predictions
-| Image                               | Description                    |
-|-------------------------------------|--------------------------------|
-| <img src="https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/YcSs_CFcRj-Tb4woXIArC.png" width=100 height=100 />     | bush ' s best white beans |
 ## BibTex and citation info

 This experimental model can be used for answering questions on product images in retail industry. Product meta data enrichment, Validation of human generated product description are some of the examples sue case.
+# Sample model predictions
+| Image                                                                                                            | Description |
+|------------------------------------------------------------------------------------------------------------------|-------------|
+| <img src="https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/YcSs_CFcRj-Tb4woXlArC.png" width="100" height="100" /> | bush 's best white beans |
+| <img src="https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/lTediQ7Zuez_CQQR7YIY0.png" width="100" height="100" /> | a bottle of milk sitting on a counter |
+| <img src="https://cdn-uploads.huggingface.co/production/uploads/672d17c98e098bf429c83670/7r5oJ7BiSFkLt3nmT3RIv.jpeg" alt="image/jpeg" width="100" height="100" /> | a man in a suit walking across a crosswalk |
+### How to use the model:
+'''
+import requests
+from PIL import Image
+from transformers import BlipProcessor, BlipForConditionalGeneration
+processor = BlipProcessor.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")
+model = BlipForConditionalGeneration.from_pretrained("quadranttechnologies/qhub-blip-image-captioning-finetuned")
+img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
+raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
+# conditional image captioning
+text = "a photography of"
+inputs = processor(raw_image, text, return_tensors="pt")
+out = model.generate(**inputs)
+print(processor.decode(out[0], skip_special_tokens=True))
+# unconditional image captioning
+inputs = processor(raw_image, return_tensors="pt")
+out = model.generate(**inputs)
+print(processor.decode(out[0], skip_special_tokens=True))
+'''
 ## BibTex and citation info