Spaces:

improprogrammer
/

VQA_Bot

Sleeping

App Files Files Community

improprogrammer commited on Jun 14, 2024

Commit

73bea7b

verified ·

1 Parent(s): c90ebe6

Create app.py

Browse files

Files changed (1) hide show

app.py +52 -0

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import streamlit as st
+from PIL import Image
+from transformers import BlipProcessor, BlipForConditionalGeneration, BlipForQuestionAnswering
+import torch
+def load_models():
+    processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
+    caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-vqa-base")
+    vqa_model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
+    return processor, caption_model, vqa_model
+processor, caption_model, vqa_model = load_models()
+st.title("Visual Question Answering with BLIP")
+description = "This is a multi-language model made by Muhammad Yousaf."
+st.markdown(description)
+def generate_caption(image):
+    device = "cuda" if torch.cuda.is_available() else "cpu"
+    inputs = processor(images=image, return_tensors="pt").to(device)
+    with torch.no_grad():
+        generated_ids = caption_model.generate(**inputs)
+    caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    return caption
+uploaded_file = st.file_uploader("Choose an image...", type=["jpg", "jpeg", "png"])
+#( st.file_uploader) doc link : https://discuss.streamlit.io/t/adding-in-streamlit-chat-input-the-possibility-to-add-an-image/55156/4
+if uploaded_file is not None:
+#(st.image)doc link: https://docs.streamlit.io/develop/api-reference/media/st.image
+    image = Image.open(uploaded_file)
+    st.image(image, caption='Uploaded Image.', use_column_width=True)
+    with st.spinner('Summarizing the image...'):
+      #(st.spinner)doc link: https://docs.streamlit.io/develop/api-reference/status/st.spinner
+        caption = generate_caption(image)
+        st.write(f"**Summary:** {caption}")
+    question = st.text_input("Ask a question about the image:")
+    if question:
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        inputs = processor(image, question, return_tensors="pt").to(device)
+        with torch.no_grad():
+            generated_ids = vqa_model.generate(**inputs)
+            answer = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+        st.write(f"**Answer:** {answer}")