Spaces:

Steven-GU-Yu-Di
/

ISOM5240-Group4-Project-Version2

Runtime error

Steven-GU-Yu-Di commited on Mar 21, 2024

Commit

afdfd46

verified ·

1 Parent(s): 0b69f56

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,12 @@ from gtts import gTTS
 import os
 # Load the Visual Question Answering (VQA) model
-#vqa_model = pipeline("question-answering")
 # Create a Streamlit app
 st.title("Visual Question Answering and Text-to-Speech")
@@ -14,8 +19,8 @@ st.title("Visual Question Answering and Text-to-Speech")
 uploaded_image = st.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
 question_input = st.text_input("Enter Question")
-# Function to perform Visual Question Answering
-def perform_vqa(image, question):
     if image is not None and question:
         image = Image.open(image)
         st.image(image, caption="Uploaded Image", use_column_width=True)
@@ -30,11 +35,11 @@ def perform_vqa(image, question):
         answer = vqa_output['answer']
         st.write("Answer:", answer)
-        # Text-to-Speech using gTTS
-        tts = gTTS(answer)
-        tts.save("output.mp3")
-        st.audio("output.mp3", format='audio/mp3')
 # Button to trigger Visual Question Answering and Text-to-Speech
 if st.button("Perform VQA and TTS"):
-    perform_vqa(uploaded_image, question_input)

 import os
 # Load the Visual Question Answering (VQA) model
+vqa_model = pipeline("text-generation", model="Steven-GU-Yu-Di/Visual-Question-Answering")
+# Load the Text-to-Speech (TTS) model
+tts = pipeline("text-to-audio", model="Steven-GU-Yu-Di/Text-to-Speech")
 # Create a Streamlit app
 st.title("Visual Question Answering and Text-to-Speech")
 uploaded_image = st.file_uploader("Upload Image", type=["jpg", "jpeg", "png"])
 question_input = st.text_input("Enter Question")
+# Function to perform Visual Question Answering and Text-to-Speech
+def perform_vqa_and_tts(image, question):
     if image is not None and question:
         image = Image.open(image)
         st.image(image, caption="Uploaded Image", use_column_width=True)
         answer = vqa_output['answer']
         st.write("Answer:", answer)
+        # Text-to-Speech using TTS model
+        audio_output = tts(answer)
+        audio_bytes = audio_output[0]['audio']
+        st.audio(audio_bytes, format='audio/wav')
 # Button to trigger Visual Question Answering and Text-to-Speech
 if st.button("Perform VQA and TTS"):
+    perform_vqa_and_tts(uploaded_image, question_input)