Spaces:

themanas021
/

VisualVoice-Caption_to_Hindi_Speech

Sleeping

App Files Files Community

themanas021 commited on Sep 2, 2023

Commit

f699624

•

1 Parent(s): 458ffd5

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -18

app.py CHANGED Viewed

@@ -2,8 +2,10 @@ import streamlit as st
 from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
 from PIL import Image
 from gtts import gTTS
-from googletrans import Translator
-import torch
 # Load the models and tokenizer
 model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
@@ -35,26 +37,29 @@ def main():
         pixel_values = feature_extractor(images=[image], return_tensors="pt").pixel_values
         output_ids = model.generate(pixel_values, **gen_kwargs)
-        # Check if output_ids has only one value
-        if len(torch.unique(output_ids)) == 1:
-            # Decode the caption
-            caption = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
-            caption = caption[0].strip()
-        else:
-            caption = ""
         # Translate the caption to Hindi
-        translator = Translator()
-        translated_caption = translator.translate(caption, src='en', dest='hi').text
-        # Display the caption in English and its translation in Hindi
-        st.write(f"English Caption: {caption}")
-        st.write(f"Hindi Translation: {translated_caption}")
-        # Convert the caption to speech and play it
         tts = gTTS(translated_caption, lang='hi')
-        st.audio(tts.get_urls()[0], format='audio/wav')
 if __name__ == "__main__":
-    st.set_option('deprecation.showfileUploaderEncoding', False)  # Disable file uploader encoding warning
     main()

 from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
 from PIL import Image
 from gtts import gTTS
+from translate import Translator as TextTranslator
+import io
+import tempfile
+import os
 # Load the models and tokenizer
 model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
         pixel_values = feature_extractor(images=[image], return_tensors="pt").pixel_values
         output_ids = model.generate(pixel_values, **gen_kwargs)
+        # Decode and display the caption
+        caption = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+        caption = caption[0].strip()
+        st.write(f"Caption (English): {caption}")
         # Translate the caption to Hindi
+        translator = TextTranslator(to_lang="hi")
+        translated_caption = translator.translate(caption)
+        st.write(f"Caption (Hindi): {translated_caption}")
+        # Convert the translated caption to speech and save it as an MP3 file
         tts = gTTS(translated_caption, lang='hi')
+        # Save the MP3 file to a temporary location
+        with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as tmpfile:
+            mp3_filepath = tmpfile.name
+            tts.save(mp3_filepath)
+        # Display the audio player using Streamlit's audio widget
+        st.audio(mp3_filepath, format="audio/mp3", start_time=0)
+        # Clean up the temporary MP3 file
+        os.unlink(mp3_filepath)
 if __name__ == "__main__":
     main()