Spaces:

flax-community
/

multilingual-image-captioning

Runtime error

gchhablani commited on Jul 26, 2021

Commit

96cfbdb

•

1 Parent(s): c5c3fcc

Add VoiceRSS TTS

Files changed (2) hide show

apps/mic.py CHANGED Viewed

@@ -4,7 +4,6 @@ import streamlit as st
 import numpy as np
 import pandas as pd
 import os
-# import pyttsx3
 import matplotlib.pyplot as plt
 import re
 from mtranslate import translate
@@ -12,7 +11,8 @@ from .utils import (
     read_markdown,
     tokenizer,
     language_mapping,
-    code_to_name
 )
 import requests
 from PIL import Image
@@ -24,10 +24,6 @@ from streamlit import caching
 def app(state):
     mic_state = state
-    # engine = pyttsx3.init()
-    # engine.setProperty('rate', 100)
-    # voices = engine.getProperty('voices')
-    # engine.setProperty('voice', voices[1].id)
     with st.beta_expander("Usage"):
         st.write(read_markdown("usage.md"))
     st.write("\n")
@@ -141,21 +137,12 @@ def app(state):
             "**English Translation**: "+ sequence[0] if lang_id=="en" else translate(sequence[0])
         )
-        # try:
-        #     clean_text = re.sub(r'[^A-Za-z0-9 ]+', '', sequence[0])
-        #     engine.say(clean_text)
-        #     engine.runAndWait()
-        #     engine.stop()
-        #     engine.save_to_file(clean_text, 'temp.mp3')
-        #     engine.runAndWait()
-        #     audio_file = open('temp.mp3', 'rb')
-        #     audio_bytes = audio_file.read()
-        #     st.audio(audio_bytes, format='audio/mp3')
-        # except:
-        #     pass

 import numpy as np
 import pandas as pd
 import os
 import matplotlib.pyplot as plt
 import re
 from mtranslate import translate
     read_markdown,
     tokenizer,
     language_mapping,
+    code_to_name,
+    voicerss_tts
 )
 import requests
 from PIL import Image
 def app(state):
     mic_state = state
     with st.beta_expander("Usage"):
         st.write(read_markdown("usage.md"))
     st.write("\n")
             "**English Translation**: "+ sequence[0] if lang_id=="en" else translate(sequence[0])
         )
+        try:
+            clean_text = re.sub(r'[^A-Za-z0-9 ]+', '', sequence[0])
+            audio_bytes = voicerss_tts(clean_text, lang_id)
+            st.audio(audio_bytes, format='audio/mp3')
+        except:
+            pass

apps/utils.py CHANGED Viewed

@@ -5,9 +5,32 @@ from torchvision.transforms import CenterCrop, ConvertImageDtype, Normalize, Res
 from torchvision.transforms.functional import InterpolationMode
 from PIL import Image
 import os
 import streamlit as st
 from transformers import MBart50TokenizerFast
 class Toc:
     def __init__(self):
         self._items = []

 from torchvision.transforms.functional import InterpolationMode
 from PIL import Image
 import os
+import requests
 import streamlit as st
 from transformers import MBart50TokenizerFast
+def voicerss_tts(text, lang_id):
+    lang_id_to_code_map = {
+        "en": "en-us",
+        "fr": "fr-fr",
+        "de": "de-de",
+        "es": "es-es"
+    }
+    url = "https://voicerss-text-to-speech.p.rapidapi.com/"
+    querystring = {"key":"undefined","hl":lang_id_to_code_map[lang_id],"src":text,"f":"8khz_8bit_mono","c":"mp3","r":"0"}
+    headers = {
+        'x-rapidapi-key': st.secrets["voicerss_key"],
+        'x-rapidapi-host': "voicerss-text-to-speech.p.rapidapi.com"
+        }
+    response = requests.request("GET", url, headers=headers, params=querystring)
+    return response.content
 class Toc:
     def __init__(self):
         self._items = []