Spaces:

ysharma
/

Voice-to-jokes

Runtime error

App Files Files Community

ysharma HF staff commited on Oct 9, 2022

Commit

4455967

•

1 Parent(s): a3b9251

update

Browse files

Files changed (1) hide show

app.py +7 -17

app.py CHANGED Viewed

@@ -29,21 +29,18 @@ def query(payload):
 # Language common in both the multilingual models - English, Chinese, Spanish, and French etc
 # Model 1: Whisper: Speech-to-text
 model = whisper.load_model("base")
-#model_med = whisper.load_model("medium")
 #Model 2:  Text-to-Speech
 LANGUAGES = list(CoquiTTS.langs.keys())
 coquiTTS = CoquiTTS()
-print(f"Languages for Coqui are: {LANGUAGES}")
 #Languages for Coqui are: ['en', 'es', 'fr', 'de', 'pl', 'uk', 'ro', 'hu', 'el', 'bg', 'nl', 'fi', 'sl', 'lv', 'ga']
 # Driver function
 def driver_fun(audio) :
-  #if audio is None:
-  translation, lang = whisper_stt(audio)  # older : transcribe, translation, lang
   random_val = random.randrange(0,231657)
   if random_val < 226657:
@@ -65,8 +62,8 @@ def driver_fun(audio) :
   joke = dataset_subset[indx_score]
   print(f"Joke is : {joke}")
-  speech = tts(joke, 'en') #'en' # translation
-  return translation, joke, speech #transcribe,
 # Whisper - speech-to-text
@@ -85,24 +82,18 @@ def whisper_stt(audio):
   print(f"Detected language: {max(probs, key=probs.get)}")
   # decode the audio
-  #options_transc = whisper.DecodingOptions(fp16 = False, language=lang, task='transcribe') #lang
   options_transl = whisper.DecodingOptions(fp16 = False, language='en', task='translate') #lang
-  #result_transc = whisper.decode(model_med, mel, options_transc)
   result_transl = whisper.decode(model, mel, options_transl)  #model_med
-  # print the recognized text
-  #print(f"transcript is : {result_transc.text}")
   print(f"translation is : {result_transl.text}")
-  return result_transl.text, lang #result_transc.text,
 # Coqui - Text-to-Speech
 def tts(text, language):
   print(f"Inside tts - language is : {language}")
-  #coqui_langs = ['en' ,'es' ,'fr' ,'de' ,'pl' ,'uk' ,'ro' ,'hu' ,'bg' ,'nl' ,'fi' ,'sl' ,'lv' ,'ga']
-  #if language not in coqui_langs:
-  #  language = 'en'
   print(f"Text is : {text}")
   with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
       coquiTTS.get_tts(text, fp, speaker = {"language" : language})
@@ -119,12 +110,11 @@ with demo:
       in_audio = gr.Audio(source="microphone",  type="filepath", label='Record your voice command here in English -')  #type='filepath'
       b1 = gr.Button("AI Response")
       out_transcript = gr.Textbox(label= 'Transcript of your Audio using OpenAI Whisper')
-      #out_translation_en = gr.Textbox(label= 'English Translation of audio using OpenAI Whisper')
     with gr.Column():
       out_audio = gr.Audio(label='Audio response form CoquiTTS')
       out_generated_joke = gr.Textbox(label= 'Joke returned! ')
-      #out_generated_text_en = gr.Textbox(label= 'AI response to your query in English using Bloom! ')
       b1.click(driver_fun,inputs=[in_audio], outputs=[out_transcript, out_generated_joke, out_audio]) #out_translation_en, out_generated_text,out_generated_text_en,
   with gr.Row():
     gr.Markdown(

 # Language common in both the multilingual models - English, Chinese, Spanish, and French etc
 # Model 1: Whisper: Speech-to-text
 model = whisper.load_model("base")
 #Model 2:  Text-to-Speech
 LANGUAGES = list(CoquiTTS.langs.keys())
 coquiTTS = CoquiTTS()
 #Languages for Coqui are: ['en', 'es', 'fr', 'de', 'pl', 'uk', 'ro', 'hu', 'el', 'bg', 'nl', 'fi', 'sl', 'lv', 'ga']
 # Driver function
 def driver_fun(audio) :
+  translation, lang = whisper_stt(audio)
   random_val = random.randrange(0,231657)
   if random_val < 226657:
   joke = dataset_subset[indx_score]
   print(f"Joke is : {joke}")
+  speech = tts(joke, 'en')
+  return translation, joke, speech
 # Whisper - speech-to-text
   print(f"Detected language: {max(probs, key=probs.get)}")
   # decode the audio
   options_transl = whisper.DecodingOptions(fp16 = False, language='en', task='translate') #lang
   result_transl = whisper.decode(model, mel, options_transl)  #model_med
+  # print the transcribed text
   print(f"translation is : {result_transl.text}")
+  return result_transl.text, lang
 # Coqui - Text-to-Speech
 def tts(text, language):
   print(f"Inside tts - language is : {language}")
   print(f"Text is : {text}")
   with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
       coquiTTS.get_tts(text, fp, speaker = {"language" : language})
       in_audio = gr.Audio(source="microphone",  type="filepath", label='Record your voice command here in English -')  #type='filepath'
       b1 = gr.Button("AI Response")
       out_transcript = gr.Textbox(label= 'Transcript of your Audio using OpenAI Whisper')
     with gr.Column():
       out_audio = gr.Audio(label='Audio response form CoquiTTS')
       out_generated_joke = gr.Textbox(label= 'Joke returned! ')
       b1.click(driver_fun,inputs=[in_audio], outputs=[out_transcript, out_generated_joke, out_audio]) #out_translation_en, out_generated_text,out_generated_text_en,
   with gr.Row():
     gr.Markdown(