Spaces:

ysharma
/

test_speech_to_text

Build error

App Files Files Community

ysharma HF staff commited on Sep 22, 2022

Commit

22db94b

•

1 Parent(s): efdf05e

update

Browse files

Files changed (1) hide show

app.py +36 -27

app.py CHANGED Viewed

@@ -92,14 +92,7 @@ def whisper_stt(audio):
   # print the recognized text
   print(f"transcript is : {result_transc.text}")
   print(f"translation is : {result_transl.text}")
-  # decode the audio
-  #options = whisper.DecodingOptions(fp16 = False, language='en') #lang
-  #result = whisper.decode(model, mel, options)
-  # print the recognized text
-  # print(f"transcript is : {result.text}")
-  # return result.text, lang
   return result_transc.text, result_transl.text, lang
@@ -146,10 +139,10 @@ def lang_model_response(prompt, language):
   output = response.json()
   output_tmp = output[0]['generated_text']
   print(f"Bloom API Response is : {output_tmp}")
-  if language == 'en':
-    solution = output_tmp.split("Answer: ")[2].split("\n")[0]
-  else:
-    solution = output_tmp.split(".")[1]
   print(f"Final Bloom Response after splits is: {solution}")
   return solution
@@ -163,19 +156,35 @@ def tts(text, language):
       coquiTTS.get_tts(text, fp, speaker = {"language" : language})
       return fp.name
-#demo = gr.Blocks()
-#with demo:
-#  gr.Markdown("<h1><center>Testing</center></h1>")
-gr.Interface(
-    title = 'Testing Whisper',
-    fn=driver_fun,
-    inputs=[
-        gr.Audio(source="microphone",  type="filepath"), #streaming = True,
-       # "state"
-    ],
-    outputs=[
-        "textbox",  "textbox", "textbox", "textbox", "audio",
-    ],
-    live=True).launch()

   # print the recognized text
   print(f"transcript is : {result_transc.text}")
   print(f"translation is : {result_transl.text}")
   return result_transc.text, result_transl.text, lang
   output = response.json()
   output_tmp = output[0]['generated_text']
   print(f"Bloom API Response is : {output_tmp}")
+  #if language == 'en':
+  solution = output_tmp.split("Answer: ")[2].split("\n")[0]
+  #else:
+  #  solution = output_tmp.split(".")[1]
   print(f"Final Bloom Response after splits is: {solution}")
   return solution
       coquiTTS.get_tts(text, fp, speaker = {"language" : language})
       return fp.name
+demo = gr.Blocks()
+with demo:
+  gr.Markdown("<h1><center>Talk to Your Multilingual AI Assistant</center></h1>")
+  gr.Markdown(
+        """Model pipeline consisting of - Whisper for Speech-to-text, Bloom for Text-generation, andd CoquiTTS for Text-To-Speech. <br> Front end using Gradio Block API.
+        """)
+  with gr.Row():
+    with gr.Column():
+      in_audio = gr.Audio(source="microphone",  type="filepath", label='Record your voice here')  #type='filepath'
+      b1 = gr.Button("AI response (Whisper - Bloom - Coqui pipeline)")
+      out_transcript = gr.Textbox(label= 'As is Transcript using OpenAI Whisper')
+      out_translation_en = gr.Textbox(label= 'English Translation of audio using OpenAI Whisper')
+    with gr.Column():
+      out_audio = gr.Audio(label='AI response in Audio form in your preferred language')
+      out_generated_text = gr.Textbox(label= 'AI response to your query in your preferred language using Bloom! ')
+      out_generated_text_en = gr.Textbox(label= 'AI response to your query in English using Bloom! ')
+      b1.click(driver_fun,inputs=[in_audio], outputs=[out_transcript, out_translation_en, out_generated_text,out_generated_text, out_audio])
+demo.launch(enable_queue=True, debug=True)
+#gr.Interface(
+#    title = 'Testing Whisper',
+#    fn=driver_fun,
+#    inputs=[
+#        gr.Audio(source="microphone",  type="filepath"), #streaming = True,
+#       # "state"
+#    ],
+#    outputs=[
+#        "textbox",  "textbox", "textbox", "textbox", "audio",
+#    ],
+#    live=True).launch()