Spaces:

ysharma
/

test_speech_to_text

Build error

App Files Files Community

ysharma HF staff commited on Sep 22, 2022

Commit

ee1afde

•

1 Parent(s): b068279

update

Browse files

Files changed (1) hide show

app.py +19 -17

app.py CHANGED Viewed

@@ -22,10 +22,10 @@ coquiTTS = CoquiTTS()
 # Driver function
-def fun_engine(audio) :
   text1, lang = whisper_stt(audio)
   #text1 = model.transcribe(audio)["text"]
-  text2 = lang_model_response(text1)
   speech = tts(text2, lang) #'en')
   return text1, text2, speech
@@ -55,16 +55,17 @@ def whisper_stt(audio):
 # LLM - Bloom Response
-def lang_model_response(prompt):
   print(f"*****Inside lang_model_response - Prompt is :{prompt}")
   p = """Question: How are you doing today?
   Answer: I am doing good, thanks.
   Question: """
-  prompt = p + prompt + "\n" + "Answer: "
-  #prompt = prompt + "\n"
   if len(prompt) == 0:
-    prompt = """Can you help me please?"""
   json_ = {"inputs": prompt,
             "parameters":
@@ -80,27 +81,28 @@ def lang_model_response(prompt):
           "wait_for_model": True,
           },}
   response = requests.post(API_URL, headers=headers, json=json_)
-  print(f"Response  is : {response}")
   output = response.json()
-  #print(f"output is : {output}")
   output_tmp = output[0]['generated_text']
-  print(f"output_tmp is: {output_tmp}")
   solution = output_tmp.split("Answer: ")[2].split("\n")[0]
-  print(f"Final response after splits is: {solution}")
   return solution
 # Coqui - Text-to-Speech
 def tts(text, language):
-    print(f"Inside tts - language is : {language}")
-    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
-        coquiTTS.get_tts(text, fp, speaker = {"language" : language})
-        return fp.name
 gr.Interface(
     title = 'Testing Whisper',
-    fn=fun_engine,
     inputs=[
         gr.Audio(source="microphone",  type="filepath"), #streaming = True,
        # "state"

 # Driver function
+def driver_fun(audio) :
   text1, lang = whisper_stt(audio)
   #text1 = model.transcribe(audio)["text"]
+  text2 = lang_model_response(text1, lang)
   speech = tts(text2, lang) #'en')
   return text1, text2, speech
 # LLM - Bloom Response
+def lang_model_response(prompt, language):
   print(f"*****Inside lang_model_response - Prompt is :{prompt}")
   p = """Question: How are you doing today?
   Answer: I am doing good, thanks.
   Question: """
   if len(prompt) == 0:
+    prompt = """Question: Can you help me please?
+    Answer: Sure, I am here for you.
+    Question: """
+  prompt = p + prompt + "\n" + "Answer: "
   json_ = {"inputs": prompt,
             "parameters":
           "wait_for_model": True,
           },}
   response = requests.post(API_URL, headers=headers, json=json_)
+  #print(f"Response  is : {response}")
   output = response.json()
   output_tmp = output[0]['generated_text']
+  print(f"Bloom API Response is : {output_tmp}")
   solution = output_tmp.split("Answer: ")[2].split("\n")[0]
+  print(f"Final Bloom Response after splits is: {solution}")
   return solution
 # Coqui - Text-to-Speech
 def tts(text, language):
+  print(f"Inside tts - language is : {language}")
+  coqui_langs = ['en' ,'es' ,'fr' ,'de' ,'pl' ,'uk' ,'ro' ,'hu' ,'bg' ,'nl' ,'fi' ,'sl' ,'lv' ,'ga']
+  if language not in coqui_langs:
+    language = 'en'
+  with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
+      coquiTTS.get_tts(text, fp, speaker = {"language" : language})
+      return fp.name
 gr.Interface(
     title = 'Testing Whisper',
+    fn=driver_fun,
     inputs=[
         gr.Audio(source="microphone",  type="filepath"), #streaming = True,
        # "state"