Spaces:

ysharma
/

test_speech_to_text

Build error

App Files Files Community

ysharma HF staff commited on Sep 22, 2022

Commit

fe33c17

•

1 Parent(s): cfc38a8

a

Browse files

Files changed (1) hide show

app.py +30 -14

app.py CHANGED Viewed

@@ -1,20 +1,30 @@
 import os
-import numpy as np
 import gradio as gr
 import whisper
 import requests
 model = whisper.load_model("base")
-##Bloom
 API_URL = "https://api-inference.huggingface.co/models/bigscience/bloom"
 HF_TOKEN = os.environ["HF_TOKEN"]
 headers = {"Authorization": f"Bearer {HF_TOKEN}"}
-def fun(audio) : #, state=''):
   text1 = model.transcribe(audio)["text"]
   text2 = lang_model_response(text1)
-  return text1, text2
 def lang_model_response(prompt):
   print(f"*****Inside meme_generate - Prompt is :{prompt}")
@@ -40,17 +50,23 @@ def lang_model_response(prompt):
   print(f"output is : {output}")
   output_tmp = output[0]['generated_text']
   print(f"output_tmp is: {output_tmp}")
-  solution = output_tmp[0]   #output_tmp.split("\nQ:")[0]
   print(f"Final response after splits is: {solution}")
-  #meme_image, new_prompt = write_on_image(solution)
   return solution
-def fun1(audio, state=''):
-  text = model.transcribe(audio)["text"]
-  state += text + " "
-  return state, state
 gr.Interface(
     title = 'Testing Whisper',
     fn=fun,
@@ -59,6 +75,6 @@ gr.Interface(
        # "state"
     ],
     outputs=[
-        "textbox",  "textbox"
     ],
     live=True).launch()

 import os
+#import numpy as np
 import gradio as gr
 import whisper
 import requests
+import tempfile
+from neon_tts_plugin_coqui import CoquiTTS
+# Whisper: Speech-to-text
 model = whisper.load_model("base")
+# The LLM : Bloom
 API_URL = "https://api-inference.huggingface.co/models/bigscience/bloom"
 HF_TOKEN = os.environ["HF_TOKEN"]
 headers = {"Authorization": f"Bearer {HF_TOKEN}"}
+# Text-to-Speech
+LANGUAGES = list(CoquiTTS.langs.keys())
+coquiTTS = CoquiTTS()
+# Processing input Audio
+def fun(audio) :
   text1 = model.transcribe(audio)["text"]
   text2 = lang_model_response(text1)
+  speech = tts(text, language):
+  return text1, text2, speech
 def lang_model_response(prompt):
   print(f"*****Inside meme_generate - Prompt is :{prompt}")
   print(f"output is : {output}")
   output_tmp = output[0]['generated_text']
   print(f"output_tmp is: {output_tmp}")
+  solution = output_tmp.split(".")[1]
   print(f"Final response after splits is: {solution}")
   return solution
+#Text-to-Speech
+def tts(text, language):
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
+        coquiTTS.get_tts(text, fp, speaker = {"language" : language})
+        return fp.name
+#inputs = [gr.Textbox(label="Input", value=CoquiTTS.langs["en"]["sentence"], max_lines=3),
+#            gr.Radio(label="Language", choices=LANGUAGES, value="en")]
+#outputs = gr.Audio(label="Output")
+demo = gr.Interface(fn=tts, inputs=inputs, outputs=outputs)
+demo.launch()
 gr.Interface(
     title = 'Testing Whisper',
     fn=fun,
        # "state"
     ],
     outputs=[
+        "textbox",  "textbox", "audio",
     ],
     live=True).launch()