Spaces:

SheldonYC
/

HKU_Canteen_VA

Sleeping

App Files Files Community

SheldonYC commited on Feb 28

Commit

70ae40c

•

1 Parent(s): a7863c7

update asr model

Browse files

Files changed (2) hide show

app.py +10 -10
requirements.txt +3 -1

app.py CHANGED Viewed

@@ -8,6 +8,8 @@ import nemo.collections.asr as nemo_asr
 from transformers import pipeline
 import numpy as np
 import gradio as gr
 def respond(message, chat_history):
   bot_message = message
@@ -16,15 +18,13 @@ def respond(message, chat_history):
 def transcribe(audio):
   sr, y = audio
-  y = y.astype(np.float32)
-  y /= np.max(np.abs(y))
-  result = asr_model({"sampling_rate": sr, "raw": y})["text"]
   return result
-# asr_model_id = "openai/whisper-small.en"
-# asr_model = pipeline("automatic-speech-recognition", model=asr_model_id)
 asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")
-text = asr_model.transcribe(["./Samples/Sample_audios/test.wav"])
 with gr.Blocks() as demo:
   with gr.Column():
@@ -32,22 +32,22 @@ with gr.Blocks() as demo:
       """
       # HKU Canteen VA
       """)
-    gr.Markdown(f"{text}")
     va = gr.Chatbot(container=False)
     with gr.Row(): # text input
       text_input = gr.Textbox(placeholder="Ask me anything...", container=False, scale=1)
       submit_btn = gr.Button("Submit", scale=0)
-    # with gr.Row():  # audio input
-    #   recording = gr.Microphone(show_download_button=False, container=False)
     with gr.Row(): # button toolbar
       clear = gr.ClearButton([text_input, va])
   text_input.submit(respond, [text_input, va], [text_input, va], queue=False)
   submit_btn.click(respond, [text_input, va], [text_input, va], queue=False)
-  # recording.stop_recording(transcribe, [recording], [text_input]).then(respond, [text_input, va], [text_input, va], queue=False)
 if __name__ == "__main__":
     demo.launch()

 from transformers import pipeline
 import numpy as np
 import gradio as gr
+import librosa
+from scipy.io.wavfile import write
 def respond(message, chat_history):
   bot_message = message
 def transcribe(audio):
   sr, y = audio
+  audio_name = "resampled_audio.wav"
+  resampled_audio = librosa.resample(y=y.astype("float"), orig_sr=sr, target_sr=16000)
+  write(audio_name, 16000, resampled_audio)
+  result = asr_model.transcribe([f"./{audio_name}"])
   return result
 asr_model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="nvidia/parakeet-ctc-0.6b")
 with gr.Blocks() as demo:
   with gr.Column():
       """
       # HKU Canteen VA
       """)
     va = gr.Chatbot(container=False)
     with gr.Row(): # text input
       text_input = gr.Textbox(placeholder="Ask me anything...", container=False, scale=1)
       submit_btn = gr.Button("Submit", scale=0)
+    with gr.Row():  # audio input
+      recording = gr.Microphone(show_download_button=False, container=False)
     with gr.Row(): # button toolbar
       clear = gr.ClearButton([text_input, va])
   text_input.submit(respond, [text_input, va], [text_input, va], queue=False)
   submit_btn.click(respond, [text_input, va], [text_input, va], queue=False)
+  # recording.stop_recording(transcribe, [recording], [text_input]).then(respond,s [text_input, va], [text_input, va], queue=False)
+  recording.stop_recording(transcribe, [recording], [text_input])
 if __name__ == "__main__":
     demo.launch()

requirements.txt CHANGED Viewed

@@ -1,3 +1,5 @@
 torch
 transformers
-numpy

 torch
 transformers
+numpy
+librosa
+scipy