Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Jul 17, 2022

Commit

09d9587

•

1 Parent(s): 6b31279

small fixes

Browse files

Files changed (2) hide show

app.py +19 -6
model.py +25 -0

app.py CHANGED Viewed

@@ -16,6 +16,9 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 import os
 import time
 from datetime import datetime
@@ -23,9 +26,16 @@ from datetime import datetime
 import gradio as gr
 import torchaudio
-from model import get_gigaspeech_pre_trained_model, sample_rate
-models = {"english": get_gigaspeech_pre_trained_model()}
 def convert_to_wav(in_filename: str) -> str:
@@ -39,8 +49,9 @@ def convert_to_wav(in_filename: str) -> str:
 demo = gr.Blocks()
-def process(in_filename: str) -> str:
     print("in_filename", in_filename)
     filename = convert_to_wav(in_filename)
     now = datetime.now()
@@ -63,7 +74,7 @@ def process(in_filename: str) -> str:
         )
     wave = wave[0]  # use only the first channel.
-    hyp = models["english"].decode_waves([wave])[0]
     date_time = now.strftime("%Y-%m-%d %H:%M:%S.%f")
     end = time.time()
@@ -82,6 +93,8 @@ def process(in_filename: str) -> str:
 with demo:
     gr.Markdown("Upload audio from disk or record from microphone for recognition")
     with gr.Tabs():
         with gr.TabItem("Upload from disk"):
             uploaded_file = gr.inputs.Audio(
@@ -110,12 +123,12 @@ with demo:
         upload_button.click(
             process,
-            inputs=uploaded_file,
             outputs=uploaded_output,
         )
         record_button.click(
             process,
-            inputs=microphone,
             outputs=recorded_output,
         )

 # See the License for the specific language governing permissions and
 # limitations under the License.
+# References:
+# https://gradio.app/docs/#dropdown
 import os
 import time
 from datetime import datetime
 import gradio as gr
 import torchaudio
+from model import (
+    get_gigaspeech_pre_trained_model,
+    sample_rate,
+    get_wenetspeech_pre_trained_model,
+)
+models = {
+    "Chinese": get_wenetspeech_pre_trained_model(),
+    "English": get_gigaspeech_pre_trained_model(),
+}
 def convert_to_wav(in_filename: str) -> str:
 demo = gr.Blocks()
+def process(in_filename: str, language: str) -> str:
     print("in_filename", in_filename)
+    print("language", language)
     filename = convert_to_wav(in_filename)
     now = datetime.now()
         )
     wave = wave[0]  # use only the first channel.
+    hyp = models[language].decode_waves([wave])[0]
     date_time = now.strftime("%Y-%m-%d %H:%M:%S.%f")
     end = time.time()
 with demo:
     gr.Markdown("Upload audio from disk or record from microphone for recognition")
+    languages = gr.inputs.Radio(label="Language", choices=list(models.keys()))
     with gr.Tabs():
         with gr.TabItem("Upload from disk"):
             uploaded_file = gr.inputs.Audio(
         upload_button.click(
             process,
+            inputs=[uploaded_file, language],
             outputs=uploaded_output,
         )
         record_button.click(
             process,
+            inputs=[microphone, language],
             outputs=recorded_output,
         )

model.py CHANGED Viewed

@@ -47,3 +47,28 @@ def get_gigaspeech_pre_trained_model():
         sample_rate=sample_rate,
         device="cpu",
     )

         sample_rate=sample_rate,
         device="cpu",
     )
+@lru_cache(maxsize=1)
+def get_wenetspeech_pre_trained_model():
+    nn_model_filename = hf_hub_download(
+        repo_id="luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+        filename="cpu_jit_epoch_10_avg_2_torch_1.7.1.pt",
+        subfolder="exp",
+    )
+    token_filename = hf_hub_download(
+        repo_id="luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+        filename="tokens.txt",
+        subfolder="data/lang_char",
+    )
+    return OfflineAsr(
+        nn_model_filename=nn_model_filename,
+        bpe_model_filename=None,
+        token_filename=token_filename,
+        decoding_method="greedy_search",
+        num_active_paths=4,
+        sample_rate=sample_rate,
+        device="cpu",
+    )