Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Aug 7, 2023

Commit

27c18ec

1 Parent(s): f5b3bb8

add whisper

Browse files

Files changed (2) hide show

app.py +0 -6
model.py +37 -0

app.py CHANGED Viewed

@@ -19,7 +19,6 @@
 # References:
 # https://gradio.app/docs/#dropdown
-import base64
 import logging
 import os
 import tempfile
@@ -47,11 +46,6 @@ def convert_to_wav(in_filename: str) -> str:
         f"ffmpeg -hide_banner -loglevel error -i '{in_filename}' -ar 16000 '{out_filename}.flac'"
     )
-    with open(out_filename + ".flac", "rb") as f:
-        s = "\n" + out_filename + "\n"
-        s += base64.b64encode(f.read()).decode()
-        logging.info(s)
     return out_filename

 # References:
 # https://gradio.app/docs/#dropdown
 import logging
 import os
 import tempfile
         f"ffmpeg -hide_banner -loglevel error -i '{in_filename}' -ar 16000 '{out_filename}.flac'"
     )
     return out_filename

model.py CHANGED Viewed

@@ -269,6 +269,39 @@ def _get_aishell2_pretrained_model(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_gigaspeech_pre_trained_model(
     repo_id: str,
@@ -839,6 +872,10 @@ chinese_models = {
 }
 english_models = {
     "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2": _get_gigaspeech_pre_trained_model,  # noqa
     "yfyeung/icefall-asr-multidataset-pruned_transducer_stateless7-2023-05-04": _get_english_model,  # noqa
     "yfyeung/icefall-asr-finetune-mux-pruned_transducer_stateless7-2023-05-19": _get_english_model,  # noqa

     return recognizer
+@lru_cache(maxsize=10)
+def _get_gigaspeech_pre_trained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in ("tiny.en", "base.en", "small.en", "medium.en"), repo_id
+    name = repo_id
+    full_repo_id = "csukuangfj/sherpa-onnx-whisper-" + name
+    encoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"{name}-encoder.int8.ort",
+        subfolder=".",
+    )
+    decoder = _get_nn_model_filename(
+        repo_id=full_repo_id,
+        filename=f"{name}-decoder.int8.ort",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(
+        repo_id=full_repo_id, subfolder=".", filename=f"{name}-tokens.txt"
+    )
+    recognizer = sherpa_onnx.OfflineRecognizer.from_whisper(
+        encoder=encoder,
+        decoder=decoder,
+        tokens=tokens,
+        num_threads=2,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_gigaspeech_pre_trained_model(
     repo_id: str,
 }
 english_models = {
+    "whisper-tiny.en": _get_whisper_model,
+    "whisper-base.en": _get_whisper_model,
+    "whisper-small.en": _get_whisper_model,
+    "whisper-medium.en": _get_whisper_model,
     "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2": _get_gigaspeech_pre_trained_model,  # noqa
     "yfyeung/icefall-asr-multidataset-pruned_transducer_stateless7-2023-05-04": _get_english_model,  # noqa
     "yfyeung/icefall-asr-finetune-mux-pruned_transducer_stateless7-2023-05-19": _get_english_model,  # noqa