Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Aug 8, 2023

Commit

62e20af

1 Parent(s): 7fc713f

add russian

Browse files

Files changed (3) hide show

examples.py +3 -3
model.py +57 -1
test_wavs/russian/test.wav +0 -0

examples.py CHANGED Viewed

@@ -38,11 +38,11 @@ examples = [
         "./test_wavs/paraformer-zh/四川话.wav",
     ],
     [
-        "Chinese",
-        "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
         "greedy_search",
         4,
-        "./test_wavs/wenetspeech/DEV_T0000000000.opus",
     ],
     [
         "German",

         "./test_wavs/paraformer-zh/四川话.wav",
     ],
     [
+        "Russian",
+        "alphacep/vosk-model-ru",
         "greedy_search",
         4,
+        "./test_wavs/russian/test.wav",
     ],
     [
         "German",

model.py CHANGED Viewed

@@ -188,6 +188,10 @@ def get_pretrained_model(
         return japanese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
     else:
         raise ValueError(f"Unsupported repo_id: {repo_id}")
@@ -268,6 +272,51 @@ def _get_aishell2_pretrained_model(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_whisper_model(
@@ -768,7 +817,7 @@ def _get_french_pre_trained_model(
         encoder=encoder_model,
         decoder=decoder_model,
         joiner=joiner_model,
-        num_threads=1,
         sample_rate=16000,
         feature_dim=80,
         decoding_method=decoding_method,
@@ -919,6 +968,11 @@ japanese_models = {
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
 }
 all_models = {
     **chinese_models,
     **english_models,
@@ -928,6 +982,7 @@ all_models = {
     **arabic_models,
     **german_models,
     **french_models,
 }
 language_to_models = {
@@ -939,4 +994,5 @@ language_to_models = {
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),
     "French": list(french_models.keys()),
 }

         return japanese_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
+    elif repo_id in russian_models:
+        return russian_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
     else:
         raise ValueError(f"Unsupported repo_id: {repo_id}")
     return recognizer
+@lru_cache(maxsize=10)
+def _get_russian_pre_trained_model(
+    repo_id: str, decoding_method: str, num_active_paths: int
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in ("alphacep/vosk-model-ru", "alphacep/vosk-model-small-ru"), repo_id
+    if repo_id == "alphacep/vosk-model-ru":
+        model_dir = "am-onnx"
+    elif repo_id == "alphacep/vosk-model-small-ru":
+        model_dir = "am"
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.onnx",
+        subfolder=model_dir,
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.onnx",
+        subfolder=model_dir,
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="joiner.onnx",
+        subfolder=model_dir,
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder="lang")
+    recognizer = sherpa_onnx.OfflineRecognizer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        joiner=joiner_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_whisper_model(
         encoder=encoder_model,
         decoder=decoder_model,
         joiner=joiner_model,
+        num_threads=2,
         sample_rate=16000,
         feature_dim=80,
         decoding_method=decoding_method,
     "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
 }
+russian_models = {
+    "alphacep/vosk-model-ru": _get_russian_pre_trained_model,
+    "alphacep/vosk-model-small-ru": _get_russian_pre_trained_model,
+}
 all_models = {
     **chinese_models,
     **english_models,
     **arabic_models,
     **german_models,
     **french_models,
+    **russian_models,
 }
 language_to_models = {
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),
     "French": list(french_models.keys()),
+    "Russian": list(russian_models.keys()),
 }

test_wavs/russian/test.wav ADDED Viewed

Binary file (227 kB). View file