Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Mar 1

Commit

134853d

•

1 Parent(s): c68440f

add a new model

Browse files

Files changed (1) hide show

model.py +51 -1

model.py CHANGED Viewed

@@ -168,6 +168,10 @@ def get_pretrained_model(
         return chinese_english_mixed_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
     elif repo_id in tibetan_models:
         return tibetan_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
@@ -790,7 +794,7 @@ def _get_french_pre_trained_model(
     repo_id: str,
     decoding_method: str,
     num_active_paths: int,
-):
     assert repo_id in [
         "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
     ], repo_id
@@ -925,6 +929,44 @@ def _get_gigaspeech_pre_trained_model_onnx(
     return recognizer
 @lru_cache(maxsize=10)
 def _get_paraformer_en_pre_trained_model(
     repo_id: str,
@@ -1157,10 +1199,17 @@ russian_models = {
     "alphacep/vosk-model-small-ru": _get_russian_pre_trained_model,
 }
 all_models = {
     **chinese_models,
     **english_models,
     **chinese_english_mixed_models,
     #  **japanese_models,
     **tibetan_models,
     **arabic_models,
@@ -1173,6 +1222,7 @@ language_to_models = {
     "Chinese": list(chinese_models.keys()),
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
     #  "Japanese": list(japanese_models.keys()),
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),

         return chinese_english_mixed_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
         )
+    elif repo_id in chinese_cantonese_english_models:
+        return chinese_cantonese_english_models[repo_id](
+            repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
+        )
     elif repo_id in tibetan_models:
         return tibetan_models[repo_id](
             repo_id, decoding_method=decoding_method, num_active_paths=num_active_paths
     repo_id: str,
     decoding_method: str,
     num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
     assert repo_id in [
         "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
     ], repo_id
     return recognizer
+@lru_cache(maxsize=10)
+def _get_paraformer_zh_yue_en_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+) -> sherpa_onnx.OfflineRecognizer:
+    assert repo_id in [
+        "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en",
+    ], repo_id
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="encoder.int8.onnx",
+        subfolder=".",
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id,
+        filename="decoder.int8.onnx",
+        subfolder=".",
+    )
+    tokens = _get_token_filename(repo_id=repo_id, subfolder=".")
+    recognizer = sherpa_onnx.OnlineRecognizer.from_paraformer(
+        tokens=tokens,
+        encoder=encoder_model,
+        decoder=decoder_model,
+        num_threads=2,
+        sample_rate=16000,
+        feature_dim=80,
+        decoding_method=decoding_method,
+        max_active_paths=num_active_paths,
+    )
+    return recognizer
 @lru_cache(maxsize=10)
 def _get_paraformer_en_pre_trained_model(
     repo_id: str,
     "alphacep/vosk-model-small-ru": _get_russian_pre_trained_model,
 }
+chinese_cantonese_english_models = {
+    "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en": _get_paraformer_zh_yue_en_pre_trained_model,
+    # "csukuangfj/sherpa-onnx-streaming-paraformer-trilingual-zh-cantonese-en": _get_paraformer_en_pre_trained_model,
+}
 all_models = {
     **chinese_models,
     **english_models,
     **chinese_english_mixed_models,
+    **chinese_cantonese_english_models,
     #  **japanese_models,
     **tibetan_models,
     **arabic_models,
     "Chinese": list(chinese_models.keys()),
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
+    "Chinese+English+Cantonese": list(chinese_cantonese_english_models.keys()),
     #  "Japanese": list(japanese_models.keys()),
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),