Spaces:

k2-fsa
/

automatic-speech-recognition

Running

App Files Files Community

csukuangfj commited on Feb 12, 2023

Commit

b0eec9a

1 Parent(s): 5decad3

Add Japanese models

Browse files

Files changed (5) hide show

app.py +2 -6
model.py +108 -0
test_wavs/alimeeting/165.wav +0 -0
test_wavs/alimeeting/209.wav +0 -0
test_wavs/alimeeting/74.wav +0 -0

app.py CHANGED Viewed

@@ -30,7 +30,7 @@ import torch
 import torchaudio
 from examples import examples
-from model import get_pretrained_model, language_to_models, sample_rate
 languages = list(language_to_models.keys())
@@ -146,12 +146,8 @@ def process(
         decoding_method=decoding_method,
         num_active_paths=num_active_paths,
     )
-    s = recognizer.create_stream()
-    s.accept_wave_file(filename)
-    recognizer.decode_stream(s)
-    text = s.result.text.strip()
     date_time = now.strftime("%Y-%m-%d %H:%M:%S.%f")
     end = time.time()

 import torchaudio
 from examples import examples
+from model import decode, get_pretrained_model, language_to_models, sample_rate
 languages = list(language_to_models.keys())
         decoding_method=decoding_method,
         num_active_paths=num_active_paths,
     )
+    text = decode(recognizer, filename)
     date_time = now.strftime("%Y-%m-%d %H:%M:%S.%f")
     end = time.time()

model.py CHANGED Viewed

@@ -17,6 +17,7 @@
 from huggingface_hub import hf_hub_download
 from functools import lru_cache
 import os
 os.system(
     "cp -v /home/user/.local/lib/python3.8/site-packages/k2/lib/*.so /home/user/.local/lib/python3.8/site-packages/sherpa/lib/"
@@ -29,6 +30,56 @@ import sherpa
 sample_rate = 16000
 @lru_cache(maxsize=30)
 def get_pretrained_model(
     repo_id: str,
@@ -547,6 +598,55 @@ def _get_german_pre_trained_model(
     return recognizer
 chinese_models = {
     "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2": _get_wenetspeech_pre_trained_model,  # noqa
     "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7": _get_alimeeting_pre_trained_model,
@@ -555,6 +655,7 @@ chinese_models = {
     "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2": _get_aidatatang_200zh_pretrained_mode,  # noqa
     "luomingshuang/icefall_asr_alimeeting_pruned_transducer_stateless2": _get_alimeeting_pre_trained_model,  # noqa
     "csukuangfj/wenet-chinese-model": _get_wenet_model,
 }
 english_models = {
@@ -587,10 +688,16 @@ german_models = {
     "csukuangfj/wav2vec2.0-torchaudio": _get_german_pre_trained_model,
 }
 all_models = {
     **chinese_models,
     **english_models,
     **chinese_english_mixed_models,
     **tibetan_models,
     **arabic_models,
     **german_models,
@@ -600,6 +707,7 @@ language_to_models = {
     "Chinese": list(chinese_models.keys()),
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),

 from huggingface_hub import hf_hub_download
 from functools import lru_cache
 import os
+import torchaudio
 os.system(
     "cp -v /home/user/.local/lib/python3.8/site-packages/k2/lib/*.so /home/user/.local/lib/python3.8/site-packages/sherpa/lib/"
 sample_rate = 16000
+def decode_offline_recognizer(
+    recognizer: Union[sherpa.OfflineRecognizer, sherpa.OnlineRecognizer],
+    filename: str,
+) -> str:
+    s = recognizer.create_stream()
+    s.accept_wave_file(filename)
+    recognizer.decode_stream(s)
+    text = s.result.text.strip()
+    return text.lower()
+def decode_online_recognizer(
+    recognizer: Union[sherpa.OfflineRecognizer, sherpa.OnlineRecognizer],
+    filename: str,
+) -> str:
+    samples, actual_sample_rate = torchaudio.load(filename)
+    assert sample_rate == actual_sample_rate, (
+        sample_rate,
+        actual_sample_rate,
+    )
+    samples = samples[0].contiguous()
+    s = recognizer.create_stream()
+    tail_padding = torch.zeros(int(sample_rate * 0.3), dtype=torch.float32)
+    s.accept_waveform(sample_rate, samples)
+    s.accept_waveform(sample_rate, tail_padding)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    text = recognizer.get_result(s).text
+    return text.strip().lower()
+def decode(
+    recognizer: Union[sherpa.OfflineRecognizer, sherpa.OnlineRecognizer],
+    filename: str,
+) -> str:
+    if isinstance(recognizer, sherpa.OfflineRecognizer):
+        return decode_offline_recognizer(recognizer, filename)
+    elif isinstance(recognizer, sherpa.OnlineRecognizer):
+        return decode_online_recognizer(recognizer, filename)
+    else:
+        raise ValueError(f"Unknown recongizer type {type(recognizer)}")
 @lru_cache(maxsize=30)
 def get_pretrained_model(
     repo_id: str,
     return recognizer
+@lru_cache(maxsize=10)
+def _get_japanese_pre_trained_model(
+    repo_id: str,
+    decoding_method: str,
+    num_active_paths: int,
+):
+    repo_id, kind = repo_id.rsplit("-", maxsplit=1)
+    assert repo_id in [
+        "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208"
+    ], repo_id
+    assert kind in ("fluent", "disfluent"), kind
+    encoder_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="encoder_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    decoder_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="decoder_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    joiner_model = _get_nn_model_filename(
+        repo_id=repo_id, filename="joiner_jit_trace.pt", subfolder=f"exp_{kind}"
+    )
+    tokens = _get_token_filename(repo_id=repo_id)
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = 80
+    feat_config.fbank_opts.frame_opts.dither = 0
+    config = sherpa.OnlineRecognizerConfig(
+        nn_model="",
+        encoder_model=encoder_model,
+        decoder_model=decoder_model,
+        joiner_model=joiner_model,
+        tokens=tokens,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method="greedy_search",
+        chunk_size=32,
+    )
+    recognizer = sherpa.OnlineRecognizer(config)
+    return recognizer
 chinese_models = {
     "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2": _get_wenetspeech_pre_trained_model,  # noqa
     "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7": _get_alimeeting_pre_trained_model,
     "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2": _get_aidatatang_200zh_pretrained_mode,  # noqa
     "luomingshuang/icefall_asr_alimeeting_pruned_transducer_stateless2": _get_alimeeting_pre_trained_model,  # noqa
     "csukuangfj/wenet-chinese-model": _get_wenet_model,
+    "csukuangfj/icefall-asr-wenetspeech-lstm-transducer-stateless-2022-10-14": _get_lstm_transducer_model,
 }
 english_models = {
     "csukuangfj/wav2vec2.0-torchaudio": _get_german_pre_trained_model,
 }
+japanese_models = {
+    "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-fluent": _get_japanese_pre_trained_model,
+    "TeoWenShen/icefall-asr-csj-pruned-transducer-stateless7-streaming-230208-disfluent": _get_japanese_pre_trained_model,
+}
 all_models = {
     **chinese_models,
     **english_models,
     **chinese_english_mixed_models,
+    **japanese_models,
     **tibetan_models,
     **arabic_models,
     **german_models,
     "Chinese": list(chinese_models.keys()),
     "English": list(english_models.keys()),
     "Chinese+English": list(chinese_english_mixed_models.keys()),
+    "Japanese": list(japanese_models.keys()),
     "Tibetan": list(tibetan_models.keys()),
     "Arabic": list(arabic_models.keys()),
     "German": list(german_models.keys()),

test_wavs/alimeeting/165.wav ADDED Viewed

Binary file (263 kB). View file

test_wavs/alimeeting/209.wav ADDED Viewed

Binary file (155 kB). View file

test_wavs/alimeeting/74.wav ADDED Viewed

Binary file (120 kB). View file