Spaces:

jkang
/

espnet2_librispeech_100h_word_vs_bpe_vs_char

Runtime error

App Files Files Community

jaekookang commited on Feb 23, 2022

Commit

4a43745

•

1 Parent(s): f396296

first upload

Browse files

Files changed (7) hide show

README.md +2 -2
examples/gentleman_16000.wav +0 -0
examples/jaekoo_numbers.wav +0 -0
examples/maybe_next_time.wav +0 -0
gradio_asr_en_libri100_word_vs_bpe.py +79 -0
packages.txt +2 -0
requirements.txt +6 -0

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
-title: Espnet2_librispeech_100h_word_vs_bpe
 emoji: 💩
 colorFrom: red
 colorTo: green
 sdk: gradio
-app_file: app.py
 pinned: false
 license: mit
 ---

 ---
+title: ESPNet2 ASR Librispeech word vs bpe tokens
 emoji: 💩
 colorFrom: red
 colorTo: green
 sdk: gradio
+app_file: gradio_asr_en_libri100_word_vs_bpe.py
 pinned: false
 license: mit
 ---

examples/gentleman_16000.wav ADDED Viewed

Binary file (111 kB). View file

examples/jaekoo_numbers.wav ADDED Viewed

Binary file (218 kB). View file

examples/maybe_next_time.wav ADDED Viewed

Binary file (25.7 kB). View file

gradio_asr_en_libri100_word_vs_bpe.py ADDED Viewed

	@@ -0,0 +1,79 @@

+'''Librispeech 100h English ASR demo
+@ML2 --> @HuggingFace
+2022-02-23 jkang first created
+'''
+import os
+from glob import glob
+from loguru import logger
+# import soundfile as sf
+import librosa
+# from scipy.io import wavfile
+import gradio as gr
+# from espnet_model_zoo.downloader import ModelDownloader
+from espnet2.bin.asr_inference import Speech2Text
+# ---------- Settings ----------
+GPU_ID = '-1'
+os.environ['CUDA_VISIBLE_DEVICES'] = GPU_ID
+DEVICE = 'cuda' if GPU_ID != '-1' else 'cpu'
+# SERVER_PORT = 42208
+# SERVER_NAME = "0.0.0.0"
+MODEL_DIR = './model'
+EXAMPLE_DIR = './examples'
+examples = sorted(glob(os.path.join(EXAMPLE_DIR, '*.wav')))
+# ---------- Logging ----------
+logger.add('app.log', mode='a')
+logger.info('============================= App restarted =============================')
+# ---------- Model ----------
+logger.info('download model')
+logger.info('model downloaded')
+model_word = Speech2Text.from_pretrained("jkang/espnet2_librispeech_100_conformer_word")
+model_bpe = Speech2Text.from_pretrained("jkang/espnet2_librispeech_100_conformer")
+logger.info('model loaded')
+def predict(wav_file):
+    logger.info('wav file loaded')
+    # Load audio
+    speech, rate = librosa.load(wav_file, sr=16000)
+    # Run inference
+    W = model_word(speech)[0]
+    B = model_bpe(speech)[0]
+    logger.info('predicted')
+    return W[0], B[0]
+iface = gr.Interface(
+    predict,
+    title='Comparison between word vs BPE tokens based on ESPNet2 ASR models',
+    description='Two models were trained on Librispeech (clean-100h)',
+    inputs=[
+        gr.inputs.Audio(label='wav file', source='microphone', type='filepath')
+    ],
+    outputs=[
+        gr.outputs.Textbox(label='decoding result (word-token model)'),
+        gr.outputs.Textbox(label='decoding result (BPE-token model)'),
+    ],
+    examples=examples,
+    # article='<p style="text-align:center">Model URL<a target="_blank" href="https://huggingface.co/jkang/espnet2_librispeech_100_conformer">🤗</a></p>',
+)
+if __name__ == '__main__':
+    try:
+        iface.launch(debug=True,
+                    #  server_name=SERVER_NAME,
+                    #  server_port=SERVER_PORT,
+                     enable_queue=True,
+                     )
+    except KeyboardInterrupt as e:
+        print(e)
+    finally:
+        iface.close()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ cmake
2	+ libsndfile1

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+espnet==0.10.6
+espnet_model_zoo==0.1.7
+gradio
+loguru==0.6.0
+librosa
+soundfile