Spaces:

smajumdar
/

nemo_conformer_rnnt_large_streaming

Runtime error

App Files Files Community

smajumdar commited on Mar 29, 2022

Commit

7a5ebea

•

1 Parent(s): 6119c80

Initial commit

Browse files

Files changed (4) hide show

README.md +2 -2
app.py +64 -0
packages.txt +2 -0
requirements.txt +1 -0

README.md CHANGED Viewed

@@ -1,8 +1,8 @@
 ---
 title: Nemo_conformer_rnnt_large_streaming
 emoji: 🐠
-colorFrom: pink
-colorTo: red
 sdk: gradio
 sdk_version: 2.9.0
 app_file: app.py

 ---
 title: Nemo_conformer_rnnt_large_streaming
 emoji: 🐠
+colorFrom: blue
+colorTo: white
 sdk: gradio
 sdk_version: 2.9.0
 app_file: app.py

app.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import gradio as gr
+import torch
+import librosa
+import soundfile
+import nemo.collections.asr as nemo_asr
+import tempfile
+import os
+import uuid
+SAMPLE_RATE = 16000
+model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("stt_en_conformer_transducer_large")
+model.change_decoding_strategy(None)
+model.eval()
+def process_audio_file(file):
+    data, sr = librosa.load(file)
+    if sr != SAMPLE_RATE:
+        data = librosa.resample(data, sr, SAMPLE_RATE)
+    # monochannel
+    data = librosa.to_mono(data)
+    return data
+def transcribe(Audio, state=""):
+    audio_data = process_audio_file(Audio)
+    with tempfile.TemporaryDirectory() as tmpdir:
+        audio_path = os.path.join(tmpdir, f'audio_{uuid.uuid4()}.wav')
+        soundfile.write(audio_path, audio_data, SAMPLE_RATE)
+        transcriptions = model.transcribe([audio_path])
+        # if transcriptions form a tuple (from RNNT), extract just "best" hypothesis
+        if type(transcriptions) == tuple and len(transcriptions) == 2:
+            transcriptions = transcriptions[0]
+        transcriptions = transcriptions[0]
+    state = state + transcriptions + " "
+    return state, state
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=[
+        gr.inputs.Audio(source="microphone", type='filepath'),
+        "state",
+    ],
+    outputs=[
+        "textbox",
+        "state",
+    ],
+    layout="horizontal",
+    theme="huggingface",
+    title="NeMo Streaming Conformer Transducer Large - English",
+    description="Demo for English speech recognition using Conformer Transducers",
+    allow_flagging='never',
+    live=True,
+)
+iface.launch(enable_queue=True)

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ffmpeg
2	+ libsndfile1

requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ nemo_toolkit[asr]