Duplicate from mesolitica/ms-asr-transducer

Browse files

Co-authored-by: husein zolkepli <huseinzol05@users.noreply.huggingface.co>

Files changed (13) hide show

.gitattributes +34 -0
README.md +13 -0
app.py +71 -0
audio/female.wav +3 -0
audio/haqkiem.wav +3 -0
audio/husein-generated.wav +3 -0
audio/husein-zolkepli.wav +3 -0
audio/khalil-nooh.wav +3 -0
audio/mas-aisyah.wav +3 -0
audio/muhyiddin-yassin.wav +3 -0
audio/shafiqah-idayu.wav +3 -0
packages.txt +1 -0
requirements.txt +9 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: MS ASR TRANSDUCER
+emoji: 👂🏽
+colorFrom: green
+colorTo: pink
+sdk: gradio
+sdk_version: 3.8.2
+app_file: app.py
+pinned: false
+duplicated_from: mesolitica/ms-asr-transducer
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import os
+os.environ['CUDA_VISIBLE_DEVICES'] = ''
+os.environ['TF_FORCE_GPU_ALLOW_GROWTH'] = 'true'
+import malaya_speech
+from malaya_speech.utils.astype import float_to_int
+from pyctcdecode import build_ctcdecoder
+from malaya_speech.utils.char import CTC_VOCAB
+from glob import glob
+import kenlm
+import gradio as gr
+import logging
+import json
+logging.basicConfig(level=logging.INFO)
+SR = 16000
+MODELS = {}
+AVAILABLE_MODELS = malaya_speech.stt.available_transducer().index.tolist()
+wavs = glob('audio/*.wav')
+def load_audio_wav(filename):
+    print(filename)
+    y, sr = malaya_speech.load(filename)
+    return y, sr
+def tts(upload, record, model):
+    if record:
+        rate, y = record
+    else:
+        y, rate = load_audio_wav(upload)
+    if len(y.shape) == 2:
+        y = y.T[0]
+    N = len(y)
+    print(y, N)
+    y_16k = malaya_speech.resample(y, rate, SR)
+    global MODELS
+    if model not in MODELS:
+        logging.info(f'{model} not in MODELS')
+        MODELS[model] = malaya_speech.stt.deep_transducer(model=model)
+    t = MODELS[model].greedy_decoder([y_16k])[0]
+    return t
+examples = []
+for f in wavs:
+    examples.append([f, None, 'conformer'])
+demo = gr.Interface(
+    fn=tts,
+    inputs=[
+        gr.Audio(source='upload', label = 'upload WAV file', type='filepath'),
+        gr.Audio(source='microphone', label = 'or record using microphone'),
+        gr.components.Dropdown(label='Available models', choices=AVAILABLE_MODELS, value = 'conformer'),
+    ],
+    outputs=['text'],
+    examples=examples,
+    cache_examples=False,
+    title='ASR TRANSDUCER from Mesolitica',
+    description='check out accuracy on test set at https://malaya-speech.readthedocs.io/en/latest/load-stt-transducer-model.html'
+)
+demo.launch(server_name='0.0.0.0')

audio/female.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d7137ac0d5c84a40cecafe2b050045201b767d2fcb905acfca48616771ca279
+size 425004

audio/haqkiem.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c60dacdb3ca8b1a20b90355550aca9c2dcdc02f6a936d89dd1777ba1b368b30
+size 363052

audio/husein-generated.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:437c18998a5fd5704a1897da3727b9e24035120a431f9debb0b27b7412985cd6
+size 415788

audio/husein-zolkepli.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:849f16921b23c7eb96f8b6ee374372eac02b2743661efb0b6734289ba5dd3da8
+size 993330

audio/khalil-nooh.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc75e29dccba44c946b9bd12974392c078d0b92b8c8afe3e304191c1952b5618
+size 346636

audio/mas-aisyah.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f67d8a307332f541208486c4d07e64c0d0d8511486ab71d82307a48e51a9e55
+size 254284

audio/muhyiddin-yassin.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13007efc00934883a5f5a11fea2e1ff1ba5f5b0fbd3cdf40028d3db0de318c66
+size 2057738

audio/shafiqah-idayu.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f745c2ef94a31bc8d486bdba624a41c52c83e31992f29cea772192d800ffaf09
+size 620774

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ libsndfile1

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+malaya-speech
+malaya
+tensorflow==2.9.2
+torch==1.12.1
+malaya-boilerplate==0.0.23
+matplotlib
+transformers
+pyctcdecode==0.1.0
+pypi-kenlm==0.1.20210121