Spaces:

robinhad
/

ukrainian-stt

Running

App Files Files Community

Yurii Paniv commited on Sep 3, 2022

Commit

14485b0

•

1 Parent(s): 9da9a4e

Add side-by-side comparison

Browse files

Files changed (4) hide show

README.md +5 -0
app.py +34 -37
requirements-local.txt +2 -0
requirements.txt +0 -1

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ emoji: 🐌
 colorFrom: blue
 colorTo: yellow
 sdk: gradio
 app_file: app.py
 pinned: false
 ---
@@ -12,6 +13,7 @@ pinned: false
 This is a repository with aim to apply various speech recognition models on Ukrainian language.
 You can see online demo here: https://huggingface.co/spaces/robinhad/ukrainian-stt.
 Source code is in this repository together with auto-deploy pipeline scripts.
@@ -30,6 +32,9 @@ If you'd like to check out different models for Ukrainian language, please visit
 # 🤖 Training scripts
 Guides for training are available in corresponding folders for each model.
 # 🤝 Attribution
 [@robinhad](https://github.com/robinhad) - model training.
 [@egorsmkv](https://github.com/egorsmkv) - organized [Ukrainian Speech recognition community](https://github.com/egorsmkv/speech-recognition-uk).

 colorFrom: blue
 colorTo: yellow
 sdk: gradio
+sdk_version: 3.2
 app_file: app.py
 pinned: false
 ---
 This is a repository with aim to apply various speech recognition models on Ukrainian language.
 You can see online demo here: https://huggingface.co/spaces/robinhad/ukrainian-stt.
+Github link: https://github.com/robinhad/voice-recognition-ua.
 Source code is in this repository together with auto-deploy pipeline scripts.
 # 🤖 Training scripts
 Guides for training are available in corresponding folders for each model.
+# Support
+If you like my work, please support here: https://send.monobank.ua/jar/48iHq4xAXm
 # 🤝 Attribution
 [@robinhad](https://github.com/robinhad) - model training.
 [@egorsmkv](https://github.com/egorsmkv) - organized [Ukrainian Speech recognition community](https://github.com/egorsmkv/speech-recognition-uk).

app.py CHANGED Viewed

@@ -9,10 +9,6 @@ from os.path import exists
 from stt import Model
 from datetime import datetime
-MODEL_NAMES = [
-    "No scorer",
-    "With scorer"
-]
 # download model
 version = "v0.4"
@@ -22,15 +18,17 @@ scorer_name = "kenlm.scorer"
 model_link = f"{storage_url}/{model_name}"
 scorer_link = f"{storage_url}/{scorer_name}"
-def client(audio_data: np.array, sample_rate: int, use_scorer=False):
-    output_audio = _convert_audio(audio_data, sample_rate)
-    fin = wave.open(output_audio, 'rb')
-    audio = np.frombuffer(fin.readframes(fin.getnframes()), np.int16)
-    fin.close()
     ds = Model(model_name)
     if use_scorer:
         ds.enableExternalScorer("kenlm.scorer")
@@ -40,28 +38,30 @@ def client(audio_data: np.array, sample_rate: int, use_scorer=False):
     return result
-def download(url, file_name):
-    if not exists(file_name):
-        print(f"Downloading {file_name}")
-        r = requests.get(url, allow_redirects=True)
-        with open(file_name, 'wb') as file:
-            file.write(r.content)
-    else:
-        print(f"Found {file_name}. Skipping download...")
-def stt(audio: Tuple[int, np.array], model_name: str):
-    sample_rate, audio = audio
-    print(f"Input sample rate: {sample_rate}. Audio file length: {round(audio.shape[0]/sample_rate ,2)}")
-    use_scorer = True if model_name == "With scorer" else False
-    recognized_result = client(audio, sample_rate, use_scorer)
-    print(f"Time: {datetime.utcnow()}. Transcript: `{recognized_result}`. Scorer: {use_scorer}.")
-    return recognized_result
 def _convert_audio(audio_data: np.array, sample_rate: int):
     source_audio = BytesIO()
     source_audio.write(audio_data)
     source_audio.seek(0)
@@ -76,23 +76,20 @@ def _convert_audio(audio_data: np.array, sample_rate: int):
     output_audio.seek(0)
     return output_audio
 iface = gr.Interface(
-    fn=stt,
     inputs=[
         gr.inputs.Audio(type="numpy",
-                        label=None, optional=False),
-        gr.inputs.Radio(
-            label="Виберіть Speech-to-Text модель",
-            choices=MODEL_NAMES,
-        ),
     ],
-    outputs=gr.outputs.Textbox(label="Output"),
-    title="🐸🇺🇦 - Coqui STT",
     theme="huggingface",
     description="Україномовний🇺🇦 Speech-to-Text за допомогою Coqui STT",
-    article="Якщо вам подобається, підтримайте за посиланням: [SUPPORT LINK](https://send.monobank.ua/jar/48iHq4xAXm)",
 )
 download(model_link, model_name)

 from stt import Model
 from datetime import datetime
 # download model
 version = "v0.4"
 model_link = f"{storage_url}/{model_name}"
 scorer_link = f"{storage_url}/{scorer_name}"
+def download(url, file_name):
+    if not exists(file_name):
+        print(f"Downloading {file_name}")
+        r = requests.get(url, allow_redirects=True)
+        with open(file_name, 'wb') as file:
+            file.write(r.content)
+    else:
+        print(f"Found {file_name}. Skipping download...")
+def deepspeech(audio: np.array, use_scorer=False):
     ds = Model(model_name)
     if use_scorer:
         ds.enableExternalScorer("kenlm.scorer")
     return result
+def inference(audio: Tuple[int, np.array]):
+    print("=============================")
+    print(f"Time: {datetime.utcnow()}.`")
+    output_audio = _convert_audio(audio[1], audio[0])
+    fin = wave.open(output_audio, 'rb')
+    audio = np.frombuffer(fin.readframes(fin.getnframes()), np.int16)
+    fin.close()
+    transcripts = []
+    transcripts.append("")
+    transcripts.append(deepspeech(audio, use_scorer=True))
+    print(f"Deepspeech with LM: `{transcripts[-1]}`")
+    transcripts.append(deepspeech(audio))
+    print(f"Deepspeech: `{transcripts[-1]}`")
+    return tuple(transcripts)
 def _convert_audio(audio_data: np.array, sample_rate: int):
+    audio_limit = sample_rate * 60 * 2 # limit audio to 2 minutes max
+    if audio_data.shape[0] > audio_limit:
+        audio_data = audio_data[0:audio_limit]
     source_audio = BytesIO()
     source_audio.write(audio_data)
     source_audio.seek(0)
     output_audio.seek(0)
     return output_audio
+with open("README.md") as file:
+    article = file.read()
 iface = gr.Interface(
+    fn=inference,
     inputs=[
         gr.inputs.Audio(type="numpy",
+                        label="Аудіо", optional=False),
     ],
+    outputs=[gr.outputs.Textbox(label="Wav2Vec2"), gr.outputs.Textbox(label="DeepSpeech with LM"), gr.outputs.Textbox(label="DeepSpeech")],
+    title="🇺🇦 Ukrainian Speech-to-Text models",
     theme="huggingface",
     description="Україномовний🇺🇦 Speech-to-Text за допомогою Coqui STT",
+    article=article,
 )
 download(model_link, model_name)

requirements-local.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ -r requirements.txt
2	+ gradio==3.2

requirements.txt CHANGED Viewed

@@ -1,3 +1,2 @@
-gradio==2.4.5
 STT==1.3.0
 pydub==0.25.1



1	STT==1.3.0
2	pydub==0.25.1