Spaces:

CVMX-jaca-tonos
/

Identificar-lenguas-y-frases

Runtime error

lucio commited on May 4, 2022

Commit

028ff01

1 Parent(s): 7fd4a61

fix spanish asr

Files changed (2) hide show

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ from stt import Model
 import torch
 from transformers import pipeline
 import torchaudio
 from speechbrain.pretrained import EncoderClassifier
@@ -43,20 +43,24 @@ def client(audio_data: np.array, sample_rate: int, default_lang: str):
     output_audio.seek(0)
     fin = wave.open(output_audio, 'rb')
-    audio = np.frombuffer(fin.readframes(fin.getnframes()), np.int16)
     fin.close()
     print(default_lang, text_lab)
     if text_lab == 'Spanish':
         text_lab = 'español'
         asr_pipeline = STT_MODELS['español']
-        result = asr_pipeline(audio, chunk_length_s=5, stride_length_s=1)['text']
     else:
         text_lab = default_lang
         ds = STT_MODELS[default_lang]
-        result = ds.stt(audio)
     return f"{text_lab}: {result}"

 import torch
 from transformers import pipeline
+import librosa
 import torchaudio
 from speechbrain.pretrained import EncoderClassifier
     output_audio.seek(0)
     fin = wave.open(output_audio, 'rb')
+    coqui_audio = np.frombuffer(fin.readframes(fin.getnframes()), np.int16)
+    output_audio.seek(0)
+    hf_audio, _ = librosa.load(output_audio)
     fin.close()
     print(default_lang, text_lab)
     if text_lab == 'Spanish':
         text_lab = 'español'
         asr_pipeline = STT_MODELS['español']
+        result = asr_pipeline(hf_audio, chunk_length_s=5, stride_length_s=1)['text']
     else:
         text_lab = default_lang
         ds = STT_MODELS[default_lang]
+        result = ds.stt(coqui_audio)
     return f"{text_lab}: {result}"

requirements.txt CHANGED Viewed

@@ -3,4 +3,5 @@ STT==1.0.0
 pydub==0.25.1
 speechbrain==0.5.10
 torchaudio
-transformers

 pydub==0.25.1
 speechbrain==0.5.10
 torchaudio
+transformers
+librosa