Spaces:

juulaii
/

En2Es-Speech-Translator

Runtime error

App Files Files Community

juulaii commited on Mar 28, 2022

Commit

64a4879

•

1 Parent(s): 1b7e0be

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -3

app.py CHANGED Viewed

@@ -2,11 +2,34 @@ import gradio as gr
 #Get models
 #ASR model for input speech
-speech2text = gr.Interface.load("huggingface/facebook/hubert-large-ls960-ft",
-                                inputs=gr.inputs.Audio(label="Record Audio File", type="file", source = "microphone"))
 #translates english to spanish text
 translator = gr.Interface.load("huggingface/Helsinki-NLP/opus-mt-en-es",
                                 outputs=gr.outputs.Textbox(label="English to Spanish Translated Text"))
 #TTS model for output speech
 text2speech = gr.Interface.load("huggingface/facebook/tts_transformer-es-css10",

 #Get models
 #ASR model for input speech
+import torch
+from transformers import Wav2Vec2Processor, HubertForCTC
+from datasets import load_dataset
+import soundfile as sf
+processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
+model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
+def map_to_array(batch):
+    speech, _ = sf.read(batch["file"])
+    batch["speech"] = speech
+    return batch
+ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
+ds = ds.map(map_to_array)
+input_values = processor(ds["speech"][0], return_tensors="pt").input_values  # Batch size 1
+logits = model(input_values).logits
+predicted_ids = torch.argmax(logits, dim=-1)
+transcription = processor.decode(predicted_ids[0])
+#speech2text = gr.Interface.load("huggingface/facebook/hubert-large-ls960-ft",
+ #                               inputs=gr.inputs.Audio(label="Record Audio File", type="file", source = "microphone"))
+speech2text = gr.Interface.(transcription,
+                            inputs=gr.inputs.Audio(label="Record Audio File", type="file", source = "microphone"))
 #translates english to spanish text
 translator = gr.Interface.load("huggingface/Helsinki-NLP/opus-mt-en-es",
+                                input=transcription
                                 outputs=gr.outputs.Textbox(label="English to Spanish Translated Text"))
 #TTS model for output speech
 text2speech = gr.Interface.load("huggingface/facebook/tts_transformer-es-css10",