speech-to-speech-translation

Sleeping

arshsin commited on Feb 15

Commit

8c8da6d

•

1 Parent(s): 83d9770

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,14 +2,15 @@ import gradio as gr
 import numpy as np
 import torch
 from datasets import load_dataset
-from transformers import VitsModel, VitsTokenizer
 from transformers import pipeline
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
-asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-tiny", device=device)
@@ -27,8 +28,8 @@ def translate(audio):
 def synthesise(text):
     inputs = processor(text=text, return_tensors="pt")
     with torch.no_grad():
-      output = model(**inputs)
-    return output['audio']
 def speech_to_speech_translation(audio):

 import numpy as np
 import torch
 from datasets import load_dataset
 from transformers import pipeline
+from transformers import VitsModel, VitsTokenizer
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
+asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
 def synthesise(text):
     inputs = processor(text=text, return_tensors="pt")
     with torch.no_grad():
+      speech = model(inputs["input_ids"].to(device))
+    return speech.audio[0]
 def speech_to_speech_translation(audio):