speech-to-speech-translation

Sleeping

tsobolev commited on Aug 13, 2023

Commit

75d8950

•

1 Parent(s): a75ab97

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -16,21 +16,33 @@ device = "cuda:0" if torch.cuda.is_available() else "cpu"
 asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
 # load text-to-speech checkpoint and speaker embeddings
-processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
-model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts").to(device)
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-print("Blocks interface does not work, hmm. gradio version is ",gr.__version__)
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate"})
-    return outputs["text"]
 def synthesise(text):

 asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)
 # load text-to-speech checkpoint and speaker embeddings
+processor = SpeechT5Processor.from_pretrained("tsobolev/speecht5_finetuned_voxpopuli_fi")
+model = SpeechT5ForTextToSpeech.from_pretrained("tsobolev/speecht5_finetuned_voxpopuli_fi").to(device)
 vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan").to(device)
 embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
+speaker_embeddings = torch.tensor(embeddings_dataset[7000]["xvector"]).unsqueeze(0)
+en2fi_pipeline = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fi")
+print("gradio version is ",gr.__version__)
 def translate(audio):
     outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate"})
+    fi_translation = en2fi_pipeline(outputs["text"])
+    text = fi_translation[0]['translation_text']
+    replacements = [
+        ("ä", "ae"),
+        ("ö", "oe"),
+    ]
+    for src, dst in replacements:
+        text = text.replace(src, dst)
+    print(text)
+    return text
 def synthesise(text):