speech-to-speech-translation

Runtime error

leo-kwan commited on May 11

Commit

efeef10

•

1 Parent(s): 052ba4a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,13 +3,24 @@ import numpy as np
 import torch
 from datasets import load_dataset
-from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, pipeline
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
-asr_pipe = pipeline("automatic-speech-recognition", model="openai/whisper-base", language = 'french', device=device)
 # load text-to-speech checkpoint and speaker embeddings
 processor = SpeechT5Processor.from_pretrained("leo-kwan/speecht5_finetuned_voxpopuli_lt")
@@ -22,7 +33,7 @@ speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze
 def translate(audio):
-    outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate"})
     return outputs["text"]

 import torch
 from datasets import load_dataset
+from transformers import SpeechT5ForTextToSpeech, SpeechT5HifiGan, SpeechT5Processor, WhisperForConditionalGeneration, WhisperFeatureExtractor, WhisperTokenizer, pipeline
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 # load speech translation checkpoint
+feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-base")
+tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language="french", task="automatic-speech-recognition")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")
+forced_decoder_ids = tokenizer.get_decoder_prompt_ids(language="french", task="automatic-speech-recognition")
+asr_pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    feature_extractor=feature_extractor,
+    tokenizer=tokenizer,
+    device=device
+)
 # load text-to-speech checkpoint and speaker embeddings
 processor = SpeechT5Processor.from_pretrained("leo-kwan/speecht5_finetuned_voxpopuli_lt")
 def translate(audio):
+    outputs = asr_pipe(audio, max_new_tokens=256, generate_kwargs={"task": "translate", "forced_decoder_ids": forced_decoder_ids})
     return outputs["text"]