Spaces:

camanalo1
/

MyAlexa

Sleeping

camanalo1 commited on May 1

Commit

f23d60c

•

1 Parent(s): 1fe1102

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,8 +12,10 @@ transcriber = pipeline("automatic-speech-recognition", model="facebook/s2t-small
 generator = pipeline("text-generation", model="microsoft/Phi-3-mini-4k-instruct", trust_remote_code=True)
 # Initialize TTS tokenizer and model
-tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
-model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 def transcribe_and_generate_audio(audio):
     sr, y = audio
@@ -26,11 +28,11 @@ def transcribe_and_generate_audio(audio):
     # Generate text based on ASR output
     generated_text = generator(asr_output)[0]['generated_text']
-    # Generate audio from text
-    inputs = tokenizer(text=generated_text, return_tensors="pt")
     set_seed(555)
     with torch.no_grad():
-        outputs = model(**inputs)
     waveform = outputs.waveform[0]
     waveform_path = "output.wav"
     sf.write(waveform_path, waveform.numpy(), 16000, format='wav')

 generator = pipeline("text-generation", model="microsoft/Phi-3-mini-4k-instruct", trust_remote_code=True)
 # Initialize TTS tokenizer and model
+tokenizer_tts = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
+model_tts = VitsModel.from_pretrained("facebook/mms-tts-eng")
+print("TTS Tokenizer:", tokenizer_tts)  # Print the tokenizer for the TTS model
 def transcribe_and_generate_audio(audio):
     sr, y = audio
     # Generate text based on ASR output
     generated_text = generator(asr_output)[0]['generated_text']
+    # Generate audio from text using TTS model
+    inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
     set_seed(555)
     with torch.no_grad():
+        outputs = model_tts(**inputs)
     waveform = outputs.waveform[0]
     waveform_path = "output.wav"
     sf.write(waveform_path, waveform.numpy(), 16000, format='wav')