Spaces:

camanalo1
/

MyAlexa

Sleeping

camanalo1 commited on May 1

Commit

0e6d273

•

1 Parent(s): 15736b9

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,25 +12,25 @@ transcriber = pipeline("automatic-speech-recognition", model="facebook/s2t-small
 generator = pipeline("text-generation", model="gpt2")
 # Initialize TTS tokenizer and model
-tokenizer_tts = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
-model_tts = VitsModel.from_pretrained("facebook/mms-tts-eng")
-# Initialize ASR pipeline
-print("TTS Tokenizer:", tokenizer_tts)  # Print the tokenizer for the TTS model
 def transcribe_and_generate_audio(audio):
     # Transcribe audio
-    asr_output = transcriber(audio)["text"]
     # Generate text based on ASR output
-    generated_text = generator(prompt, max_length=100, num_return_sequences=1)[0]['generated_text']
-    # Generate audio from text using TTS model
-    inputs = tokenizer_tts(text=generated_text, return_tensors="pt")
     set_seed(555)
     with torch.no_grad():
-        outputs = model_tts(**inputs)
     waveform = outputs.waveform[0]
     waveform_path = "output.wav"
     sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
@@ -47,4 +47,4 @@ audio_input = gr.Interface(
 )
 # Launch the interface
-audio_input.launch()

 generator = pipeline("text-generation", model="gpt2")
 # Initialize TTS tokenizer and model
+tokenizer = VitsTokenizer.from_pretrained("facebook/mms-tts-eng")
+model = VitsModel.from_pretrained("facebook/mms-tts-eng")
 def transcribe_and_generate_audio(audio):
+    sr, y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
     # Transcribe audio
+    asr_output = transcriber({"sampling_rate": sr, "raw": y})["text"]
     # Generate text based on ASR output
+    generated_text = generator(asr_output)[0]['generated_text']
+    # Generate audio from text
+    inputs = tokenizer(text=generated_text, return_tensors="pt")
     set_seed(555)
     with torch.no_grad():
+        outputs = model(**inputs)
     waveform = outputs.waveform[0]
     waveform_path = "output.wav"
     sf.write(waveform_path, waveform.numpy(), 16000, format='wav')
 )
 # Launch the interface
+audio_input.launch()