Spaces:

Semibit
/

tts-server

Sleeping

shiveshnavin commited on Jul 26, 2023

Commit

8c33263

1 Parent(s): 617d161

Fixed Audio output

Files changed (4) hide show

.gitignore CHANGED Viewed

app.py CHANGED Viewed

@@ -2,6 +2,9 @@ import gradio as gr
 from TTS.api import TTS
 import tempfile
 import os
 model_name = "tts_models/en/vctk/vits"
 promisingM = ["p282", "p301", "p234", "p232", "p256", "p267", "p272"]
@@ -24,9 +27,10 @@ def text_to_speech(sentence, speaker_name):
     wav = tts.tts_to_file(
         text=sentence, speaker=speaker_name, file_path=file, verbose=False
     )
-    with open(wav, "rb") as audio_file:
-        audio_data = audio_file.read()
-    return wav
 iface = gr.Interface(

 from TTS.api import TTS
 import tempfile
 import os
+import soundfile as sf
+import numpy as np
 model_name = "tts_models/en/vctk/vits"
 promisingM = ["p282", "p301", "p234", "p232", "p256", "p267", "p272"]
     wav = tts.tts_to_file(
         text=sentence, speaker=speaker_name, file_path=file, verbose=False
     )
+    audio, sample_rate = sf.read(wav, dtype="float32")
+    audio_bytes = (audio * 32767).astype(np.int16)
+    os.remove(wav)
+    return sample_rate, audio_bytes
 iface = gr.Interface(

output.wav DELETED Viewed

File without changes

requirements.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 gradio==3.38.0
 TTS==0.15.6
 numpy==1.22.0;python_version<="3.10"
-numpy==1.24.3;python_version>"3.10"

 gradio==3.38.0
 TTS==0.15.6
 numpy==1.22.0;python_version<="3.10"
+numpy==1.24.3;python_version>"3.10"
+soundfile