Pedro_Lab_XTTS_demo

Sleeping

Blakus commited on Sep 26

Commit

60b3d63

•

1 Parent(s): 2fefaad

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import re
 import time
 import sys
 import subprocess
 import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
@@ -72,19 +73,14 @@ def predict(prompt, language, reference_audio):
             top_p=top_p
         )
-        audio_segment = AudioSegment(
-            out["wav"].tobytes(),
-            frame_rate=config.audio["output_sample_rate"],
-            sample_width=2,
-            channels=1
-        )
         inference_time = time.time() - start_time
         output_path = "output.wav"
-        audio_segment.export(output_path, format="wav")
-        audio_length = len(audio_segment) / 1000  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
         metrics_text = f"Tiempo de generación: {inference_time:.2f} segundos\n"

 import time
 import sys
 import subprocess
+import scipy.io.wavfile as wavfile
 import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
             top_p=top_p
         )
         inference_time = time.time() - start_time
         output_path = "output.wav"
+        # Guardar el audio directamente desde el output del modelo
+        import scipy.io.wavfile as wavfile
+        wavfile.write(output_path, config.audio["output_sample_rate"], out["wav"])
+        audio_length = len(out["wav"]) / config.audio["output_sample_rate"]  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
         metrics_text = f"Tiempo de generación: {inference_time:.2f} segundos\n"