Pedro_Lab_XTTS_demo

Sleeping

App Files Files

Blakus commited on Sep 26

Commit

2fefaad

•

1 Parent(s): f3f33d6

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -27

app.py CHANGED Viewed

@@ -4,7 +4,6 @@ import time
 import sys
 import subprocess
 import gradio as gr
-from pydub import AudioSegment  # Corrección aquí
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
@@ -48,8 +47,6 @@ def predict(prompt, language, reference_audio):
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
-        sentences = split_text(prompt)
         # Obtener los parámetros de la configuración JSON
         temperature = config.model_args.get("temperature", 0.85)
         length_penalty = config.model_args.get("length_penalty", 1.0)
@@ -62,35 +59,32 @@ def predict(prompt, language, reference_audio):
         )
         start_time = time.time()
-        combined_audio = AudioSegment.empty()
-        for sentence in sentences:
-            out = model.inference(
-                sentence,
-                language,
-                gpt_cond_latent,
-                speaker_embedding,
-                temperature=temperature,
-                length_penalty=length_penalty,
-                repetition_penalty=repetition_penalty,
-                top_k=top_k,
-                top_p=top_p
-            )
-            audio_segment = AudioSegment(
-                out["wav"].tobytes(),
-                frame_rate=config.audio["output_sample_rate"],
-                sample_width=2,
-                channels=1
-            )
-            combined_audio += audio_segment
-            combined_audio += AudioSegment.silent(duration=500)  # 0.5 segundos de silencio
         inference_time = time.time() - start_time
         output_path = "output.wav"
-        combined_audio.export(output_path, format="wav")
-        audio_length = len(combined_audio) / 1000  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
         metrics_text = f"Tiempo de generación: {inference_time:.2f} segundos\n"

 import sys
 import subprocess
 import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
         # Obtener los parámetros de la configuración JSON
         temperature = config.model_args.get("temperature", 0.85)
         length_penalty = config.model_args.get("length_penalty", 1.0)
         )
         start_time = time.time()
+        out = model.inference(
+            prompt,
+            language,
+            gpt_cond_latent,
+            speaker_embedding,
+            temperature=temperature,
+            length_penalty=length_penalty,
+            repetition_penalty=repetition_penalty,
+            top_k=top_k,
+            top_p=top_p
+        )
+        audio_segment = AudioSegment(
+            out["wav"].tobytes(),
+            frame_rate=config.audio["output_sample_rate"],
+            sample_width=2,
+            channels=1
+        )
         inference_time = time.time() - start_time
         output_path = "output.wav"
+        audio_segment.export(output_path, format="wav")
+        audio_length = len(audio_segment) / 1000  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
         metrics_text = f"Tiempo de generación: {inference_time:.2f} segundos\n"