Spaces:

Shanuka01
/

tortoise-tts-v2

Runtime error

Shanuka01 commited on Oct 26, 2023

Commit

468bbaf

1 Parent(s): 82874d1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import gradio as gr
 import torchaudio
 import time
 from datetime import datetime
 from transformers import pipeline
 from tortoise.api import TextToSpeech
 from tortoise.utils.text import split_and_recombine_text
@@ -14,7 +15,7 @@ pipe = pipeline("automatic-speech-recognition", model=model_id)
 # TTS Initialization
 VOICE_OPTIONS = [
-    "indian_f_1", "indian_F_2", "indian_F_3",
     "indian_M_1", "indian_M_2", "indian_M_3"
 ]
 tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)
@@ -47,19 +48,19 @@ def convert_audio(filepath, voice="indian_F_1"):
         ):
             audio_frames.append(audio_frame.cpu().detach().numpy())
-    # Joining the audio frames for output
-    final_audio = torch.cat(audio_frames, axis=0)
     return (24000, final_audio)
 interface = gr.Interface(
     fn=convert_audio,
     inputs=[
         gr.Audio(source="upload", type="filepath"),
-        gr.Dropdown(VOICE_OPTIONS, value="indian_f_1", label="Select voice:", type="value")
     ],
     outputs=gr.Audio(label="streaming audio:", streaming=True, autoplay=True),
     title="STT to TTS",
     description="Convert spoken words into a different voice"
 )
-interface.launch()

 import torchaudio
 import time
 from datetime import datetime
+import numpy as np  # Add this import for handling numpy arrays
 from transformers import pipeline
 from tortoise.api import TextToSpeech
 from tortoise.utils.text import split_and_recombine_text
 # TTS Initialization
 VOICE_OPTIONS = [
+    "indian_F_1", "indian_F_2", "indian_F_3",
     "indian_M_1", "indian_M_2", "indian_M_3"
 ]
 tts = TextToSpeech(kv_cache=True, use_deepspeed=True, half=True)
         ):
             audio_frames.append(audio_frame.cpu().detach().numpy())
+    # Joining the audio frames for output using numpy's concatenate
+    final_audio = np.concatenate(audio_frames, axis=0)
     return (24000, final_audio)
 interface = gr.Interface(
     fn=convert_audio,
     inputs=[
         gr.Audio(source="upload", type="filepath"),
+        gr.Dropdown(VOICE_OPTIONS, value="indian_F_1", label="Select voice:", type="value")
     ],
     outputs=gr.Audio(label="streaming audio:", streaming=True, autoplay=True),
     title="STT to TTS",
     description="Convert spoken words into a different voice"
 )
+interface.launch()