Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on May 8

Commit

0c5c249

verified ·

1 Parent(s): 24c9e51

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -23

app.py CHANGED Viewed

@@ -1,36 +1,61 @@
-import os
-os.environ["NUMBA_DISABLE_CACHE"] = "1"
 import gradio as gr
 import os
 import torch
-# Add openvoice path
-import sys
-sys.path.append("openvoice")
-from openvoice.api import ToneColorConverter
-from openvoice.inference import voice_conversion
-# Set up paths
-ckpt_converter = './checkpoints/converter'
-device = "cuda" if torch.cuda.is_available() else "cpu"
-converter = ToneColorConverter(f"{ckpt_converter}/config.json", device=device)
-converter.load_ckpt(f"{ckpt_converter}/converter.ckpt")
-def convert_voice(audio_file, text_prompt):
-    output_path = "./results/output.wav"
-    # You must clone reference audio using clone.sh or similar step in Dockerfile
-    voice_conversion(converter, audio_file.name, text_prompt, output_path, device)
-    return output_path
-iface = gr.Interface(
-    fn=convert_voice,
     inputs=[
-        gr.Audio(type="filepath", label="Input Voice (WAV)"),
-        gr.Textbox(label="Prompt (e.g., 'Speak in a cheerful tone')"),
     ],
-    outputs=gr.Audio(label="Converted Voice")
 )
-iface.launch()

 import gradio as gr
 import os
+from openvoice.api import ToneColorConverter
+from openvoice import se_extractor
+from inference import infer_tool
 import torch
+import time
+import uuid
+# Set model paths
+ckpt_converter = "checkpoints/converter"
+output_dir = "outputs"
+os.makedirs(output_dir, exist_ok=True)
+# Initialize converter
+tone_color_converter = ToneColorConverter(ckpt_converter)
+# Load base speaker embedding for style transfer
+ref_speaker_embed = None
+def clone_and_speak(text, speaker_wav):
+    if not speaker_wav:
+        return "Please upload a reference .wav file."
+    # Generate a unique filename
+    timestamp = str(int(time.time()))
+    base_name = f"output_{timestamp}_{uuid.uuid4().hex[:6]}"
+    output_wav = os.path.join(output_dir, f"{base_name}.wav")
+    # Extract style from uploaded speaker voice
+    global ref_speaker_embed
+    ref_speaker_embed = se_extractor.get_se(speaker_wav, tone_color_converter)
+    # Generate speech using base model (internal prompt and sampling)
+    tone_color_converter.infer(
+        text=text,
+        speaker_id="openvoice",
+        language="en",
+        ref_speaker=speaker_wav,
+        ref_embed=ref_speaker_embed,
+        output_path=output_wav,
+        top_k=10,
+        temperature=0.3
+    )
+    return output_wav
+demo = gr.Interface(
+    fn=clone_and_speak,
     inputs=[
+        gr.Textbox(label="Enter Text"),
+        gr.Audio(type="filepath", label="Upload a Reference Voice (.wav)")
     ],
+    outputs=gr.Audio(label="Synthesized Output"),
+    title="Text to Voice using OpenVoice",
+    description="Clone any voice (English) and generate speech using OpenVoice on CPU.",
 )
+if __name__ == "__main__":
+    demo.launch()