Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

App Files Files Community

SohomToom commited on 1 day ago

Commit

6d77b5b

verified ·

1 Parent(s): 711ecc3

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -24

app.py CHANGED Viewed

@@ -39,25 +39,41 @@ tone_color_converter = ToneColorConverter(ckpt_converter)
 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
-def clone_and_speak(text, speaker_wav):
-    if not speaker_wav:
-        return "Please upload a reference .wav file."
-    # import melo.text.english as english
-    # original_g2p = english.g2p
-    # def patched_g2p(text):
-    #     phones, tones, word2ph = original_g2p(text)
-    #     # Fix: wrap ints in list to avoid TypeError
-    #     word2ph_fixed = []
-    #     for item in word2ph:
-    #         if isinstance(item, int):
-    #             word2ph_fixed.append([item])
-    #         else:
-    #             word2ph_fixed.append(item)
-    #     return phones, tones, word2ph_fixed
-    # english.g2p = patched_g2p
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
@@ -66,15 +82,29 @@ def clone_and_speak(text, speaker_wav):
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
-    default_speaker_id = next(iter(speaker_ids.values()))
     # Generate base TTS voice
     speed = 1.0
-    model.tts_to_file(text, default_speaker_id, tmp_melo_path,speed=speed)
-    # Use speaker_wav as reference to extract style embedding
-    from openvoice import se_extractor
-    ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
     # Run the tone conversion
     tone_color_converter.convert(
@@ -87,6 +117,7 @@ def clone_and_speak(text, speaker_wav):
     return final_output_path
 # Gradio interface
 gr.Interface(
     fn=clone_and_speak,

 # Device setting
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# def clone_and_speak(text, speaker_wav):
+#     if not speaker_wav:
+#         return "Please upload a reference .wav file."
+#     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
+#     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
+#     final_output_path = f"{output_dir}/{base_name}_converted.wav"
+#     # Use English speaker model
+#     model = TTS(language="EN", device=device)
+#     speaker_ids = model.hps.data.spk2id
+#     default_speaker_id = next(iter(speaker_ids.values()))
+#     # Generate base TTS voice
+#     speed = 1.0
+#     model.tts_to_file(text, default_speaker_id, tmp_melo_path,speed=speed)
+#     # Use speaker_wav as reference to extract style embedding
+#     from openvoice import se_extractor
+#     ref_se, _ = se_extractor.get_se(speaker_wav, tone_color_converter, vad=True)
+#     # Run the tone conversion
+#     tone_color_converter.convert(
+#         audio_src_path=tmp_melo_path,
+#         src_se=ref_se,
+#         tgt_se=ref_se,
+#         output_path=final_output_path,
+#         message="@HuggingFace",
+#     )
+#     return final_output_path
+def clone_and_speak(text, selected_speaker_key):
+    if not text or not selected_speaker_key:
+        return "Please enter text and select a speaker."
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
     # Use English speaker model
     model = TTS(language="EN", device=device)
     speaker_ids = model.hps.data.spk2id
+    # Map speaker_key to speaker_id (model-specific)
+    if selected_speaker_key not in speaker_ids:
+        return f"Speaker '{selected_speaker_key}' not found in model."
+    speaker_id = speaker_ids[selected_speaker_key]
     # Generate base TTS voice
     speed = 1.0
+    model.tts_to_file(text, speaker_id, tmp_melo_path, speed=speed)
+    # Load pre-saved speaker embedding
+    normalized_key = selected_speaker_key.lower().replace("_", "-")
+    se_path = f'checkpoints_v2/base_speakers/ses/{normalized_key}.pth'
+    if not os.path.isfile(se_path):
+        return f"SE file not found for speaker '{normalized_key}'."
+    ref_se = torch.load(se_path, map_location=device)
+    # Disable MPS if present but device is CPU
+    if torch.backends.mps.is_available() and device == 'cpu':
+        torch.backends.mps.is_available = lambda: False
     # Run the tone conversion
     tone_color_converter.convert(
     return final_output_path
 # Gradio interface
 gr.Interface(
     fn=clone_and_speak,