Spaces:

SohomToom
/

TextToVoiceUsingOpenVoice

Running

SohomToom commited on 3 days ago

Commit

a854620

verified ·

1 Parent(s): 925b582

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -36,21 +36,21 @@ def clone_and_speak(text, speaker_wav):
     if not speaker_wav:
         return "Please upload a reference .wav file."
-    import melo.text.english as english
-    original_g2p = english.g2p
-    def patched_g2p(text):
-        phones, tones, word2ph = original_g2p(text)
-        # Fix: wrap ints in list to avoid TypeError
-        word2ph_fixed = []
-        for item in word2ph:
-            if isinstance(item, int):
-                word2ph_fixed.append([item])
-            else:
-                word2ph_fixed.append(item)
-        return phones, tones, word2ph_fixed
-    english.g2p = patched_g2p
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
@@ -62,7 +62,7 @@ def clone_and_speak(text, speaker_wav):
     default_speaker_id = next(iter(speaker_ids.values()))
     # Generate base TTS voice
-    model.tts_to_file(text, default_speaker_id, tmp_melo_path,"1.0")
     # Use speaker_wav as reference to extract style embedding
     from openvoice import se_extractor

     if not speaker_wav:
         return "Please upload a reference .wav file."
+    # import melo.text.english as english
+    # original_g2p = english.g2p
+    # def patched_g2p(text):
+    #     phones, tones, word2ph = original_g2p(text)
+    #     # Fix: wrap ints in list to avoid TypeError
+    #     word2ph_fixed = []
+    #     for item in word2ph:
+    #         if isinstance(item, int):
+    #             word2ph_fixed.append([item])
+    #         else:
+    #             word2ph_fixed.append(item)
+    #     return phones, tones, word2ph_fixed
+    # english.g2p = patched_g2p
     base_name = f"output_{int(time.time())}_{uuid.uuid4().hex[:6]}"
     tmp_melo_path = f"{output_dir}/{base_name}_tmp.wav"
     default_speaker_id = next(iter(speaker_ids.values()))
     # Generate base TTS voice
+    model.tts_to_file(text, default_speaker_id, tmp_melo_path,speed="1.0")
     # Use speaker_wav as reference to extract style embedding
     from openvoice import se_extractor