Spaces:

mantrakp
/

aai

Runtime error

barreloflube commited on Sep 17, 2024

Commit

89b8fd1

•

1 Parent(s): aab35a3

Refactor gen_audio function to use CosyVoice TTS instead of SFT

Files changed (2) hide show

tabs/audios/events.py CHANGED Viewed

@@ -168,8 +168,9 @@ def gen_audio(text, mode, sft_speaker = None, speaker_audio = None, voice_instru
         if not speaker_audio_file:
             raise gr.Error('Please upload an audio')
-        for i, j in enumerate(cv_sft.inference_zero_shot(
             tts_text=text,
             prompt_speech_16k=prompt_speech_16k,
         )):
             torchaudio.save(
@@ -181,7 +182,7 @@ def gen_audio(text, mode, sft_speaker = None, speaker_audio = None, voice_instru
         if not speaker_audio_file:
             raise gr.Error('Please upload an audio')
-        for i, j in enumerate(cv_sft.inference_cross_lingual(
             tts_text=text,
             prompt_speech_16k=prompt_speech_16k,
         )):

         if not speaker_audio_file:
             raise gr.Error('Please upload an audio')
+        for i, j in enumerate(cv_vc.inference_zero_shot(
             tts_text=text,
+            prompt_text=voice_instructions,
             prompt_speech_16k=prompt_speech_16k,
         )):
             torchaudio.save(
         if not speaker_audio_file:
             raise gr.Error('Please upload an audio')
+        for i, j in enumerate(cv_vc.inference_cross_lingual(
             tts_text=text,
             prompt_speech_16k=prompt_speech_16k,
         )):

tabs/audios/load_models.py CHANGED Viewed

@@ -23,16 +23,16 @@ def init_sys():
     # Add `tabs/audios/modules/CosyVoice/third_party/Matcha-TTS` to your `PYTHONPATH`
     os.environ['PYTHONPATH'] = f'{os.path.dirname(__file__)}/modules/CosyVoice/third_party/Matcha-TTS:{os.environ.get("PYTHONPATH", "")}'
-    # Load CosyVoice TTS
-    cv_base = CosyVoice('pretrained_models/CosyVoice-300M')
     # Load CosyVoice SFT
     cv_sft = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
     sft_speakers = cv_sft.list_avaliable_spks()
     # Load CosyVoice Instruct
     cv_instruct = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
-    return device, df_model, df_state, cv_base, cv_sft, sft_speakers, cv_instruct
-device, df_model, df_state, cv_base, cv_sft, sft_speakers, cv_instruct = init_sys()

     # Add `tabs/audios/modules/CosyVoice/third_party/Matcha-TTS` to your `PYTHONPATH`
     os.environ['PYTHONPATH'] = f'{os.path.dirname(__file__)}/modules/CosyVoice/third_party/Matcha-TTS:{os.environ.get("PYTHONPATH", "")}'
     # Load CosyVoice SFT
     cv_sft = CosyVoice('pretrained_models/CosyVoice-300M-SFT')
     sft_speakers = cv_sft.list_avaliable_spks()
+    # Load CosyVoice TTS
+    cv_vc = CosyVoice('pretrained_models/CosyVoice-300M')
     # Load CosyVoice Instruct
     cv_instruct = CosyVoice('pretrained_models/CosyVoice-300M-Instruct')
+    return device, df_model, df_state, cv_vc, cv_sft, sft_speakers, cv_instruct
+device, df_model, df_state, cv_vc, cv_sft, sft_speakers, cv_instruct = init_sys()