Spaces:

tanbw
/

CosyVoice

Running on Zero

App Files Files Community

tanbw commited on Oct 14

Commit

93215c8

•

1 Parent(s): 0e16d91

Update webui.py

Browse files

Files changed (1) hide show

webui.py +16 -6

webui.py CHANGED Viewed

@@ -64,6 +64,7 @@ def change_instruction(mode_checkbox_group):
 def generate_audio(tts_text, mode_checkbox_group, sft_dropdown, prompt_text, prompt_wav_upload, prompt_wav_record, instruct_text,
                    seed, stream, speed):
     stream=False
     if prompt_wav_upload is not None:
         prompt_wav = prompt_wav_upload
     elif prompt_wav_record is not None:
@@ -111,28 +112,36 @@ def generate_audio(tts_text, mode_checkbox_group, sft_dropdown, prompt_text, pro
         if instruct_text != '':
             gr.Info('您正在使用3s极速复刻模式，预训练音色/instruct文本会被忽略！')
     if mode_checkbox_group == '预训练音色':
         logging.info('get sft inference request')
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_sft(tts_text, sft_dropdown, stream=stream, speed=speed):
-            return (target_sr, i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == '3s极速复刻':
         logging.info('get zero_shot inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_zero_shot(tts_text, prompt_text, prompt_speech_16k, stream=stream, speed=speed):
-            return (target_sr, i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == '跨语种复刻':
         logging.info('get cross_lingual inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_cross_lingual(tts_text, prompt_speech_16k, stream=stream, speed=speed):
-            return (target_sr, i['tts_speech'].numpy().flatten())
     else:
         logging.info('get instruct inference request')
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_instruct(tts_text, sft_dropdown, instruct_text, stream=stream, speed=speed):
-            return (target_sr, i['tts_speech'].numpy().flatten())
 # SDK模型下载
 import platform
@@ -171,8 +180,9 @@ def get_cosyvoice():
     with cosyvoice_lock:
         if cosyvoice_instance is not None:
             return cosyvoice_instance
-        cosyvoice_instance=CosyVoice(model_dir)
-        return cosyvoice_instance
 def load_sft_options():
     sound_choices=get_cosyvoice().list_avaliable_spks()

 def generate_audio(tts_text, mode_checkbox_group, sft_dropdown, prompt_text, prompt_wav_upload, prompt_wav_record, instruct_text,
                    seed, stream, speed):
     stream=False
+    global cosyvoice_instance, model_dir
     if prompt_wav_upload is not None:
         prompt_wav = prompt_wav_upload
     elif prompt_wav_record is not None:
         if instruct_text != '':
             gr.Info('您正在使用3s极速复刻模式，预训练音色/instruct文本会被忽略！')
+    audio_data_list = []
     if mode_checkbox_group == '预训练音色':
         logging.info('get sft inference request')
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_sft(tts_text, sft_dropdown, stream=stream, speed=speed):
+            audio_data_list.append(i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == '3s极速复刻':
         logging.info('get zero_shot inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_zero_shot(tts_text, prompt_text, prompt_speech_16k, stream=stream, speed=speed):
+            audio_data_list.append(i['tts_speech'].numpy().flatten())
     elif mode_checkbox_group == '跨语种复刻':
         logging.info('get cross_lingual inference request')
         prompt_speech_16k = postprocess(load_wav(prompt_wav, prompt_sr))
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_cross_lingual(tts_text, prompt_speech_16k, stream=stream, speed=speed):
+            audio_data_list.append(i['tts_speech'].numpy().flatten())
     else:
         logging.info('get instruct inference request')
         set_all_random_seed(seed)
         for i in get_cosyvoice().inference_instruct(tts_text, sft_dropdown, instruct_text, stream=stream, speed=speed):
+            audio_data_list.append(i['tts_speech'].numpy().flatten())
+    # 将所有的音频数据拼接起来
+    concatenated_audio_data = np.concatenate(audio_data_list)
+    # 返回拼接后的音频数据和目标采样率
+    return (target_sr, concatenated_audio_data)
 # SDK模型下载
 import platform
     with cosyvoice_lock:
         if cosyvoice_instance is not None:
             return cosyvoice_instance
+        else:
+            cosyvoice_instance=CosyVoice(model_dir)
+            return cosyvoice_instance
 def load_sft_options():
     sound_choices=get_cosyvoice().list_avaliable_spks()