mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on 21 days ago

Commit

cf42034

verified ·

1 Parent(s): f846660

Update app.py

Browse files

Files changed (1) hide show

app.py +20 -11

app.py CHANGED Viewed

@@ -49,6 +49,8 @@ other_language = {
 # Инициализация модели TTS
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
 # Функции для голосового клонирования
 def check_audio_length(audio_path, max_duration=120):
@@ -64,8 +66,9 @@ def check_audio_length(audio_path, max_duration=120):
         return False
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
-    # Синтез речи с помощью TTS
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
     wav_data = tts_synthesis.tts(text, speed=speed)
     # Преобразование wav_data из списка в NumPy массив с типом float32
@@ -100,7 +103,7 @@ def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
         torchaudio.save(temp_denoised_wav_path, denoised_wav_tensor.unsqueeze(0).cpu(), denoised_sample_rate)
     # Преобразование голоса с использованием денойзенного аудио
-    tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
@@ -167,10 +170,7 @@ def synthesize_speech(text, speaker_wav_path, language_iso, speed):
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
     # Инициализация модели voice conversion
-    tts_conversion = TTS(
-        model_name="voice_conversion_models/multilingual/vctk/freevc24",
-        progress_bar=False
-    )
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
@@ -322,13 +322,21 @@ with gr.Blocks() as app:
                 gr.HTML("<div style='width:300px;'></div>")
                 reload_button = gr.Button("Перезапустить")
             synthesize_button.click(
-                fn=process_speech,
-                inputs=[text_input, speaker_wav_input, language_input, speed_input],
-                outputs=output_audio
             )
-            reload_button.click(fn=restart_program, inputs=None, outputs=None)
         with gr.TabItem("Lipsync"):
             # Интерфейс для липсинка
@@ -352,9 +360,10 @@ with gr.Blocks() as app:
                     result = gr.Video(label="Результат")
             generate_btn.click(
-                generate,
                 inputs=[video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video],
                 outputs=result,
             )
     def launch_gradio():

 # Инициализация модели TTS
 tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
+tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
 # Функции для голосового клонирования
 def check_audio_length(audio_path, max_duration=120):
         return False
 def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     tts_synthesis = TTS(model_name=f"tts_models/{language_iso}/fairseq/vits")
+    # Синтез речи с помощью TTS
     wav_data = tts_synthesis.tts(text, speed=speed)
     # Преобразование wav_data из списка в NumPy массив с типом float32
         torchaudio.save(temp_denoised_wav_path, denoised_wav_tensor.unsqueeze(0).cpu(), denoised_sample_rate)
     # Преобразование голоса с использованием денойзенного аудио
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
         torchaudio.save(temp_vc_input_path, wav_tensor.cpu(), sample_rate)
     # Инициализация модели voice conversion
     # Подготовка временного выходного файла
     with tempfile.NamedTemporaryFile(suffix='.wav', delete=False) as temp_output_wav_file:
                 gr.HTML("<div style='width:300px;'></div>")
                 reload_button = gr.Button("Перезапустить")
+            # Corrected: Bind synthesize_button to process_speech
             synthesize_button.click(
+                process_speech,  # Function to call
+                inputs=[text_input, speaker_wav_input, language_input, speed_input],  # Inputs for voice synthesis
+                outputs=output_audio,  # Output audio
+                queue=False  # Optional: Disable queueing
             )
+            # Bind reload_button to restart_program
+            reload_button.click(
+                fn=restart_program,
+                inputs=None,
+                outputs=None,
+                queue=False
+            )
         with gr.TabItem("Lipsync"):
             # Интерфейс для липсинка
                     result = gr.Video(label="Результат")
             generate_btn.click(
+                generate,  # Function to call for Lipsync
                 inputs=[video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video],
                 outputs=result,
+                queue=False  # Optional: Disable queueing
             )
     def launch_gradio():