mainmainminavoiceclone

Running

App Files Files Community

Uniaff commited on Oct 7, 2024

Commit

1571526

verified ·

1 Parent(s): 5634d1d

Update app.py

Browse files

Files changed (1) hide show

app.py +100 -70

app.py CHANGED Viewed

@@ -1,16 +1,14 @@
 import os
-import subprocess
 import sys
 import uuid
 import gradio as gr
 from pydub import AudioSegment
 from TTS.api import TTS
-# Инициализация моделей TTS
-tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", )
-# tts.to("cuda")
-# Опции языков
 language_options = {
     "English (en)": "en",
     "Spanish (es)": "es",
@@ -39,6 +37,9 @@ other_language = {
     "Philippine": "tgl"
 }
 def clean_audio(audio_path):
     out_filename = f"output/cleaned_{uuid.uuid4()}.wav"
     lowpass_highpass = "lowpass=8000,highpass=75,"
@@ -70,9 +71,9 @@ def synthesize_and_convert_voice(text, language_iso, voice_audio_path, speed):
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     output_file = "output/docout.wav"
     os.makedirs("output", exist_ok=True)
-    tts_conversion.voice_conversion_to_file(wav_data, target_wav=voice_audio_path,
-                                            file_path=output_file)
-    return output_file  # Возвращаем путь к сгенерированному аудио
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     output_file_xtts = "output/undocout.wav"
@@ -81,9 +82,9 @@ def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     output_file = "output/docout.wav"
     os.makedirs("output", exist_ok=True)
-    tts_conversion.voice_conversion_to_file(output_file_xtts, target_wav=speaker_wav_path,
-                                            file_path=output_file)
-    return output_file  # Возвращаем путь к сгенерированному аудио
 def get_language_code(selected_language):
     if selected_language in language_options:
@@ -108,34 +109,53 @@ def process_speech(text, speaker_wav, selected_language, speed):
     cleaned_wav_path = clean_audio(speaker_wav)
     if selected_language in other_language:
-        audio_path = synthesize_and_convert_voice(text, language_code, cleaned_wav_path, speed)
     else:
-        audio_path = synthesize_speech(text, cleaned_wav_path, language_code, speed)
-    return audio_path
-def generate_lipsync(video_path, audio_path, pad_top, pad_bottom, pad_left, pad_right, no_smooth, save_as_video):
     output_dir = "outputs"
     os.makedirs(output_dir, exist_ok=True)
     output_path = os.path.join(output_dir, "output.mp4")
     args = [
-        "--checkpoint_path", "checkpoints/wav2lip_gan.pth",
-        "--segmentation_path", "checkpoints/face_segmentation.pth",
-        "--no_seg",
-        "--no_sr",
         "--face", video_path,
         "--audio", audio_path,
         "--outfile", output_path,
-        "--resize_factor", "2",
-        "--face_det_batch_size", "4",
-        "--wav2lip_batch_size", "64",
         "--fps", "30",
         "--pads", str(pad_top), str(pad_bottom), str(pad_left), str(pad_right)
     ]
     if no_smooth:
         args.append("--nosmooth")
     if save_as_video:
         args.append("--save_as_video")
@@ -152,26 +172,17 @@ def generate_lipsync(video_path, audio_path, pad_top, pad_bottom, pad_left, pad_
         return "Не удалось создать выходное видео."
     print(f"Выходной файл создан по пути: {output_path}")
-    return output_path
-def process_all(text, speaker_wav, selected_language, speed, video, pad_top, pad_bottom, pad_left, pad_right, no_smooth, save_as_video):
-    # Шаг 1: Генерация аудио с клонированным голосом
-    audio_path = process_speech(text, speaker_wav, selected_language, speed)
-    # Шаг 2: Генерация видео с липсинком
-    video_path = video  # Предполагается, что video — это путь к файлу
-    result = generate_lipsync(video_path, audio_path, pad_top, pad_bottom, pad_left, pad_right, no_smooth, save_as_video)
-    return result
-with gr.Blocks() as demo:
-    gr.Markdown("# Объединение Voice Clone и Lipsync")
-    with gr.Row():
-        with gr.Column():
-            gr.Markdown("### Шаг 1: Настройки синтеза речи")
             text_input = gr.Textbox(label="Введите текст для генерации", placeholder="Введите ваш текст здесь...")
-            speaker_wav_input = gr.Audio(label="Загрузите аудио говорящего (WAV формат)", type="filepath")
             all_languages = list(language_options.keys()) + list(other_language.keys())
             language_input = gr.Dropdown(
@@ -189,37 +200,56 @@ with gr.Blocks() as demo:
                 info="Выберите скорость"
             )
-        with gr.Column():
-            gr.Markdown("### Шаг 2: Настройки липсинка")
-            video_input = gr.File(label="Видео или Изображение", type="filepath")
-            pad_top = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ сверху")
-            pad_bottom = gr.Slider(minimum=0, maximum=50, step=1, value=10, label="Отступ снизу")
-            pad_left = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ слева")
-            pad_right = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ справа")
-            no_smooth = gr.Checkbox(label="Без сглаживания", value=False)
-            save_as_video = gr.Checkbox(label="Сохранять как видео", value=True)
-    output_video = gr.Video(label="Сгенерированное видео")
-    with gr.Row():
-        generate_button = gr.Button("Сгенерировать")
-        gr.HTML("<div style='width:300px;'></div>")
-        reload_button = gr.Button("Перезапустить")
-    generate_button.click(
-        fn=process_all,
-        inputs=[text_input, speaker_wav_input, language_input, speed_input, video_input, pad_top, pad_bottom, pad_left, pad_right, no_smooth, save_as_video],
-        outputs=output_video
-    )
-    reload_button.click(fn=lambda: os._exit(0), inputs=None, outputs=None)
-def launch_gradio():
-    demo.launch(
-        debug=True,
-        server_port=8600,
-        server_name="0.0.0.0",
-    )
 if __name__ == "__main__":
     launch_gradio()

 import os
 import sys
 import uuid
+import subprocess
 import gradio as gr
 from pydub import AudioSegment
 from TTS.api import TTS
+# Импорт необходимых модулей для обеих функций
+# Глобальные переменные и настройки
 language_options = {
     "English (en)": "en",
     "Spanish (es)": "es",
     "Philippine": "tgl"
 }
+tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
+# Функции для голосового клонирования
 def clean_audio(audio_path):
     out_filename = f"output/cleaned_{uuid.uuid4()}.wav"
     lowpass_highpass = "lowpass=8000,highpass=75,"
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     output_file = "output/docout.wav"
     os.makedirs("output", exist_ok=True)
+    converted_audio = tts_conversion.voice_conversion_to_file(wav_data, target_wav=voice_audio_path,
+                                                              file_path=output_file)
+    return converted_audio
 def synthesize_speech(text, speaker_wav_path, language_iso, speed):
     output_file_xtts = "output/undocout.wav"
     tts_conversion = TTS(model_name="voice_conversion_models/multilingual/vctk/freevc24", progress_bar=False)
     output_file = "output/docout.wav"
     os.makedirs("output", exist_ok=True)
+    converted_audio = tts_conversion.voice_conversion_to_file(output_file_xtts, target_wav=speaker_wav_path,
+                                                              file_path=output_file)
+    return converted_audio
 def get_language_code(selected_language):
     if selected_language in language_options:
     cleaned_wav_path = clean_audio(speaker_wav)
     if selected_language in other_language:
+        return synthesize_and_convert_voice(text, language_code, cleaned_wav_path, speed)
     else:
+        return synthesize_speech(text, cleaned_wav_path, language_code, speed)
+def restart_program():
+    python = sys.executable
+    os.execl(python, python, *sys.argv)
+# Функции для липсинка
+def generate(video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video):
+    if video is None or audio is None or checkpoint is None:
+        return "Пожалуйста, загрузите видео/изображение и аудио файл, а также выберите чекпойнт."
+    print(f"Текущая рабочая директория: {os.getcwd()}")
+    print(f"Содержимое текущей директории: {os.listdir('.')}")
+    print(f"Проверка наличия 'inference.py': {os.path.exists('inference.py')}")
+    video_path = video  # Путь к видео или изображению
+    audio_path = audio  # Путь к аудио
+    print(f"Путь к видео: {video_path}")
+    print(f"Путь к аудио: {audio_path}")
     output_dir = "outputs"
     os.makedirs(output_dir, exist_ok=True)
     output_path = os.path.join(output_dir, "output.mp4")
+    print(f"Путь к выходному файлу: {output_path}")
     args = [
+        "--checkpoint_path", f"checkpoints/{checkpoint}.pth",
+        "--segmentation_path", "checkpoints/face_segmentation.pth",
+        "--no_seg",
+        "--no_sr",
         "--face", video_path,
         "--audio", audio_path,
         "--outfile", output_path,
+        "--resize_factor", str(resize_factor),
+        "--face_det_batch_size", "4",
+        "--wav2lip_batch_size", "64",
         "--fps", "30",
         "--pads", str(pad_top), str(pad_bottom), str(pad_left), str(pad_right)
     ]
     if no_smooth:
         args.append("--nosmooth")
     if save_as_video:
         args.append("--save_as_video")
         return "Не удалось создать выходное видео."
     print(f"Выходной файл создан по пути: {output_path}")
+    return output_path  # Возвращаем путь к выходному видео
+# Создание Gradio интерфейса с вкладками
+with gr.Blocks() as app:
+    gr.Markdown("# Voice Clone Union")
+    with gr.Tabs():
+        with gr.TabItem("Voice Clone"):
+            # Интерфейс для голосового клонирования
             text_input = gr.Textbox(label="Введите текст для генерации", placeholder="Введите ваш текст здесь...")
+            speaker_wav_input = gr.Audio(label="Загрузите аудио файла говорящего (WAV формат)", type="filepath")
             all_languages = list(language_options.keys()) + list(other_language.keys())
             language_input = gr.Dropdown(
                 info="Выберите скорость"
             )
+            output_audio = gr.Audio(label="Сгенерированное аудио", type="filepath")
+            with gr.Row():
+                synthesize_button = gr.Button("Сгенерировать")
+                gr.HTML("<div style='width:300px;'></div>")
+                reload_button = gr.Button("Перезапустить")
+            synthesize_button.click(
+                fn=process_speech,
+                inputs=[text_input, speaker_wav_input, language_input, speed_input],
+                outputs=output_audio
+            )
+            reload_button.click(fn=restart_program, inputs=None, outputs=None)
+        with gr.TabItem("Lipsync"):
+            # Интерфейс для липсинка
+            gr.Markdown("## Lipsync")
+            with gr.Row():
+                video = gr.File(label="Видео или Изображение", type="filepath")
+                audio = gr.File(label="Аудио", type="filepath")
+                with gr.Column():
+                    checkpoint = gr.Radio(["wav2lip", "wav2lip_gan"], label="Чекпойнт", value="wav2lip_gan", visible=False)
+                    no_smooth = gr.Checkbox(label="Без сглаживания", value=False)
+                    resize_factor = gr.Slider(minimum=1, maximum=4, step=1, label="Фактор изменения размера", value=2)
+            with gr.Row():
+                with gr.Column():
+                    pad_top = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ сверху")
+                    pad_bottom = gr.Slider(minimum=0, maximum=50, step=1, value=10, label="Отступ снизу")
+                    pad_left = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ слева")
+                    pad_right = gr.Slider(minimum=0, maximum=50, step=1, value=0, label="Отступ справа")
+                    save_as_video = gr.Checkbox(label="Сохранять как видео", value=True)
+                    generate_btn = gr.Button("Сгенерировать")
+                with gr.Column():
+                    result = gr.Video(label="Результат")
+            generate_btn.click(
+                generate,
+                inputs=[video, audio, checkpoint, no_smooth, resize_factor, pad_top, pad_bottom, pad_left, pad_right, save_as_video],
+                outputs=result,
+                # concurrency_limit=30
+            )
+    def launch_gradio():
+        app.launch(
+            share="True" in sys.argv,
+            inbrowser="--open" in sys.argv,
+            server_port=8600,
+            server_name="0.0.0.0",
+        )
 if __name__ == "__main__":
     launch_gradio()