echo

Build error

App Files Files Community

fffiloni commited on Oct 30, 2024

Commit

32d04b2

verified ·

1 Parent(s): 8d18137

add MaskGCT voice cloning option

Browse files

Files changed (1) hide show

webgui.py +38 -0

webgui.py CHANGED Viewed

@@ -212,6 +212,22 @@ def process_video(uploaded_img, uploaded_audio, width, height, length, seed, fac
     video_clip.write_videofile(str(final_output_path), codec="libx264", audio_codec="aac")
     return final_output_path
 with gr.Blocks() as demo:
     gr.Markdown('# EchoMimic')
@@ -228,6 +244,20 @@ with gr.Blocks() as demo:
         with gr.Column():
             uploaded_img = gr.Image(type="filepath", label="Reference Image")
             uploaded_audio = gr.Audio(type="filepath", label="Input Audio")
             with gr.Accordion(label=advanced_settings_label, open=False):
                 with gr.Row():
                     width = gr.Slider(label="Width", minimum=128, maximum=1024, value=default_values["width"], interactive=available_property)
@@ -297,6 +327,14 @@ with gr.Blocks() as demo:
         output_video= final_output_path
         return final_output_path
     generate_button.click(
         generate_video,
         inputs=[

     video_clip.write_videofile(str(final_output_path), codec="libx264", audio_codec="aac")
     return final_output_path
+def get_maskGCT_TTS(prompt_audio_maskGCT, audio_to_clone):
+    try:
+        client = Client("amphion/maskgct")
+    except:
+        raise gr.Error(f"amphion/maskgct space's api might not be ready, please wait, or upload an audio instead.")
+    result = client.predict(
+        prompt_wav = handle_file(audio_to_clone),
+        target_text = prompt_audio_maskGCT,
+        target_len=-1,
+		n_timesteps=25,
+		api_name="/predict"
+    )
+    print(result)
+    return result, gr.update(value=result, visible=True)
 with gr.Blocks() as demo:
     gr.Markdown('# EchoMimic')
         with gr.Column():
             uploaded_img = gr.Image(type="filepath", label="Reference Image")
             uploaded_audio = gr.Audio(type="filepath", label="Input Audio")
+            preprocess_audio_file = gr.File(visible=False)
+            with gr.Accordion(label="Voice cloning with MaskGCT", open=False):
+                prompt_audio_maskGCT = gr.Textbox(
+                    label = "Text to synthetize",
+                    lines = 2,
+                    max_lines = 2,
+                    elem_id = "text-synth-maskGCT"
+                )
+                audio_to_clone_maskGCT = gr.Audio(
+                    label = "Voice to clone",
+                    type = "filepath",
+                    elem_id = "audio-clone-elm-maskGCT"
+                )
+                gen_maskGCT_voice_btn = gr.Button("Generate voice clone (optional)")
             with gr.Accordion(label=advanced_settings_label, open=False):
                 with gr.Row():
                     width = gr.Slider(label="Width", minimum=128, maximum=1024, value=default_values["width"], interactive=available_property)
         output_video= final_output_path
         return final_output_path
+    gen_maskGCT_voice_btn.click(
+        fn = get_maskGCT_TTS,
+        inputs = [prompt_audio_maskGCT, audio_to_clone_maskGCT],
+        outputs = [voice, preprocess_audio_file],
+        queue = False,
+        show_api = False
+    )
     generate_button.click(
         generate_video,
         inputs=[