Spaces:

Mahiruoshi
/

MyGO_VIts-bert

Running

App Files Files Community

Mahiruoshi commited on Sep 30, 2023

Commit

5fa1ed0

•

1 Parent(s): 37ea278

Update app.py

Browse files

Files changed (1) hide show

app.py +103 -45

app.py CHANGED Viewed

@@ -1,8 +1,6 @@
-import sys, os
-if sys.platform == "darwin":
-    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 import logging
 logging.getLogger("numba").setLevel(logging.WARNING)
@@ -10,7 +8,9 @@ logging.getLogger("markdown_it").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
 logging.getLogger("matplotlib").setLevel(logging.WARNING)
-logging.basicConfig(level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s")
 logger = logging.getLogger(__name__)
@@ -25,9 +25,14 @@ from text.cleaner import clean_text
 import gradio as gr
 import webbrowser
 net_g = None
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
@@ -63,9 +68,10 @@ def get_text(text, language_str, hps):
     language = torch.LongTensor(language)
     return bert, ja_bert, phone, tone, language
-def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid):
     global net_g
-    bert, ja_bert, phones, tones, lang_ids = get_text(text,  "JP", hps)
     with torch.no_grad():
         x_tst = phones.to(device).unsqueeze(0)
         tones = tones.to(device).unsqueeze(0)
@@ -96,26 +102,48 @@ def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid):
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
         return audio
-def tts_fn(text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale):
     with torch.no_grad():
-        audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker)
     return "Success", (hps.data.sampling_rate, audio)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
-    parser.add_argument("--model_dir", default="./logs/Mygo/G_44000.pth", help="path of your model")
-    parser.add_argument("--config_dir", default="./configs/config.json", help="path of your config file")
-    parser.add_argument("--share", default=False, help="make link public")
-    parser.add_argument("-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log")
     args = parser.parse_args()
     if args.debug:
         logger.info("Enable DEBUG-LEVEL log")
         logging.basicConfig(level=logging.DEBUG)
-    hps = utils.get_hparams_from_file(args.config_dir)
-    device = "cuda:0" if torch.cuda.is_available() else "cpu"
-    '''
     device = (
         "cuda:0"
         if torch.cuda.is_available()
@@ -125,42 +153,72 @@ if __name__ == "__main__":
             else "cpu"
         )
     )
-    '''
     net_g = SynthesizerTrn(
         len(symbols),
         hps.data.filter_length // 2 + 1,
         hps.train.segment_size // hps.data.hop_length,
         n_speakers=hps.data.n_speakers,
-        **hps.model).to(device)
     _ = net_g.eval()
-    _ = utils.load_checkpoint(args.model_dir, net_g, None, skip_optimizer=True)
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
     with gr.Blocks() as app:
-        with gr.Row():
-            with gr.Column():
-                gr.Markdown(value="""
-                Mygo Vits-bert
-                """)
-                text = gr.TextArea(label="Text", placeholder="Input Text Here",
-                                      value="私たちは、一緒にはいられない。")
-                speaker = gr.Dropdown(choices=speakers, value=speakers[0], label='Speaker')
-                sdp_ratio = gr.Slider(minimum=0, maximum=1, value=0.2, step=0.1, label='SDP/DP混���比')
-                noise_scale = gr.Slider(minimum=0.1, maximum=1.5, value=0.6, step=0.1, label='感情调节')
-                noise_scale_w = gr.Slider(minimum=0.1, maximum=1.4, value=0.8, step=0.1, label='音素长度')
-                length_scale = gr.Slider(minimum=0.1, maximum=2, value=1, step=0.1, label='生成长度')
-                btn = gr.Button("生成！", variant="primary")
-            with gr.Column():
-                text_output = gr.Textbox(label="Message")
-                audio_output = gr.Audio(label="Output Audio")
-        btn.click(tts_fn,
-                inputs=[text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale],
-                outputs=[text_output, audio_output])
-#    webbrowser.open("http://127.0.0.1:6006")
-#    app.launch(server_port=6006, show_error=True)
-    app.launch(show_error=True)

+# flake8: noqa: E402
+import sys, os
 import logging
 logging.getLogger("numba").setLevel(logging.WARNING)
 logging.getLogger("urllib3").setLevel(logging.WARNING)
 logging.getLogger("matplotlib").setLevel(logging.WARNING)
+logging.basicConfig(
+    level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s"
+)
 logger = logging.getLogger(__name__)
 import gradio as gr
 import webbrowser
 net_g = None
+if sys.platform == "darwin" and torch.backends.mps.is_available():
+    device = "mps"
+    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
+else:
+    device = "cuda"
 def get_text(text, language_str, hps):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     language = torch.LongTensor(language)
     return bert, ja_bert, phone, tone, language
+def infer(text, sdp_ratio, noise_scale, noise_scale_w, length_scale, sid, language):
     global net_g
+    bert, ja_bert, phones, tones, lang_ids = get_text(text, language, hps)
     with torch.no_grad():
         x_tst = phones.to(device).unsqueeze(0)
         tones = tones.to(device).unsqueeze(0)
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers
         return audio
+def tts_fn(
+    text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, language
+):
     with torch.no_grad():
+        audio = infer(
+            text,
+            sdp_ratio=sdp_ratio,
+            noise_scale=noise_scale,
+            noise_scale_w=noise_scale_w,
+            length_scale=length_scale,
+            sid=speaker,
+            language=language,
+        )
+        torch.cuda.empty_cache()
     return "Success", (hps.data.sampling_rate, audio)
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "-m", "--model", default="./logs/Mygo/G_63000.pth", help="path of your model"
+    )
+    parser.add_argument(
+        "-c",
+        "--config",
+        default="./logs/Mygo/config.json",
+        help="path of your config file",
+    )
+    parser.add_argument(
+        "--share", default=True, help="make link public", action="store_true"
+    )
+    parser.add_argument(
+        "-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log"
+    )
     args = parser.parse_args()
     if args.debug:
         logger.info("Enable DEBUG-LEVEL log")
         logging.basicConfig(level=logging.DEBUG)
+    hps = utils.get_hparams_from_file(args.config)
     device = (
         "cuda:0"
         if torch.cuda.is_available()
             else "cpu"
         )
     )
     net_g = SynthesizerTrn(
         len(symbols),
         hps.data.filter_length // 2 + 1,
         hps.train.segment_size // hps.data.hop_length,
         n_speakers=hps.data.n_speakers,
+        **hps.model,
+    ).to(device)
     _ = net_g.eval()
+    _ = utils.load_checkpoint(args.model, net_g, None, skip_optimizer=True)
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
+    languages = ["ZH", "JP"]
     with gr.Blocks() as app:
+        for name in speakers:
+            with gr.TabItem(name):
+                with gr.Row():
+                    with gr.Column():
+                        with gr.Row():
+                                                gr.Markdown(
+                                                    '<div align="center">'
+                                                    f'<img style="width:auto;height:400px;" src="file/image/{name}.png">'
+                                                    '</div>'
+                                                )
+                        text = gr.TextArea(
+                            label="Text",
+                            placeholder="Input Text Here",
+                            value="私たちは、一緒にはいられない。",
+                        )
+                        speaker = gr.Dropdown(
+                            choices=speakers, value=name, label="Speaker"
+                        )
+                    with gr.Column():
+                        text_output = gr.Textbox(label="Message")
+                        audio_output = gr.Audio(label="Output Audio")
+                        btn = gr.Button("Generate!", variant="primary")
+                        sdp_ratio = gr.Slider(
+                            minimum=0, maximum=1, value=0.2, step=0.01, label="SDP Ratio"
+                        )
+                        noise_scale = gr.Slider(
+                            minimum=0.1, maximum=2, value=0.6, step=0.01, label="Noise Scale"
+                        )
+                        noise_scale_w = gr.Slider(
+                            minimum=0.1, maximum=2, value=0.8, step=0.01, label="Noise Scale W"
+                        )
+                        length_scale = gr.Slider(
+                            minimum=0.1, maximum=2, value=1, step=0.01, label="Length Scale"
+                        )
+                        language = gr.Dropdown(
+                            choices=languages, value=languages[1], label="Language"
+                        )
+            btn.click(
+                tts_fn,
+                inputs=[
+                    text,
+                    speaker,
+                    sdp_ratio,
+                    noise_scale,
+                    noise_scale_w,
+                    length_scale,
+                    language,
+                ],
+                outputs=[text_output, audio_output],
+            )
+    webbrowser.open("http://127.0.0.1:7860")
+    app.launch(share=args.share)