Spaces:

jxu124
/

vits-genshin

Runtime error

App Files Files Community

xj commited on May 7, 2023

Commit

700e801

•

1 Parent(s): 1fdb3a8

[feat] modify layout

Browse files

Files changed (1) hide show

app.py +43 -89

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ logging.getLogger('numba').setLevel(logging.WARNING)
 logging.basicConfig(
     format="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
     datefmt="%Y-%m-%d %H:%M:%S",
-    level=os.environ.get("LOGLEVEL", "DEBUG").upper(),
     stream=sys.stdout,
 )
 logger = logging.getLogger("APP")
@@ -43,15 +43,16 @@ def get_text(text, hps):
     return text_norm, clean_text
 def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
     start = time.perf_counter()
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
     if len(text) > 200 and limitation:
         return f"输入文字过长！{len(text)}>100", None, None
-    if language == 0:
         text = f"[ZH]{text}[ZH]"
-    elif language == 1:
         text = f"[JA]{text}[JA]"
     else:
         text = f"{text}"
@@ -63,10 +64,7 @@ def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
                                length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
     logger.info("gen: " + text[:100])
-    with os.popen('free') as f:
-        logger.info(f"\n{f.read()}")
-    return "生成成功!", (22050, audio), f"生成耗时 {round(time.perf_counter()-start, 2)} s"
 def search_speaker(search_value):
     for s in speakers:
@@ -76,88 +74,44 @@ def search_speaker(search_value):
         if search_value in s:
             return s
-def change_lang(language):
-    if language == 0:
-        return 0.6, 0.668, 1.2
-    else:
-        return 0.6, 0.668, 1.1
-download_audio_js = """
-() =>{{
-    let root = document.querySelector("body > gradio-app");
-    if (root.shadowRoot != null)
-        root = root.shadowRoot;
-    let audio = root.querySelector("#tts-audio").querySelector("audio");
-    let text = root.querySelector("#input-text").querySelector("textarea");
-    if (audio == undefined)
-        return;
-    text = text.value;
-    if (text == undefined)
-        text = Math.floor(Math.random()*100000000);
-    audio = audio.src;
-    let oA = document.createElement("a");
-    oA.download = text.substr(0, 20)+'.wav';
-    oA.href = audio;
-    document.body.appendChild(oA);
-    oA.click();
-    oA.remove();
-}}
-"""
-if __name__ == '__main__':
-    parser = argparse.ArgumentParser()
-    parser.add_argument('--device', type=str, default='cpu')
-    parser.add_argument('--api', action="store_true", default=True)
-    parser.add_argument("--share", action="store_true", default=False, help="share gradio app")
-    parser.add_argument("--colab", action="store_true", default=False, help="share gradio app")
-    args = parser.parse_args()
-    device = torch.device(args.device)
-    hps_ms = utils.get_hparams_from_file(r'./model/config.json')
-    net_g_ms = SynthesizerTrn(
-        len(hps_ms.symbols),
-        hps_ms.data.filter_length // 2 + 1,
-        hps_ms.train.segment_size // hps_ms.data.hop_length,
-        n_speakers=hps_ms.data.n_speakers,
-        **hps_ms.model)
-    _ = net_g_ms.eval().to(device)
-    speakers = hps_ms.speakers
-    speakers = [f"{i}.{s}" for i, s in enumerate(speakers)]
-    model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
-    with gr.Blocks() as app:
-        gr.Markdown(
-            "# <center> VITS语音在线合成\n"
-        )
-        with gr.Tabs():
-            with gr.TabItem("vits"):
-                with gr.Row():
-                    with gr.Column():
-                        input_text = gr.Textbox(label="Text (200 words limitation) " if limitation else "Text", lines=5, value="可莉不知道喔。", elem_id=f"input-text")
-                        btn = gr.Button(value="Submit")
-                        with gr.Row():
-                            lang = gr.Dropdown(label="Language", choices=["中文", "日语", "中日混合（中文用[ZH][ZH]包裹起来，日文用[JA][JA]包裹起来）"],
-                                        type="index", value="中文")
-                            sid = gr.Dropdown(label="Speaker", choices=speakers, type="index", value=speakers[329])
-                        with gr.Row():
-                            ns = gr.Slider(label="noise_scale(控制感情变化程度)", minimum=0.1, maximum=1.0, step=0.1, value=0.1, interactive=True)
-                            nsw = gr.Slider(label="noise_scale_w(控制音素发音长度)", minimum=0.1, maximum=1.0, step=0.1, value=0.668, interactive=True)
-                            ls = gr.Slider(label="length_scale(控制整体语速)", minimum=0.1, maximum=2.0, step=0.1, value=1.2, interactive=True)
-                        with gr.Row():
-                            search = gr.Textbox(label="Search Speaker", lines=1)
-                            btn2 = gr.Button(value="Search")
-                    with gr.Column():
-                        o1 = gr.Textbox(label="Output Message")
-                        o2 = gr.Audio(label="Output Audio", elem_id=f"tts-audio")
-                        o3 = gr.Textbox(label="Extra Info")
-                        download = gr.Button("Download Audio")
-                    btn.click(vits, inputs=[input_text, lang, sid, ns, nsw, ls], outputs=[o1, o2, o3])
-                    download.click(None, [], [], _js=download_audio_js.format())
-                    btn2.click(search_speaker, inputs=[search], outputs=[sid])
-                    lang.change(change_lang, inputs=[lang], outputs=[ns, nsw, ls])
-            with gr.TabItem("可用人物一览"):
-                gr.Radio(label="Speaker", choices=speakers, interactive=False, type="index")
-    if args.colab:
-        webbrowser.open("http://127.0.0.1:7860")
-    app.queue(concurrency_count=1, api_open=args.api).launch(share=args.share)

 logging.basicConfig(
     format="%(asctime)s | %(levelname)s | %(name)s | %(message)s",
     datefmt="%Y-%m-%d %H:%M:%S",
+    level=os.environ.get("LOGLEVEL", "INFO").upper(),
     stream=sys.stdout,
 )
 logger = logging.getLogger("APP")
     return text_norm, clean_text
 def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
+    print(text, language, speaker_id, noise_scale, noise_scale_w, length_scale)
     start = time.perf_counter()
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
     if len(text) > 200 and limitation:
         return f"输入文字过长！{len(text)}>100", None, None
+    if language == "中文":
         text = f"[ZH]{text}[ZH]"
+    elif language == "日文":
         text = f"[JA]{text}[JA]"
     else:
         text = f"{text}"
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
                                length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
     logger.info("gen: " + text[:100])
+    return (22050, audio)
 def search_speaker(search_value):
     for s in speakers:
         if search_value in s:
             return s
+parser = argparse.ArgumentParser()
+parser.add_argument('--device', type=str, default='cpu')
+args = parser.parse_args()
+device = torch.device(args.device)
+hps_ms = utils.get_hparams_from_file(r'./model/config.json')
+net_g_ms = SynthesizerTrn(
+    len(hps_ms.symbols),
+    hps_ms.data.filter_length // 2 + 1,
+    hps_ms.train.segment_size // hps_ms.data.hop_length,
+    n_speakers=hps_ms.data.n_speakers,
+    **hps_ms.model)
+_ = net_g_ms.eval().to(device)
+speakers = hps_ms.speakers
+speakers = [f"{i}.{s}" for i, s in enumerate(speakers)]
+model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
+demo = gr.Interface(
+    fn=vits,
+    inputs=[
+        gr.Textbox(label="Text (200 words limitation)", lines=5, value="可莉不知道哦！", elem_id=f"input-text"),
+        gr.Radio(label="language", choices=["中文", "日语", "中日混合（中文用[ZH][ZH]包裹起来，日文用[JA][JA]包裹起来）"], value="中文"),
+        gr.Dropdown(label="Speaker", choices=speakers, type="index", value=speakers[329]),
+        gr.Slider(label="noise_scale (控制感情变化程度)", minimum=0.1, maximum=1.0, step=0.1, value=0.1, interactive=True),
+        gr.Slider(label="noise_scale_w (控制音素发音长度)", minimum=0.1, maximum=1.0, step=0.1, value=0.7, interactive=True),
+        gr.Slider(label="length_scale (控制整体语速)", minimum=0.1, maximum=2.0, step=0.1, value=1.2, interactive=True),
+    ],
+    outputs=gr.Audio(label="Output Audio", elem_id=f"tts-audio"),
+    examples=[
+        ["可莉不知道哦！", "中文", speakers[329], 0.1, 0.6, 1.2],
+        ["该做什么好呢？", "中文", speakers[104], 0.1, 0.8, 1.2],
+        ["我给你讲个故事吧！", "中文", speakers[122], 0.1, 0.8, 1.2],
+    ],
+    title="VITS Genshin",
+    description="",
+)
+if __name__ == "__main__":
+    demo.queue(concurrency_count=1)
+    demo.launch()