Spaces:

jxu124
/

vits-genshin

Runtime error

App Files Files Community

xj commited on May 7, 2023

Commit

8f95475

•

1 Parent(s): 700e801

[bug] 修复了bugs

Browse files

Files changed (2) hide show

README.md +2 -2
app.py +39 -40

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 title: Vits Genshin
-emoji: 🐢
 colorFrom: gray
 colorTo: indigo
 sdk: gradio
-sdk_version: 3.28.0
 app_file: app.py
 pinned: false
 license: mit

 ---
 title: Vits Genshin
+emoji: 🐰
 colorFrom: gray
 colorTo: indigo
 sdk: gradio
+sdk_version: 3.28.1
 app_file: app.py
 pinned: false
 license: mit

app.py CHANGED Viewed

@@ -43,13 +43,12 @@ def get_text(text, hps):
     return text_norm, clean_text
 def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
-    print(text, language, speaker_id, noise_scale, noise_scale_w, length_scale)
     start = time.perf_counter()
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
     if len(text) > 200 and limitation:
-        return f"输入文字过长！{len(text)}>100", None, None
     if language == "中文":
         text = f"[ZH]{text}[ZH]"
     elif language == "日文":
@@ -63,7 +62,7 @@ def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
         speaker_id = LongTensor([speaker_id]).to(device)
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
                                length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
-    logger.info("gen: " + text[:100])
     return (22050, audio)
 def search_speaker(search_value):
@@ -75,43 +74,43 @@ def search_speaker(search_value):
             return s
-parser = argparse.ArgumentParser()
-parser.add_argument('--device', type=str, default='cpu')
-args = parser.parse_args()
-device = torch.device(args.device)
-hps_ms = utils.get_hparams_from_file(r'./model/config.json')
-net_g_ms = SynthesizerTrn(
-    len(hps_ms.symbols),
-    hps_ms.data.filter_length // 2 + 1,
-    hps_ms.train.segment_size // hps_ms.data.hop_length,
-    n_speakers=hps_ms.data.n_speakers,
-    **hps_ms.model)
-_ = net_g_ms.eval().to(device)
-speakers = hps_ms.speakers
-speakers = [f"{i}.{s}" for i, s in enumerate(speakers)]
-model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
-demo = gr.Interface(
-    fn=vits,
-    inputs=[
-        gr.Textbox(label="Text (200 words limitation)", lines=5, value="可莉不知道哦！", elem_id=f"input-text"),
-        gr.Radio(label="language", choices=["中文", "日语", "中日混合（中文用[ZH][ZH]包裹起来，日文用[JA][JA]包裹起来）"], value="中文"),
-        gr.Dropdown(label="Speaker", choices=speakers, type="index", value=speakers[329]),
-        gr.Slider(label="noise_scale (控制感情变化程度)", minimum=0.1, maximum=1.0, step=0.1, value=0.1, interactive=True),
-        gr.Slider(label="noise_scale_w (控制音素发音长度)", minimum=0.1, maximum=1.0, step=0.1, value=0.7, interactive=True),
-        gr.Slider(label="length_scale (控制整体语速)", minimum=0.1, maximum=2.0, step=0.1, value=1.2, interactive=True),
-    ],
-    outputs=gr.Audio(label="Output Audio", elem_id=f"tts-audio"),
-    examples=[
-        ["可莉不知道哦！", "中文", speakers[329], 0.1, 0.6, 1.2],
-        ["该做什么好呢？", "中文", speakers[104], 0.1, 0.8, 1.2],
-        ["我给你讲个故事吧！", "中文", speakers[122], 0.1, 0.8, 1.2],
-    ],
-    title="VITS Genshin",
-    description="",
-)
-if __name__ == "__main__":
-    demo.queue(concurrency_count=1)
-    demo.launch()

     return text_norm, clean_text
 def vits(text, language, speaker_id, noise_scale, noise_scale_w, length_scale):
     start = time.perf_counter()
     if not len(text):
         return "输入文本不能为空！", None, None
     text = text.replace('\n', ' ').replace('\r', '').replace(" ", "")
     if len(text) > 200 and limitation:
+        return f"输入文字过长！{len(text)}>200", None, None
     if language == "中文":
         text = f"[ZH]{text}[ZH]"
     elif language == "日文":
         speaker_id = LongTensor([speaker_id]).to(device)
         audio = net_g_ms.infer(x_tst, x_tst_lengths, sid=speaker_id, noise_scale=noise_scale, noise_scale_w=noise_scale_w,
                                length_scale=length_scale)[0][0, 0].data.cpu().float().numpy()
+    logger.info(f"gen: {(text[:100], language, speaker_id, noise_scale, noise_scale_w, length_scale)}")
     return (22050, audio)
 def search_speaker(search_value):
             return s
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--device', type=str, default='cpu')
+    args = parser.parse_args()
+    device = torch.device(args.device)
+    hps_ms = utils.get_hparams_from_file(r'./model/config.json')
+    net_g_ms = SynthesizerTrn(
+        len(hps_ms.symbols),
+        hps_ms.data.filter_length // 2 + 1,
+        hps_ms.train.segment_size // hps_ms.data.hop_length,
+        n_speakers=hps_ms.data.n_speakers,
+        **hps_ms.model)
+    _ = net_g_ms.eval().to(device)
+    speakers = hps_ms.speakers
+    speakers = [f"{i}.{s}" for i, s in enumerate(speakers)]
+    model, optimizer, learning_rate, epochs = utils.load_checkpoint(r'./model/G_953000.pth', net_g_ms, None)
+    app = gr.Interface(
+        fn=vits,
+        inputs=[
+            gr.Textbox(label="Text (200 words limitation)", lines=5, value="可莉不知道哦！", elem_id=f"input-text"),
+            gr.Radio(label="language", choices=["中文", "日语", "中日混合（中文用[ZH][ZH]包裹起来，日文用[JA][JA]包裹起来）"], value="中文"),
+            gr.Dropdown(label="Speaker", choices=speakers, type="index", value=speakers[329]),
+            gr.Slider(label="noise_scale (控制感情变化程度)", minimum=0.1, maximum=1.0, step=0.1, value=0.1, interactive=True),
+            gr.Slider(label="noise_scale_w (控制音素发音长度)", minimum=0.1, maximum=1.0, step=0.1, value=0.7, interactive=True),
+            gr.Slider(label="length_scale (控制整体语速)", minimum=0.1, maximum=2.0, step=0.1, value=1.2, interactive=True),
+        ],
+        outputs=gr.Audio(label="Output Audio", elem_id=f"tts-audio"),
+        examples=[
+            ["可莉不知道哦！", "中文", speakers[329], 0.1, 0.6, 1.2],
+            ["该做什么好呢？", "中文", speakers[104], 0.1, 0.8, 1.2],
+            ["我���你讲个故事吧！", "中文", speakers[122], 0.1, 0.8, 1.2],
+        ],
+        title="VITS Genshin",
+        description="",
+    )
+    app.queue(concurrency_count=1)
+    app.launch()