Spaces:

kevinwang676
/

VITS2-Mandarin

Runtime error

App Files Files Community

kevinwang676 commited on Sep 23, 2023

Commit

1f224f2

•

1 Parent(s): 7a44c08

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -124

app.py CHANGED Viewed

@@ -1,37 +1,14 @@
-import librosa
-import matplotlib.pyplot as plt
 import os
-import json
-import math
-import requests
 import torch
-from torch import nn
-from torch.nn import functional as F
-from torch.utils.data import DataLoader
 import commons
 import utils
-from data_utils import TextAudioLoader, TextAudioCollate, TextAudioSpeakerLoader, TextAudioSpeakerCollate
 from models import SynthesizerTrn
 from text.symbols import symbols
 from text import text_to_sequence
-import langdetect
 from scipy.io.wavfile import write
-import re
-from scipy import signal
-import gradio as gr
-'''
-from phonemizer.backend.espeak.wrapper import EspeakWrapper
-_ESPEAK_LIBRARY = 'C:\Program Files\eSpeak NG\libespeak-ng.dll'
-EspeakWrapper.set_library(_ESPEAK_LIBRARY)
-'''
-# check device
-device = "cuda:0" if torch.cuda.is_available() else "cpu"
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
@@ -40,109 +17,54 @@ def get_text(text, hps):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-def langdetector(text):  # from PolyLangVITS
-    try:
-        lang = langdetect.detect(text).lower()
-        if lang == 'ko':
-            return f'[KO]{text}[KO]'
-        elif lang == 'ja':
-            return f'[JA]{text}[JA]'
-        elif lang == 'en':
-            return f'[EN]{text}[EN]'
-        elif lang == 'zh-cn':
-            return f'[ZH]{text}[ZH]'
-        else:
-            return text
-    except Exception as e:
-        return text
-def vcss(inputstr): # single
-    fltstr = re.sub(r"[\[\]\(\)\{\}]", "", inputstr)
-    #fltstr = langdetector(fltstr) #- optional for cjke/cjks type cleaners
-    stn_tst = get_text(fltstr, hps)
-    speed = 1
-    output_dir = 'output'
-    sid = 0
     with torch.no_grad():
-        x_tst = stn_tst.to(device).unsqueeze(0)
-        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)
-        audio = net_g.infer(x_tst, x_tst_lengths, noise_scale=.667, noise_scale_w=0.8, length_scale=1 / speed)[0][
-                0, 0].data.cpu().float().numpy()
-    write("output.wav", hps.data.sampling_rate, audio)
-    return "output.wav"
-"""
-def vcms(inputstr, sid):
-    fltstr = re.sub(r"[\[\]\(\)\{\}]", "", inputstr)
-    fltstr = langdetector(fltstr)
-    stn_tst = get_text(fltstr, hps)
-    speed = 1
-    output_dir = 'output'
-    with torch.no_grad():
-        x_tst = stn_tst.to(device).unsqueeze(0)
-        x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(device)
-        sid = torch.LongTensor([sid]).to(device)
-        audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8, length_scale=1 / speed)[0][
-            0, 0].data.cpu().float().numpy()
-    write(f'./{output_dir}/output_{sid}.wav', hps.data.sampling_rate, audio)
-    print(f'./{output_dir}/output_{sid}.wav Generated!')
-"""
-hps = utils.get_hparams_from_file("./configs/config.json")
-if "use_mel_posterior_encoder" in hps.model.keys() and hps.model.use_mel_posterior_encoder == True:
-    print("Using mel posterior encoder for VITS2")
-    posterior_channels = 80  # vits2
-    hps.data.use_mel_posterior_encoder = True
-else:
-    print("Using lin posterior encoder for VITS1")
-    posterior_channels = hps.data.filter_length // 2 + 1
-    hps.data.use_mel_posterior_encoder = False
-net_g = SynthesizerTrn(
-    len(symbols),
-    posterior_channels,
-    hps.train.segment_size // hps.data.hop_length,
-    # n_speakers=hps.data.n_speakers, #- for multi speaker
-    **hps.model).to(device)
-_ = net_g.eval()
-_ = utils.load_checkpoint("./logs/G_6100.pth", net_g, None)
-# - text input
-def infer(text):
-    return vcss(text)
-app = gr.Blocks()
-with app:
-    gr.Markdown("# <center>🥳🎶🎡 - VITS2真实拟声</center>")
-    gr.Markdown("## <center>🌟 - 稻妻神里流太刀术皆传 神里绫华参上 </center>")
-    gr.Markdown("### <center>🌊 - 更多精彩应用，敬请关注[滔滔AI](http://www.talktalkai.com)；滔滔AI，为爱滔滔！💕</center>")
-    with gr.Row():
-        with gr.Column():
-            inp1 = gr.Textbox(label="请在这里填写您想合成的文本", placeholder="想说却还没说的 还很多...", lines=3)
-            btn1 = gr.Button("3.一键推理", variant="primary")
-        with gr.Column():
-            out1 = gr.Audio(type="filepath", label="为您合成的神里绫华语音")
-    btn1.click(infer, inp1, out1)
-    gr.Markdown("### <center>注意❗：请不要生成会对个人以及组织造成侵害的内容，此程序仅供科研、学习及个人娱乐使用。</center>")
-    gr.HTML('''
-        <div class="footer">
-                    <p>🌊🏞️🎶 - 江水东流急，滔滔无尽声。 明·顾璘
-                    </p>
-        </div>
-    ''')
-app.launch(show_error=True)

+import argparse
+import gradio as gr
+from gradio import components
 import os
 import torch
 import commons
 import utils
 from models import SynthesizerTrn
 from text.symbols import symbols
 from text import text_to_sequence
 from scipy.io.wavfile import write
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
     text_norm = torch.LongTensor(text_norm)
     return text_norm
+def tts(model_path, config_path, text):
+    model_path = "./logs/G_23300.pth"
+    config_path = "./configs/config.json"
+    hps = utils.get_hparams_from_file(config_path)
+    if "use_mel_posterior_encoder" in hps.model.keys() and hps.model.use_mel_posterior_encoder == True:
+        posterior_channels = 80
+        hps.data.use_mel_posterior_encoder = True
+    else:
+        posterior_channels = hps.data.filter_length // 2 + 1
+        hps.data.use_mel_posterior_encoder = False
+    net_g = SynthesizerTrn(
+        len(symbols),
+        posterior_channels,
+        hps.train.segment_size // hps.data.hop_length,
+        **hps.model).cuda()
+    _ = net_g.eval()
+    _ = utils.load_checkpoint(model_path, net_g, None)
+    stn_tst = get_text(text, hps)
+    x_tst = stn_tst.cuda().unsqueeze(0)
+    x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).cuda()
     with torch.no_grad():
+        audio = net_g.infer(x_tst, x_tst_lengths, noise_scale=.667, noise_scale_w=0.8, length_scale=1)[0][0,0].data.cpu().float().numpy()
+    output_wav_path = "output.wav"
+    write(output_wav_path, hps.data.sampling_rate, audio)
+    return output_wav_path
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--model_path', type=str, default="./logs/G_23300.pth", help='Path to the model file.')
+    parser.add_argument('--config_path', type=str, default="./configs/config.json", help='Path to the config file.')
+    args = parser.parse_args()
+    model_files = [f for f in os.listdir('./logs/') if f.endswith('.pth')]
+    model_files.sort(key=lambda x: int(x.split('_')[-1].split('.')[0]), reverse=True)
+    config_files = [f for f in os.listdir('./configs/') if f.endswith('.json')]
+    default_model_file = args.model_path if args.model_path else (model_files[0] if model_files else None)
+    default_config_file = args.config_path if args.config_path else 'config.json'
+    gr.Interface(
+        fn=tts,
+        inputs=components.Textbox(label="Text Input"),
+        outputs=components.Audio(type='filepath', label="Generated Speech"),
+        live=False
+    ).launch(show_error=True)