Spaces:

jianuo
/

TTS_all_in_one

Runtime error

App Files Files Community

jianuo commited on Feb 4, 2024

Commit

c02528e

1 Parent(s): 454c9e4

支持输出报错的函数调用栈，并用更优雅的方式切换本地推理时的工作目录

Browse files

Files changed (3) hide show

TTSs/base_tts.py +5 -1
TTSs/genshin_local/genshin_bg.py +523 -497
TTSs/genshin_local/genshin_local_tts.py +27 -20

TTSs/base_tts.py CHANGED Viewed

@@ -3,6 +3,8 @@ import io
 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
 import gradio as gr
@@ -136,6 +138,8 @@ class Base_TTS(metaclass=abc.ABCMeta):
             return None, *mix_background_music(original_audio, 背景音乐, TTS_up, bg_up)
         except Exception as e:
-            return str(e), None, None

 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
+import traceback
 import gradio as gr
             return None, *mix_background_music(original_audio, 背景音乐, TTS_up, bg_up)
         except Exception as e:
+            msg = traceback.format_exc()
+            return msg + '\n\n' + str(e), None, None

TTSs/genshin_local/genshin_bg.py CHANGED Viewed

@@ -1,161 +1,168 @@
 # flake8: noqa: E402
 import os
 import sys
-genshin_path = os.path.join(os.path.abspath(os.path.dirname(__file__)), 'genshin')
-sys.path.append(os.path.abspath(os.path.dirname(__file__)))
-sys.path.append(genshin_path)
-os.chdir(genshin_path)
-import genshin.re_matching as re_matching
-from genshin.tools.sentence import split_by_language
-import torch
-import genshin.utils as utils
-from genshin.infer import infer, latest_version, get_net_g, infer_multilang
 import gradio as gr
-import numpy as np
-from genshin.config import config
-from genshin.tools.translate import translate
 import librosa
-net_g = None
-device = config.webui_config.device
-if device == "mps":
-    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
-def generate_audio(
-        slices,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        speaker,
-        language,
-        reference_audio,
-        emotion,
-        style_text,
-        style_weight,
-        skip_start=False,
-        skip_end=False,
-):
-    audio_list = []
-    # silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
-    with torch.no_grad():
-        for idx, piece in enumerate(slices):
-            skip_start = idx != 0
-            skip_end = idx != len(slices) - 1
-            audio = infer(
-                piece,
-                reference_audio=reference_audio,
-                emotion=emotion,
-                sdp_ratio=sdp_ratio,
-                noise_scale=noise_scale,
-                noise_scale_w=noise_scale_w,
-                length_scale=length_scale,
-                sid=speaker,
-                language=language,
-                hps=hps,
-                net_g=net_g,
-                device=device,
-                skip_start=skip_start,
-                skip_end=skip_end,
-                style_text=style_text,
-                style_weight=style_weight,
-            )
-            audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
-            audio_list.append(audio16bit)
-    return audio_list
-def generate_audio_multilang(
-        slices,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        speaker,
-        language,
-        reference_audio,
-        emotion,
-        skip_start=False,
-        skip_end=False,
-):
-    audio_list = []
-    # silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
-    with torch.no_grad():
-        for idx, piece in enumerate(slices):
-            skip_start = idx != 0
-            skip_end = idx != len(slices) - 1
-            audio = infer_multilang(
-                piece,
-                reference_audio=reference_audio,
-                emotion=emotion,
-                sdp_ratio=sdp_ratio,
-                noise_scale=noise_scale,
-                noise_scale_w=noise_scale_w,
-                length_scale=length_scale,
-                sid=speaker,
-                language=language[idx],
-                hps=hps,
-                net_g=net_g,
-                device=device,
-                skip_start=skip_start,
-                skip_end=skip_end,
-            )
-            audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
-            audio_list.append(audio16bit)
-    return audio_list
-def tts_split(
-        text: str,
-        speaker,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        language,
-        cut_by_sent,
-        interval_between_para,
-        interval_between_sent,
-        reference_audio,
-        emotion,
-        style_text,
-        style_weight,
-):
-    while text.find("\n\n") != -1:
-        text = text.replace("\n\n", "\n")
-    text = text.replace("|", "")
-    para_list = re_matching.cut_para(text)
-    para_list = [p for p in para_list if p != ""]
-    audio_list = []
-    for p in para_list:
-        if not cut_by_sent:
-            audio_list += process_text(
-                p,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-                reference_audio,
-                emotion,
-                style_text,
-                style_weight,
-            )
-            silence = np.zeros((int)(44100 * interval_between_para), dtype=np.int16)
-            audio_list.append(silence)
-        else:
-            audio_list_sent = []
-            sent_list = re_matching.cut_sent(p)
-            sent_list = [s for s in sent_list if s != ""]
-            for s in sent_list:
-                audio_list_sent += process_text(
-                    s,
                     speaker,
                     sdp_ratio,
                     noise_scale,
@@ -167,83 +174,119 @@ def tts_split(
                     style_text,
                     style_weight,
                 )
-                silence = np.zeros((int)(44100 * interval_between_sent))
-                audio_list_sent.append(silence)
-            if (interval_between_para - interval_between_sent) > 0:
-                silence = np.zeros(
-                    (int)(44100 * (interval_between_para - interval_between_sent))
-                )
-                audio_list_sent.append(silence)
-            audio16bit = gr.processing_utils.convert_to_16_bit_wav(
-                np.concatenate(audio_list_sent)
-            )  # 对完整句子做音量归一
-            audio_list.append(audio16bit)
-    audio_concat = np.concatenate(audio_list)
-    return ("Success", (hps.data.sampling_rate, audio_concat))
-def process_mix(slice):
-    _speaker = slice.pop()
-    _text, _lang = [], []
-    for lang, content in slice:
-        content = content.split("|")
-        content = [part for part in content if part != ""]
-        if len(content) == 0:
-            continue
-        if len(_text) == 0:
-            _text = [[part] for part in content]
-            _lang = [[lang] for part in content]
-        else:
-            _text[-1].append(content[0])
-            _lang[-1].append(lang)
-            if len(content) > 1:
-                _text += [[part] for part in content[1:]]
-                _lang += [[lang] for part in content[1:]]
-    return _text, _lang, _speaker
-def process_auto(text):
-    _text, _lang = [], []
-    for slice in text.split("|"):
-        if slice == "":
-            continue
-        temp_text, temp_lang = [], []
-        sentences_list = split_by_language(slice, target_languages=["zh", "ja", "en"])
-        for sentence, lang in sentences_list:
-            if sentence == "":
                 continue
-            temp_text.append(sentence)
-            temp_lang.append(lang.upper())
-        _text.append(temp_text)
-        _lang.append(temp_lang)
-    return _text, _lang
-def process_text(
-        text: str,
-        speaker,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        language,
-        reference_audio,
-        emotion,
-        style_text=None,
-        style_weight=0,
-):
-    audio_list = []
-    if language == "mix":
-        bool_valid, str_valid = re_matching.validate_text(text)
-        if not bool_valid:
-            return str_valid, (
-                hps.data.sampling_rate,
-                np.concatenate([np.zeros(hps.data.sampling_rate // 2)]),
-            )
-        for slice in re_matching.text_matching(text):
-            _text, _lang, _speaker = process_mix(slice)
-            if _speaker is None:
                 continue
             print(f"Text: {_text}\nLang: {_lang}")
             audio_list.extend(
                 generate_audio_multilang(
@@ -252,293 +295,276 @@ def process_text(
                     noise_scale,
                     noise_scale_w,
                     length_scale,
-                    _speaker,
                     _lang,
                     reference_audio,
                     emotion,
                 )
             )
-    elif language.lower() == "auto":
-        _text, _lang = process_auto(text)
-        print(f"Text: {_text}\nLang: {_lang}")
-        audio_list.extend(
-            generate_audio_multilang(
-                _text,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                speaker,
-                _lang,
-                reference_audio,
-                emotion,
-            )
-        )
-    else:
-        audio_list.extend(
-            generate_audio(
-                text.split("|"),
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                speaker,
-                language,
-                reference_audio,
-                emotion,
-                style_text,
-                style_weight,
             )
         )
-    return audio_list
-def tts_fn(
-        text: str,
-        speaker,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        language,
-        reference_audio,
-        emotion,
-        prompt_mode,
-        style_text=None,
-        style_weight=0,
-):
-    if style_text == "":
-        style_text = None
-    if prompt_mode == "Audio prompt":
-        if reference_audio == None:
-            return ("Invalid audio prompt", None)
         else:
-            reference_audio = load_audio(reference_audio)[1]
-    else:
-        reference_audio = None
-    audio_list = process_text(
-        text,
-        speaker,
-        sdp_ratio,
-        noise_scale,
-        noise_scale_w,
-        length_scale,
-        language,
-        reference_audio,
-        emotion,
-        style_text,
-        style_weight,
-    )
-    audio_concat = np.concatenate(audio_list)
-    return "Success", (hps.data.sampling_rate, audio_concat)
-def format_utils(text, speaker):
-    _text, _lang = process_auto(text)
-    res = f"[{speaker}]"
-    for lang_s, content_s in zip(_lang, _text):
-        for lang, content in zip(lang_s, content_s):
-            res += f"<{lang.lower()}>{content}"
-        res += "|"
-    return "mix", res[:-1]
-def load_audio(path):
-    audio, sr = librosa.load(path, 48000)
-    # audio = librosa.resample(audio, 44100, 48000)
-    return sr, audio
-def gr_util(item):
-    if item == "Text prompt":
-        return {"visible": True, "__type__": "update"}, {
-            "visible": False,
-            "__type__": "update",
-        }
-    else:
-        return {"visible": False, "__type__": "update"}, {
-            "visible": True,
-            "__type__": "update",
-        }
-hps = utils.get_hparams_from_file(config.webui_config.config_path)
-# 若config.json中未指定版本则默认为最新版本
-version = hps.version if hasattr(hps, "version") else latest_version
-net_g = get_net_g(
-    model_path=config.webui_config.model, version=version, device=device, hps=hps
-)
-speaker_ids = hps.data.spk2id
-speakers = list(speaker_ids.keys())
-languages = ["ZH", "JP", "EN", "mix", "auto"]
-def get_advanced_block():
-    with gr.Blocks() as genshin_local:
-        gr.Markdown('原作者：https://www.bilibili.com/read/cv26659988/')
-        with gr.Row():
-            with gr.Column():
-                text = gr.TextArea(
-                    label="输入文本内容",
-                    placeholder="""
-                    如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
-                        格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
-                         [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
-                         [说话人2]<zh>你好吗？<jp>元気ですか？
-                         [说话人3]<zh>谢谢。<jp>どういたしまして。
-                         ...
-                    另外，所有的语言选项都可以用'|'分割长段实现分句生成。
-                    """,
-                )
-                trans = gr.Button("中翻日", variant="primary")
-                slicer = gr.Button("快速切分", variant="primary")
-                formatter = gr.Button("检测语言，并整理为 MIX 格式", variant="primary")
-                speaker = gr.Dropdown(
-                    choices=speakers, value=speakers[0], label="Speaker"
-                )
-                _ = gr.Markdown(
-                    value="提示模式（Prompt mode）：可选文字提示或音频提示，用于生成文字或音频指定风格的声音。\n",
-                    visible=False,
-                )
-                prompt_mode = gr.Radio(
-                    ["Text prompt", "Audio prompt"],
-                    label="Prompt Mode",
-                    value="Text prompt",
-                    visible=False,
-                )
-                text_prompt = gr.Textbox(
-                    label="Text prompt",
-                    placeholder="用文字描述生成风格。如：Happy",
-                    value="Happy",
-                    visible=False,
-                )
-                audio_prompt = gr.Audio(
-                    label="Audio prompt", type="filepath", visible=False
-                )
-                sdp_ratio = gr.Slider(
-                    minimum=0, maximum=1, value=0.5, step=0.1, label="SDP Ratio"
-                )
-                noise_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.6, step=0.1, label="Noise"
-                )
-                noise_scale_w = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.9, step=0.1, label="Noise_W"
-                )
-                length_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=1.0, step=0.1, label="Length"
-                )
-                language = gr.Dropdown(
-                    choices=languages, value=languages[0], label="Language"
-                )
-                btn = gr.Button("生成音频！", variant="primary")
-            with gr.Column():
-                with gr.Accordion("融合文本语义", open=False):
-                    gr.Markdown(
-                        value="使用辅助文本的语意来辅助生成对话（语言保持与主文本相同）\n\n"
-                              "**注意**：不要使用**指令式文本**（如：开心），要使用**带有强烈情感的文本**（如：我好快乐！！！）\n\n"
-                              "效果较不明确，留空即为不使用该功能"
                     )
-                    style_text = gr.Textbox(label="辅助文本")
-                    style_weight = gr.Slider(
-                        minimum=0,
-                        maximum=1,
-                        value=0.7,
-                        step=0.1,
-                        label="Weight",
-                        info="主文本和辅助文本的bert混合比率，0表示仅主文本，1表示仅辅助文本",
                     )
-                with gr.Row():
-                    with gr.Column():
-                        interval_between_sent = gr.Slider(
-                            minimum=0,
-                            maximum=5,
-                            value=0.2,
-                            step=0.1,
-                            label="句间停顿(秒)，勾选按句切分才生效",
                         )
-                        interval_between_para = gr.Slider(
                             minimum=0,
-                            maximum=10,
-                            value=1,
                             step=0.1,
-                            label="段间停顿(秒)，需要大于句间停顿才有效",
-                        )
-                        opt_cut_by_sent = gr.Checkbox(
-                            label="按句切分    在按段落切分的基础上再按句子切分文本"
                         )
-                        slicer = gr.Button("切分生成", variant="primary")
-                text_output = gr.Textbox(label="状态信息")
-                audio_output = gr.Audio(label="输出音频")
-                # explain_image = gr.Image(
-                #     label="参数解释信息",
-                #     show_label=True,
-                #     show_share_button=False,
-                #     show_download_button=False,
-                #     value=os.path.abspath("./img/参数说明.png"),
-                # )
-        btn.click(
-            tts_fn,
-            inputs=[
-                text,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-                audio_prompt,
-                text_prompt,
-                prompt_mode,
-                style_text,
-                style_weight,
-            ],
-            outputs=[text_output, audio_output],
-        )
-        trans.click(
-            translate,
-            inputs=[text],
-            outputs=[text],
-        )
-        slicer.click(
-            tts_split,
-            inputs=[
-                text,
-                speaker,
-                sdp_ratio,
-                noise_scale,
-                noise_scale_w,
-                length_scale,
-                language,
-                opt_cut_by_sent,
-                interval_between_para,
-                interval_between_sent,
-                audio_prompt,
-                text_prompt,
-                style_text,
-                style_weight,
-            ],
-            outputs=[text_output, audio_output],
-        )
-        prompt_mode.change(
-            lambda x: gr_util(x),
-            inputs=[prompt_mode],
-            outputs=[text_prompt, audio_prompt],
-        )
-        audio_prompt.upload(
-            lambda x: load_audio(x),
-            inputs=[audio_prompt],
-            outputs=[audio_prompt],
-        )
-        formatter.click(
-            format_utils,
-            inputs=[text, speaker],
-            outputs=[language, text],
-        )
-    return genshin_local

 # flake8: noqa: E402
 import os
 import sys
+from contextlib import contextmanager
 import gradio as gr
 import librosa
+import numpy as np
+import torch
+@contextmanager
+def change_dir():
+    file_path = os.path.abspath(os.path.dirname(__file__))
+    genshin_path = os.path.join(file_path, 'genshin')
+    need_rm = []
+    if file_path in sys.path:
+        need_rm.append(file_path)
+    if genshin_path in sys.path:
+        need_rm.append(genshin_path)
+    # 保存当前工作目录
+    current_dir = os.getcwd()
+    try:
+        os.chdir(genshin_path)
+        sys.path.append(file_path)
+        sys.path.append(genshin_path)
+        yield
+    finally:
+        os.chdir(current_dir)
+        for path in need_rm:
+            sys.path.remove(path)
+# genshin_path = os.path.join(os.path.abspath(os.path.dirname(__file__)), 'genshin')
+# sys.path.append(os.path.abspath(os.path.dirname(__file__)))
+# sys.path.append(genshin_path)
+# os.chdir(genshin_path)
+with change_dir():
+    import genshin.re_matching as re_matching
+    from genshin.tools.sentence import split_by_language
+    import genshin.utils as utils
+    from genshin.infer import infer, latest_version, get_net_g, infer_multilang
+    from genshin.config import config
+    from genshin.tools.translate import translate
+    net_g = None
+    device = config.webui_config.device
+    if device == "mps":
+        os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
+    def generate_audio(
+            slices,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            speaker,
+            language,
+            reference_audio,
+            emotion,
+            style_text,
+            style_weight,
+            skip_start=False,
+            skip_end=False,
+    ):
+        audio_list = []
+        # silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
+        with torch.no_grad():
+            for idx, piece in enumerate(slices):
+                skip_start = idx != 0
+                skip_end = idx != len(slices) - 1
+                audio = infer(
+                    piece,
+                    reference_audio=reference_audio,
+                    emotion=emotion,
+                    sdp_ratio=sdp_ratio,
+                    noise_scale=noise_scale,
+                    noise_scale_w=noise_scale_w,
+                    length_scale=length_scale,
+                    sid=speaker,
+                    language=language,
+                    hps=hps,
+                    net_g=net_g,
+                    device=device,
+                    skip_start=skip_start,
+                    skip_end=skip_end,
+                    style_text=style_text,
+                    style_weight=style_weight,
+                )
+                audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
+                audio_list.append(audio16bit)
+        return audio_list
+    def generate_audio_multilang(
+            slices,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            speaker,
+            language,
+            reference_audio,
+            emotion,
+            skip_start=False,
+            skip_end=False,
+    ):
+        audio_list = []
+        # silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
+        with torch.no_grad():
+            for idx, piece in enumerate(slices):
+                skip_start = idx != 0
+                skip_end = idx != len(slices) - 1
+                audio = infer_multilang(
+                    piece,
+                    reference_audio=reference_audio,
+                    emotion=emotion,
+                    sdp_ratio=sdp_ratio,
+                    noise_scale=noise_scale,
+                    noise_scale_w=noise_scale_w,
+                    length_scale=length_scale,
+                    sid=speaker,
+                    language=language[idx],
+                    hps=hps,
+                    net_g=net_g,
+                    device=device,
+                    skip_start=skip_start,
+                    skip_end=skip_end,
+                )
+                audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
+                audio_list.append(audio16bit)
+        return audio_list
+    def tts_split(
+            text: str,
+            speaker,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            language,
+            cut_by_sent,
+            interval_between_para,
+            interval_between_sent,
+            reference_audio,
+            emotion,
+            style_text,
+            style_weight,
+    ):
+        while text.find("\n\n") != -1:
+            text = text.replace("\n\n", "\n")
+        text = text.replace("|", "")
+        para_list = re_matching.cut_para(text)
+        para_list = [p for p in para_list if p != ""]
+        audio_list = []
+        for p in para_list:
+            if not cut_by_sent:
+                audio_list += process_text(
+                    p,
                     speaker,
                     sdp_ratio,
                     noise_scale,
                     style_text,
                     style_weight,
                 )
+                silence = np.zeros((int)(44100 * interval_between_para), dtype=np.int16)
+                audio_list.append(silence)
+            else:
+                audio_list_sent = []
+                sent_list = re_matching.cut_sent(p)
+                sent_list = [s for s in sent_list if s != ""]
+                for s in sent_list:
+                    audio_list_sent += process_text(
+                        s,
+                        speaker,
+                        sdp_ratio,
+                        noise_scale,
+                        noise_scale_w,
+                        length_scale,
+                        language,
+                        reference_audio,
+                        emotion,
+                        style_text,
+                        style_weight,
+                    )
+                    silence = np.zeros((int)(44100 * interval_between_sent))
+                    audio_list_sent.append(silence)
+                if (interval_between_para - interval_between_sent) > 0:
+                    silence = np.zeros(
+                        (int)(44100 * (interval_between_para - interval_between_sent))
+                    )
+                    audio_list_sent.append(silence)
+                audio16bit = gr.processing_utils.convert_to_16_bit_wav(
+                    np.concatenate(audio_list_sent)
+                )  # 对完整句子做音量归一
+                audio_list.append(audio16bit)
+        audio_concat = np.concatenate(audio_list)
+        return ("Success", (hps.data.sampling_rate, audio_concat))
+    def process_mix(slice):
+        _speaker = slice.pop()
+        _text, _lang = [], []
+        for lang, content in slice:
+            content = content.split("|")
+            content = [part for part in content if part != ""]
+            if len(content) == 0:
                 continue
+            if len(_text) == 0:
+                _text = [[part] for part in content]
+                _lang = [[lang] for part in content]
+            else:
+                _text[-1].append(content[0])
+                _lang[-1].append(lang)
+                if len(content) > 1:
+                    _text += [[part] for part in content[1:]]
+                    _lang += [[lang] for part in content[1:]]
+        return _text, _lang, _speaker
+    def process_auto(text):
+        _text, _lang = [], []
+        for slice in text.split("|"):
+            if slice == "":
                 continue
+            temp_text, temp_lang = [], []
+            sentences_list = split_by_language(slice, target_languages=["zh", "ja", "en"])
+            for sentence, lang in sentences_list:
+                if sentence == "":
+                    continue
+                temp_text.append(sentence)
+                temp_lang.append(lang.upper())
+            _text.append(temp_text)
+            _lang.append(temp_lang)
+        return _text, _lang
+    def process_text(
+            text: str,
+            speaker,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            language,
+            reference_audio,
+            emotion,
+            style_text=None,
+            style_weight=0,
+    ):
+        audio_list = []
+        if language == "mix":
+            bool_valid, str_valid = re_matching.validate_text(text)
+            if not bool_valid:
+                return str_valid, (
+                    hps.data.sampling_rate,
+                    np.concatenate([np.zeros(hps.data.sampling_rate // 2)]),
+                )
+            for slice in re_matching.text_matching(text):
+                _text, _lang, _speaker = process_mix(slice)
+                if _speaker is None:
+                    continue
+                print(f"Text: {_text}\nLang: {_lang}")
+                audio_list.extend(
+                    generate_audio_multilang(
+                        _text,
+                        sdp_ratio,
+                        noise_scale,
+                        noise_scale_w,
+                        length_scale,
+                        _speaker,
+                        _lang,
+                        reference_audio,
+                        emotion,
+                    )
+                )
+        elif language.lower() == "auto":
+            _text, _lang = process_auto(text)
             print(f"Text: {_text}\nLang: {_lang}")
             audio_list.extend(
                 generate_audio_multilang(
                     noise_scale,
                     noise_scale_w,
                     length_scale,
+                    speaker,
                     _lang,
                     reference_audio,
                     emotion,
                 )
             )
+        else:
+            audio_list.extend(
+                generate_audio(
+                    text.split("|"),
+                    sdp_ratio,
+                    noise_scale,
+                    noise_scale_w,
+                    length_scale,
+                    speaker,
+                    language,
+                    reference_audio,
+                    emotion,
+                    style_text,
+                    style_weight,
+                )
             )
+        return audio_list
+    def tts_fn(
+            text: str,
+            speaker,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            language,
+            reference_audio,
+            emotion,
+            prompt_mode,
+            style_text=None,
+            style_weight=0,
+    ):
+        if style_text == "":
+            style_text = None
+        if prompt_mode == "Audio prompt":
+            if reference_audio == None:
+                return ("Invalid audio prompt", None)
+            else:
+                reference_audio = load_audio(reference_audio)[1]
+        else:
+            reference_audio = None
+        audio_list = process_text(
+            text,
+            speaker,
+            sdp_ratio,
+            noise_scale,
+            noise_scale_w,
+            length_scale,
+            language,
+            reference_audio,
+            emotion,
+            style_text,
+            style_weight,
         )
+        audio_concat = np.concatenate(audio_list)
+        return "Success", (hps.data.sampling_rate, audio_concat)
+    def format_utils(text, speaker):
+        _text, _lang = process_auto(text)
+        res = f"[{speaker}]"
+        for lang_s, content_s in zip(_lang, _text):
+            for lang, content in zip(lang_s, content_s):
+                res += f"<{lang.lower()}>{content}"
+            res += "|"
+        return "mix", res[:-1]
+    def load_audio(path):
+        audio, sr = librosa.load(path, 48000)
+        # audio = librosa.resample(audio, 44100, 48000)
+        return sr, audio
+    def gr_util(item):
+        if item == "Text prompt":
+            return {"visible": True, "__type__": "update"}, {
+                "visible": False,
+                "__type__": "update",
+            }
         else:
+            return {"visible": False, "__type__": "update"}, {
+                "visible": True,
+                "__type__": "update",
+            }
+    hps = utils.get_hparams_from_file(config.webui_config.config_path)
+    # 若config.json中未指定版本则默认为最新版本
+    version = hps.version if hasattr(hps, "version") else latest_version
+    net_g = get_net_g(
+        model_path=config.webui_config.model, version=version, device=device, hps=hps
+    )
+    speaker_ids = hps.data.spk2id
+    speakers = list(speaker_ids.keys())
+    languages = ["ZH", "JP", "EN", "mix", "auto"]
+    def get_advanced_block():
+        with gr.Blocks() as genshin_local:
+            gr.Markdown('原作者：https://www.bilibili.com/read/cv26659988/')
+            with gr.Row():
+                with gr.Column():
+                    text = gr.TextArea(
+                        label="输入文本内容",
+                        placeholder="""
+                        如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
+                            格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
+                             [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
+                             [说话人2]<zh>你好吗？<jp>元気ですか？
+                             [说话人3]<zh>谢谢。<jp>どういたしまして。
+                             ...
+                        另外，所有的语言选项都可以用'|'分割长段实现分句生成。
+                        """,
                     )
+                    trans = gr.Button("中翻日", variant="primary")
+                    slicer = gr.Button("快速切分", variant="primary")
+                    formatter = gr.Button("检测语言，并整理为 MIX 格式", variant="primary")
+                    speaker = gr.Dropdown(
+                        choices=speakers, value=speakers[0], label="Speaker"
                     )
+                    _ = gr.Markdown(
+                        value="提示模式（Prompt mode）：可选文字提示或音频提示，用于生成文字或音频指定风格的声音。\n",
+                        visible=False,
+                    )
+                    prompt_mode = gr.Radio(
+                        ["Text prompt", "Audio prompt"],
+                        label="Prompt Mode",
+                        value="Text prompt",
+                        visible=False,
+                    )
+                    text_prompt = gr.Textbox(
+                        label="Text prompt",
+                        placeholder="用文字描述生成风格。如：Happy",
+                        value="Happy",
+                        visible=False,
+                    )
+                    audio_prompt = gr.Audio(
+                        label="Audio prompt", type="filepath", visible=False
+                    )
+                    sdp_ratio = gr.Slider(
+                        minimum=0, maximum=1, value=0.5, step=0.1, label="SDP Ratio"
+                    )
+                    noise_scale = gr.Slider(
+                        minimum=0.1, maximum=2, value=0.6, step=0.1, label="Noise"
+                    )
+                    noise_scale_w = gr.Slider(
+                        minimum=0.1, maximum=2, value=0.9, step=0.1, label="Noise_W"
+                    )
+                    length_scale = gr.Slider(
+                        minimum=0.1, maximum=2, value=1.0, step=0.1, label="Length"
+                    )
+                    language = gr.Dropdown(
+                        choices=languages, value=languages[0], label="Language"
+                    )
+                    btn = gr.Button("生成音频！", variant="primary")
+                with gr.Column():
+                    with gr.Accordion("融合文本语义", open=False):
+                        gr.Markdown(
+                            value="使用辅助文本的语意来辅助生成对话（语言保持与主文本相同）\n\n"
+                                  "**注意**：不要使用**指令式文本**（如：开心），要使用**带有强烈情感的文本**（如：我好快乐！！！）\n\n"
+                                  "效果较不明确，留空即为不使用该功能"
                         )
+                        style_text = gr.Textbox(label="辅助文本")
+                        style_weight = gr.Slider(
                             minimum=0,
+                            maximum=1,
+                            value=0.7,
                             step=0.1,
+                            label="Weight",
+                            info="主文本和辅助文本的bert混合比率，0表示仅主文本，1表示仅辅助文本",
                         )
+                    with gr.Row():
+                        with gr.Column():
+                            interval_between_sent = gr.Slider(
+                                minimum=0,
+                                maximum=5,
+                                value=0.2,
+                                step=0.1,
+                                label="句间停顿(秒)，勾选按句切分才生效",
+                            )
+                            interval_between_para = gr.Slider(
+                                minimum=0,
+                                maximum=10,
+                                value=1,
+                                step=0.1,
+                                label="段间停顿(秒)，需要大于句间停顿才有效",
+                            )
+                            opt_cut_by_sent = gr.Checkbox(
+                                label="按句切分    在按段落切分的基础上再按句子切分文本"
+                            )
+                            slicer = gr.Button("切分生成", variant="primary")
+                    text_output = gr.Textbox(label="状态信息")
+                    audio_output = gr.Audio(label="输出音频")
+                    # explain_image = gr.Image(
+                    #     label="参数解释信息",
+                    #     show_label=True,
+                    #     show_share_button=False,
+                    #     show_download_button=False,
+                    #     value=os.path.abspath("./img/参数说明.png"),
+                    # )
+            btn.click(
+                tts_fn,
+                inputs=[
+                    text,
+                    speaker,
+                    sdp_ratio,
+                    noise_scale,
+                    noise_scale_w,
+                    length_scale,
+                    language,
+                    audio_prompt,
+                    text_prompt,
+                    prompt_mode,
+                    style_text,
+                    style_weight,
+                ],
+                outputs=[text_output, audio_output],
+            )
+            trans.click(
+                translate,
+                inputs=[text],
+                outputs=[text],
+            )
+            slicer.click(
+                tts_split,
+                inputs=[
+                    text,
+                    speaker,
+                    sdp_ratio,
+                    noise_scale,
+                    noise_scale_w,
+                    length_scale,
+                    language,
+                    opt_cut_by_sent,
+                    interval_between_para,
+                    interval_between_sent,
+                    audio_prompt,
+                    text_prompt,
+                    style_text,
+                    style_weight,
+                ],
+                outputs=[text_output, audio_output],
+            )
+            prompt_mode.change(
+                lambda x: gr_util(x),
+                inputs=[prompt_mode],
+                outputs=[text_prompt, audio_prompt],
+            )
+            audio_prompt.upload(
+                lambda x: load_audio(x),
+                inputs=[audio_prompt],
+                outputs=[audio_prompt],
+            )
+            formatter.click(
+                format_utils,
+                inputs=[text, speaker],
+                outputs=[language, text],
+            )
+        return genshin_local

TTSs/genshin_local/genshin_local_tts.py CHANGED Viewed

@@ -1,27 +1,33 @@
 import io
 import os
 import gradio as gr
 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
-import importlib
-import logging
 from TTSs.base_tts import Base_TTS
 class genshin_local_TTS(Base_TTS):
     def __init__(self):
         if self.is_show():
             try:
-                self.speakers_genshin_local = importlib.import_module('TTSs.genshin_bg').speakers
-                self.languages = importlib.import_module('TTSs.genshin_bg').languages
-                self.genshin_tts_fn = importlib.import_module('TTSs.genshin_bg').tts_fn
                 logging.info('导入原神本地语音合成模块成功')
             except Exception as e:
                 logging.error('导入原神本地语音合成模块失败')
                 logging.error(e)
         else:
@@ -95,16 +101,18 @@ class genshin_local_TTS(Base_TTS):
                   noise_scale_w_local,
                   length_scale_local,
                   language_local):
-        ori_audio_data = self.genshin_tts_fn(text, speaker_local,
-                                        sdp_ratio_local,
-                                        noise_scale_local,
-                                        noise_scale_w_local,
-                                        length_scale_local,
-                                        language_local,
-                                        None, 'Happy',
-                                        'Text prompt',
-                                        'style_text',
-                                        0.7)[1]
         wav_io = io.BytesIO()
         wavfile.write(wav_io, ori_audio_data[0], ori_audio_data[1])
@@ -112,11 +120,10 @@ class genshin_local_TTS(Base_TTS):
         original_audio = AudioSegment.from_wav(wav_io)
         return original_audio
     def search_speaker(self, search_value):
         for s in self.speakers_genshin_local:
             if search_value == s:
                 return s
         for s in self.speakers_genshin_local:
             if search_value in s:
-                return s

 import io
+import logging
 import os
+import traceback
 import gradio as gr
 import scipy.io.wavfile as wavfile
 from pydub import AudioSegment
 from TTSs.base_tts import Base_TTS
 class genshin_local_TTS(Base_TTS):
     def __init__(self):
         if self.is_show():
             try:
+                from .genshin_bg import speakers
+                from .genshin_bg import languages
+                from .genshin_bg import tts_fn
+                from .genshin_bg import change_dir
+                self.speakers_genshin_local = speakers
+                self.languages = languages
+                self.genshin_tts_fn = tts_fn
+                self.change_dir = change_dir
                 logging.info('导入原神本地语音合成模块成功')
             except Exception as e:
+                traceback.print_exc()
                 logging.error('导入原神本地语音合成模块失败')
                 logging.error(e)
         else:
                   noise_scale_w_local,
                   length_scale_local,
                   language_local):
+        with self.change_dir():
+            ori_audio_data = self.genshin_tts_fn(text, speaker_local,
+                                                 sdp_ratio_local,
+                                                 noise_scale_local,
+                                                 noise_scale_w_local,
+                                                 length_scale_local,
+                                                 language_local,
+                                                 None, 'Happy',
+                                                 'Text prompt',
+                                                 'style_text',
+                                                 0.7)[1]
         wav_io = io.BytesIO()
         wavfile.write(wav_io, ori_audio_data[0], ori_audio_data[1])
         original_audio = AudioSegment.from_wav(wav_io)
         return original_audio
     def search_speaker(self, search_value):
         for s in self.speakers_genshin_local:
             if search_value == s:
                 return s
         for s in self.speakers_genshin_local:
             if search_value in s:
+                return s