Spaces:

Mahiruoshi
/

BangDream-Bert-VITS2

Running

App Files Files Community

Mahiruoshi commited on Nov 18, 2023

Commit

50ea4f2

•

1 Parent(s): 00d287a

Update app.py

Browse files

Files changed (1) hide show

app.py +148 -11

app.py CHANGED Viewed

@@ -16,9 +16,10 @@ logging.basicConfig(
 logger = logging.getLogger(__name__)
 import warnings
 warnings.filterwarnings("ignore", category=UserWarning, module="gradio.blocks")
 from datetime import datetime
 import re
 import torch
@@ -26,12 +27,16 @@ import utils
 from infer import infer, latest_version, get_net_g
 import gradio as gr
 import numpy as np
-from tools.sentence import extrac, is_japanese, is_chinese
-import sys, os
 import math
 from tools.translate import translate
 net_g = None
 cara_list = ["ひまり","たえ","彩","日菜","美咲","ましろ","燐子","香子","珠緒","たえ"]
@@ -52,11 +57,15 @@ BandList = {
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
-if sys.platform == "darwin" and torch.backends.mps.is_available():
-    device = "mps"
-    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
-else:
-    device = "cpu"
 def generate_audio(
     text,
@@ -67,7 +76,8 @@ def generate_audio(
     speaker,
     language,
 ):
-    audio_list = []
     with torch.no_grad():
         if language == 'Auto':
             language = "EN"
@@ -76,7 +86,7 @@ def generate_audio(
             elif is_chinese(text):
                 language = "ZH"
         current_time = datetime.now()
-        print(str(current_time)+':'+str(speaker)+ text+":"+language)
         audio = infer(
             text,
             sdp_ratio=sdp_ratio,
@@ -136,6 +146,77 @@ def tts_fn(
                 audio_fin.append(silence_data)
         return (hps.data.sampling_rate, np.concatenate(audio_fin))
 def loadmodel(model):
     _ = net_g.eval()
     _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
@@ -231,5 +312,61 @@ if __name__ == "__main__":
                         outputs=[audio_output],
                     )
 print("推理页面已开启!")
-app.launch()

 logger = logging.getLogger(__name__)
 import warnings
 warnings.filterwarnings("ignore", category=UserWarning, module="gradio.blocks")
+import shutil
 from datetime import datetime
 import re
 import torch
 from infer import infer, latest_version, get_net_g
 import gradio as gr
 import numpy as np
+from tools.sentence import extrac, is_japanese, is_chinese, seconds_to_ass_time, extract_text_from_file, remove_annotations
+import sys
 import math
+from scipy.io.wavfile import write
 from tools.translate import translate
+import random
 net_g = None
 cara_list = ["ひまり","たえ","彩","日菜","美咲","ましろ","燐子","香子","珠緒","たえ"]
         "西克菲尔特音乐学院":["晶","未知留","八千代","栞","美帆"]
 }
+device = (
+        "cuda:0"
+        if torch.cuda.is_available()
+        else (
+            "mps"
+            if sys.platform == "darwin" and torch.backends.mps.is_available()
+            else "cpu"
+        )
+    )
 def generate_audio(
     text,
     speaker,
     language,
 ):
+    if len(text) < 2:
+        return
     with torch.no_grad():
         if language == 'Auto':
             language = "EN"
             elif is_chinese(text):
                 language = "ZH"
         current_time = datetime.now()
+        print(str(current_time)+':'+str(speaker)+":"+ text+":"+language)
         audio = infer(
             text,
             sdp_ratio=sdp_ratio,
                 audio_fin.append(silence_data)
         return (hps.data.sampling_rate, np.concatenate(audio_fin))
+def generate_audio_and_srt_for_group(group, outputPath, group_index, sampling_rate, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime):
+    audio_fin = []
+    ass_entries = []
+    start_time = 0
+    speaker = random.choice(cara_list)
+    ass_header = """[Script Info]
+; 我没意见
+Title: Audiobook
+ScriptType: v4.00+
+WrapStyle: 0
+PlayResX: 640
+PlayResY: 360
+ScaledBorderAndShadow: yes
+[V4+ Styles]
+Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
+Style: Default,Arial,20,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0,1,1,1,2,10,10,10,1
+[Events]
+Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
+"""
+    for sentence in group:
+        try:
+            FakeSpeaker = sentence.split("|")[0]
+            print(FakeSpeaker)
+            SpeakersList = re.split('\n', spealerList)
+            if FakeSpeaker in list(hps.data.spk2id.keys()):
+                speaker = FakeSpeaker
+            for i in SpeakersList:
+                if FakeSpeaker == i.split("|")[1]:
+                    speaker = i.split("|")[0]
+            if sentence != '\n':
+                audio = generate_audio(remove_annotations(sentence.split("|")[-1]).replace(" ",""), speaker=speaker, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, language='Auto')
+                silence_frames = int(silenceTime * 44010)
+                silence_data = np.zeros((silence_frames,), dtype=audio.dtype)
+                audio_fin.append(audio)
+                audio_fin.append(silence_data)
+                duration = len(audio) / sampling_rate
+                end_time = start_time + duration + silenceTime
+                ass_entries.append("Dialogue: 0,{},{},".format(seconds_to_ass_time(start_time), seconds_to_ass_time(end_time)) + "Default,,0,0,0,,{}".format(sentence.replace("|","：")))
+                start_time = end_time
+        except:
+            pass
+    wav_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.wav')
+    ass_filename = os.path.join(outputPath, f'audiobook_part_{group_index}.ass')
+    write(wav_filename, sampling_rate, np.concatenate(audio_fin))
+    with open(ass_filename, 'w', encoding='utf-8') as f:
+        f.write(ass_header + '\n'.join(ass_entries))
+    return (hps.data.sampling_rate, np.concatenate(audio_fin))
+def audiobook(inputFile, groupsize, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime,filepath):
+    directory_path = filepath if torch.cuda.is_available() else "books"
+    if os.path.exists(directory_path):
+        shutil.rmtree(directory_path)
+    os.makedirs(directory_path)
+    text = extract_text_from_file(inputFile.name)
+    sentences = extrac(text)
+    GROUP_SIZE = groupsize
+    for i in range(0, len(sentences), GROUP_SIZE):
+        group = sentences[i:i+GROUP_SIZE]
+        if spealerList == "":
+            spealerList = "无"
+        result = generate_audio_and_srt_for_group(group,directory_path, i//GROUP_SIZE + 1, 44100, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale,spealerList,silenceTime)
+        if not torch.cuda.is_available():
+            return result
+    return result
 def loadmodel(model):
     _ = net_g.eval()
     _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
                         outputs=[audio_output],
                     )
+        with gr.Tab('拓展功能'):
+            with gr.Row():
+                with gr.Column():
+                    gr.Markdown(
+                                    f"从 <a href='https://nijigaku.top/2023/10/03/BangDreamTTS/'>我的博客站点</a> 查看自制galgame使用说明\n</a>"
+                                )
+                    inputFile = gr.UploadButton(label="上传txt(可设置角色对应表)、epub或mobi文件")
+                    groupSize = gr.Slider(
+                    minimum=10, maximum=1000 if  torch.cuda.is_available() else 50,value = 50, step=1, label="单个音频文件包含的最大字数"
+                    )
+                    silenceTime = gr.Slider(
+                    minimum=0, maximum=1, value=0.5, step=0.1, label="句子的间隔"
+                    )
+                    filepath = gr.TextArea(
+                                        label="本地合成时的音频存储文件夹(会清空文件夹警告)",
+                                        value = "D:/audiobook/book1",
+                    )
+                    spealerList = gr.TextArea(
+                                        label="角色对应表(example)",
+                                        placeholder="左边是你想要在每一句话合成中用到的speaker(见角色清单)右边是你上传文本时分隔符左边设置的说话人:{ChoseSpeakerFromConfigList1}|{SeakerInUploadText1}\n{ChoseSpeakerFromConfigList2}|{SeakerInUploadText2}\n{ChoseSpeakerFromConfigList3}|{SeakerInUploadText3}\n",
+                                        value = "ましろ|真白\n七深|七深\n透子|透子\nつくし|筑紫\n瑠唯|瑠唯\nそよ|素世\n祥子|祥子",
+                    )
+                    speaker = gr.Dropdown(
+                        choices=speakers, value = "ましろ", label="选择默认说话人"
+                    )
+                with gr.Column():
+                    sdp_ratio = gr.Slider(
+                    minimum=0, maximum=1, value=0.2, step=0.01, label="SDP/DP混合比"
+                    )
+                    noise_scale = gr.Slider(
+                        minimum=0.1, maximum=2, value=0.6, step=0.01, label="感情调节"
+                    )
+                    noise_scale_w = gr.Slider(
+                        minimum=0.1, maximum=2, value=0.8, step=0.01, label="音素长度"
+                    )
+                    length_scale = gr.Slider(
+                        minimum=0.1, maximum=2, value=1, step=0.01, label="生成长度"
+                    )
+                    LastAudioOutput = gr.Audio(label="当使用cuda时才能在本地文件夹浏览全部文件")
+                    btn2 = gr.Button("点击生成", variant="primary")
+                btn2.click(
+                    audiobook,
+                    inputs=[
+                        inputFile,
+                        groupSize,
+                        speaker,
+                        sdp_ratio,
+                        noise_scale,
+                        noise_scale_w,
+                        length_scale,
+                        spealerList,
+                        silenceTime,
+                        filepath
+                    ],
+                    outputs=[LastAudioOutput],
+                )
 print("推理页面已开启!")
+app.launch()