Spaces:

Mahiruoshi
/

Lovelive_Nijigasaki_VITS

Running

App Files Files Community

Mahiruoshi commited on Apr 19, 2023

Commit

c25a639

1 Parent(s): d289ff1

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -26

app.py CHANGED Viewed

@@ -69,6 +69,9 @@ def extrac(text):
     text = re.sub("<[^>]*>","",text)
     result_list = re.split(r'\n', text)
     final_list = []
     for i in result_list:
         if is_english(i):
             i = romajitable.to_kana(i).katakana
@@ -153,15 +156,21 @@ def get_text(text,hps_ms):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
-def vc_fn(original_speaker, target_speaker, record_audio, upload_audio):
     input_audio = record_audio if record_audio is not None else upload_audio
-    if input_audio is None:
-        return "You need to record or upload an audio", None
-    sampling_rate, audio = input_audio
     original_speaker_id = selection(original_speaker)
     target_speaker_id = selection(target_speaker)
-    audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != hps.data.sampling_rate:
@@ -334,16 +343,26 @@ def selection(speaker):
     else:
         return 0
 def create_tts_fn(net_g,hps,speaker_id):
     speaker_id = int(speaker_id)
     def tts_fn(is_gpt,api_key,is_audio,audiopath,repeat_time,text, language, extract, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
         repeat_ime = int(repeat_time)
         if is_gpt:
             openai.api_key = api_key
             text,messages = chatgpt(text)
             htm = to_html(messages)
         else:
-            htm = ''
         if not extract:
             t1 = time.time()
             stn_tst = get_text(sle(language,text),hps)
@@ -417,7 +436,7 @@ if __name__ == '__main__':
     hps = utils.get_hparams_from_file('checkpoints/tmp/config.json')
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     models = []
-    schools = ["Nijigasaki","ShojoKageki","ShojoKageki-Nijigasaki"]
     lan = ["中文","日文","自动","手动"]
     with open("checkpoints/info.json", "r", encoding="utf-8") as f:
         models_info = json.load(f)
@@ -444,12 +463,13 @@ if __name__ == '__main__':
             name = speakers[j]["name"]
             content.append((sid, name, title, example, create_tts_fn(net_g,hps,sid)))
         models.append(content)
-    idols = ["c1","c2","高咲侑","歩夢","かすみ","しずく","果林","愛","彼方","せつ菜","璃奈","栞子","エマ","ランジュ","ミア","華恋","まひる","なな","クロディーヌ","ひかり",'純那',"香子","真矢","双葉","ミチル","メイファン","やちよ","晶","いちえ","ゆゆ子","塁","珠緒","あるる","ララフィン","美空","静羽","あるる"]
     with gr.Blocks() as app:
         with gr.Tabs():
             for i in schools:
                 with gr.TabItem(i):
                     for (sid, name,  title, example, tts_fn) in models[schools.index(i)]:
                         with gr.TabItem(name):
                             with gr.Column():
                                 with gr.Row():
@@ -471,35 +491,45 @@ if __name__ == '__main__':
                                     input4 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声比例(noise scale)，以控制情感", value=0.6)
                                     input5 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声偏差(noise scale w)，以控制音素长短", value=0.668)
                                     input6 = gr.Slider(minimum=0.1, maximum=10, label="duration", value=1)
-                                with gr.Accordion(label="Advanced Setting(GPT3.5接口+长句子合成，建议克隆本仓库后运行main.py)", open=False):
                                     input3 = gr.Checkbox(value=False, label="长句切割(小说合成)")
                                     output2 = gr.outputs.File(label="字幕文件：subtitles.srt")
                                     api_input1 = gr.Checkbox(value=False, label="接入chatgpt")
                                     api_input2 = gr.TextArea(label="api-key",lines=1,value = '见 https://openai.com/blog/openai-api')
                                     audio_input1 = gr.Checkbox(value=False, label="修改音频路径(live2d)")
                                     audio_input2 = gr.TextArea(label="音频路径",lines=1,value = '#参考 D:/app_develop/live2d_whole/2010002/sounds/temp.wav')
                                     audio_input3 = gr.Dropdown(label="重复生成次数", choices=list(range(101)), value='0', interactive=True)
                         btnVC.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
-            with gr.Tab("Voice Conversion(弱化版sovits)"):
-                gr.Markdown("""
-                                录制或上传声音，并选择要转换的音色。
-                """)
-                with gr.Column():
-                    record_audio = gr.Audio(label="record your voice", source="microphone")
-                    upload_audio = gr.Audio(label="or upload audio here", source="upload")
-                    source_speaker = gr.Dropdown(choices=idols, value="歩夢", label="source speaker")
-                    target_speaker = gr.Dropdown(choices=idols, value="まひる", label="target speaker")
-                with gr.Column():
-                    message_box = gr.Textbox(label="Message")
-                    converted_audio = gr.Audio(label='converted audio')
-                btn = gr.Button("Convert!")
-                btn.click(vc_fn, inputs=[source_speaker, target_speaker, record_audio, upload_audio],
-                        outputs=[message_box, converted_audio])
             with gr.Tab("说明"):
                 gr.Markdown(
                 "### <center> 请不要生成会对个人以及企划造成侵害的内容，自觉遵守相关法律，静止商业使用或让他人产生困扰\n"
                 "<div align='center'>从左到右分别是虹团，少歌中文特化版，以及五校混合版。这三个均为不同的模型，效果也有差异</div>\n"
                 "<div align='center'>因为我会时不时地更新模型，所以会碰到平台抽风问题，大部分情���下一天就能恢复了。</div>\n"
-                '<div align="center"><a>参数说明:这个十分玄学，我还没找到最合适的，如果效果不佳可以将噪声比例和噪声偏差调节至0。按照经验，合成日语时也可以将噪声比例调节至0.2-0.3区间，语调会正常一些。duration代表整体语速，1.0大部分情况应该就够了</div>'
                 '<div align="center"><a>建议只在平台上体验最基础的功能，强烈建议将该仓库克隆至本地或者于colab运行 main.py或app.py</div>')
     app.launch()

     text = re.sub("<[^>]*>","",text)
     result_list = re.split(r'\n', text)
     final_list = []
+    if not torch.cuda.is_available():
+        if len(final_list) > 10:
+            return ['对不起，做不到']
     for i in result_list:
         if is_english(i):
             i = romajitable.to_kana(i).katakana
     text_norm = torch.LongTensor(text_norm)
     return text_norm
+def vc_fn(text,language,n_scale,n_scale_w,l_scale,original_speaker, target_speaker, record_audio, upload_audio):
     input_audio = record_audio if record_audio is not None else upload_audio
     original_speaker_id = selection(original_speaker)
     target_speaker_id = selection(target_speaker)
+    if input_audio is None:
+        stn_tst = get_text(sle(language,text),hps)
+        with torch.no_grad():
+            x_tst = stn_tst.unsqueeze(0).to(dev)
+            x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
+            sid = torch.LongTensor([original_speaker_id]).to(dev)
+            audio = net_g.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=n_scale, noise_scale_w=n_scale_w, length_scale=l_scale)[0][0,0].data.cpu().float().numpy()
+            sampling_rate = hps.data.sampling_rate
+    else:
+        sampling_rate, audio = input_audio
+        audio = (audio / np.iinfo(audio.dtype).max).astype(np.float32)
     if len(audio.shape) > 1:
         audio = librosa.to_mono(audio.transpose(1, 0))
     if sampling_rate != hps.data.sampling_rate:
     else:
         return 0
+def check_text(input):
+    if isinstance(input, str):
+        return input
+    else:
+        with open(input.name, "r", encoding="utf-8") as f:
+            return f.read()
 def create_tts_fn(net_g,hps,speaker_id):
     speaker_id = int(speaker_id)
     def tts_fn(is_gpt,api_key,is_audio,audiopath,repeat_time,text, language, extract, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
+        text = check_text(text)
         repeat_ime = int(repeat_time)
         if is_gpt:
             openai.api_key = api_key
             text,messages = chatgpt(text)
             htm = to_html(messages)
         else:
+            messages = []
+            messages.append({"role": "assistant", "content": text})
+            htm = to_html(messages)
         if not extract:
             t1 = time.time()
             stn_tst = get_text(sle(language,text),hps)
     hps = utils.get_hparams_from_file('checkpoints/tmp/config.json')
     dev = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
     models = []
+    schools = ["ShojoKageki-Nijigasaki","ShojoKageki","Nijigasaki"]
     lan = ["中文","日文","自动","手动"]
     with open("checkpoints/info.json", "r", encoding="utf-8") as f:
         models_info = json.load(f)
             name = speakers[j]["name"]
             content.append((sid, name, title, example, create_tts_fn(net_g,hps,sid)))
         models.append(content)
     with gr.Blocks() as app:
         with gr.Tabs():
             for i in schools:
                 with gr.TabItem(i):
+                    idols = ["派蒙"]
                     for (sid, name,  title, example, tts_fn) in models[schools.index(i)]:
+                        idols.append(name)
                         with gr.TabItem(name):
                             with gr.Column():
                                 with gr.Row():
                                     input4 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声比例(noise scale)，以控制情感", value=0.6)
                                     input5 = gr.Slider(minimum=0, maximum=1.0, label="更改噪声偏差(noise scale w)，以控制音素长短", value=0.668)
                                     input6 = gr.Slider(minimum=0.1, maximum=10, label="duration", value=1)
+                                with gr.Accordion(label="Advanced Setting(GPT3.5接口+小说合成，建议克隆本仓库后运行main.py)", open=False):
                                     input3 = gr.Checkbox(value=False, label="长句切割(小说合成)")
+                                    inputxt = gr.File(label="Text")
+                                    btnbook = gr.Button("小说合成")
                                     output2 = gr.outputs.File(label="字幕文件：subtitles.srt")
                                     api_input1 = gr.Checkbox(value=False, label="接入chatgpt")
                                     api_input2 = gr.TextArea(label="api-key",lines=1,value = '见 https://openai.com/blog/openai-api')
                                     audio_input1 = gr.Checkbox(value=False, label="修改音频路径(live2d)")
                                     audio_input2 = gr.TextArea(label="音频路径",lines=1,value = '#参考 D:/app_develop/live2d_whole/2010002/sounds/temp.wav')
                                     audio_input3 = gr.Dropdown(label="重复生成次数", choices=list(range(101)), value='0', interactive=True)
+                        btnbook.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,inputxt,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
                         btnVC.click(tts_fn, inputs=[api_input1,api_input2,audio_input1,audio_input2,audio_input3,input1,input2,input3,input4,input5,input6], outputs=[output1,output2,output_UI])
+                    with gr.Tab("Voice Conversion(就是sovits的原理)"):
+                        gr.Markdown("""
+                                        声线转化，使用模型中的说话人作为音源时效果更佳
+                        """)
+                        with gr.Column():
+                            with gr.Accordion(label="方法1:录制或上传声音,可进行歌声合成", open=False):
+                                record_audio = gr.Audio(label="record your voice", source="microphone")
+                                upload_audio = gr.Audio(label="or upload audio here", source="upload")
+                            with gr.Accordion(label="方法2:由原说话人先进行tts后套娃，适用于合成中文等特殊场景", open=True):
+                                text = gr.TextArea(label="Text", value='由源说话人进行语音转化',lines = 1)
+                                language = gr.Dropdown(label="Language", choices=lan, value="自动", interactive=True)
+                                n_scale = gr.Slider(minimum=0, maximum=1.0, label="更改噪声比例(noise scale)，以控制情感", value=0.6)
+                                n_scale_w = gr.Slider(minimum=0, maximum=1.0, label="更改噪声偏差(noise scale w)，以控制音素长短", value=0.668)
+                                l_scale = gr.Slider(minimum=0.1, maximum=10, label="duration", value=1.1)
+                            source_speaker = gr.Dropdown(choices=idols, value=idols[-2], label="source speaker")
+                            target_speaker = gr.Dropdown(choices=idols, value=idols[-3], label="target speaker")
+                        with gr.Column():
+                            message_box = gr.Textbox(label="Message")
+                            converted_audio = gr.Audio(label='converted audio')
+                        btn = gr.Button("Convert!")
+                        btn.click(vc_fn, inputs=[text,language,n_scale,n_scale_w,l_scale,source_speaker, target_speaker, record_audio, upload_audio],
+                                outputs=[message_box, converted_audio])
             with gr.Tab("说明"):
                 gr.Markdown(
                 "### <center> 请不要生成会对个人以及企划造成侵害的内容，自觉遵守相关法律，静止商业使用或让他人产生困扰\n"
                 "<div align='center'>从左到右分别是虹团，少歌中文特化版，以及五校混合版。这三个均为不同的模型，效果也有差异</div>\n"
                 "<div align='center'>因为我会时不时地更新模型，所以会碰到平台抽风问题，大部分情���下一天就能恢复了。</div>\n"
+                '<div align="center"><a>参数说明:这个十分玄学，我还没找到最合适的，如果效果不佳可以将噪声比例和噪声偏差调节至0，这回完全随机化音频源。按照经验，合成日语时也可以将噪声比例调节至0.2-0.3区间，语调会正常一些。duration代表整体语速，可视情况调至1.1或1.2</div>'
                 '<div align="center"><a>建议只在平台上体验最基础的功能，强烈建议将该仓库克隆至本地或者于colab运行 main.py或app.py</div>')
     app.launch()