2568-Bert-VITS2

Sleeping

App Files Files Community

CrawfordZhou commited on Jan 17

Commit

49abf7f

•

1 Parent(s): ba592d2

Update app.py

Browse files

Files changed (1) hide show

app.py +72 -47

app.py CHANGED Viewed

@@ -18,8 +18,10 @@ logger = logging.getLogger(__name__)
 import torch
 import ssl
 ssl._create_default_https_context = ssl._create_unverified_context
 import nltk
 nltk.download('cmudict')
 import utils
 from infer import infer, latest_version, get_net_g
@@ -29,6 +31,19 @@ import numpy as np
 from config import config
 net_g = None
 device = config.webui_config.device
 if device == "mps":
@@ -36,13 +51,13 @@ if device == "mps":
 def generate_audio(
-    slices,
-    sdp_ratio,
-    noise_scale,
-    noise_scale_w,
-    length_scale,
-    speaker,
-    language,
 ):
     audio_list = []
     silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
@@ -67,22 +82,25 @@ def generate_audio(
 def tts_split(
-    text: str,
-    speaker,
-    sdp_ratio,
-    noise_scale,
-    noise_scale_w,
-    length_scale,
-    language,
-    cut_by_sent,
-    interval_between_para,
-    interval_between_sent,
 ):
     if language == "mix":
         return ("invalid", None)
     while text.find("\n\n") != -1:
         text = text.replace("\n\n", "\n")
-    para_list = re_matching.cut_para(text)
     audio_list = []
     if not cut_by_sent:
         for p in para_list:
@@ -132,27 +150,30 @@ def tts_split(
             )  # 对完整句子做音量归一
             audio_list.append(audio16bit)
     audio_concat = np.concatenate(audio_list)
-    return ("Success", (44100, audio_concat))
 def tts_fn(
-    text: str,
-    speaker,
-    sdp_ratio,
-    noise_scale,
-    noise_scale_w,
-    length_scale,
-    language,
 ):
     audio_list = []
     if language == "mix":
-        bool_valid, str_valid = re_matching.validate_text(text)
         if not bool_valid:
             return str_valid, (
                 hps.data.sampling_rate,
                 np.concatenate([np.zeros(hps.data.sampling_rate // 2)]),
             )
-        result = re_matching.text_matching(text)
         for one in result:
             _speaker = one.pop()
             for lang, content in one:
@@ -168,7 +189,7 @@ def tts_fn(
                     )
                 )
     elif language.lower() == "auto":
-        sentences_list = split_by_language(text, target_languages=["zh", "ja", "en"])
         for sentences, lang in sentences_list:
             lang = lang.upper()
             if lang == "JA":
@@ -189,7 +210,7 @@ def tts_fn(
     else:
         audio_list.extend(
             generate_audio(
-                text.split("|"),
                 sdp_ratio,
                 noise_scale,
                 noise_scale_w,
@@ -200,7 +221,7 @@ def tts_fn(
         )
     audio_concat = np.concatenate(audio_list)
-    return "Success", (hps.data.sampling_rate, audio_concat)
 if __name__ == "__main__":
@@ -220,27 +241,26 @@ if __name__ == "__main__":
         with gr.Row():
             with gr.Column():
                 gr.Markdown(value="""
-               【AI星瞳①】在线语音合成（Bert-Vits2 2.0中日英）\n
-                作者：Xz乔希 https://space.bilibili.com/5859321\n
-                声音归属：星瞳_Official https://space.bilibili.com/401315430\n
-                【AI星瞳②】https://huggingface.co/spaces/XzJosh/Star-Bert-VITS2\n
-                【AI合集】https://www.modelscope.cn/studios/xzjosh/Bert-VITS2\n
                 Bert-VITS2项目：https://github.com/Stardust-minus/Bert-VITS2\n
                 使用本模型请严格遵守法律法规！\n
-                发布二创作品请标注本项目作者及链接、作品使用Bert-VITS2 AI生成！\n
-                【提示】手机端容易误触调节，请刷新恢复默认！每次生成的结果都不一样，效果不好请尝试多次生成与调节，选择最佳结果！\n
                 """)
                 text = gr.TextArea(
-                    label="输入文本内容",
                     placeholder="""
-                推荐不同语言分开推理，因为无法连贯且可能影响最终效果！
-                如果选择语言为\'auto\'，有概率无法识别。
-                如果选择语言为\'mix\'，必须按照格式输入，否则报错:
-                格式举例(zh是中文，jp是日语，en是英语；不区分大小写):
-                 [说话人]<zh>你好 <jp>こんにちは <en>Hello
-                另外，所有的语言选项都可以用'|'分割长段实现分句生成。
                     """,
                 )
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="选择说话人"
                 )
@@ -282,6 +302,7 @@ if __name__ == "__main__":
                         )
                         slicer = gr.Button("切分生成", variant="primary")
                 text_output = gr.Textbox(label="状态信息")
                 audio_output = gr.Audio(label="输出音频")
                 # explain_image = gr.Image(
                 #     label="参数解释信息",
@@ -294,6 +315,8 @@ if __name__ == "__main__":
             tts_fn,
             inputs=[
                 text,
                 speaker,
                 sdp_ratio,
                 noise_scale,
@@ -301,13 +324,15 @@ if __name__ == "__main__":
                 length_scale,
                 language,
             ],
-            outputs=[text_output, audio_output],
         )
         slicer.click(
             tts_split,
             inputs=[
                 text,
                 speaker,
                 sdp_ratio,
                 noise_scale,
@@ -318,7 +343,7 @@ if __name__ == "__main__":
                 interval_between_para,
                 interval_between_sent,
             ],
-            outputs=[text_output, audio_output],
         )
     print("推理页面已开启!")

 import torch
 import ssl
 ssl._create_default_https_context = ssl._create_unverified_context
 import nltk
 nltk.download('cmudict')
 import utils
 from infer import infer, latest_version, get_net_g
 from config import config
 net_g = None
+import openai
+# openai.log = "debug"
+openai.api_base = "https://api.chatanywhere.com.cn/v1"
+# 非流式响应
+def gpt_35_api(gptkey, message):
+    openai.api_key = "sk-" + gptkey
+    completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": message}])
+    return completion.choices[0].message.content
 device = config.webui_config.device
 if device == "mps":
 def generate_audio(
+        slices,
+        sdp_ratio,
+        noise_scale,
+        noise_scale_w,
+        length_scale,
+        speaker,
+        language,
 ):
     audio_list = []
     silence = np.zeros(hps.data.sampling_rate // 2, dtype=np.int16)
 def tts_split(
+        text: str,
+        font,
+        key,
+        speaker,
+        sdp_ratio,
+        noise_scale,
+        noise_scale_w,
+        length_scale,
+        language,
+        cut_by_sent,
+        interval_between_para,
+        interval_between_sent,
 ):
     if language == "mix":
         return ("invalid", None)
     while text.find("\n\n") != -1:
         text = text.replace("\n\n", "\n")
+    transfer_text = gpt_35_api(key, font + text)
+    para_list = re_matching.cut_para(transfer_text)
     audio_list = []
     if not cut_by_sent:
         for p in para_list:
             )  # 对完整句子做音量归一
             audio_list.append(audio16bit)
     audio_concat = np.concatenate(audio_list)
+    return ("Success", (44100, transfer_text, audio_concat))
 def tts_fn(
+        text: str,
+        font,
+        key,
+        speaker,
+        sdp_ratio,
+        noise_scale,
+        noise_scale_w,
+        length_scale,
+        language,
 ):
     audio_list = []
+    transfer_text = gpt_35_api(key, font + text)
     if language == "mix":
+        bool_valid, str_valid = re_matching.validate_text(transfer_text)
         if not bool_valid:
             return str_valid, (
                 hps.data.sampling_rate,
                 np.concatenate([np.zeros(hps.data.sampling_rate // 2)]),
             )
+        result = re_matching.text_matching(transfer_text)
         for one in result:
             _speaker = one.pop()
             for lang, content in one:
                     )
                 )
     elif language.lower() == "auto":
+        sentences_list = split_by_language(transfer_text, target_languages=["zh", "ja", "en"])
         for sentences, lang in sentences_list:
             lang = lang.upper()
             if lang == "JA":
     else:
         audio_list.extend(
             generate_audio(
+                transfer_text.split("|"),
                 sdp_ratio,
                 noise_scale,
                 noise_scale_w,
         )
     audio_concat = np.concatenate(audio_list)
+    return "Success", (hps.data.sampling_rate, transfer_text, audio_concat)
 if __name__ == "__main__":
         with gr.Row():
             with gr.Column():
                 gr.Markdown(value="""
+                #【AI星瞳——gpt对话版】在线语音合成（Bert-Vits2 2.0中日英）\n
+                ![avatar](https://img1.baidu.com/it/u=381691319,2894195285&fm=253&fmt=auto&app=138&f=JPEG?w=400&h=300)\n
+                作者：[Xz乔希](https://space.bilibili.com/5859321) 集成作者：[碎语碎念](https://space.bilibili.com/4269384) 声音归属：[星瞳_Official](https://space.bilibili.com/401315430) \n
                 Bert-VITS2项目：https://github.com/Stardust-minus/Bert-VITS2\n
+                GPT_API_free项目：https://github.com/chatanywhere/GPT_API_free\n
+                本项目中的apiKey可以从https://github.com/chatanywhere/GPT_API_free\n
+                免费获取（本项目默认提供了一个，如果没法用了去仓库申请替换就好啦）！\n
                 使用本模型请严格遵守法律法规！\n
+                发布二创作品请标注本项目作者及链接、作品使用Bert-VITS2 AI生成！\n
                 """)
                 text = gr.TextArea(
+                    label="请输入要向星瞳老师提问的问题",
                     placeholder="""
+                    虚拟主播是什么？
                     """,
                 )
+                front_text = gr.Text(label="请输入情景语言", placeholder="请输入情景语言",
+                              value="你是一个叫星瞳的虚拟主播，")
+                key = gr.Text(label="GPT Key", placeholder="请输入上面提示中获取的gpt key",
+                              value="izlrijShDu7tp2rIgvYfibcC2J0Eh3uWfdm9ndrxN5nWrL96")
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="选择说话人"
                 )
                         )
                         slicer = gr.Button("切分生成", variant="primary")
                 text_output = gr.Textbox(label="状态信息")
+                gpt_output = gr.TextArea(label="星瞳老师的答案")
                 audio_output = gr.Audio(label="输出音频")
                 # explain_image = gr.Image(
                 #     label="参数解释信息",
             tts_fn,
             inputs=[
                 text,
+                front_text,
+                key,
                 speaker,
                 sdp_ratio,
                 noise_scale,
                 length_scale,
                 language,
             ],
+            outputs=[text_output, gpt_output, audio_output],
         )
         slicer.click(
             tts_split,
             inputs=[
                 text,
+                front_text
+                key,
                 speaker,
                 sdp_ratio,
                 noise_scale,
                 interval_between_para,
                 interval_between_sent,
             ],
+            outputs=[text_output, gpt_output, audio_output],
         )
     print("推理页面已开启!")