Spaces:

chenmgtea
/

chat-tts

Running

App Files Files Community

chenjgtea commited on Aug 23, 2024

Commit

5c0140c

•

1 Parent(s): 8dce793

新增gpu模式下chattts代码

Browse files

Files changed (1) hide show

web/app_gpu.py +76 -51

web/app_gpu.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import os, sys
 import spaces
 if sys.platform == "darwin":
     os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 now_dir = os.getcwd()
@@ -158,21 +160,17 @@ def main(args):
         # reload_chat_button.click()
-        generate_button.click(fn=get_chat_infer_text,
-                              inputs=[text_input,
                                                        text_seed_input,
-                                                       refine_text_checkBox
-                                                       ],
-                              outputs=[text_output]
-                              ).then(fn=get_chat_infer_audio,
-                                     inputs=[text_output,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
                                                        audio_seed_input,
                                                        spk_emb_text
                                                        ],
-                                     outputs=[audio_output])
         # 初始化 spk_emb_text 数值
         spk_emb_text.value = on_audio_seed_change(audio_seed_input.value)
         logger.info("元素初始化完成,启动gradio服务=======")
@@ -195,13 +193,16 @@ def main(args):
 简而言之，"spk_embedding"关注的是对话参与者的身份特征，而"temperature"是用于调整生成文本不确定性的一个超参数。
     '''
 @spaces.GPU
-def get_chat_infer_audio(chat_txt,
-                 temperature_slider,
-                 top_p_slider,
-                 top_k_slider,
-                 audio_seed_input,
-                 spk_emb_text):
-    logger.info("========开始生成音频文件=====")
     #音频参数设置
     # params_infer_code = Chat2TTS.Chat.InferCodeParams(
     #     spk_emb=spk_emb_text,  # add sampled speaker
@@ -209,45 +210,69 @@ def get_chat_infer_audio(chat_txt,
     #     top_P=top_p_slider,  # top P decode
     #     top_K=top_k_slider,  # top K decode
     # )
-    # torch.manual_seed(audio_seed_input)
-    # rand_spk = torch.randn(768)
-    params_infer_code = {
-        'spk_emb': None,
-        'temperature': temperature_slider,
-        'top_P': top_p_slider,
-        'top_K': top_k_slider,
-    }
-    torch.manual_seed(audio_seed_input)
-    wav = chat.infer(
-        text=chat_txt,
-        skip_refine_text=True, #跳过文本优化
-        params_infer_code=params_infer_code,
-    )
-    yield 24000, float_to_int16(wav[0]).T
-@spaces.GPU
-def get_chat_infer_text(text,seed,refine_text_checkBox):
-    logger.info("========开始优化文本内容2=====")
-    global chat
     if not refine_text_checkBox:
         logger.info("========文本内容无需优化=====")
-        return  text
-    # params_refine_text = Chat2TTS.Chat.RefineTextParams(
-    #     prompt='[oral_2][laugh_0][break_6]',
-    # )
-    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
-    torch.manual_seed(seed)
-    chat_text = chat.infer(
-        text=text,
-        skip_refine_text=False,
-        refine_text_only=True,  #仅返回优化后文本内容
-        params_refine_text=params_refine_text,
-    )
-    return chat_text[0] if isinstance(chat_text, list) else chat_text
 @spaces.GPU
 def on_audio_seed_change(audio_seed_input):

 import os, sys
 import spaces
+from tool import TorchSeedContext
 if sys.platform == "darwin":
     os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 now_dir = os.getcwd()
         # reload_chat_button.click()
+        generate_button.click(fn=get_chat_infer_audio,
+                                     inputs=[text_input,
                                                        text_seed_input,
+                                                       refine_text_checkBox,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
                                                        audio_seed_input,
                                                        spk_emb_text
                                                        ],
+                                     outputs=[text_output,audio_output])
         # 初始化 spk_emb_text 数值
         spk_emb_text.value = on_audio_seed_change(audio_seed_input.value)
         logger.info("元素初始化完成,启动gradio服务=======")
 简而言之，"spk_embedding"关注的是对话参与者的身份特征，而"temperature"是用于调整生成文本不确定性的一个超参数。
     '''
 @spaces.GPU
+def get_chat_infer_audio(text,
+                         text_seed_input,
+                         refine_text_checkBox,
+                         temperature_slider,
+                         top_p_slider,
+                         top_k_slider,
+                         audio_seed_input,
+                         spk_emb_text):
+    logger.info("========开始处理TTS模型=====")
     #音频参数设置
     # params_infer_code = Chat2TTS.Chat.InferCodeParams(
     #     spk_emb=spk_emb_text,  # add sampled speaker
     #     top_P=top_p_slider,  # top P decode
     #     top_K=top_k_slider,  # top K decode
     # )
+    params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
     if not refine_text_checkBox:
         logger.info("========文本内容无需优化=====")
+        chat_txt=text
+    else:
+        logger.info("========开始优化文本内容=====")
+        #torch.manual_seed(text_seed_input)
+        with TorchSeedContext(text_seed_input):
+            chat_txt = chat.infer(
+                text=text,
+                skip_refine_text=False,
+                refine_text_only=True,  #仅返回优化后文本内容
+                params_refine_text=params_refine_text,
+            )
+    logger.info("========开始生成音频文件=====")
+    #torch.manual_seed(audio_seed_input)
+    with TorchSeedContext(audio_seed_input):
+        rand_spk = torch.randn(768)
+        params_infer_code = {
+            'spk_emb': rand_spk,
+            'temperature': temperature_slider,
+            'top_P': top_p_slider,
+            'top_K': top_k_slider,
+        }
+        wav = chat.infer(
+            text=chat_txt,
+            skip_refine_text=True, #跳过文本优化
+            params_refine_text=params_refine_text,
+            params_infer_code=params_infer_code,
+        )
+    #yield 24000, float_to_int16(wav[0]).T
+    audio_data = np.array(wav[0]).flatten()
+    sample_rate = 24000
+    text_data = text[0] if isinstance(text, list) else text
+    return [text_data,(sample_rate, audio_data)]
+# @spaces.GPU
+# def get_chat_infer_text(text,seed,refine_text_checkBox):
+#
+#     logger.info("========开始优化文本内容2=====")
+#     global chat
+#     if not refine_text_checkBox:
+#         logger.info("========文本内容无需优化=====")
+#         return  text
+#
+#     # params_refine_text = Chat2TTS.Chat.RefineTextParams(
+#     #     prompt='[oral_2][laugh_0][break_6]',
+#     # )
+#
+#     params_refine_text = {'prompt': '[oral_2][laugh_0][break_6]'}
+#     torch.manual_seed(seed)
+#     chat_text = chat.infer(
+#         text=text,
+#         skip_refine_text=False,
+#         refine_text_only=True,  #仅返回优化后文本内容
+#         params_refine_text=params_refine_text,
+#     )
+#
+#     return chat_text[0] if isinstance(chat_text, list) else chat_text
 @spaces.GPU
 def on_audio_seed_change(audio_seed_input):