Spaces:

chenmgtea
/

chat-tts

Running

App Files Files Community

chenjgtea commited on Aug 23, 2024

Commit

1898711

•

1 Parent(s): 602e4a2

gpu模型下代码更新,已定型

Browse files

Files changed (2) hide show

Chat2TTS/core.py +21 -21
web/app_gpu.py +33 -33

Chat2TTS/core.py CHANGED Viewed

@@ -181,27 +181,27 @@ class Chat:
         return wav
-    def sample_random_speaker(self) -> str:
-        return self._encode_spk_emb(self._sample_random_speaker())
-    @staticmethod
-    def _encode_spk_emb(spk_emb: torch.Tensor) -> str:
-        with torch.no_grad():
-            arr: np.ndarray = spk_emb.to(dtype=torch.float16, device="cpu").numpy()
-            s = b14.encode_to_string(
-                lzma.compress(
-                    arr.tobytes(),
-                    format=lzma.FORMAT_RAW,
-                    filters=[
-                        {"id": lzma.FILTER_LZMA2, "preset": 9 | lzma.PRESET_EXTREME}
-                    ],
-                ),
-            )
-            del arr
-        return s
-    def _sample_random_speaker(self) -> torch.Tensor:
         with torch.no_grad():
             dim: int = self.gpt.gpt.layers[0].mlp.gate_proj.in_features

         return wav
+    # def sample_random_speaker(self) -> str:
+    #     return self._encode_spk_emb(self.sample_random_speaker_tensor())
+    #
+    #
+    # @staticmethod
+    # def _encode_spk_emb(spk_emb: torch.Tensor) -> str:
+    #     with torch.no_grad():
+    #         arr: np.ndarray = spk_emb.to(dtype=torch.float16, device="cpu").numpy()
+    #         s = b14.encode_to_string(
+    #             lzma.compress(
+    #                 arr.tobytes(),
+    #                 format=lzma.FORMAT_RAW,
+    #                 filters=[
+    #                     {"id": lzma.FILTER_LZMA2, "preset": 9 | lzma.PRESET_EXTREME}
+    #                 ],
+    #             ),
+    #         )
+    #         del arr
+    #     return s
+    def sample_random_speaker_tensor(self) -> torch.Tensor:
         with torch.no_grad():
             dim: int = self.gpt.gpt.layers[0].mlp.gate_proj.in_features

web/app_gpu.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import os, sys
 import spaces
-from tool import TorchSeedContext
 if sys.platform == "darwin":
     os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
@@ -12,6 +11,7 @@ from tool.logger import get_logger
 from tool.func import *
 from tool.np import *
 from tool.gpu import select_device
 import Chat2TTS
 import argparse
 import torch._dynamo
@@ -116,18 +116,18 @@ def main(args):
             )
             generate_text_seed = gr.Button("随机生成文本种子", interactive=True)
-        with gr.Row():
-            spk_emb_text = gr.Textbox(
-                label="Speaker Embedding",
-                max_lines=3,
-                show_copy_button=True,
-                interactive=False,
-                scale=2,
-            )
-            reload_chat_button = gr.Button("Reload", scale=1, interactive=True)
         with gr.Row():
             generate_button = gr.Button("生成音频文件", scale=1, interactive=True)
         with gr.Row():
@@ -152,7 +152,7 @@ def main(args):
         # 针对页面元素新增 监听事件
         voice_selection.change(fn=on_voice_change, inputs=voice_selection, outputs=audio_seed_input)
-        audio_seed_input.change(fn=on_audio_seed_change, inputs=audio_seed_input, outputs=spk_emb_text)
         generate_audio_seed.click(fn=generate_seed, outputs=audio_seed_input)
@@ -160,19 +160,18 @@ def main(args):
         # reload_chat_button.click()
-        generate_button.click(fn=get_chat_infer_audio,
-                                     inputs=[text_input,
                                                        text_seed_input,
                                                        refine_text_checkBox,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
-                                                       audio_seed_input,
-                                                       spk_emb_text
                                                        ],
-                                     outputs=[text_output,audio_output])
         # 初始化 spk_emb_text 数值
-        spk_emb_text.value = on_audio_seed_change(audio_seed_input.value)
         logger.info("元素初始化完成,启动gradio服务=======")
         # 运行gradio服务
@@ -193,14 +192,13 @@ def main(args):
 简而言之，"spk_embedding"关注的是对话参与者的身份特征，而"temperature"是用于调整生成文本不确定性的一个超参数。
     '''
 @spaces.GPU
-def get_chat_infer_audio(text,
-                         text_seed_input,
-                         refine_text_checkBox,
-                         temperature_slider,
-                         top_p_slider,
-                         top_k_slider,
-                         audio_seed_input,
-                         spk_emb_text):
     logger.info("========开始处理TTS模型=====")
     #音频参数设置
@@ -229,7 +227,9 @@ def get_chat_infer_audio(text,
     #torch.manual_seed(audio_seed_input)
     with TorchSeedContext(audio_seed_input):
-        rand_spk = torch.randn(768)
         params_infer_code = {
             'spk_emb': rand_spk,
             'temperature': temperature_slider,
@@ -274,12 +274,12 @@ def get_chat_infer_audio(text,
 #
 #     return chat_text[0] if isinstance(chat_text, list) else chat_text
-@spaces.GPU
-def on_audio_seed_change(audio_seed_input):
-    global chat
-    torch.manual_seed(audio_seed_input)
-    rand_spk = chat.sample_random_speaker()
-    return rand_spk
     # rand_spk = torch.randn(audio_seed_input)
     # return encode_spk_emb(rand_spk)

 import os, sys
 import spaces
 if sys.platform == "darwin":
     os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
 from tool.func import *
 from tool.np import *
 from tool.gpu import select_device
+from tool.ctx import TorchSeedContext
 import Chat2TTS
 import argparse
 import torch._dynamo
             )
             generate_text_seed = gr.Button("随机生成文本种子", interactive=True)
+        # with gr.Row():
+            # spk_emb_text = gr.Textbox(
+            #     label="Speaker Embedding",
+            #     max_lines=3,
+            #     show_copy_button=True,
+            #     interactive=False,
+            #     scale=2,
+            #
+            # )
         with gr.Row():
+            reload_chat_button = gr.Button("Reload", scale=1, interactive=True)
             generate_button = gr.Button("生成音频文件", scale=1, interactive=True)
         with gr.Row():
         # 针对页面元素新增 监听事件
         voice_selection.change(fn=on_voice_change, inputs=voice_selection, outputs=audio_seed_input)
+        #audio_seed_input.change(fn=on_audio_seed_change, inputs=audio_seed_input, outputs=spk_emb_text)
         generate_audio_seed.click(fn=generate_seed, outputs=audio_seed_input)
         # reload_chat_button.click()
+        generate_button.click(fn=general_chat_infer_audio,
+                              inputs=[text_input,
                                                        text_seed_input,
                                                        refine_text_checkBox,
                                                        temperature_slider,
                                                        top_p_slider,
                                                        top_k_slider,
+                                                       audio_seed_input
                                                        ],
+                              outputs=[text_output,audio_output])
         # 初始化 spk_emb_text 数值
+        #spk_emb_text.value = on_audio_seed_change(audio_seed_input.value)
         logger.info("元素初始化完成,启动gradio服务=======")
         # 运行gradio服务
 简而言之，"spk_embedding"关注的是对话参与者的身份特征，而"temperature"是用于调整生成文本不确定性的一个超参数。
     '''
 @spaces.GPU
+def general_chat_infer_audio(text,
+                             text_seed_input,
+                             refine_text_checkBox,
+                             temperature_slider,
+                             top_p_slider,
+                             top_k_slider,
+                             audio_seed_input):
     logger.info("========开始处理TTS模型=====")
     #音频参数设置
     #torch.manual_seed(audio_seed_input)
     with TorchSeedContext(audio_seed_input):
+        #rand_spk = torch.randn(768)
+        rand_spk = chat.sample_random_speaker_tensor()
+        logger.info("========生成音频spk_emb参数完成=====")
         params_infer_code = {
             'spk_emb': rand_spk,
             'temperature': temperature_slider,
 #
 #     return chat_text[0] if isinstance(chat_text, list) else chat_text
+#@spaces.GPU
+# def on_audio_seed_change(audio_seed_input):
+#     global chat
+#     torch.manual_seed(audio_seed_input)
+#     rand_spk = chat.sample_random_speaker()
+#     return rand_spk
     # rand_spk = torch.randn(audio_seed_input)
     # return encode_spk_emb(rand_spk)