Spaces:

united-link
/

taiwanese-hakka-tts

Running on Zero

App Files Files Community

txya900619 commited on May 15

Commit

a523a5e

•

1 Parent(s): 576392b

feat: update model and use zero

Browse files

Files changed (2) hide show

app.py +48 -18
configs/models.yaml +2 -20

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ from TTS.utils.synthesizer import Synthesizer
 import numpy as np
 from huggingface_hub import snapshot_download
 from omegaconf import OmegaConf
 from ipa.ipa import get_ipa, parse_ipa
 from replace.tts import ChangedVitsConfig
@@ -31,13 +33,34 @@ def load_model(model_id):
     with open(temp_config_path, "w") as f:
         f.write(content)
         f.close()
-    return Synthesizer(tts_checkpoint=model_ckpt_path, tts_config_path=temp_config_path)
 OmegaConf.register_new_resolver("load_model", load_model)
 models_config = OmegaConf.to_object(OmegaConf.load("configs/models.yaml"))
 def text_to_speech(
     model_id: str,
@@ -55,19 +78,23 @@ def text_to_speech(
         raise gr.Error(
             f"句子中的[{','.join(missing_words)}]目前無法轉成 ipa。請嘗試其他句子。"
         )
     if use_default_emb_or_custom == "default":
-        wav = model.tts(
-            parse_ipa(ipa),
-            speaker_name=speaker if len(models_config[model_id]["speaker_mapping"]) > 1 else None,
             language_name=dialect,
-            split_sentences=False,
         )
     else:
-        wav = model.tts(
-            parse_ipa(ipa),
             speaker_wav=speaker_wav,
             language_name=dialect,
-            split_sentences=False,
         )
     return (
@@ -83,7 +110,7 @@ def when_model_selected(model_id):
     speaker_drop_down_choices = [
         (k, v) for k, v in model_config["speaker_mapping"].items()
     ]
     dialect_drop_down_choices = [
         (k, v) for k, v in model_config["dialect_mapping"].items()
     ]
@@ -91,11 +118,13 @@ def when_model_selected(model_id):
     use_default_emb_or_ref_radio_visible = False
     if model_config["model"].tts_model.config.model_args.speaker_encoder_model_path:
         use_default_emb_or_ref_radio_visible = True
     return (
         gr.update(
             choices=speaker_drop_down_choices,
-            value=speaker_drop_down_choices[0][1] if len(speaker_drop_down_choices) > 0 else None,
             interactive=len(speaker_drop_down_choices) > 1,
         ),
         gr.update(
@@ -138,9 +167,9 @@ with demo:
         label="use default speaker embedding or custom speaker embedding",
         choices=["default", "custom"],
         value="default",
-        visible=False,
     )
-    speaker_wav = gr.Microphone(
         label="speaker wav",
         visible=False,
         editable=False,
@@ -185,11 +214,9 @@ with demo:
         """
         # 臺灣客語語音合成系統
         ### Taiwanese Hakka Text-to-Speech System
-        ### 模型
-        - **sixian-1f-240417**（四縣腔，單一語者）
         ### 研發
-        - **[李鴻欣 Hung-Shin Lee](mailto:hungshinlee@gmail.com)（諾思資訊 North Co., Ltd.）**
-        - **[陳力瑋 Li-Wei Chen](mailto:wayne900619@gmail.com)（諾思資訊 North Co., Ltd.）**
         """
     )
     gr.Interface(
@@ -200,7 +227,10 @@ with demo:
             speaker_wav,
             speaker_drop_down,
             dialect_drop_down,
-            gr.Textbox(label="輸入文字", value="客家族群个六堆運動會會一直延續下去，為臺灣个體育史寫下特別个一頁。"),
         ],
         outputs=[
             gr.Textbox(interactive=False, label="斷詞"),

 import numpy as np
 from huggingface_hub import snapshot_download
 from omegaconf import OmegaConf
+import spaces
+import torch
 from ipa.ipa import get_ipa, parse_ipa
 from replace.tts import ChangedVitsConfig
     with open(temp_config_path, "w") as f:
         f.write(content)
         f.close()
+    return Synthesizer(
+        tts_checkpoint=model_ckpt_path,
+        tts_config_path=temp_config_path,
+        use_cuda=torch.cuda.is_available(),
+    )
 OmegaConf.register_new_resolver("load_model", load_model)
 models_config = OmegaConf.to_object(OmegaConf.load("configs/models.yaml"))
+@spaces.GPU
+def _do_tts(model, ipa, language_name,speaker_name=None, speaker_wav=None):
+    if speaker_wav is not None:
+        return model.tts(
+            ipa,
+            speaker_wav=speaker_wav,
+            language_name=language_name,
+            split_sentences=False,
+        )
+    return model.tts(
+        ipa,
+        speaker_name=speaker_name,
+        language_name=language_name,
+        split_sentences=False,
+    )
 def text_to_speech(
     model_id: str,
         raise gr.Error(
             f"句子中的[{','.join(missing_words)}]目前無法轉成 ipa。請嘗試其他句子。"
         )
+    parsed_ipa = parse_ipa(ipa)
     if use_default_emb_or_custom == "default":
+        wav = _do_tts(
+            model,
+            parsed_ipa,
+            speaker_name=speaker
+            if len(models_config[model_id]["speaker_mapping"]) > 1
+            else None,
             language_name=dialect,
+            speaker_wav=speaker_wav,
         )
     else:
+        wav = _do_tts(
+            model,
+            parsed_ipa,
             speaker_wav=speaker_wav,
             language_name=dialect,
         )
     return (
     speaker_drop_down_choices = [
         (k, v) for k, v in model_config["speaker_mapping"].items()
     ]
     dialect_drop_down_choices = [
         (k, v) for k, v in model_config["dialect_mapping"].items()
     ]
     use_default_emb_or_ref_radio_visible = False
     if model_config["model"].tts_model.config.model_args.speaker_encoder_model_path:
         use_default_emb_or_ref_radio_visible = True
     return (
         gr.update(
             choices=speaker_drop_down_choices,
+            value=speaker_drop_down_choices[0][1]
+            if len(speaker_drop_down_choices) > 0
+            else None,
             interactive=len(speaker_drop_down_choices) > 1,
         ),
         gr.update(
         label="use default speaker embedding or custom speaker embedding",
         choices=["default", "custom"],
         value="default",
+        visible=True,
     )
+    speaker_wav = gr.Audio(
         label="speaker wav",
         visible=False,
         editable=False,
         """
         # 臺灣客語語音合成系統
         ### Taiwanese Hakka Text-to-Speech System
         ### 研發
+        - **[李鴻欣 Hung-Shin Lee](mailto:hungshinlee@gmail.com)（[聯和科創](https://www.104.com.tw/company/1a2x6bmu75)）**
+        - **[陳力瑋 Li-Wei Chen](mailto:wayne900619@gmail.com)（[聯和科創](https://www.104.com.tw/company/1a2x6bmu75)）**
         """
     )
     gr.Interface(
             speaker_wav,
             speaker_drop_down,
             dialect_drop_down,
+            gr.Textbox(
+                label="輸入文字",
+                value="客家族群个六堆運動會會一直延續下去，為臺灣个體育史寫下特別个一頁。",
+            ),
         ],
         outputs=[
             gr.Textbox(interactive=False, label="斷詞"),

configs/models.yaml CHANGED Viewed

@@ -1,23 +1,5 @@
-sixian-1f-240417:
-  model: ${load_model:formospeech/taiwanese-hakka-tts-sixian-1f-240417}
-  dialect_mapping:
-    四縣: sixian
-  speaker_mapping: # display_name: id
-    女（64）／苗栗: XF
-sixian-hailu-mix:
-  model: ${load_model:formospeech/taiwanese-hakka-tts-sixian-hailu-mix}
-  dialect_mapping:
-    四縣: sixian
-    海陸: hailu
-  speaker_mapping: # display_name: id
-    女（64）／苗栗: XF
-    男（53）／苗栗: XM
-    女（54）／新竹: HF
-    男（56）／新竹: HM
-sixian-hailu-mix-se:
-  model: ${load_model:formospeech/taiwanese-hakka-tts-sixian-hailu-mix-se}
   dialect_mapping:
     四縣: sixian
     海陸: hailu

+yourtts-htia-240515:
+  model: ${load_model:formospeech/yourtts-htia-240515}
   dialect_mapping:
     四縣: sixian
     海陸: hailu