Spaces:

ORI-Muchim
/

RaidenTTS

Running

ORI-Muchim commited on Nov 23, 2022

Commit

f229280

•

1 Parent(s): e8751c2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,24 +25,21 @@ def get_text(text, hps, is_phoneme):
 def create_tts_fn(model, hps, speaker_ids):
-    def tts_fn(text, speaker, speed, is_phoneme):
         if limitation:
-            text_len = len(text)
-            max_len = 100
-            if is_phoneme:
                 max_len *= 3
-            else:
-                if len(hps.data.text_cleaners) > 0 and hps.data.text_cleaners[0] == "zh_ja_mixture_cleaners":
-                    text_len = len(re.sub("(\[ZH\]|\[JA\])", "", text))
             if text_len > max_len:
                 return "Error: Text is too long", None
         speaker_id = speaker_ids[speaker]
-        stn_tst = get_text(text, hps, is_phoneme)
         with no_grad():
-            x_tst = stn_tst.unsqueeze(0)
-            x_tst_lengths = LongTensor([stn_tst.size(0)])
-            sid = LongTensor([speaker_id])
             audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8,
                                 length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
         del stn_tst, x_tst, x_tst_lengths, sid
@@ -51,9 +48,6 @@ def create_tts_fn(model, hps, speaker_ids):
     return tts_fn
 def create_to_phoneme_fn(hps):
     def to_phoneme_fn(text):
         return _clean_text(text, hps.data.text_cleaners) if text != "" else ""

 def create_tts_fn(model, hps, speaker_ids):
+    def tts_fn(text, speaker, speed, is_symbol):
         if limitation:
+            text_len = len(re.sub("\[([A-Z]{2})\]", "", text))
+            max_len = 150
+            if is_symbol:
                 max_len *= 3
             if text_len > max_len:
                 return "Error: Text is too long", None
         speaker_id = speaker_ids[speaker]
+        stn_tst = get_text(text, hps, is_symbol)
         with no_grad():
+            x_tst = stn_tst.unsqueeze(0).to(device)
+            x_tst_lengths = LongTensor([stn_tst.size(0)]).to(device)
+            sid = LongTensor([speaker_id]).to(device)
             audio = model.infer(x_tst, x_tst_lengths, sid=sid, noise_scale=.667, noise_scale_w=0.8,
                                 length_scale=1.0 / speed)[0][0, 0].data.cpu().float().numpy()
         del stn_tst, x_tst, x_tst_lengths, sid
     return tts_fn
 def create_to_phoneme_fn(hps):
     def to_phoneme_fn(text):
         return _clean_text(text, hps.data.text_cleaners) if text != "" else ""