Spaces:

Mahiruoshi
/

Lovelive_Nijigasaki_VITS

Running

App Files Files Community

Mahiruoshi commited on Feb 10, 2023

Commit

d220bdb

•

1 Parent(s): 4cc1f98

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -49

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
 import time
 import matplotlib.pyplot as plt
 import IPython.display as ipd
@@ -19,8 +18,6 @@ from text.symbols import symbols
 from text import text_to_sequence
 import unicodedata
 from scipy.io.wavfile import write
-import openai
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
     if hps.data.add_blank:
@@ -28,6 +25,7 @@ def get_text(text, hps):
     text_norm = torch.LongTensor(text_norm)
     return text_norm
 def get_label(text, label):
     if f'[{label}]' in text:
         return True, text.replace(f'[{label}]', '')
@@ -35,7 +33,7 @@ def get_label(text, label):
         return False, text
 def selection(speaker):
-    if speaker == "高咲侑（误）":
         spk = 0
         return spk
@@ -86,54 +84,23 @@ def selection(speaker):
         return spk
     elif speaker == "三色绘恋2":
         spk = 15
-        return spk
     elif speaker == "派蒙":
         spk = 16
         return spk
-def friend_chat(text,key,call_name,tts_input3):
-  call_name = call_name
-  openai.api_key = key
-  identity = tts_input3
-  start_sequence = '\n'+str(call_name)+':'
-  restart_sequence = "\nYou: "
-  all_text = identity + restart_sequence
-  if 1 == 1:
-     prompt0 = text #当期prompt
-  if text == 'quit':
-     return prompt0
-  prompt = identity + prompt0 + start_sequence
-  response = openai.Completion.create(
-    model="text-davinci-003",
-    prompt=prompt,
-    temperature=0.5,
-    max_tokens=1000,
-    top_p=1.0,
-    frequency_penalty=0.5,
-    presence_penalty=0.0,
-    stop=["\nYou:"]
-  )
-  return response['choices'][0]['text'].strip()
-def is_japanese(string):
-        for ch in string:
-            if ord(ch) > 0x3040 and ord(ch) < 0x30FF:
-                return True
-        return False
-def sle(language,text,tts_input2,call_name,tts_input3):
     if language == "中文":
-        tts_input1 = "[ZH]" + text.replace('\n','。').replace(' ',',') + "[ZH]"
         return tts_input1
-    if language == "对话":
-        text = friend_chat(text,tts_input2,call_name,tts_input3).replace('\n','。').replace(' ',',')
-        text = f"[JA]{text}[JA]" if is_japanese(text) else f"[ZH]{text}[ZH]"
-        return text
     elif language == "日文":
-        tts_input1 = "[JA]" + text.replace('\n','。').replace(' ',',') + "[JA]"
         return tts_input1
-def infer(language,text,tts_input2,tts_input3,speaker_id,n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
-    speaker_name = speaker_id
     speaker_id = int(selection(speaker_id))
-    stn_tst = get_text(sle(language,text,tts_input2,speaker_name,tts_input3), hps_ms)
     with torch.no_grad():
         x_tst = stn_tst.unsqueeze(0).to(dev)
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
@@ -144,12 +111,13 @@ def infer(language,text,tts_input2,tts_input3,speaker_id,n_scale= 0.667,n_scale_
         spending_time = "推理时间："+str(t2-t1)+"s"
         print(spending_time)
     return (hps_ms.data.sampling_rate, audio)
-lan = ["中文","日文"]
-idols = ["高咲侑（误）","歩夢","かすみ","しずく","果林","愛","彼方","せつ菜","璃奈","栞子","エマ","ランジュ","ミア"]
-dev = torch.device("cpu")
-hps_ms = utils.get_hparams_from_file("2_config.json")
 net_g_ms = SynthesizerTrn(
     len(symbols),
     hps_ms.data.filter_length // 2 + 1,
@@ -159,9 +127,10 @@ net_g_ms = SynthesizerTrn(
 _ = net_g_ms.eval()
 _ = utils.load_checkpoint("G_842000.pth", net_g_ms, None)
 app = gr.Blocks()
 with app:
     with gr.Tabs():

 import time
 import matplotlib.pyplot as plt
 import IPython.display as ipd
 from text import text_to_sequence
 import unicodedata
 from scipy.io.wavfile import write
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
     if hps.data.add_blank:
     text_norm = torch.LongTensor(text_norm)
     return text_norm
 def get_label(text, label):
     if f'[{label}]' in text:
         return True, text.replace(f'[{label}]', '')
         return False, text
 def selection(speaker):
+    if speaker == "高咲侑":
         spk = 0
         return spk
         return spk
     elif speaker == "三色绘恋2":
         spk = 15
     elif speaker == "派蒙":
         spk = 16
         return spk
+def sle(language,tts_input0):
     if language == "中文":
+        tts_input1 = "[ZH]" + tts_input0.replace('\n','。').replace(' ',',') + "[ZH]"
+        return tts_input1
+    if language == "英文":
+        tts_input1 = "[EN]" + tts_input0.replace('\n','.').replace(' ',',') + "[EN]"
         return tts_input1
     elif language == "日文":
+        tts_input1 = "[JA]" + tts_input0.replace('\n','。').replace(' ',',') + "[JA]"
         return tts_input1
+def infer(language,text,speaker_id, n_scale= 0.667,n_scale_w = 0.8, l_scale = 1 ):
     speaker_id = int(selection(speaker_id))
+    stn_tst = get_text(sle(language,text), hps_ms)
     with torch.no_grad():
         x_tst = stn_tst.unsqueeze(0).to(dev)
         x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(dev)
         spending_time = "推理时间："+str(t2-t1)+"s"
         print(spending_time)
     return (hps_ms.data.sampling_rate, audio)
+lan = ["中文","日文","英文"]
+idols = ["高咲侑","歩夢","かすみ","しずく","果林","愛","彼方","せつ菜","璃奈","栞子","エマ","ランジュ","ミア","三色绘恋1","三色绘恋2","派蒙"]
+dev = torch.device("cuda:0")
+hps_ms = utils.get_hparams_from_file("config.json")
 net_g_ms = SynthesizerTrn(
     len(symbols),
     hps_ms.data.filter_length // 2 + 1,
 _ = net_g_ms.eval()
 _ = utils.load_checkpoint("G_842000.pth", net_g_ms, None)
 app = gr.Blocks()
 with app:
     with gr.Tabs():