Spaces:

candlend
/

vits-hoshimi

Runtime error

candlend commited on Dec 3, 2022

Commit

799ff6a

•

1 Parent(s): c4c115b

fix deploy env

Files changed (5) hide show

app.py CHANGED Viewed

@@ -1,16 +1,18 @@
 import gradio as gr
 from vits.vits_inferencer import VitsInferencer
 from sovits.sovits_inferencer import SovitsInferencer
 app = gr.Blocks()
 with app:
-    with open("header.html", "r") as f:
         gr.HTML(f.read())
     with gr.Tabs():
         with gr.TabItem("语音合成"):
-            vits_inferencer = VitsInferencer("vits/configs/hoshimi_base.json")
             vits_inferencer.render()
         with gr.TabItem("声线转换（开发中）"):
-            sovits_inferencer = SovitsInferencer("sovits/configs/hoshimi_base.json")
             sovits_inferencer.render()
-    app.launch()

+#encoding=utf-8
+from base64 import encode
 import gradio as gr
 from vits.vits_inferencer import VitsInferencer
 from sovits.sovits_inferencer import SovitsInferencer
 app = gr.Blocks()
 with app:
+    with open("header.html", "r", encoding="utf-8") as f:
         gr.HTML(f.read())
     with gr.Tabs():
         with gr.TabItem("语音合成"):
+            vits_inferencer = VitsInferencer("vits/configs/hoshimi_base.json", device="cuda")
             vits_inferencer.render()
         with gr.TabItem("声线转换（开发中）"):
+            sovits_inferencer = SovitsInferencer("sovits/configs/hoshimi_base.json", device="cuda")
             sovits_inferencer.render()
+    app.launch(server_name='0.0.0.0')

requirements.txt CHANGED Viewed

@@ -15,10 +15,11 @@ ko-pron==1.3
 inflect==6.0.0
 eng-to-ipa==0.0.2
 num-thai==0.0.5
-opencc==1.1.4
 scikit-maad
 torch
 torchvision
 torchaudio
 numpy
-pyworld

 inflect==6.0.0
 eng-to-ipa==0.0.2
 num-thai==0.0.5
+opencc==1.1.1
 scikit-maad
 torch
 torchvision
 torchaudio
 numpy
+pyworld
+gradio

sovits/hubert_model.py CHANGED Viewed

@@ -214,8 +214,8 @@ def hubert_soft(
     Args:
         path (str): path of a pretrained model
     """
-    # dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-    dev = torch.device("cpu")
     hubert = HubertSoft()
     checkpoint = torch.load(path)
     consume_prefix_in_state_dict_if_present(checkpoint, "module.")

     Args:
         path (str): path of a pretrained model
     """
+    dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    # dev = torch.device("cpu")
     hubert = HubertSoft()
     checkpoint = torch.load(path)
     consume_prefix_in_state_dict_if_present(checkpoint, "module.")

sovits/sovits_inferencer.py CHANGED Viewed

@@ -13,7 +13,7 @@ class SovitsInferencer:
         self.device = torch.device(device)
         self.hps = utils.get_hparams_from_file(hps_path)
         self.model_path = self.get_latest_model_path()
-        self.svc = infer_tool.Svc(self.model_path, hps_path)
     def get_latest_model_path(self):
         model_dir_path = os.path.join(ROOT_PATH, "models")
@@ -34,9 +34,9 @@ class SovitsInferencer:
         o_audio, out_sr = self.svc.infer(0, tran, audio_path)
         out_path = f"./out_temp.wav"
-        soundfile.write(out_path, o_audio, self.svc.target_sample)
         mistake, var = self.svc.calc_error(audio_path, out_path, tran)
-        return f"半音偏差：{mistake}\n半音方差：{var}", (self.hps.data.sampling_rate, o_audio.numpy())
     def render(self):
         gr.Markdown("""

         self.device = torch.device(device)
         self.hps = utils.get_hparams_from_file(hps_path)
         self.model_path = self.get_latest_model_path()
+        self.svc = infer_tool.Svc(self.model_path, hps_path, device=device)
     def get_latest_model_path(self):
         model_dir_path = os.path.join(ROOT_PATH, "models")
         o_audio, out_sr = self.svc.infer(0, tran, audio_path)
         out_path = f"./out_temp.wav"
+        soundfile.write(out_path, o_audio.cpu(), self.svc.target_sample)
         mistake, var = self.svc.calc_error(audio_path, out_path, tran)
+        return f"半音偏差：{mistake}\n半音方差：{var}", (self.hps.data.sampling_rate, o_audio.cpu().numpy())
     def render(self):
         gr.Markdown("""

vits/vits_inferencer.py CHANGED Viewed

@@ -51,7 +51,7 @@ class VitsInferencer:
         with torch.no_grad():
             x_tst = stn_tst.unsqueeze(0).to(self.device)
             x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(self.device)
-            audio = self.models[mode].infer(x_tst, x_tst_lengths, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale)[0][0,0].data.float().numpy()
         return (self.hps.data.sampling_rate, audio)
     def change_mode(self, mode):

         with torch.no_grad():
             x_tst = stn_tst.unsqueeze(0).to(self.device)
             x_tst_lengths = torch.LongTensor([stn_tst.size(0)]).to(self.device)
+            audio = self.models[mode].infer(x_tst, x_tst_lengths, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale)[0][0,0].data.float().cpu().numpy()
         return (self.hps.data.sampling_rate, audio)
     def change_mode(self, mode):