Spaces:

candlend
/

vits-hoshimi

Runtime error

App Files Files Community

candlend commited on Dec 16, 2022

Commit

51a465c

•

1 Parent(s): b8d387b

vc_transform desc

Browse files

Files changed (3) hide show

app.py +1 -3
sovits/inference/infer_tool.py +3 -6
sovits/sovits_inferencer.py +4 -5

app.py CHANGED Viewed

@@ -15,9 +15,7 @@ with app:
         gr.HTML(f.read())
     with gr.Tabs():
         with gr.TabItem("语音合成"):
-            vits_inferencer = VitsInferencer("vits/configs/hoshimi_base.json")
             vits_inferencer.render()
-        with gr.TabItem("声线转换（开发中）"):
-            sovits_inferencer = SovitsInferencer("sovits/configs/hoshimi_base.json")
             sovits_inferencer.render()
     app.launch(server_name='0.0.0.0')

         gr.HTML(f.read())
     with gr.Tabs():
         with gr.TabItem("语音合成"):
             vits_inferencer.render()
+        with gr.TabItem("声线转换"):
             sovits_inferencer.render()
     app.launch(server_name='0.0.0.0')

sovits/inference/infer_tool.py CHANGED Viewed

@@ -145,12 +145,11 @@ def mkdir(paths: list):
 class Svc(object):
     def __init__(self, net_g_path, config_path, hubert_path="hubert/hubert-soft-0d54a1f4.pt",
-                 onnx=False):
         self.onnx = onnx
         self.net_g_path = net_g_path
         self.hubert_path = hubert_path
-        # self.dev = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-        self.dev = torch.device("cpu")
         self.net_g_ms = None
         self.hps_ms = utils.get_hparams_from_file(config_path)
         self.target_sample = self.hps_ms.data.sampling_rate
@@ -160,9 +159,7 @@ class Svc(object):
             self.speakers[sid] = spk
         self.spk2id = self.hps_ms.spk
         # 加载hubert
-        self.hubert_soft = hubert_model.hubert_soft(hubert_path)
-        # if torch.cuda.is_available():
-        #     self.hubert_soft = self.hubert_soft.cuda()
         self.load_model()
     def load_model(self):

 class Svc(object):
     def __init__(self, net_g_path, config_path, hubert_path="hubert/hubert-soft-0d54a1f4.pt",
+                 onnx=False, device="cpu"):
         self.onnx = onnx
         self.net_g_path = net_g_path
         self.hubert_path = hubert_path
+        self.dev = torch.device(device)
         self.net_g_ms = None
         self.hps_ms = utils.get_hparams_from_file(config_path)
         self.target_sample = self.hps_ms.data.sampling_rate
             self.speakers[sid] = spk
         self.spk2id = self.hps_ms.spk
         # 加载hubert
+        self.hubert_soft = hubert_model.hubert_soft(hubert_path).to(device)
         self.load_model()
     def load_model(self):

sovits/sovits_inferencer.py CHANGED Viewed

@@ -16,7 +16,7 @@ class SovitsInferencer:
         self.device = torch.device(device)
         self.hps = utils.get_hparams_from_file(hps_path)
         self.model_path = self.get_latest_model_path()
-        self.svc = infer_tool.Svc(self.model_path, hps_path, "sovits/hubert/hubert-soft-0d54a1f4.pt", device=device)
     def get_latest_model_path(self):
         model_dir_path = os.path.join(SOVITS_ROOT_PATH, "models")
@@ -54,9 +54,8 @@ class SovitsInferencer:
                 _audio = out_audio.cpu().numpy()
             audio.extend(list(_audio))
         out_path = f"./out_temp.wav"
-        soundfile.write(out_path, o_audio, self.svc.target_sample)
-        mistake, var = self.svc.calc_error(audio_path, out_path, tran)
-        return f"半音偏差：{mistake}\n半音方差：{var}", (self.hps.data.sampling_rate, o_audio.numpy())
     def render(self):
         gr.Markdown("""
@@ -66,7 +65,7 @@ class SovitsInferencer:
         record_input = gr.Audio(source="microphone", label="录制你的声音", type="filepath", elem_id="audio_inputs")
         upload_input = gr.Audio(source="upload", label="上传音频（长度小于45秒）", type="filepath",
                                 elem_id="audio_inputs")
-        vc_transform = gr.Number(label="升降半音（整数，可以正负，半音数量，升高八度就是12，若原声是男声可以设为9左右）", value=0)
         slice_db = gr.Number(label="过滤分贝（默认-40，嘈杂的音频可以-30，干声保留呼吸可以-50）", value=-40)
         vc_submit = gr.Button("转换", variant="primary")
         out_message = gr.Textbox(label="Output Message")

         self.device = torch.device(device)
         self.hps = utils.get_hparams_from_file(hps_path)
         self.model_path = self.get_latest_model_path()
+        self.svc = infer_tool.Svc(self.model_path, hps_path, "sovits/hubert/hubert-soft-0d54a1f4.pt")
     def get_latest_model_path(self):
         model_dir_path = os.path.join(SOVITS_ROOT_PATH, "models")
                 _audio = out_audio.cpu().numpy()
             audio.extend(list(_audio))
         out_path = f"./out_temp.wav"
+        soundfile.write(out_path, audio, self.svc.target_sample)
+        return "转换成功", (self.hps.data.sampling_rate, np.array(audio, dtype=np.float32))
     def render(self):
         gr.Markdown("""
         record_input = gr.Audio(source="microphone", label="录制你的声音", type="filepath", elem_id="audio_inputs")
         upload_input = gr.Audio(source="upload", label="上传音频（长度小于45秒）", type="filepath",
                                 elem_id="audio_inputs")
+        vc_transform = gr.Number(label="升降半音（整数，可以正负，半音数量，升高八度就是12，若原声是男声需要设大点）", value=0)
         slice_db = gr.Number(label="过滤分贝（默认-40，嘈杂的音频可以-30，干声保留呼吸可以-50）", value=-40)
         vc_submit = gr.Button("转换", variant="primary")
         out_message = gr.Textbox(label="Output Message")