otto-GPT-SoVITS

Running

App Files Files Community

XzJosh commited on Jan 25

Commit

e5f651c

•

1 Parent(s): 03da129

Upload 34 files

Browse files

Files changed (9) hide show

.gitattributes +10 -11
app.py +111 -53
models/Azuma/Azuma-e10.ckpt +3 -0
models/Azuma/Azuma_e35_s1435.pth +3 -0
module/data_utils.py +45 -92
requirements.txt +12 -6
text/chinese.py +1 -1
text/tone_sandhi.py +1 -1
utils.py +3 -3

.gitattributes CHANGED Viewed

@@ -1,35 +1,34 @@
 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

 *.7z filter=lfs diff=lfs merge=lfs -text
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text
 *.h5 filter=lfs diff=lfs merge=lfs -text
 *.joblib filter=lfs diff=lfs merge=lfs -text
 *.lfs.* filter=lfs diff=lfs merge=lfs -text
 *.model filter=lfs diff=lfs merge=lfs -text
 *.msgpack filter=lfs diff=lfs merge=lfs -text
 *.onnx filter=lfs diff=lfs merge=lfs -text
 *.ot filter=lfs diff=lfs merge=lfs -text
 *.parquet filter=lfs diff=lfs merge=lfs -text
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
 *.rar filter=lfs diff=lfs merge=lfs -text
 saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.tar.* filter=lfs diff=lfs merge=lfs -text
 *.tflite filter=lfs diff=lfs merge=lfs -text
 *.tgz filter=lfs diff=lfs merge=lfs -text
 *.xz filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
+*.zstandard filter=lfs diff=lfs merge=lfs -text
+*.tfevents* filter=lfs diff=lfs merge=lfs -text
+*.db* filter=lfs diff=lfs merge=lfs -text
+*.ark* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*data* filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.meta filter=lfs diff=lfs merge=lfs -text
+**/*ckpt*.index filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -texttext/cmudict_cache.pickle filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -1,9 +1,10 @@
-import os
 gpt_path = os.environ.get(
-    "gpt_path", "models/Carol/Carol-e15.ckpt"
 )
-sovits_path = os.environ.get("sovits_path", "models/Carol/Carol_e40_s2160.pth")
 cnhubert_base_path = os.environ.get(
     "cnhubert_base_path", "pretrained_models/chinese-hubert-base"
 )
@@ -21,6 +22,10 @@ import numpy as np
 import librosa,torch
 from feature_extractor import cnhubert
 cnhubert.cnhubert_base_path=cnhubert_base_path
 from module.models import SynthesizerTrn
 from AR.models.t2s_lightning_module import Text2SemanticLightningModule
@@ -106,29 +111,42 @@ if is_half == True:
 else:
     ssl_model = ssl_model.to(device)
-vq_model = SynthesizerTrn(
-    hps.data.filter_length // 2 + 1,
-    hps.train.segment_size // hps.data.hop_length,
-    n_speakers=hps.data.n_speakers,
-    **hps.model
-)
-if is_half == True:
-    vq_model = vq_model.half().to(device)
-else:
-    vq_model = vq_model.to(device)
-vq_model.eval()
-print(vq_model.load_state_dict(dict_s2["weight"], strict=False))
-hz = 50
-max_sec = config["data"]["max_sec"]
-# t2s_model = Text2SemanticLightningModule.load_from_checkpoint(checkpoint_path=gpt_path, config=config, map_location="cpu")#########todo
-t2s_model = Text2SemanticLightningModule(config, "ojbk", is_train=False)
-t2s_model.load_state_dict(dict_s1["weight"])
-if is_half == True:
-    t2s_model = t2s_model.half()
-t2s_model = t2s_model.to(device)
-t2s_model.eval()
-total = sum([param.nelement() for param in t2s_model.parameters()])
-print("Number of parameter: %.2fM" % (total / 1e6))
 def get_spepc(hps, filename):
@@ -150,17 +168,29 @@ def get_spepc(hps, filename):
 dict_language = {"中文": "zh", "英文": "en", "日文": "ja"}
-def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language):
     t0 = ttime()
     prompt_text = prompt_text.strip("\n")
     prompt_language, text = prompt_language, text.strip("\n")
     with torch.no_grad():
-        wav16k, sr = librosa.load(ref_wav_path, sr=16000)  # 派蒙
         wav16k = torch.from_numpy(wav16k)
         if is_half == True:
             wav16k = wav16k.half().to(device)
         else:
             wav16k = wav16k.to(device)
         ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
             "last_hidden_state"
         ].transpose(
@@ -175,10 +205,7 @@ def get_tts_wav(ref_wav_path, prompt_text, prompt_language, text, text_language)
     phones1 = cleaned_text_to_sequence(phones1)
     texts = text.split("\n")
     audio_opt = []
-    zero_wav = np.zeros(
-        int(hps.data.sampling_rate * 0.3),
-        dtype=np.float16 if is_half == True else np.float32,
-    )
     for text in texts:
         # 解决输入目标文本的空行导致报错的问题
         if (len(text.strip()) == 0):
@@ -319,28 +346,59 @@ def cut3(inp):
     inp = inp.strip("\n")
     return "\n".join(["%s。" % item for item in inp.strip("。").split("。")])
 with gr.Blocks(title="GPT-SoVITS WebUI") as app:
     gr.Markdown(value="""
-    # <center>【AI珈乐】在线语音生成（GPT-SoVITS）\n
     ### <center>模型作者：Xz乔希 https://space.bilibili.com/5859321\n
     ### <center>数据集下载：https://huggingface.co/datasets/XzJosh/audiodataset\n
-    ### <center>声音归属：珈乐Carol https://space.bilibili.com/351609538\n
     ### <center>GPT-SoVITS项目：https://github.com/RVC-Boss/GPT-SoVITS\n
     ### <center>使用本模型请严格遵守法律法规！发布二创作品请标注本项目作者及链接、作品使用GPT-SoVITS AI生成！\n
-    ### <center>⚠️在线端极不稳定且生成速度极慢，强烈建议下载模型本地推理！\n
                 """)
     # with gr.Tabs():
     #     with gr.TabItem(i18n("伴奏人声分离&去混响&去回声")):
     with gr.Group():
-        gr.Markdown(value="*请上传并填写参考信息")
         with gr.Row():
-            inp_ref = gr.Audio(label="请上传参考音频", type="filepath", value="Carol_653.wav")
-            prompt_text = gr.Textbox(label="参考音频的文本", value="电视剧神话，是的，电视剧神话但那我觉得你们既然猜出来了你们肯定是有。")
-            prompt_language = gr.Dropdown(
-                label="参考音频的语种", choices=["中文", "英文", "日文"], value="中文"
-            )
         gr.Markdown(value="*请填写需要合成的目标文本")
         with gr.Row():
             text = gr.Textbox(label="需要合成的文本", value="")
@@ -351,21 +409,21 @@ with gr.Blocks(title="GPT-SoVITS WebUI") as app:
             output = gr.Audio(label="输出的语音")
         inference_button.click(
             get_tts_wav,
-            [inp_ref, prompt_text, prompt_language, text, text_language],
             [output],
         )
-        gr.Markdown(value="文本切分工具。太长的文本合成出来效果不一定好，所以太长建议先切。合成会根据文本的换行分开合成再拼起来。")
-        with gr.Row():
-            text_inp = gr.Textbox(label="需要合成的切分前文本", value="")
-            button1 = gr.Button("凑五句一切", variant="primary")
-            button2 = gr.Button("凑50字一切", variant="primary")
-            button3 = gr.Button("按中文句号。切", variant="primary")
-            text_opt = gr.Textbox(label="切分后文本", value="")
-            button1.click(cut1, [text_inp], [text_opt])
-            button2.click(cut2, [text_inp], [text_opt])
-            button3.click(cut3, [text_inp], [text_opt])
-        gr.Markdown(value="后续将支持混合语种编码文本输入。")
 app.queue(max_size=10)
 app.launch(inbrowser=True)

+import os,re
+import gradio as gr
 gpt_path = os.environ.get(
+    "gpt_path", "models/Azuma/Azuma-e10.ckpt"
 )
+sovits_path = os.environ.get("sovits_path", "models/Azuma/Azuma_e35_s1435.pth")
 cnhubert_base_path = os.environ.get(
     "cnhubert_base_path", "pretrained_models/chinese-hubert-base"
 )
 import librosa,torch
 from feature_extractor import cnhubert
 cnhubert.cnhubert_base_path=cnhubert_base_path
+import ssl
+ssl._create_default_https_context = ssl._create_unverified_context
+import nltk
+nltk.download('cmudict')
 from module.models import SynthesizerTrn
 from AR.models.t2s_lightning_module import Text2SemanticLightningModule
 else:
     ssl_model = ssl_model.to(device)
+def change_sovits_weights(sovits_path):
+    global vq_model,hps
+    dict_s2=torch.load(sovits_path,map_location="cpu")
+    hps=dict_s2["config"]
+    hps = DictToAttrRecursive(hps)
+    hps.model.semantic_frame_rate = "25hz"
+    vq_model = SynthesizerTrn(
+        hps.data.filter_length // 2 + 1,
+        hps.train.segment_size // hps.data.hop_length,
+        n_speakers=hps.data.n_speakers,
+        **hps.model
+    )
+    del vq_model.enc_q
+    if is_half == True:
+        vq_model = vq_model.half().to(device)
+    else:
+        vq_model = vq_model.to(device)
+    vq_model.eval()
+    print(vq_model.load_state_dict(dict_s2["weight"], strict=False))
+change_sovits_weights(sovits_path)
+def change_gpt_weights(gpt_path):
+    global hz,max_sec,t2s_model,config
+    hz = 50
+    dict_s1 = torch.load(gpt_path, map_location="cpu")
+    config = dict_s1["config"]
+    max_sec = config["data"]["max_sec"]
+    t2s_model = Text2SemanticLightningModule(config, "****", is_train=False)
+    t2s_model.load_state_dict(dict_s1["weight"])
+    if is_half == True:
+        t2s_model = t2s_model.half()
+    t2s_model = t2s_model.to(device)
+    t2s_model.eval()
+    total = sum([param.nelement() for param in t2s_model.parameters()])
+    print("Number of parameter: %.2fM" % (total / 1e6))
+change_gpt_weights(gpt_path)
 def get_spepc(hps, filename):
 dict_language = {"中文": "zh", "英文": "en", "日文": "ja"}
+def get_tts_wav(selected_text, prompt_text, prompt_language, text, text_language):
+    ref_wav_path = text_to_audio_mappings.get(selected_text, "")
+    if not ref_wav_path:
+        print("Audio file not found for the selected text.")
+        return
     t0 = ttime()
     prompt_text = prompt_text.strip("\n")
     prompt_language, text = prompt_language, text.strip("\n")
+    zero_wav = np.zeros(
+        int(hps.data.sampling_rate * 0.3),
+        dtype=np.float16 if is_half == True else np.float32,
+    )
     with torch.no_grad():
+        wav16k, sr = librosa.load(ref_wav_path, sr=16000)
         wav16k = torch.from_numpy(wav16k)
+        zero_wav_torch = torch.from_numpy(zero_wav)
         if is_half == True:
             wav16k = wav16k.half().to(device)
+            zero_wav_torch = zero_wav_torch.half().to(device)
         else:
             wav16k = wav16k.to(device)
+            zero_wav_torch = zero_wav_torch.to(device)
+        wav16k=torch.cat([wav16k,zero_wav_torch])
         ssl_content = ssl_model.model(wav16k.unsqueeze(0))[
             "last_hidden_state"
         ].transpose(
     phones1 = cleaned_text_to_sequence(phones1)
     texts = text.split("\n")
     audio_opt = []
     for text in texts:
         # 解决输入目标文本的空行导致报错的问题
         if (len(text.strip()) == 0):
     inp = inp.strip("\n")
     return "\n".join(["%s。" % item for item in inp.strip("。").split("。")])
+def scan_audio_files(folder_path):
+    """ 扫描指定文件夹获取音频文件列表 """
+    return [f for f in os.listdir(folder_path) if f.endswith('.wav')]
+def load_audio_text_mappings(folder_path, list_file_name):
+    text_to_audio_mappings = {}
+    audio_to_text_mappings = {}
+    with open(os.path.join(folder_path, list_file_name), 'r', encoding='utf-8') as file:
+        for line in file:
+            parts = line.strip().split('|')
+            if len(parts) >= 4:
+                audio_file_name = parts[0]
+                text = parts[3]
+                audio_file_path = os.path.join(folder_path, audio_file_name)
+                text_to_audio_mappings[text] = audio_file_path
+                audio_to_text_mappings[audio_file_path] = text
+    return text_to_audio_mappings, audio_to_text_mappings
+audio_folder_path = 'audio/Azuma'
+text_to_audio_mappings, audio_to_text_mappings = load_audio_text_mappings(audio_folder_path, 'Azuma.list')
 with gr.Blocks(title="GPT-SoVITS WebUI") as app:
     gr.Markdown(value="""
+    # <center>【AI东雪莲】在线语音生成（GPT-SoVITS）\n
     ### <center>模型作者：Xz乔希 https://space.bilibili.com/5859321\n
     ### <center>数据集下载：https://huggingface.co/datasets/XzJosh/audiodataset\n
+    ### <center>声音归属：東雪蓮Official https://space.bilibili.com/1437582453\n
     ### <center>GPT-SoVITS项目：https://github.com/RVC-Boss/GPT-SoVITS\n
     ### <center>使用本模型请严格遵守法律法规！发布二创作品请标注本项目作者及链接、作品使用GPT-SoVITS AI生成！\n
+    ### <center>⚠️在线端不稳定且生成速度较慢，强烈建议下载模型本地推理！\n
                 """)
     # with gr.Tabs():
     #     with gr.TabItem(i18n("伴奏人声分离&去混响&去回声")):
     with gr.Group():
+        gr.Markdown(value="*参考音频选择（必选）")
         with gr.Row():
+            audio_select = gr.Dropdown(label="选择参考音频（不建议选较长的）", choices=list(text_to_audio_mappings.keys()))
+            ref_audio = gr.Audio(label="参考音频试听")
+            ref_text = gr.Textbox(label="参考音频文本")
+    # 定义更新参考文本的函数
+        def update_ref_text_and_audio(selected_text):
+            audio_path = text_to_audio_mappings.get(selected_text, "")
+            return selected_text, audio_path
+    # 绑定下拉菜单的变化到更新函数
+        audio_select.change(update_ref_text_and_audio, [audio_select], [ref_text, ref_audio])
+    # 其他 Gradio 组件和功能
+        prompt_language = gr.Dropdown(
+            label="参考音频语种", choices=["中文", "英文", "日文"], value="中文"
+        )
         gr.Markdown(value="*请填写需要合成的目标文本")
         with gr.Row():
             text = gr.Textbox(label="需要合成的文本", value="")
             output = gr.Audio(label="输出的语音")
         inference_button.click(
             get_tts_wav,
+            [audio_select, ref_text, prompt_language, text, text_language],
             [output],
         )
+    gr.Markdown(value="文本切分工具。太长的文本合成出来效果不一定好，所以太长建议先��。合成会根据文本的换行分开合成再拼起来。")
+    with gr.Row():
+        text_inp = gr.Textbox(label="需要合成的切分前文本", value="")
+        button1 = gr.Button("凑五句一切", variant="primary")
+        button2 = gr.Button("凑50字一切", variant="primary")
+        button3 = gr.Button("按中文句号。切", variant="primary")
+        text_opt = gr.Textbox(label="切分后文本", value="")
+        button1.click(cut1, [text_inp], [text_opt])
+        button2.click(cut2, [text_inp], [text_opt])
+        button3.click(cut3, [text_inp], [text_opt])
 app.queue(max_size=10)
 app.launch(inbrowser=True)

models/Azuma/Azuma-e10.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a34b18606751974abdf9178ad76fcda77736693424eb5189384506da80a7b23e
+size 155084485

models/Azuma/Azuma_e35_s1435.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f923e268a9f7d1b410cac5fb861775c39b4973dbd309381829c36965cfd64ef2
+size 84930071

module/data_utils.py CHANGED Viewed

@@ -1,6 +1,8 @@
-import time, logging
 import os
-import random, traceback
 import numpy as np
 import torch
 import torch.utils.data
@@ -12,15 +14,12 @@ from text import cleaned_text_to_sequence
 from utils import load_wav_to_torch, load_filepaths_and_text
 import torch.nn.functional as F
 from functools import lru_cache
-import torch
 import requests
 from scipy.io import wavfile
 from io import BytesIO
-# from config import exp_dir
 from my_utils import load_audio
 class TextAudioSpeakerLoader(torch.utils.data.Dataset):
     """
     1) loads audio, speaker_id, text pairs
@@ -44,7 +43,7 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
         for line in lines:
             tmp = line.split("\t")
-            if len(tmp) != 4:
                 continue
             self.phoneme_data[tmp[0]] = [tmp[1]]
@@ -52,7 +51,7 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
         tmp = self.audiopaths_sid_text
         leng = len(tmp)
         min_num = 100
-        if leng < min_num:
             self.audiopaths_sid_text = []
             for _ in range(max(2, int(min_num / leng))):
                 self.audiopaths_sid_text += tmp
@@ -77,20 +76,28 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
         for audiopath in tqdm(self.audiopaths_sid_text):
             try:
                 phoneme = self.phoneme_data[audiopath][0]
-                phoneme = phoneme.split(" ")
                 phoneme_ids = cleaned_text_to_sequence(phoneme)
             except Exception:
                 print(f"{audiopath} not in self.phoneme_data !")
                 skipped_phone += 1
                 continue
             size = os.path.getsize("%s/%s" % (self.path5, audiopath))
             duration = size / self.sampling_rate / 2
             if 54 > duration > 0.6 or self.val:
                 audiopaths_sid_text_new.append([audiopath, phoneme_ids])
                 lengths.append(size // (2 * self.hop_length))
             else:
                 skipped_dur += 1
                 continue
         print("skipped_phone: ", skipped_phone, ", skipped_dur: ", skipped_dur)
         print("total left: ", len(audiopaths_sid_text_new))
         assert len(audiopaths_sid_text_new) > 1  # 至少能凑够batch size，这里todo
@@ -103,10 +110,8 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
         try:
             spec, wav = self.get_audio("%s/%s" % (self.path5, audiopath))
             with torch.no_grad():
-                ssl = torch.load(
-                    "%s/%s.pt" % (self.path4, audiopath), map_location="cpu"
-                )
-                if ssl.shape[-1] != spec.shape[-1]:
                     typee = ssl.dtype
                     ssl = F.pad(ssl.float(), (0, 1), mode="replicate").to(typee)
                 ssl.requires_grad = False
@@ -117,25 +122,15 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
             ssl = torch.zeros(1, 768, 100)
             text = text[-1:]
             print("load audio or ssl error!!!!!!", audiopath)
-        # print(ssl.requires_grad,spec.requires_grad,wav.requires_grad,text.requires_grad)
         return (ssl, spec, wav, text)
     def get_audio(self, filename):
-        audio_array = load_audio(
-            filename, self.sampling_rate
-        )  # load_audio的方法是已经归一化到-1~1之间的，不用再/32768
-        # print(filename,audio_array.max(),audio_array.min(),audio_array.mean())
         audio = torch.FloatTensor(audio_array)  # /32768
         audio_norm = audio
         audio_norm = audio_norm.unsqueeze(0)
-        spec = spectrogram_torch(
-            audio_norm,
-            self.filter_length,
-            self.sampling_rate,
-            self.hop_length,
-            self.win_length,
-            center=False,
-        )
         spec = torch.squeeze(spec, 0)
         return spec, audio_norm
@@ -152,14 +147,11 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
     def random_slice(self, ssl, wav, mel):
         assert abs(ssl.shape[-1] - wav.shape[-1] // self.hop_length) < 3, (
-            "first",
-            ssl.shape,
-            wav.shape,
-        )
         len_mel = mel.shape[1]
         if self.val:
-            reference_mel = mel[:, : len_mel // 3]
             return reference_mel, ssl, wav, mel
         dir = random.randint(0, 1)
         sep_point = random.randint(int(len_mel // 3), int(len_mel // 3 * 2))
@@ -167,29 +159,22 @@ class TextAudioSpeakerLoader(torch.utils.data.Dataset):
         if dir == 0:
             reference_mel = mel[:, :sep_point]
             ssl = ssl[:, :, sep_point:]
-            wav2 = wav[:, sep_point * self.hop_length :]
             mel = mel[:, sep_point:]
         else:
             reference_mel = mel[:, sep_point:]
             ssl = ssl[:, :, :sep_point]
-            wav2 = wav[:, : sep_point * self.hop_length]
             mel = mel[:, :sep_point]
         assert abs(ssl.shape[-1] - wav2.shape[-1] // self.hop_length) < 3, (
-            ssl.shape,
-            wav.shape,
-            wav2.shape,
-            mel.shape,
-            sep_point,
-            self.hop_length,
-            sep_point * self.hop_length,
-            dir,
-        )
         return reference_mel, ssl, wav2, mel
-class TextAudioSpeakerCollate:
-    """Zero-pads model inputs and targets"""
     def __init__(self, return_ids=False):
         self.return_ids = return_ids
@@ -202,8 +187,8 @@ class TextAudioSpeakerCollate:
         """
         # Right zero-pad all one-hot text sequences to max input length
         _, ids_sorted_decreasing = torch.sort(
-            torch.LongTensor([x[1].size(1) for x in batch]), dim=0, descending=True
-        )
         max_ssl_len = max([x[0].size(2) for x in batch])
         max_ssl_len = int(2 * ((max_ssl_len // 2) + 1))
@@ -231,31 +216,22 @@ class TextAudioSpeakerCollate:
             row = batch[ids_sorted_decreasing[i]]
             ssl = row[0]
-            ssl_padded[i, :, : ssl.size(2)] = ssl[0, :, :]
             ssl_lengths[i] = ssl.size(2)
             spec = row[1]
-            spec_padded[i, :, : spec.size(1)] = spec
             spec_lengths[i] = spec.size(1)
             wav = row[2]
-            wav_padded[i, :, : wav.size(1)] = wav
             wav_lengths[i] = wav.size(1)
             text = row[3]
-            text_padded[i, : text.size(0)] = text
             text_lengths[i] = text.size(0)
-        return (
-            ssl_padded,
-            ssl_lengths,
-            spec_padded,
-            spec_lengths,
-            wav_padded,
-            wav_lengths,
-            text_padded,
-            text_lengths,
-        )
 class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
@@ -268,18 +244,9 @@ class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
     Ex) boundaries = [b1, b2, b3] -> any x s.t. length(x) <= b1 or length(x) > b3 are discarded.
     """
-    def __init__(
-        self,
-        dataset,
-        batch_size,
-        boundaries,
-        num_replicas=None,
-        rank=None,
-        shuffle=True,
-    ):
         super().__init__(dataset, num_replicas=num_replicas, rank=rank, shuffle=shuffle)
         self.lengths = dataset.lengths
-        # print(233333333333333,self.lengths,dir(dataset))
         self.batch_size = batch_size
         self.boundaries = boundaries
@@ -295,24 +262,22 @@ class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
             if idx_bucket != -1:
                 buckets[idx_bucket].append(i)
-        for i in range(len(buckets) - 1, 0, -1):
-            # for i in range(len(buckets) - 1, -1, -1):
             if len(buckets[i]) == 0:
                 buckets.pop(i)
                 self.boundaries.pop(i + 1)
         num_samples_per_bucket = []
         for i in range(len(buckets)):
             len_bucket = len(buckets[i])
             total_batch_size = self.num_replicas * self.batch_size
-            rem = (
-                total_batch_size - (len_bucket % total_batch_size)
-            ) % total_batch_size
             num_samples_per_bucket.append(len_bucket + rem)
         return buckets, num_samples_per_bucket
     def __iter__(self):
-        # deterministically shuffle based on epoch
         g = torch.Generator()
         g.manual_seed(self.epoch)
@@ -331,25 +296,13 @@ class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
             ids_bucket = indices[i]
             num_samples_bucket = self.num_samples_per_bucket[i]
-            # add extra samples to make it evenly divisible
             rem = num_samples_bucket - len_bucket
-            ids_bucket = (
-                ids_bucket
-                + ids_bucket * (rem // len_bucket)
-                + ids_bucket[: (rem % len_bucket)]
-            )
-            # subsample
-            ids_bucket = ids_bucket[self.rank :: self.num_replicas]
-            # batching
             for j in range(len(ids_bucket) // self.batch_size):
-                batch = [
-                    bucket[idx]
-                    for idx in ids_bucket[
-                        j * self.batch_size : (j + 1) * self.batch_size
-                    ]
-                ]
                 batches.append(batch)
         if self.shuffle:
@@ -376,4 +329,4 @@ class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
             return -1
     def __len__(self):
-        return self.num_samples // self.batch_size

+import time
+import logging
 import os
+import random
+import traceback
 import numpy as np
 import torch
 import torch.utils.data
 from utils import load_wav_to_torch, load_filepaths_and_text
 import torch.nn.functional as F
 from functools import lru_cache
 import requests
 from scipy.io import wavfile
 from io import BytesIO
 from my_utils import load_audio
+# ZeroDivisionError fixed by Tybost (https://github.com/RVC-Boss/GPT-SoVITS/issues/79)
 class TextAudioSpeakerLoader(torch.utils.data.Dataset):
     """
     1) loads audio, speaker_id, text pairs
         for line in lines:
             tmp = line.split("\t")
+            if (len(tmp) != 4):
                 continue
             self.phoneme_data[tmp[0]] = [tmp[1]]
         tmp = self.audiopaths_sid_text
         leng = len(tmp)
         min_num = 100
+        if (leng < min_num):
             self.audiopaths_sid_text = []
             for _ in range(max(2, int(min_num / leng))):
                 self.audiopaths_sid_text += tmp
         for audiopath in tqdm(self.audiopaths_sid_text):
             try:
                 phoneme = self.phoneme_data[audiopath][0]
+                phoneme = phoneme.split(' ')
                 phoneme_ids = cleaned_text_to_sequence(phoneme)
             except Exception:
                 print(f"{audiopath} not in self.phoneme_data !")
                 skipped_phone += 1
                 continue
             size = os.path.getsize("%s/%s" % (self.path5, audiopath))
             duration = size / self.sampling_rate / 2
+            if duration == 0:
+                print(f"Zero duration for {audiopath}, skipping...")
+                skipped_dur += 1
+                continue
             if 54 > duration > 0.6 or self.val:
                 audiopaths_sid_text_new.append([audiopath, phoneme_ids])
                 lengths.append(size // (2 * self.hop_length))
             else:
                 skipped_dur += 1
                 continue
         print("skipped_phone: ", skipped_phone, ", skipped_dur: ", skipped_dur)
         print("total left: ", len(audiopaths_sid_text_new))
         assert len(audiopaths_sid_text_new) > 1  # 至少能凑够batch size，这里todo
         try:
             spec, wav = self.get_audio("%s/%s" % (self.path5, audiopath))
             with torch.no_grad():
+                ssl = torch.load("%s/%s.pt" % (self.path4, audiopath), map_location="cpu")
+                if (ssl.shape[-1] != spec.shape[-1]):
                     typee = ssl.dtype
                     ssl = F.pad(ssl.float(), (0, 1), mode="replicate").to(typee)
                 ssl.requires_grad = False
             ssl = torch.zeros(1, 768, 100)
             text = text[-1:]
             print("load audio or ssl error!!!!!!", audiopath)
         return (ssl, spec, wav, text)
     def get_audio(self, filename):
+        audio_array = load_audio(filename, self.sampling_rate)  # load_audio的方法是已经归一化到-1~1之间的，不用再/32768
         audio = torch.FloatTensor(audio_array)  # /32768
         audio_norm = audio
         audio_norm = audio_norm.unsqueeze(0)
+        spec = spectrogram_torch(audio_norm, self.filter_length, self.sampling_rate, self.hop_length, self.win_length,
+                                  center=False)
         spec = torch.squeeze(spec, 0)
         return spec, audio_norm
     def random_slice(self, ssl, wav, mel):
         assert abs(ssl.shape[-1] - wav.shape[-1] // self.hop_length) < 3, (
+        "first", ssl.shape, wav.shape)
         len_mel = mel.shape[1]
         if self.val:
+            reference_mel = mel[:, :len_mel // 3]
             return reference_mel, ssl, wav, mel
         dir = random.randint(0, 1)
         sep_point = random.randint(int(len_mel // 3), int(len_mel // 3 * 2))
         if dir == 0:
             reference_mel = mel[:, :sep_point]
             ssl = ssl[:, :, sep_point:]
+            wav2 = wav[:, sep_point * self.hop_length:]
             mel = mel[:, sep_point:]
         else:
             reference_mel = mel[:, sep_point:]
             ssl = ssl[:, :, :sep_point]
+            wav2 = wav[:, :sep_point * self.hop_length]
             mel = mel[:, :sep_point]
         assert abs(ssl.shape[-1] - wav2.shape[-1] // self.hop_length) < 3, (
+        ssl.shape, wav.shape, wav2.shape, mel.shape, sep_point, self.hop_length, sep_point * self.hop_length, dir)
         return reference_mel, ssl, wav2, mel
+class TextAudioSpeakerCollate():
+    """ Zero-pads model inputs and targets
+    """
     def __init__(self, return_ids=False):
         self.return_ids = return_ids
         """
         # Right zero-pad all one-hot text sequences to max input length
         _, ids_sorted_decreasing = torch.sort(
+            torch.LongTensor([x[1].size(1) for x in batch]),
+            dim=0, descending=True)
         max_ssl_len = max([x[0].size(2) for x in batch])
         max_ssl_len = int(2 * ((max_ssl_len // 2) + 1))
             row = batch[ids_sorted_decreasing[i]]
             ssl = row[0]
+            ssl_padded[i, :, :ssl.size(2)] = ssl[0, :, :]
             ssl_lengths[i] = ssl.size(2)
             spec = row[1]
+            spec_padded[i, :, :spec.size(1)] = spec
             spec_lengths[i] = spec.size(1)
             wav = row[2]
+            wav_padded[i, :, :wav.size(1)] = wav
             wav_lengths[i] = wav.size(1)
             text = row[3]
+            text_padded[i, :text.size(0)] = text
             text_lengths[i] = text.size(0)
+        return ssl_padded, ssl_lengths, spec_padded, spec_lengths, wav_padded, wav_lengths, text_padded, text_lengths
 class DistributedBucketSampler(torch.utils.data.distributed.DistributedSampler):
     Ex) boundaries = [b1, b2, b3] -> any x s.t. length(x) <= b1 or length(x) > b3 are discarded.
     """
+    def __init__(self, dataset, batch_size, boundaries, num_replicas=None, rank=None, shuffle=True):
         super().__init__(dataset, num_replicas=num_replicas, rank=rank, shuffle=shuffle)
         self.lengths = dataset.lengths
         self.batch_size = batch_size
         self.boundaries = boundaries
             if idx_bucket != -1:
                 buckets[idx_bucket].append(i)
+        i = len(buckets) - 1
+        while i >= 0:
             if len(buckets[i]) == 0:
                 buckets.pop(i)
                 self.boundaries.pop(i + 1)
+            i -= 1
         num_samples_per_bucket = []
         for i in range(len(buckets)):
             len_bucket = len(buckets[i])
             total_batch_size = self.num_replicas * self.batch_size
+            rem = (total_batch_size - (len_bucket % total_batch_size)) % total_batch_size
             num_samples_per_bucket.append(len_bucket + rem)
         return buckets, num_samples_per_bucket
     def __iter__(self):
         g = torch.Generator()
         g.manual_seed(self.epoch)
             ids_bucket = indices[i]
             num_samples_bucket = self.num_samples_per_bucket[i]
             rem = num_samples_bucket - len_bucket
+            ids_bucket = ids_bucket + ids_bucket * (rem // len_bucket) + ids_bucket[:(rem % len_bucket)]
+            ids_bucket = ids_bucket[self.rank::self.num_replicas]
             for j in range(len(ids_bucket) // self.batch_size):
+                batch = [bucket[idx] for idx in ids_bucket[j * self.batch_size:(j + 1) * self.batch_size]]
                 batches.append(batch)
         if self.shuffle:
             return -1
     def __len__(self):
+        return self.num_samples // self.batch_size

requirements.txt CHANGED Viewed

@@ -1,18 +1,24 @@
 numpy
 scipy
-torch
 librosa==0.9.2
 numba==0.56.4
-pytorch-lightning
 gradio==3.47.1
 ffmpeg-python
-tqdm==4.59.0
 cn2an
 pypinyin
-pyopenjtalk-prebuilt
 g2p_en
 torchaudio
 sentencepiece
 transformers
-einops
-jieba

 numpy
 scipy
+tensorboard
 librosa==0.9.2
 numba==0.56.4
+pytorch-lightning==2.1
+torchmetrics==0.10.1
 gradio==3.47.1
 ffmpeg-python
+onnxruntime
+tqdm
+funasr
 cn2an
 pypinyin
+pyopenjtalk
 g2p_en
 torchaudio
+modelscope
 sentencepiece
 transformers
+chardet
+PyYAML
+psutil
+jieba_fast

text/chinese.py CHANGED Viewed

@@ -18,7 +18,7 @@ pinyin_to_symbol_map = {
     for line in open(os.path.join(current_file_path, "opencpop-strict.txt")).readlines()
 }
-import jieba.posseg as psg
 rep_map = {

     for line in open(os.path.join(current_file_path, "opencpop-strict.txt")).readlines()
 }
+import jieba_fast.posseg as psg
 rep_map = {

text/tone_sandhi.py CHANGED Viewed

@@ -14,7 +14,7 @@
 from typing import List
 from typing import Tuple
-import jieba
 from pypinyin import lazy_pinyin
 from pypinyin import Style

 from typing import List
 from typing import Tuple
+import jieba_fast as jieba
 from pypinyin import lazy_pinyin
 from pypinyin import Style

utils.py CHANGED Viewed

@@ -18,7 +18,7 @@ logging.getLogger("matplotlib").setLevel(logging.ERROR)
 MATPLOTLIB_FLAG = False
-logging.basicConfig(stream=sys.stdout, level=logging.WARNING)
 logger = logging
@@ -310,13 +310,13 @@ def check_git_hash(model_dir):
 def get_logger(model_dir, filename="train.log"):
     global logger
     logger = logging.getLogger(os.path.basename(model_dir))
-    logger.setLevel(logging.WARNING)
     formatter = logging.Formatter("%(asctime)s\t%(name)s\t%(levelname)s\t%(message)s")
     if not os.path.exists(model_dir):
         os.makedirs(model_dir)
     h = logging.FileHandler(os.path.join(model_dir, filename))
-    h.setLevel(logging.WARNING)
     h.setFormatter(formatter)
     logger.addHandler(h)
     return logger

 MATPLOTLIB_FLAG = False
+logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
 logger = logging
 def get_logger(model_dir, filename="train.log"):
     global logger
     logger = logging.getLogger(os.path.basename(model_dir))
+    logger.setLevel(logging.DEBUG)
     formatter = logging.Formatter("%(asctime)s\t%(name)s\t%(levelname)s\t%(message)s")
     if not os.path.exists(model_dir):
         os.makedirs(model_dir)
     h = logging.FileHandler(os.path.join(model_dir, filename))
+    h.setLevel(logging.DEBUG)
     h.setFormatter(formatter)
     logger.addHandler(h)
     return logger