ChatGLM-Bert-VITS2

Paused

File size: 1,295 Bytes

8a1292d

0.环境维护和升级（示例）：
%PYTHON% -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
这条一般不用执行

安装ffmpeg，将整合包内的ffmpeg加入环境变量，使用自动标注需要用到，执行一次即可。安装完可能需要重启生效：
%PYTHON% setup_ffmpeg.py

1.数据集重采样和标注：
a.whisper通用标注：音频在2-10s。根据显存选择配置，large需要12G显存。
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size large
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size medium
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size small
如果已经标注好了，不希望使用本脚本，请将音频重采样至单声道44100Hz

b.下载的已标注的原神数据集：
%PYTHON% transcribe_genshin.py

2.文本处理：
%PYTHON% preprocess_text.py

3.bert_gen
%PYTHON% bert_gen.py

4.训练：
首次训练：
%PYTHON% train_ms.py -c ./configs\config.json

继续训练：
%PYTHON% train_ms.py -c ./configs\config.json --cont

启动TensorBoard：
%PYTHON% -m tensorboard.main --logdir=logs\OUTPUT_MODEL

5.推理 --config_dir可选 --model_dir 为配置文件和模型指定目录：
%PYTHON% inference_webui.py --model_dir ./logs\OUTPUT_MODEL\G_100.pth