kevinwang676's picture
Upload folder using huggingface_hub
8a1292d
0.环境维护和升级(示例):
%PYTHON% -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
这条一般不用执行
安装ffmpeg,将整合包内的ffmpeg加入环境变量,使用自动标注需要用到,执行一次即可。安装完可能需要重启生效:
%PYTHON% setup_ffmpeg.py
1.数据集重采样和标注:
a.whisper通用标注:音频在2-10s。根据显存选择配置,large需要12G显存。
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size large
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size medium
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size small
如果已经标注好了,不希望使用本脚本,请将音频重采样至单声道44100Hz
b.下载的已标注的原神数据集:
%PYTHON% transcribe_genshin.py
2.文本处理:
%PYTHON% preprocess_text.py
3.bert_gen
%PYTHON% bert_gen.py
4.训练:
首次训练:
%PYTHON% train_ms.py -c ./configs\config.json
继续训练:
%PYTHON% train_ms.py -c ./configs\config.json --cont
启动TensorBoard:
%PYTHON% -m tensorboard.main --logdir=logs\OUTPUT_MODEL
5.推理 --config_dir可选 --model_dir 为配置文件和模型指定目录:
%PYTHON% inference_webui.py --model_dir ./logs\OUTPUT_MODEL\G_100.pth