0.环境维护和升级(示例): %PYTHON% -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt 这条一般不用执行 安装ffmpeg,将整合包内的ffmpeg加入环境变量,使用自动标注需要用到,执行一次即可。安装完可能需要重启生效: %PYTHON% setup_ffmpeg.py 1.数据集重采样和标注: a.whisper通用标注:音频在2-10s。根据显存选择配置,large需要12G显存。 %PYTHON% short_audio_transcribe.py --languages "C" --whisper_size large %PYTHON% short_audio_transcribe.py --languages "C" --whisper_size medium %PYTHON% short_audio_transcribe.py --languages "C" --whisper_size small 如果已经标注好了,不希望使用本脚本,请将音频重采样至单声道44100Hz b.下载的已标注的原神数据集: %PYTHON% transcribe_genshin.py 2.文本处理: %PYTHON% preprocess_text.py 3.bert_gen %PYTHON% bert_gen.py 4.训练: 首次训练: %PYTHON% train_ms.py -c ./configs\config.json 继续训练: %PYTHON% train_ms.py -c ./configs\config.json --cont 启动TensorBoard: %PYTHON% -m tensorboard.main --logdir=logs\OUTPUT_MODEL 5.推理 --config_dir可选 --model_dir 为配置文件和模型指定目录: %PYTHON% inference_webui.py --model_dir ./logs\OUTPUT_MODEL\G_100.pth