File size: 1,295 Bytes
8a1292d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
0.环境维护和升级(示例):
%PYTHON% -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
这条一般不用执行

安装ffmpeg,将整合包内的ffmpeg加入环境变量,使用自动标注需要用到,执行一次即可。安装完可能需要重启生效:
%PYTHON% setup_ffmpeg.py

1.数据集重采样和标注:
a.whisper通用标注:音频在2-10s。根据显存选择配置,large需要12G显存。
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size large
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size medium
%PYTHON% short_audio_transcribe.py --languages "C" --whisper_size small
如果已经标注好了,不希望使用本脚本,请将音频重采样至单声道44100Hz

b.下载的已标注的原神数据集:
%PYTHON% transcribe_genshin.py

2.文本处理:
%PYTHON% preprocess_text.py

3.bert_gen
%PYTHON% bert_gen.py

4.训练:
首次训练:
%PYTHON% train_ms.py -c ./configs\config.json

继续训练:
%PYTHON% train_ms.py -c ./configs\config.json --cont

启动TensorBoard:
%PYTHON% -m tensorboard.main --logdir=logs\OUTPUT_MODEL

5.推理 --config_dir可选 --model_dir 为配置文件和模型指定目录:
%PYTHON% inference_webui.py --model_dir ./logs\OUTPUT_MODEL\G_100.pth