File size: 5,503 Bytes
861e32e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0bb5a80
861e32e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
# 全局配置
# 对于希望在同一时间使用多个配置文件的情况,例如两个GPU同时跑两个训练集:通过环境变量指定配置文件,不指定则默认为./config.yml

# 拟提供通用路径配置,统一存放数据,避免数据放得很乱
# 每个数据集与其对应的模型存放至统一路径下,后续所有的路径配置均为相对于datasetPath的路径
# 不填或者填空则路径为相对于项目根目录的路径
dataset_path: ''

# 模型镜像源,默认huggingface,使用openi镜像源需指定openi_token
mirror: ''
openi_token: '' # openi token

# resample 音频重采样配置
# 注意, “:” 后需要加空格
resample:
  # 目标重采样率
  sampling_rate: 44100
  # 音频文件输入路径,重采样会将该路径下所有.wav音频文件重采样
  # 请填入相对于datasetPath的相对路径
  in_dir: 'raw' # 相对于根目录的路径为 /datasetPath/in_dir
  # 音频文件重采样后输出路径
  out_dir: 'dataset'

# preprocess_text 数据集预处理相关配置
# 注意, “:” 后需要加空格
preprocess_text:
  # 原始文本文件路径,文本格式应为{wav_path}|{speaker_name}|{language}|{text}。
  transcription_path: 'filelists/lu.list'
  # 数据清洗后文本路径,可以不填。不填则将在原始文本目录生成
  cleaned_path: ''
  # 训练集路径
  train_path: 'filelists/train.list'
  # 验证集路径
  val_path: 'filelists/val.list'
  # 配置文件路径
  config_path: 'configs/config.json'
  # 每个speaker的验证集条数
  val_per_spk: 4
  # 验证集最大条数,多于的会被截断并放到训练集中
  max_val_total: 8
  # 是否进行数据清洗
  clean: true

# bert_gen 相关配置
# 注意, “:” 后需要加空格
bert_gen:
  # 训练数据集配置文件路径
  config_path: 'configs/config.json'
  # 并行数
  num_processes: 2
  # 使用设备:可选项 "cuda" 显卡推理,"cpu" cpu推理
  # 该选项同时决定了get_bert_feature的默认设备
  device: 'cuda'
  # 使用多卡推理
  use_multi_device: false

# emo_gen 相关配置
# 注意, “:” 后需要加空格
emo_gen:
  # 训练数据集配置文件路径
  config_path: 'configs/config.json'
  # 并行数
  num_processes: 2
  # 使用设备:可选项 "cuda" 显卡推理,"cpu" cpu推理
  device: 'cuda'

# train 训练配置
# 注意, “:” 后需要加空格
train_ms:
  # 需要加载的环境变量,多显卡训练时RANK请手动在环境变量填写
  # 环境变量对应名称环境变量不存在时加载,也就是说手动添加的环境变量优先级更高,会覆盖本配置文件
  env:
    MASTER_ADDR: 'localhost'
    MASTER_PORT: 10086
    WORLD_SIZE: 1
    LOCAL_RANK: 0
    RANK: 0
    # 可以填写任意名的环境变量
    # THE_ENV_VAR_YOU_NEED_TO_USE: "1234567"
  # 底模设置
  base:
    use_base_model: false
    repo_id: 'Stardust_minus/Bert-VITS2'
    model_image: 'Bert-VITS2_2.1-Emo底模' # openi网页的模型名
  # 训练模型存储目录:与旧版本的区别,原先数据集是存放在logs/model_name下的,现在改为统一存放在Data/你的数据集/models下
  model: 'models'
  # 配置文件路径
  config_path: 'configs/config.json'
  # 训练使用的worker,不建议超过CPU核心数
  num_workers: 6
  # 关闭此项可以节约接近50%的磁盘空间,但是可能导致实际训练速度变慢和更高的CPU使用率。
  spec_cache: True
  # 保存的检查点数量,多于此数目的权重会被删除来节省空间。
  keep_ckpts: 5

# webui webui配置
# 注意, “:” 后需要加空格
webui:
  # 推理设备
  device: 'cpu'
  # 模型路径
  model: 'lu/models/G_100000.pth'
  # 配置文件路径
  config_path: 'configs/config.json'
  # 端口号
  port: 7860
  # 是否公开部署,对外网开放
  share: false
  # 是否开启debug模式
  debug: false
  # 语种识别库,可选langid, fastlid
  language_identification_library: 'langid'

# server api配置
# 注意, “:” 后需要加空格
# 注意,本配置下的所有配置均为相对于根目录的路径
server:
  # 端口号
  port: 5000
  # 模型默认使用设备:但是当前并没有实现这个配置。
  device: 'cuda'
  # 需要加载的所有模型的配置
  # 注意,所有模型都必须正确配置model与config的路径,空路径会导致加载错误。
  models:
    - # 模型的路径
      model: 'lu/models/G_100000.pth'
      # 模型config.json的路径
      config: 'configs/config.json'
      # 模型使用设备,若填写则会覆盖默认配置
      device: 'cuda'
      # 模型默认使用的语言
      language: 'ZH'
      # 模型人物默认参数
      # 不必填写所有人物,不填的使用默认值
      # 暂时不用填写,当前尚未实现按人区分配置
      speakers:
        - speaker: 'lu_platinum'
          sdp_ratio: 0.2
          noise_scale: 0.6
          noise_scale_w: 0.8
          length_scale: 1
        - speaker: 'lucy'
          sdp_ratio: 0.3
          noise_scale: 0.7
          noise_scale_w: 0.8
          length_scale: 0.5
        - speaker: 'lusk'
          sdp_ratio: 0.2
          noise_scale: 0.6
          noise_scale_w: 0.8
          length_scale: 1.2

# 百度翻译开放平台 api配置
# api接入文档 https://api.fanyi.baidu.com/doc/21
# 请不要在github等网站公开分享你的app id 与 key
translate:
  # 你的APPID
  'app_key': ''
  # 你的密钥
  'secret_key': ''