# 数据集参数 dataset_conf: # 训练的批量大小 batch_size: 64 # 说话人数量,即分类大小 num_speakers: 3242 # 读取数据的线程数量 num_workers: 4 # 过滤最短的音频长度 min_duration: 0.5 # 最长的音频长度,大于这个长度会裁剪掉 max_duration: 3 # 是否裁剪静音片段 do_vad: False # 音频的采样率 sample_rate: 16000 # 是否对音频进行音量归一化 use_dB_normalization: True # 对音频进行音量归一化的音量分贝值 target_dB: -20 # 训练数据的数据列表路径 train_list: 'dataset/train_list.txt' # 测试数据的数据列表路径 test_list: 'dataset/test_list.txt' # 数据预处理参数 preprocess_conf: # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC feature_method: 'MelSpectrogram' # MelSpectrogram的参数,其他的预处理方法查看对应API设设置参数 feature_conf: sample_rate: 16000 n_fft: 1024 hop_length: 320 win_length: 1024 f_min: 50.0 f_max: 14000.0 n_mels: 64 optimizer_conf: # 优化方法,支持Adam、AdamW、SGD optimizer: 'Adam' # 初始学习率的大小 learning_rate: 0.001 weight_decay: 1e-6 model_conf: # 所使用的池化层,支持ASP、SAP、TSP、TAP pooling_type: 'ASP' train_conf: # 训练的轮数 max_epoch: 30 log_interval: 100 # 所使用的模型,支持EcapaTdnn、TDNN、Res2Net、ResNetSE use_model: 'EcapaTdnn' # 所使用的损失函数,支持AAMLoss、AMLoss、ARMLoss、CELoss use_loss: 'AAMLoss'