# 数据集参数
dataset_conf:
  # 训练的批量大小
  batch_size: 64
  # 说话人数量，即分类大小
  num_speakers: 3242
  # 读取数据的线程数量
  num_workers: 4
  # 过滤最短的音频长度
  min_duration: 0.5
  # 最长的音频长度，大于这个长度会裁剪掉
  max_duration: 3
  # 是否裁剪静音片段
  do_vad: False
  # 音频的采样率
  sample_rate: 16000
  # 是否对音频进行音量归一化
  use_dB_normalization: True
  # 对音频进行音量归一化的音量分贝值
  target_dB: -20
  # 训练数据的数据列表路径
  train_list: 'dataset/train_list.txt'
  # 测试数据的数据列表路径
  test_list: 'dataset/test_list.txt'

# 数据预处理参数
preprocess_conf:
  # 音频预处理方法，支持：MelSpectrogram、Spectrogram、MFCC
  feature_method: 'MelSpectrogram'

# MelSpectrogram的参数，其他的预处理方法查看对应API设设置参数
feature_conf:
  sample_rate: 16000
  n_fft: 1024
  hop_length: 320
  win_length: 1024
  f_min: 50.0
  f_max: 14000.0
  n_mels: 64

optimizer_conf:
  # 优化方法，支持Adam、AdamW、SGD
  optimizer: 'Adam'
  # 初始学习率的大小
  learning_rate: 0.001
  weight_decay: 1e-6

model_conf:
  # 所使用的池化层，支持ASP、SAP、TSP、TAP
  pooling_type: 'ASP'

train_conf:
  # 训练的轮数
  max_epoch: 30
  log_interval: 100

# 所使用的模型，支持EcapaTdnn、TDNN、Res2Net、ResNetSE
use_model: 'EcapaTdnn'
# 所使用的损失函数，支持AAMLoss、AMLoss、ARMLoss、CELoss
use_loss: 'AAMLoss'