2DIPW commited on
Commit
016c2ce
1 Parent(s): 6d4fbaa

init commit

Browse files
Files changed (4) hide show
  1. config.yml +60 -0
  2. model.pt +3 -0
  3. model.state +1 -0
  4. optimizer.pt +3 -0
config.yml ADDED
@@ -0,0 +1,60 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 数据集参数
2
+ dataset_conf:
3
+ # 训练的批量大小
4
+ batch_size: 64
5
+ # 说话人数量,即分类大小
6
+ num_speakers: 3242
7
+ # 读取数据的线程数量
8
+ num_workers: 4
9
+ # 过滤最短的音频长度
10
+ min_duration: 0.5
11
+ # 最长的音频长度,大于这个长度会裁剪掉
12
+ max_duration: 3
13
+ # 是否裁剪静音片段
14
+ do_vad: False
15
+ # 音频的采样率
16
+ sample_rate: 16000
17
+ # 是否对音频进行音量归一化
18
+ use_dB_normalization: True
19
+ # 对音频进行音量归一化的音量分贝值
20
+ target_dB: -20
21
+ # 训练数据的数据列表路径
22
+ train_list: 'dataset/train_list.txt'
23
+ # 测试数据的数据列表路径
24
+ test_list: 'dataset/test_list.txt'
25
+
26
+ # 数据预处理参数
27
+ preprocess_conf:
28
+ # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
29
+ feature_method: 'MelSpectrogram'
30
+
31
+ # MelSpectrogram的参数,其他的预处理方法查看对应API设设置参数
32
+ feature_conf:
33
+ sample_rate: 16000
34
+ n_fft: 1024
35
+ hop_length: 320
36
+ win_length: 1024
37
+ f_min: 50.0
38
+ f_max: 14000.0
39
+ n_mels: 64
40
+
41
+ optimizer_conf:
42
+ # 优化方法,支持Adam、AdamW、SGD
43
+ optimizer: 'Adam'
44
+ # 初始学习率的大小
45
+ learning_rate: 0.001
46
+ weight_decay: 1e-6
47
+
48
+ model_conf:
49
+ # 所使用的池化层,支持ASP、SAP、TSP、TAP
50
+ pooling_type: 'ASP'
51
+
52
+ train_conf:
53
+ # 训练的轮数
54
+ max_epoch: 30
55
+ log_interval: 100
56
+
57
+ # 所使用的模型,支持EcapaTdnn、TDNN、Res2Net、ResNetSE
58
+ use_model: 'EcapaTdnn'
59
+ # 所使用的损失函数,支持AAMLoss、AMLoss、ARMLoss、CELoss
60
+ use_loss: 'AAMLoss'
model.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:82c5b0f79add8d1ff11ee06ae58ce423e8fe2e099ebbf2e134713329040001e0
3
+ size 27193761
model.state ADDED
@@ -0,0 +1 @@
 
 
1
+ {"last_epoch": 28, "eer": 0.019150287201911552, "version": "0.3.9"}
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5aa197567fdddb8d1fcfc33cb8ccc27a698aab15bc873855050999badf402394
3
+ size 54235141