## ECAPA-TDNN 说话人分类 ```text 该模型采用 `VoxCeleb1 数据集` 做说话人分类训练. 类别数 1251 训练集准确率 0.640 验证集准确率 0.650 在 https://mm.kaist.ac.kr/datasets/voxceleb/index.html 页面的 List of trial pairs - VoxCeleb1 https://mm.kaist.ac.kr/datasets/voxceleb/meta/veri_test.txt 数据集上做了说话人验证, EER大约为 2%, 相比于 Ecapa-TDNN 论文中的大约 1% 模型应该还没有被充分训练. (不太确定是不是同一个测试集, 但这个模型应该没有充分训练). ``` ### VoxCeleb1 数据集 ```text VoxCeleb1 数据集包含 4 个挑战 http://mm.kaist.ac.kr/datasets/voxceleb/voxsrc Track 1: 完全监督的说话人验证 Speaker Verification (封闭) 训练集, 采用具体说话人标注的 VoxCeleb1 数据集. 验证集, 采用官方给定的说话人验证对. Track 2: 完全监督的说话人验证 Speaker Verification (开放) 训练集, 采用具体说话人标注的 VoxCeleb1 数据集, 以及任何其它开源的数据集. 验证集, 采用官方给定的说话人验证对. Track 3: 半监督的说话人验证 Speaker Verification (封闭) 训练集, ...... 验证集, 采用官方给定的说话人验证对. Track 4 是说话人分离 Speaker Diarization (开放) 其任务是将多说话人音频分解为单个说话人的片段, 以判断谁在何时说话. 训练集, 除测试集之后的任何数据. 验证集, 官方提供 VoxConverse 的开发和测试集以用于验证. ``` ```text 数据集下载 http://mm.kaist.ac.kr/datasets/voxceleb/voxsrc https://mm.kaist.ac.kr/datasets/voxceleb/index.html The username and password is voxceleb1912 and 0s42xuw6: wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partaa --http-user=voxceleb1912 --http-passwd=0s42xuw6 wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partab --http-user=voxceleb1912 --http-passwd=0s42xuw6 wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partac --http-user=voxceleb1912 --http-passwd=0s42xuw6 wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partad --http-user=voxceleb1912 --http-passwd=0s42xuw6 wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip --http-user=voxceleb1912 --http-passwd=0s42xuw6 # dev 的4个文件, 应该是先压缩成 zip, 再按二进制切割成每个 10G 的文件. # 此处用 cat 将其合并为一个文件, 再做 unzip 解压. cat vox1_dev* > vox1_dev_wav.zip unzip vox1_dev_wav.zip ```