tianxing1994/EcapaTDNN-VoxCeleb1

ECAPA-TDNN 说话人分类

该模型采用 `VoxCeleb1 数据集` 做说话人分类训练. 
类别数 1251
训练集准确率 0.640
验证集准确率 0.650


在
https://mm.kaist.ac.kr/datasets/voxceleb/index.html
页面的
List of trial pairs - VoxCeleb1
https://mm.kaist.ac.kr/datasets/voxceleb/meta/veri_test.txt
数据集上做了说话人验证,
EER大约为 2%, 相比于 Ecapa-TDNN 论文中的大约 1%
模型应该还没有被充分训练. (不太确定是不是同一个测试集, 但这个模型应该没有充分训练).

VoxCeleb1 数据集

VoxCeleb1 数据集包含 4 个挑战
http://mm.kaist.ac.kr/datasets/voxceleb/voxsrc

Track 1: 完全监督的说话人验证 Speaker Verification (封闭)
训练集, 采用具体说话人标注的 VoxCeleb1 数据集. 
验证集, 采用官方给定的说话人验证对. 

Track 2: 完全监督的说话人验证 Speaker Verification (开放)
训练集, 采用具体说话人标注的 VoxCeleb1 数据集, 以及任何其它开源的数据集. 
验证集, 采用官方给定的说话人验证对. 

Track 3: 半监督的说话人验证 Speaker Verification (封闭)
训练集, ......
验证集, 采用官方给定的说话人验证对. 

Track 4 是说话人分离 Speaker Diarization (开放)
其任务是将多说话人音频分解为单个说话人的片段, 以判断谁在何时说话. 
训练集, 除测试集之后的任何数据. 
验证集, 官方提供 VoxConverse 的开发和测试集以用于验证.

数据集下载
http://mm.kaist.ac.kr/datasets/voxceleb/voxsrc
https://mm.kaist.ac.kr/datasets/voxceleb/index.html

The username and password is voxceleb1912 and 0s42xuw6: 

wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partaa  --http-user=voxceleb1912 --http-passwd=0s42xuw6
wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partab  --http-user=voxceleb1912 --http-passwd=0s42xuw6
wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partac  --http-user=voxceleb1912 --http-passwd=0s42xuw6
wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_dev_wav_partad  --http-user=voxceleb1912 --http-passwd=0s42xuw6


wget http://cnode01.mm.kaist.ac.kr/voxceleb/vox1a/vox1_test_wav.zip  --http-user=voxceleb1912 --http-passwd=0s42xuw6

# dev 的4个文件, 应该是先压缩成 zip, 再按二进制切割成每个 10G 的文件. 
# 此处用 cat 将其合并为一个文件, 再做 unzip 解压.
cat vox1_dev* > vox1_dev_wav.zip
unzip vox1_dev_wav.zip