diarizers-community (diarizers-community)

Organization Card

diarizers-community aims to promote speaker diarization on the Hugging Face hub. It contains:

A collection of multilingual speaker diarization datasets that are compatible with the diarizers library. They have been processed using diarizers scripts.

The available datasets are the CallHome (Japanese, Chinese, German, Spanish, English), AMI Corpus (English), Vox-Converse (English) and Simsamu (French). We aim to add more datasets in the future to better support speaker diarization on the Hub.

A collection of multilingual fine-tuned segmentation model baselines compatible with pyannote.

Each model has been fine-tuned on a specific Callhome language subset. They achieve better performances on multilingual data compared to pyannote's pre-trained segmentation-3.0 model (see benchmark for more details on model performance).

Together with diarizers-community, we release:

diarizers, a library for fine-tuning pyannote speaker diarization models using the Hugging Face ecosystem.
A google colab notebook, with a step-by-step guide on how to use diarizers.

Benchmark

Callhome test dataset	Model	DER	False alarm	Missed detection	Confusion
Japanese	Pretrained	25.44	2.30	17.45	5.69
	Fine-tuned	18.23	6.31	6.91	5.01
Spanish	Pretrained	33.44	2.59	25.19	5.66
	Fine-tuned	25.72	6.87	12.73	6.12
English	Pretrained	22.16	6.29	10.97	4.90
	Fine-tuned	18.40	7.10	6.98	4.32
German	Pretrained	21.90	3.10	14.25	4.55
	Fine-tuned	16.75	5.00	7.75	4.00
Chinese	Pretrained	19.73	4.81	9.82	5.11
	Fine-tuned	15.95	5.04	7.24	3.68

Results are in %. They have been obtained using the test script from diarizers.

Collections 3

spaces 1

Running

4

DiarizationLM GGUF

💬

Generate detailed speaker diarization from text input💬

models 5

datasets 6

diarizers-community/ami_for_diarizationlm

Viewer • Updated Jul 17, 2024 • 170 • 28

diarizers-community/ami_ihm_with_transcripts

Viewer • Updated Jul 15, 2024 • 152 • 47

diarizers-community/voxconverse

Viewer • Updated May 31, 2024 • 448 • 394 • 3

diarizers-community/synthetic-speaker-diarization-dataset

Viewer • Updated May 29, 2024 • 1.58k • 63

diarizers-community/ami

Viewer • Updated Apr 22, 2024 • 212 • 609

diarizers-community/simsamu

Viewer • Updated Apr 22, 2024 • 61 • 113 • 3

diarizers-community

AI & ML interests

Recent Activity

Collections 3

talkbank/callhome

diarizers-community/simsamu

diarizers-community/ami

talkbank/sakura

diarizers-community/speaker-segmentation-fine-tuned-callhome-eng

diarizers-community/speaker-segmentation-fine-tuned-callhome-zho

diarizers-community/speaker-segmentation-fine-tuned-callhome-deu

diarizers-community/speaker-segmentation-fine-tuned-callhome-spa

spaces 1

DiarizationLM GGUF

models 5

diarizers-community/speaker-segmentation-fine-tuned-callhome-jpn

diarizers-community/speaker-segmentation-fine-tuned-callhome-spa

diarizers-community/speaker-segmentation-fine-tuned-callhome-zho

diarizers-community/speaker-segmentation-fine-tuned-callhome-eng

diarizers-community/speaker-segmentation-fine-tuned-callhome-deu

datasets 6

diarizers-community/ami_for_diarizationlm

diarizers-community/ami_ihm_with_transcripts

diarizers-community/voxconverse

diarizers-community/synthetic-speaker-diarization-dataset

diarizers-community/ami

diarizers-community/simsamu

AI & ML interests

Recent Activity

Team members 9

Collections 3

spaces 1

DiarizationLM GGUF

models 5 Sort: Recently updated

datasets 6 Sort: Recently updated

models 5

datasets 6