MLC-SLM DiariZen Fine-tuned Model

DiariZen/WavLM diarization model fine-tuned on MLC-SLM conversational speech training data.

This repository contains model weights and inference configuration only. It does not contain MLC-SLM audio, transcripts, RTTM labels, or manifests.

Usage

from diarizen.pipelines.inference import DiariZenPipeline

diar_pipeline = DiariZenPipeline.from_pretrained("sulaimank/mlc-slm-diarizen")
diar_results = diar_pipeline("audio.wav")

for turn, _, speaker in diar_results.itertracks(yield_label=True):
    print(f"start={turn.start:.1f}s stop={turn.end:.1f}s speaker_{speaker}")

Save RTTM output:

from diarizen.pipelines.inference import DiariZenPipeline

diar_pipeline = DiariZenPipeline.from_pretrained(
    "sulaimank/mlc-slm-diarizen",
    rttm_out_dir="."
)
diar_pipeline("audio.wav", sess_name="session_name")

Current Validation

After epoch 1 on the local MLC-SLM development split:

Validation Loss: 0.295
Validation DER: 0.139

License

Research/non-commercial use only. The released checkpoint should be treated as CC BY-NC 4.0 because it is based on DiariZen/WavLM diarization training and MLC-SLM challenge data access restrictions.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

Voice Activity Detection

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support