VoiceMOS Challenge 2026 — Track 2 (Emotional TTS) checkpoints
Bộ checkpoint cho VoiceMOS Challenge 2026 Track 2 — dự đoán điểm MOS cho giọng nói cảm xúc (EMOS / EmoCat / VAD) và chất lượng (QMOS). Đây là các model train trong dự án; dùng kèm code ở demo Space.
Checkpoint trong repo
| File | Experiment | Mô tả | Điểm DEV (UTT-SRCC) |
|---|---|---|---|
ft_emotion_full_20epoch.pt |
exp08 | TỐT NHẤT cảm xúc. WavLM-large fine-tune (warm-start SAILER) + audeering frozen → trunk → 3 head (EMOS/CAT/VAD) | EMOS 0.811 · CAT-err 0.133 · VAD 0.659/0.793/0.751 |
ft_qmos_utmos.pt |
exp13 | Fine-tune UTMOS cho QMOS (chất lượng giọng) | QMOS (exp07 mốc 0.548) |
ft_joint_full.pt |
exp11 | Fine-tune đồng thời WavLM + audeering, fusion 1 model | val nội bộ ~0.83 (nghi overfit) |
Hệ 6 cột mạnh nhất = trộn cột: 5 cảm xúc ←
ft_emotion_full_20epoch.pt+ QMOS ← exp07 → QMOS 0.548 · EMOS 0.811 · CAT 0.133 · VAD 0.659/0.793/0.751.
Kiến trúc & hằng số (PHẢI khớp khi nạp ft_emotion_full_20epoch.pt)
Checkpoint không lưu các hằng kiến trúc → khi nạp phải đặt đúng:
TRUNK_HIDDEN = 512 · HEAD_HIDDEN = 128 · EMO_MAX_SEC = 8 · SR = 16000
EMOTIONS5 = ["angry", "happy", "neutral", "sad", "surprised"]
Key trong ckpt: wavlm (state_dict backbone), heads (trunk + 3 head), emos_mu/emos_sd,
vad_mu/vad_sd (chuẩn hóa nhãn), AUD_DIM (>0 = có audeering). Nạp bằng torch.load(..., weights_only=False).
Code nạp đầy đủ: xem app.py của Space hoặc kaggle_baseline/track2/exp08_finetune_emotion_pipeline.py.
License — ⚠️ phi thương mại
Checkpoint kế thừa từ nhiều nguồn → tuân theo ràng buộc nghiêm ngặt nhất:
| Thành phần | License |
|---|---|
| WavLM (microsoft/wavlm-large) | MIT |
| SAILER (tiantiaf/wavlm-large-categorical-emotion) | Open RAIL |
| audeering wav2vec2 MSP-dim | CC BY-NC-SA 4.0 (non-commercial) |
→ Repo này để CC BY-NC-SA 4.0 (chỉ dùng phi thương mại, ghi nguồn, chia sẻ tương tự). Data train (BTC VoiceMOS 2026 + ESD + DailyTalk) có license riêng — không đóng gói trong repo này.
Trích dẫn
Dùng cho VoiceMOS Challenge 2026 (Track 2 — Emotional TTS). Paper ICASSP 2027 (in progress).