VoiceMOS Challenge 2026 — Track 2 (Emotional TTS) checkpoints

Bộ checkpoint cho VoiceMOS Challenge 2026 Track 2 — dự đoán điểm MOS cho giọng nói cảm xúc (EMOS / EmoCat / VAD) và chất lượng (QMOS). Đây là các model train trong dự án; dùng kèm code ở demo Space.

Checkpoint trong repo

File Experiment Mô tả Điểm DEV (UTT-SRCC)
ft_emotion_full_20epoch.pt exp08 TỐT NHẤT cảm xúc. WavLM-large fine-tune (warm-start SAILER) + audeering frozen → trunk → 3 head (EMOS/CAT/VAD) EMOS 0.811 · CAT-err 0.133 · VAD 0.659/0.793/0.751
ft_qmos_utmos.pt exp13 Fine-tune UTMOS cho QMOS (chất lượng giọng) QMOS (exp07 mốc 0.548)
ft_joint_full.pt exp11 Fine-tune đồng thời WavLM + audeering, fusion 1 model val nội bộ ~0.83 (nghi overfit)

Hệ 6 cột mạnh nhất = trộn cột: 5 cảm xúc ← ft_emotion_full_20epoch.pt + QMOS ← exp07 → QMOS 0.548 · EMOS 0.811 · CAT 0.133 · VAD 0.659/0.793/0.751.

Kiến trúc & hằng số (PHẢI khớp khi nạp ft_emotion_full_20epoch.pt)

Checkpoint không lưu các hằng kiến trúc → khi nạp phải đặt đúng:

TRUNK_HIDDEN = 512 · HEAD_HIDDEN = 128 · EMO_MAX_SEC = 8 · SR = 16000
EMOTIONS5 = ["angry", "happy", "neutral", "sad", "surprised"]

Key trong ckpt: wavlm (state_dict backbone), heads (trunk + 3 head), emos_mu/emos_sd, vad_mu/vad_sd (chuẩn hóa nhãn), AUD_DIM (>0 = có audeering). Nạp bằng torch.load(..., weights_only=False).

Code nạp đầy đủ: xem app.py của Space hoặc kaggle_baseline/track2/exp08_finetune_emotion_pipeline.py.

License — ⚠️ phi thương mại

Checkpoint kế thừa từ nhiều nguồn → tuân theo ràng buộc nghiêm ngặt nhất:

Thành phần License
WavLM (microsoft/wavlm-large) MIT
SAILER (tiantiaf/wavlm-large-categorical-emotion) Open RAIL
audeering wav2vec2 MSP-dim CC BY-NC-SA 4.0 (non-commercial)

→ Repo này để CC BY-NC-SA 4.0 (chỉ dùng phi thương mại, ghi nguồn, chia sẻ tương tự). Data train (BTC VoiceMOS 2026 + ESD + DailyTalk) có license riêng — không đóng gói trong repo này.

Trích dẫn

Dùng cho VoiceMOS Challenge 2026 (Track 2 — Emotional TTS). Paper ICASSP 2027 (in progress).

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Spaces using yonroy/voicemos2026-track2-emotion 2