VoiceMOS Challenge 2026 — Track 2 (Emotional TTS) checkpoints

Bộ checkpoint cho VoiceMOS Challenge 2026 Track 2 — dự đoán điểm MOS cho giọng nói cảm xúc (EMOS / EmoCat / VAD) và chất lượng (QMOS). Đây là các model train trong dự án; dùng kèm code ở demo Space.

Checkpoint trong repo

File	Experiment	Mô tả	Điểm DEV (UTT-SRCC)
`ft_emotion_full_20epoch.pt`	exp08	TỐT NHẤT cảm xúc. WavLM-large fine-tune (warm-start SAILER) + audeering frozen → trunk → 3 head (EMOS/CAT/VAD)	EMOS 0.811 · CAT-err 0.133 · VAD 0.659/0.793/0.751
`ft_qmos_utmos.pt`	exp13	Fine-tune UTMOS cho QMOS (chất lượng giọng)	QMOS (exp07 mốc 0.548)
`ft_joint_full.pt`	exp11	Fine-tune đồng thời WavLM + audeering, fusion 1 model	val nội bộ ~0.83 (nghi overfit)

Hệ 6 cột mạnh nhất = trộn cột: 5 cảm xúc ← ft_emotion_full_20epoch.pt + QMOS ← exp07 → QMOS 0.548 · EMOS 0.811 · CAT 0.133 · VAD 0.659/0.793/0.751.

Kiến trúc & hằng số (PHẢI khớp khi nạp `ft_emotion_full_20epoch.pt`)

Checkpoint không lưu các hằng kiến trúc → khi nạp phải đặt đúng:

TRUNK_HIDDEN = 512 · HEAD_HIDDEN = 128 · EMO_MAX_SEC = 8 · SR = 16000
EMOTIONS5 = ["angry", "happy", "neutral", "sad", "surprised"]

Key trong ckpt: wavlm (state_dict backbone), heads (trunk + 3 head), emos_mu/emos_sd, vad_mu/vad_sd (chuẩn hóa nhãn), AUD_DIM (>0 = có audeering). Nạp bằng torch.load(..., weights_only=False).

Code nạp đầy đủ: xem app.py của Space hoặc kaggle_baseline/track2/exp08_finetune_emotion_pipeline.py.

License — ⚠️ phi thương mại

Checkpoint kế thừa từ nhiều nguồn → tuân theo ràng buộc nghiêm ngặt nhất:

Thành phần	License
WavLM (microsoft/wavlm-large)	MIT
SAILER (tiantiaf/wavlm-large-categorical-emotion)	Open RAIL
audeering wav2vec2 MSP-dim	CC BY-NC-SA 4.0 (non-commercial)

→ Repo này để CC BY-NC-SA 4.0 (chỉ dùng phi thương mại, ghi nguồn, chia sẻ tương tự). Data train (BTC VoiceMOS 2026 + ESD + DailyTalk) có license riêng — không đóng gói trong repo này.

Trích dẫn

Dùng cho VoiceMOS Challenge 2026 (Track 2 — Emotional TTS). Paper ICASSP 2027 (in progress).

Downloads last month: -; Downloads are not tracked for this model. How to track

yonroy
/

voicemos2026-track2-emotion

VoiceMOS Challenge 2026 — Track 2 (Emotional TTS) checkpoints

Checkpoint trong repo

Kiến trúc & hằng số (PHẢI khớp khi nạp `ft_emotion_full_20epoch.pt`)

License — ⚠️ phi thương mại

Trích dẫn

Spaces using yonroy/voicemos2026-track2-emotion 2

VoiceMOS Challenge 2026 — Track 2 (Emotional TTS) checkpoints

Checkpoint trong repo

Kiến trúc & hằng số (PHẢI khớp khi nạp ft_emotion_full_20epoch.pt)

License — ⚠️ phi thương mại

Trích dẫn

Spaces using yonroy/voicemos2026-track2-emotion 2

Kiến trúc & hằng số (PHẢI khớp khi nạp `ft_emotion_full_20epoch.pt`)