rush-clip-judge — SFT full-res retrain (2026-06-06)

Juge qualité « highlight » (note 1-5 étoiles, décodée en Q-Align expected-value Σ p(chiffre)·chiffre sur les tokens 1-5) pour les clips Rush (escape games).

Base : Qwen/Qwen3.5-0.8B (VL) + LoRA r8, ViT+aligner gelés.
Full-res : VIDEO_MAX_TOKEN_NUM=600, 24 frames @ 8 fps, max_length=12288.
Train : 12110 clips, 28 séances annotées, 1 epoch (train_loss≈0.112).
Held-out : 92d602d9 (WAKANDA) + 69fc3d29 — 5 salles (GRID/JENGA/JUNGLE/MARKET/PISCINE).

Éval — accord pairwise INTRA-SALLE cross-session (la métrique qui compte)

Modèle	MACRO pair_agree
SFT full-res retrain (ce modèle)	0.741
SFT précédent (réf)	0.708
DINOv3 + ranker	0.679
DINOv2	0.616

Par salle : GRID 0.854 · JENGA 0.767 · MARKET 0.729 · PISCINE 0.709 · JUNGLE 0.647.

L'argmax s'effondre sur la classe majoritaire (2★) — on n'utilise jamais l'argmax, seulement le score continu (expected-value) pour le classement.

KTO

Abandonné sur ce run : limitation ms-swift (l'estimation KL du KTO apparie des complétions et casse sur une tâche à complétions binaires « garder/jeter » — AssertionError rejected==response). À reprendre en DPO à paires explicites ou avec un patch KL. Cf. RUNBOOK §9.

Artefacts

Adapter SFT : sous-dossier sft-fullres-retrain-20260606/
Prédictions held-out : sft-fullres-retrain-20260606/val_predictions.jsonl

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support