YAML Metadata Warning:empty or missing yaml metadata in repo card

Check out the documentation for more information.

rush-clip-judge — SFT full-res retrain (2026-06-06)

Juge qualité « highlight » (note 1-5 étoiles, décodée en Q-Align expected-value Σ p(chiffre)·chiffre sur les tokens 1-5) pour les clips Rush (escape games).

  • Base : Qwen/Qwen3.5-0.8B (VL) + LoRA r8, ViT+aligner gelés.
  • Full-res : VIDEO_MAX_TOKEN_NUM=600, 24 frames @ 8 fps, max_length=12288.
  • Train : 12110 clips, 28 séances annotées, 1 epoch (train_loss≈0.112).
  • Held-out : 92d602d9 (WAKANDA) + 69fc3d29 — 5 salles (GRID/JENGA/JUNGLE/MARKET/PISCINE).

Éval — accord pairwise INTRA-SALLE cross-session (la métrique qui compte)

Modèle MACRO pair_agree
SFT full-res retrain (ce modèle) 0.741
SFT précédent (réf) 0.708
DINOv3 + ranker 0.679
DINOv2 0.616

Par salle : GRID 0.854 · JENGA 0.767 · MARKET 0.729 · PISCINE 0.709 · JUNGLE 0.647.

L'argmax s'effondre sur la classe majoritaire (2★) — on n'utilise jamais l'argmax, seulement le score continu (expected-value) pour le classement.

KTO

Abandonné sur ce run : limitation ms-swift (l'estimation KL du KTO apparie des complétions et casse sur une tâche à complétions binaires « garder/jeter » — AssertionError rejected==response). À reprendre en DPO à paires explicites ou avec un patch KL. Cf. RUNBOOK §9.

Artefacts

  • Adapter SFT : sous-dossier sft-fullres-retrain-20260606/
  • Prédictions held-out : sft-fullres-retrain-20260606/val_predictions.jsonl
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support