Qwen2.5-7B-base2instruct — étape SFT

Checkpoint intermédiaire (SFT seul) du pipeline base→instruct SFT → DPO → RLVR appliqué à Qwen/Qwen2.5-7B. Premier maillon : le modèle de base apprend ici le format chat (ChatML) et le suivi d'instructions par fine-tuning supervisé.

Entraînement

Full fine-tuning (TRL SFTTrainer), format ChatML, loss sur la réponse assistant uniquement (assistant_only_loss + balises {% generation %}), liger-kernel, packing, bf16, attention SDPA. 1 epoch, lr 5e-6 cosine, seq_len 4096. Données : allenai/tulu-3-sft-mixture (180k).

Résultats (lm-eval, backend vLLM)

étape IFEval (prompt strict) GSM8K (flexible) MMLU
base Qwen2.5-7B 27.4 83.0 71.8
+ SFT (ce modèle) 44.9 77.5 69.1
+ DPO 44.7 77.1 69.9
+ RLVR 45.1 77.4 69.9

C'est le SFT qui apporte l'essentiel du gain en suivi d'instructions (IFEval 27→45). Détails et analyse : dépôt GitHub.

Usage

Format ChatML, via tokenizer.apply_chat_template. Voir l'exemple sur le modèle final.

Downloads last month
-
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for fenyo/Qwen2.5-7B-base2instruct-SFT

Base model

Qwen/Qwen2.5-7B
Finetuned
(869)
this model

Dataset used to train fenyo/Qwen2.5-7B-base2instruct-SFT