Qwen2.5-7B-base2instruct — étape DPO

Checkpoint intermédiaire (SFT + DPO) du pipeline base→instruct SFT → DPO → RLVR appliqué à Qwen/Qwen2.5-7B. Le DPO aligne le modèle SFT sur des préférences humaines (réponses choisies vs rejetées).

Entraînement

DPO LoRA (TRL DPOTrainer, r=32), référence calculée en direct, 1 epoch, lr 5e-6, β=0.1, seq_len 1536, bf16, gradient checkpointing. Adaptateur fusionné dans le modèle. Données : HuggingFaceH4/ultrafeedback_binarized (10k paires).

Piège résolu : precompute_ref_log_probs=True en bf16 produit des NaN — désactivé. Voir le dépôt GitHub.

Résultats (lm-eval, backend vLLM)

étape IFEval (prompt strict) GSM8K (flexible) MMLU
base Qwen2.5-7B 27.4 83.0 71.8
+ SFT 44.9 77.5 69.1
+ DPO (ce modèle) 44.7 77.1 69.9
+ RLVR 45.1 77.4 69.9

Le DPO sur 10k paires génériques bouge peu les benchmarks ici. Analyse complète : dépôt GitHub.

Usage

Format ChatML, via tokenizer.apply_chat_template. Voir l'exemple sur le modèle final.

Downloads last month
14
Safetensors
Model size
8B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for fenyo/Qwen2.5-7B-base2instruct-DPO

Base model

Qwen/Qwen2.5-7B
Finetuned
(871)
this model

Datasets used to train fenyo/Qwen2.5-7B-base2instruct-DPO