this is a DPO fine-tuned MoE model for TomGrc/FusionNet_34Bx2_MoE_v0.1

DPO Trainer
TRL supports the DPO Trainer for training language models from preference data, as described in the paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model by Rafailov et al., 2023.

Metrics Metrics

Open LLM Leaderboard Evaluation Results

Detailed results can be found here

Metric	Value
Avg.	77.91
AI2 Reasoning Challenge (25-Shot)	74.06
HellaSwag (10-Shot)	86.74
MMLU (5-Shot)	76.65
TruthfulQA (0-shot)	72.24
Winogrande (5-shot)	83.35
GSM8k (5-shot)	74.45

cloudyu
/

TomGrc_FusionNet_34Bx2_MoE_v0.1_DPO_f16

Open LLM Leaderboard Evaluation Results

Model tree for cloudyu/TomGrc_FusionNet_34Bx2_MoE_v0.1_DPO_f16