rhysjones
/

phi-2-dpo-pairs

Text Generation

Model card Files Files and versions Community

This is a test DPO finetune of Microsoft phi-2

Two DPO datasets are used. Training was for 1 epoch as a qlora with rank 64.

Initial Evals

ARC: 63.14
TruthfulQA: 48.47

Downloads last month: 0

Safetensors

Model size

2.78B params

Tensor type

BF16

·

Inference Providers NEW

Text Generation

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support