metadata

license: apache-2.0
library_name: peft
tags:
  - trl
  - dpo
  - generated_from_trainer
base_model: TheBloke/OpenHermes-2-Mistral-7B-GPTQ
model-index:
  - name: openhermes-mistral-dpo-gptq
    results: []

openhermes-mistral-dpo-gptq

This model is a fine-tuned version of TheBloke/OpenHermes-2-Mistral-7B-GPTQ on the None dataset. It achieves the following results on the evaluation set:

Loss: 0.7095
Rewards/chosen: -0.1860
Rewards/rejected: -0.3362
Rewards/accuracies: 0.4904
Rewards/margins: 0.1502
Logps/rejected: -269.4139
Logps/chosen: -269.0661
Logits/rejected: -2.0876
Logits/chosen: -2.1662

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0002
train_batch_size: 1
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2
training_steps: 50
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6952	0.0002	10	0.6717	0.1018	0.0250	0.5769	0.0769	-265.8023	-266.1874	-2.1074	-2.1866
0.7473	0.0003	20	0.6787	0.0390	-0.0403	0.5192	0.0793	-266.4547	-266.8159	-2.1064	-2.1840
0.6557	0.0005	30	0.7320	-0.2017	-0.2789	0.4904	0.0772	-268.8405	-269.2226	-2.0938	-2.1716
0.8058	0.0007	40	0.7174	-0.2018	-0.3209	0.4808	0.1192	-269.2612	-269.2236	-2.0878	-2.1663
0.5939	0.0009	50	0.7095	-0.1860	-0.3362	0.4904	0.1502	-269.4139	-269.0661	-2.0876	-2.1662

Framework versions

PEFT 0.11.1
Transformers 4.41.2
Pytorch 2.0.1+cu117
Datasets 2.19.2
Tokenizers 0.19.1