metadata

library_name: peft
tags:
  - trl
  - kto
  - generated_from_trainer
base_model: HuggingFaceH4/zephyr-7b-beta
model-index:
  - name: WeniGPT-Agents-Zephyr-1.0.27-KTO
    results: []

WeniGPT-Agents-Zephyr-1.0.27-KTO

This model is a fine-tuned version of HuggingFaceH4/zephyr-7b-beta on the None dataset. It achieves the following results on the evaluation set:

Loss: 0.4799
Rewards/chosen: 0.0648
Rewards/rejected: -0.1020
Rewards/margins: 0.1668
Kl: 0.9039
Logps/chosen: -278.8387
Logps/rejected: -239.1956

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 2e-06
train_batch_size: 4
eval_batch_size: 4
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 16
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.03
training_steps: 147
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/margins	Kl	Logps/chosen	Logps/rejected
0.5716	0.33	50	0.4898	0.0297	-0.0529	0.0826	0.4425	-279.1900	-238.7043
0.6643	0.66	100	0.4799	0.0648	-0.1020	0.1668	0.9039	-278.8387	-239.1956

Framework versions

PEFT 0.10.0
Transformers 4.38.2
Pytorch 2.1.0+cu118
Datasets 2.18.0
Tokenizers 0.15.2