trl_rm_tldr_gptj

This model is a fine-tuned version of EleutherAI/gpt-j-6b on the TL;DR dataset. It achieves the following results on the evaluation set:

Loss: 0.6624
Accuracy: 0.6857

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1.41e-05
train_batch_size: 4
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 1

Training results

Training Loss	Epoch	Step	Validation Loss	Accuracy
0.5633	1.0	22660	0.6624	0.6857

Framework versions

PEFT 0.7.1.dev0
Transformers 4.36.2
Pytorch 2.1.2
Datasets 2.15.0
Tokenizers 0.15.0

BibTex Citation

If you would like to cite our paper when using the model, please use

@article{sun2024supervised,
  title={Supervised Fine-Tuning as Inverse Reinforcement Learning},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2403.12017},
  year={2024}
}

Holarissun
/

trl_rm_tldr_gptj

trl_rm_tldr_gptj

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

BibTex Citation

Model tree for Holarissun/trl_rm_tldr_gptj

Evaluation results