Reward model based `deberta-v3-large-tasksource-nli` fine-tuned on Anthropic/hh-rlhf

For 1 epoch with 1e-5 learning rate.

Validation accuracy is currently the best publicly available reported: 75.16% (vs 69.25% for OpenAssistant/reward-model-deberta-v3-large-v2).

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train sileod/deberta-v3-large-tasksource-rlhf-reward-model