RLHFLow Reward Models - a RLHFlow Collection

RLHFlow 's Collections

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

RLHFLow Reward Models

updated Aug 21

Reward models trained by RLHFlow codebase (https://github.com/RLHFlow/RLHF-Reward-Modeling/)

RLHFlow/ArmoRM-Llama3-8B-v0.1

Text Classification • Updated Sep 23 • 13.5k • 161
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated Oct 14 • 3.52k • 37
sfairXC/FsfairX-LLaMA3-RM-v0.1

Text Classification • Updated Oct 14 • 15.8k • 51

Note Bradley-Terry reward model trained with RLHFlow codebase
RLHF Workflow: From Reward Modeling to Online RLHF

Paper • 2405.07863 • Published May 13 • 66

Note Tech report that covers Pairwise Preference Model
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts

Paper • 2406.12845 • Published Jun 18 • 1

Note Tech report for ArmoRM