PKU-Alignment
/

beaver-7b-v1.0-reward

Reinforcement Learning

reinforcement-learning-from-human-feedback

Model card Files Files and versions Community

beaver-7b-v1.0-reward / model-00003-of-00007.safetensors

Commit History

Convert model checkpoint to safetensors

4d1016a

XuehaiPan commited on Apr 19