Yy - a Yosph Collection

Yosph 's Collections

Yy

Yy

updated May 30

Offline Regularised Reinforcement Learning for Large Language Models Alignment

Paper • 2405.19107 • Published May 29 • 13