ChatGPT 論文で説明されている 3 つのステップ (SFT、RM、PPO) をトレーニングするかどうか

#4
by aguang - opened

モデルを共有していただきありがとうございます。このモデルは、openai の論文で言及されている SFT モデルだと思います。OpenAIの論文で言及されている RM と PPO トレーニングは行いましたか?

モデルカード以外のことはやれていないです。

モデルは公開していただいた方々のデータセットに依存しています。
databricks-dolly-15k
databricks-dolly-15k-ja
oasst1
oasst1-89k-ja

今StabilityAI社が実施しているこちらがRMとPPO トレーニングに当たるのかもしれません。
https://huggingface.co/spaces/leemeng/stablelm-jp-alpha

ご回答ありがとうございます。 PPOを試してみましたが、rewardが非常に不安定です。質問を閉じさせてください。

aguang changed discussion status to closed

Sign up or log in to comment