LightChatAssistant-2x7B-optimized-experimental

概要

Sdff-Ltba/LightChatAssistant-2x7Bと同じ設定で、Chat Vectorの加算割合の最適化を目指したモデルです。素晴らしい手法を提案いただいた@Sdff-Ltbaさんに感謝します。

元々のLightChatAssistant-2x7BではChat Vectorの加算割合が全レイヤで0.8と固定でした。この加算割合の最適化をOptunaのTPESamplerを使って各レイヤごとで行い、その後MoEを行って作成したモデルです。作成に利用したスクリプトは以下で公開しています。

最適化の大まかな流れは以下の通りです。

なお、experimentalと付いている通り、あくまで実験として作成したモデルです。主に下記の理由であまりパフォーマンスの向上が出来ていない可能性もあります。

探索空間が70次元に対し、試行回数が50回とかなり少ない
最適化のため評価値取得の際、各試行のモデル出力の評価にGPT-4による評価を利用しているが、これが人間の評価と一致するか不明。また、評価プロンプトや評価に使う問題が良くない可能性もある。
レイヤごとで切り分けて最適化を目指しているが、この切り分け方が良くない可能性がある

などなど問題があるかと思いますので、あくまで実験的なものとしてご認識ください。

余談ですが、各ベースモデル単体に対して同じ流れで個別で最適化を行い、最適化されたモデルをMoEする方法だと出力がかなり悪化しました。MoE前提で最適化を行う場合は、MoEまでを全体フローに取り入れ、MoEを行ったモデルを利用した評価値で最適化したほうが良さそうです。