metadata

tags:
  - text-to-image
  - stable-diffusion

このモデルは以下の2ステップで作成されました。

SSD-1BをNekorayXLとsdxl-1.0の差分の1.3倍でマージ。蒸留前と蒸留後のkeyについてはこのマッピングを想定しています。
NekorayXLの最終出力との差を損失にして蒸留（学習率1e-5,バッチサイズ4で23000ステップ)

使い方

safetensors形式のファイルは最新のComfyUIで使えます。

LoRA

ssd-1b-anime-cfgdistill:

cfg_scale=1でまともな画像が生成されるように学習したLoRAです。cfg_scale=1にするとネガティブ側の計算が必要なくなるため計算量が半分になります。1より大きくすると計算量削減の恩恵は受けられませんが、普通に性能向上LoRAとして使えるようです。ただし通常の生成よりは低い値をおすすめします。

LCM

ssd-1b-anime-lcm:LCMモデルっぽくします。ssd-1b-anime-cfgdistillとの併用をおすすめします。 LCMSampler-ComfyUIで使えます。最新のComfyUIでも使えるようになりました。

SSD-1BとSDXLのkey対応について

削除したモジュールがどれか分からないので、コサイン類似度を利用して推定しました。 Transformer_depthだけ変わっているので（多分）Attention層のパラメータをSDXLとSSD-1B調査しました。 2層⇒1層となる場合先頭の層が残ります。 10層⇒4層となる場合1,2,3,7番目の層が残ります。

※up層の3番目は10層のままですが、コサイン類似度の結果が不可解なものになっていました。とりあえずここは変更されていないと仮定しています。