WaifuNijiMix / README.md
rumiya's picture
Upload README.md
4b5e886
|
raw
history blame
11.5 kB

WaifuNijiMix

  • I'm not very good at writing in English, so I'm having ChatGPT assist me in writing the following. Please forgive that there may be some confusing expressions.

What is this?

2.00aa

WaifiNijiMix 2.0aa is a merged model based on the model that merged SD1.5 with Waifu Diffusion v1.3 using trainDifference. I have attempted to minimize the inclusion of related to NAI leaks, and after merging with other models using Add_difference, I adjust the application intensity by merging with the base model using weight_sum.

Most models are based on SD1.4 as they contain NAI leak elements. However, I created this model with the purpose of investigating what kind of model would be created when based on SD1.5. It does not inherit from WaifuNijiMix 1.0a and is merged from scratch, but the models included are likely to have significant overlap, so the overall tendencies may not change much.

I aim to address the issue of circular roofs appearing in outdoor backgrounds, which was a problem in WaifuNijiMix v1.0a, and strengthen weak NSFW components.

Since including LoRA too much tended to increase catastrophic forgetting, I have limited its use to models with less forgetting and applied it in small amounts.

1.0a

WaifuNijiMix is a merged model based on Waifu Diffusion v1.3. It merged with the intention of minimizing the inclusion of NAI leak model-related data.

All the merging with other models is done using Add_difference. multiple LoRA/LOCONs are added.

The merging process employs Bayesian auto elemental weight merge. the weights are determined automatically at the elemental unit level, so I don't understand about the specific proportions.

For art style adjustment from Various Lora, like NijiJourny's style.

Examples

clip skip 2

2.00aa

CFG scale 12

sample_200_spring sample_200_summer sample_200_autumn sample_200_winter

CFG scale 8

sample_cafe

1.0a

sample

CFG scale 12

sample_spring sample_summer sample_autumn sample_winter

CFG scale 8

sample_computer_repair sample_veranda sample_cafe sample_fantasy

Q: I'm only getting full-body images. What should I do?

A: Please try adding "upper_body" to the prompt.


Japanese desc.

このモデルは?

2.00aa

WaifiNijiMix 2.0aaはSD1.5にtrainDifferenceでWaifu Diffusion v1.3をマージしたモデルを基にしたマージモデルです。NAIリークモデル関連の情報をなるべく含まないようにしており、他モデルとのマージは全てAdd_differenceで行った後、ベースのモデルとweight_sumマージすることによって適用強度を調整しています。

世のモデルの大半はNAIリーク要素を含んでいるためSD1.4ベースのものとなっていますが、1.5ベースで作られた場合にどういうモデルができあがっていたかを調べるという目的で作成しました。1.0aを継承しておらず、1からマージし直していますが、含まれているモデルは多分に重複しているため背景の傾向などはそう変わらないと思います。

1.0aで問題のあった屋外背景において円形屋根が表示される問題への対応、弱かったNSFW成分の強化を目指しています。

LoRAをあまり含めると破局的忘却が増える傾向が強かったため、忘却が少なめなものに限定して少量適用しています。

1.0a

1.0a

WaifuNijiMixはWaifu Diffusion v1.3を基にしたマージモデルです。NAIリークモデル関連の情報をなるべく含まないようにしています。

他モデルとのマージは全てAdd_differenceで行っています。そこに多数のLoRA/LOCONを追加しています。

マージにはbaysien auto elemental weight mergeを使っています。これはエレメント単位での重みを自動で決定する仕組みのため、作成者自身どんな重み配分かは把握していません。(調べられますが調べても何かが理解できる程の量ではないので…)

絵柄調整にNijiJourny画風学習のLora等を使っています。

MIXモデルなのに本当にNAIを含んでいないの?

マージに用いた各モデルはNAIを含んでいると推測されたため、一番近いNAI系モデルとの差分を合成してはいます。そのため元のモデルとして推測したマージモデルが間違っていたら、少量差分が含まれてしまっている可能性があります。

念のため確認した、2.00aaでのASimilarityCalculatior (in層まで拡張)での占いの結果は次のとおりです。(一部元モデル名からリネームしているのはご容赦ください。)

sd-v1-4.ckpt [7460a6fa] - 74.36%
sd15pruned_emaonly.ckpt [81761151] - 82.72%
wd13float32.ckpt [4470c325] - 76.25%
wd-v1-2-full-ema.ckpt [45dee52b] - 74.54%
novelai_animefull_final_pruned.ckpt [925997e9] - 75.51%
novelai_animesfw_final_pruned.ckpt [1d4a34af] - 74.25%
ACertainty.ckpt [0e200e66] - 72.04%
Anything-V3.0-pruned.ckpt [2700c435] - 75.32%
anything-v4.0-pruned-fp16.safetensors [53d80ac0] - 79.29%
anything-v4.5-pruned-fp16.ckpt [fc018a75] - 79.12%
AbyssOrangeMix.safetensors [cc44dbff] - 77.32%
AbyssOrangeMix2_hard.safetensors [931f9552] - 77.41%
AOM3A3_orangemixs.safetensors [9600da17] - 78.13%
Elysium_V1.ckpt [44bf0551] - 79.16%
Elysium_Anime_V3.safetensors [1a97f4ef] - 77.83%
ElyOrangeMix.ckpt [6b508e59] - 78.38%
Evt_M.safetensors [2a2c58bc] - 73.00%
pastelmix-better-vae.safetensors [4048130a] - 77.42%
grapefruitHentaiModel_grapefruitv4.safetensors [e7542b65] - 76.63%
hassakuHentaiModel_hassakuv1.safetensors [b3fa28ba] - 76.64%
offset_noise.ckpt [9453d9a1] - 82.77%
nightSkyYOZORAStyle_yozoraV1PurnedFp16.safetensors [94245290] - 76.47%
7th_anime_v3_C.safetensors [6b3ba9a7] - 76.52%
Counterfeit-V2.5.safetensors [9b36871e] - 77.71%
neverendingDreamNED_noVae.safetensors [9ce0df7a] - 79.68%
  • offset noiseを含んでいないのに近いのは数少ないsd1.5系モデルだからか?
  • 最早waifu diffusion 1.3の成分が弱すぎる
  • NEDもdreamshaperも含んでいないのにNEDに近すぎるのは不明。リアル系モデルにおいてはinsta-cafe等のsd1.5系モデルがあるので、sd1.5要素に反応した?
1.0a 念のため確認した、1.0aでのASimilarityCalculatior占いの結果は次のとおりです。(一部元モデル名からリネームしているのはご容赦ください。) ``` sd-v1-4.ckpt [7460a6fa] - 84.40% sd15pruned_emaonly.ckpt [81761151] - 65.68% wd-v1-2-full-ema.ckpt [45dee52b] - 84.85% wd13float32.ckpt [4470c325] - 86.76% ACertainty.ckpt [0e200e66] - 81.50% Anything-V3girls talking at living room, from below3.0-pruned.ckpt [2700c435] - 84.61% anything-v4.0-pruned-fp16.safetensors [53d80ac0] - 84.70% anything-v4.5-pruned-fp16.ckpt [fc018a75] - 85.14% AbyssOrangeMix2_hard.safetensors [931f9552] - 85.34% AOM3A1B.safetensors [9600da17] - 85.06% Elysium_V1.ckpt [44bf0551] - 86.46% Evt_M.safetensors [2a2c58bc] - 80.54% pastelmix-better-vae.safetensors [4048130a] - 85.33% grapefruitHentaiModel_grapefruitv22.safetensors [2506047e] - 84.93% colorBoxModel_colorBOX.safetensors [a80fee84] - 83.89% 7th_anime_v3_C.safetensors [6b3ba9a7] - 84.55% Counterfeit-V2.5.safetensors [9b36871e] - 85.34% ```
  • NAIを含んだマージモデルで上記モデルとの比較を行った場合、多くのモデルとの一致率が90%以上になる。
  • 最も高い一致率を示しているのがwaifu diffusion 1.3
  • Elysium_V1との一致率が高いが、そもそもElysium自体、waifu diffusionとの一致率がNAIとのそれより高い。waifu diffusionをマージしている?
  • waifu diffusion 1.3との比較ですら90%を切ってしまっているのは、いろいろ足しすぎて最早テセウスの船と化しているのでは? 或いはマージの途中で破局的忘却もマージしてしまっている。

どうしようもなくて現在諦めている要素

  • いろんなポーズが出ない。
  • いろんな構図が出ない。
  • カメラアングル関連ワードの効きが悪いor効かない。 => 2.0aaにて改善
  • 縦長にすると露骨に構図が眠たい。
  • ファンタジー系背景が出づらい。 => 2.0aaにて改善

対策

  • 出したい構図があるならcontrolnetを使う。
  • LoRAやLECOでこのモデル専用に学習する必要があるかも?

このモデルをマージして新しいモデルを作ったら、それはWD系だとかNAI不使用を名乗れるの?

良心に任せます。簡単な判断基準としてはNAI系モデルと通常のweight sumマージを一回でもしたらだめだと思います。

このモデルのマージを拒否しているわけではないです。ご自由にマージしてください。効能としては高まりすぎたNAI成分を薄めるためとか?

  • マージの計算式上、同じ部分が含まれるモデル同士でweight sumマージを繰り返すと、異なる部分だけが配合比の影響を受けて薄められます。具体的には以下の通り。

    たとえば同じAをもとにしたモデルBとCをマージする場合の式を考えます。

    共通部分の特徴をAとして、BをA+b、CをA+cと表すとします。

    この2つのモデルをsumする場合の計算式は(1-α)(A+b)+α(A+c)となり、式を整理するとA+(1-α)b+αcになります。

    つまりは共通部分Aは一切変化していないのに、Bのモデルの特徴とCのモデルの特徴が薄められた上で合わさったモデルが作られます。

    (たとえこのモデルをマージして共通部分を少なくしても異なる部分が薄まることには変わりがないので、このモデルをマージしたところで効果は限定的だと思いますが。)

nsfw成分は?

1.0aではあまり出ません。マージの途中で忘れてしまっています。

2.00aaではそれなりに出力されますが、negativeでの工夫がいるかもしれません。

世の中のLoRAをいろいろマージしたらnsfw成分を足せるのでは?

世の中のLoRAすべてが正則化されて他要素への影響が最小限にされていればその通りです。でもそんなことはないために合成するモデル(およびLoRA)を増やすたびにどこかに破局的忘却が発生します。

特定の構図が追加される代わりに他のものが(一部ならまだしもすべてだったり)忘れられてしまうようなモデルを、追加して修正してを繰り返すのは効率が悪いです。

LoRAを適用して出力した画像を用いて、正則化しながら自分で学習しなおした方が早くそして正確でしょう。

今後マージにおいても破局的忘却への対処方法が発見されればよいですね。