File size: 4,275 Bytes
58e64f8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
---
license: creativeml-openrail-m
language:
- en
tags:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image

---

[東北ずん子プロジェクト](https://zunko.jp/)のキャラクターイラストを用いてDreamBoothで学習したモデルです.

- ``itako``: 東北イタコ
- ``zunko``: 東北ずん子
- ``kiritan``: 東北きりたん
- ``zundamon``: ずんだもん (人間形態)
- ``metan``: 四国めたん
- ``usagi``: 中国うさぎ
- ``awamo``: 沖縄あわも
- ``shinobi``: 関西しのび
- ``hokamel``: 北海道めろん
- ``sora``: 九州そら
- ``chanko``: 大江戸ちゃんこ

学習画像はなるべく衣装にバリエーションをもたせているので,「公式衣装」は出にくいです.

[shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比べてキャラクターが増え,
学習元モデルも変更しています.
ただし,全てが改善されているとはいえません.
(例えば``itako``の画像が非常に出力しにくいです.)

その理由として

- 1キャラクターあたりの学習枚数を16枚に絞った
- 同時に学習したキャラクターが11名と多い
- 学習元モデルがまだEpoch 1での学習結果である

など様々な理由が考えられます.

[shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比較して,
その時々によって使い分けをされることをおすすめします.

## ファイル形式

1. [AUTOMATIC1111/stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui)などckptファイルを読み込むツールの場合

    [sd-tohoku-v2.model.ckpt](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.ckpt)(約2.5GB)と[sd-tohoku-v2.yaml](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.yaml)をダウンロードして読み込んでください

2. [diffusers](https://github.com/huggingface/diffusers)から利用する場合

    ```python
    from diffusers import DiffusionPipeline
    pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2")
    ```

## 紹介動画

## ライセンス

[CreativeML Open RAIL-M license 1.0](https://hf.space/static/bigscience/license/index.html)

また,各種法令・各種ガイドラインにご留意ください.
例えば,生成された画像が東北ずん子プロジェクトのキャラクターを含む場合,
[「東北ずん子プロジェクト キャラクター利用の手引き」](https://zunko.jp/guideline.html)に基づいて利用してください.

## 学習設定

- 元モデル: [Waifu Diffusion 1.4 Anime Epoch 1](https://huggingface.co/hakurei/waifu-diffusion-v1-4) (``wd-1-4-anime_e1.ckpt``)
- 学習画像
    - 11キャラクター計111枚
    - アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ
    - 正則化画像なし
- 学習元コード: [ShivamShrirao/diffusers](https://github.com/ShivamShrirao/diffusers) (``85d8b49``)
- 学習設定
    - Instance ID: ``itako``, ``zunko``, ``kiritan``, ``zundamon``, ``metan``, ``usagi``, ``awamo``, ``shinobi``, ``hokamel``, ``sora``, ``chanko`` (11種)
    - Instance prompt: ``<ID>, 1girl``
    - NVIDIA A100で約160分, 600エポック
- 学習用コマンド

    ```bash
    accelerate launch \
        --num_cpu_threads_per_process 12 \
        train_db.py \
        --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \
        --train_data_dir="/content/data/img_train" \
        --reg_data_dir="/content/data/img_reg"  \
        --output_dir="/content/data/output_models" \
        --prior_loss_weight=1.0  \
        --resolution="448,640"  \
        --train_batch_size="4" \
        --learning_rate="1e-6"  \
        --max_train_steps="8400"  \
        --use_8bit_adam  \
        --cache_latents \
        --v2 \
        --logging_dir="/content/data/logs" \
        --save_every_n_epochs "10" \
        --save_last_n_epochs "1" \
        --save_state \
        --mixed_precision='fp16'
    ```

    後半300エポックは``--output_dir``を変え,``--resume /content/data/output_models/last-state``で再開.

## 学習に使った画像

TBA

## 生成例

TBA