Text-to-Image
Diffusers
StableDiffusionPipeline
stable-diffusion
Yasunori Ozaki commited on
Commit
1c99717
1 Parent(s): 5133d5f

Add Models

Browse files
Files changed (3) hide show
  1. .gitattributes +1 -0
  2. README.md +199 -0
  3. v2-1-2.safetensors +3 -0
.gitattributes CHANGED
@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
32
  *.zip filter=lfs diff=lfs merge=lfs -text
33
  *.zst filter=lfs diff=lfs merge=lfs -text
34
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
32
  *.zip filter=lfs diff=lfs merge=lfs -text
33
  *.zst filter=lfs diff=lfs merge=lfs -text
34
  *tfevents* filter=lfs diff=lfs merge=lfs -text
35
+ v2-1-2.safetensors filter=lfs diff=lfs merge=lfs -text
README.md CHANGED
@@ -1,3 +1,202 @@
1
  ---
2
  license: other
3
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: other
3
  ---
4
+
5
+ # Cool Japan Diffusion 2.1.2 Model Card
6
+
7
+ ![アイキャッチ](eyecatch.jpg)
8
+
9
+ English version is [here](README_en.md).
10
+
11
+ # はじめに
12
+ Cool Japan Diffusion はStable Diffsionをファインチューニングして、アニメやマンガ、ゲームなどのクールジャパンを表現することに特化したモデルです。なお、内閣府のクールジャパン戦略とは特に関係はありません。
13
+
14
+ # 使い方
15
+ 手軽に楽しみたい方は、こちらの[Space](https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-latest-demo)をお使いください。
16
+ 詳しい本モデルの取り扱い方は[こちらの取扱説明書](https://alfredplpl.hatenablog.com/entry/2023/01/11/182146)にかかれています。
17
+ モデルは[ここ](v2-1-2.safetensors)からダウンロードできます。
18
+
19
+ # ライセンスについて
20
+ ライセンスについては、もとのライセンス CreativeML Open RAIL++-M License に例外を除き商用利用禁止を追加しただけです。
21
+ 例外を除き商用利用禁止を追加した理由は創作業界に悪影響を及ぼしかねないという懸念からです。
22
+ この懸念が払拭されれば、次のバージョンから元のライセンスに戻し、商用利用可能とします。
23
+ ちなみに、元のライセンスの日本語訳は[こちら](https://qiita.com/robitan/items/887d9f3153963114823d)になります。
24
+ 営利企業にいる方は法務部にいる人と相談してください。
25
+ 趣味で利用する方はあまり気にしなくても一般常識を守れば大丈夫なはずです。
26
+ なお、ライセンスにある通り、このモデルを改造しても、このライセンスを引き継ぐ必要があります。
27
+
28
+ # 法律や倫理について
29
+ 本モデルは日本にて作成されました。したがって、日本の法律が適用されます。
30
+ 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。
31
+ また、本モデルの配布については、著作権法や刑法175条に照らしてみても、
32
+ 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の[見解](https://twitter.com/tka0120/status/1601483633436393473?s=20&t=yvM9EX0Em-_7lh8NJln3IQ)を御覧ください。
33
+ ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。
34
+
35
+ しかし、本モデルを配布する行為が倫理的に良くないとは作者は思っています。
36
+ これは学習する著作物に対して著作者の許可を得ていないためです。
37
+ ただし、学習するには著作者の許可は法律上必要もなく、検索エンジンと同様法律上は問題はありません。
38
+ したがって、法的な側面ではなく、倫理的な側面を調査する目的も本配布は兼ねていると考えてください。
39
+
40
+
41
+ 以下、一般的なモデルカードの日本語訳です。
42
+
43
+ ## モデル詳細
44
+ - **開発者:** Robin Rombach, Patrick Esser, Alfred Increment
45
+ - **モデルタイプ:** 拡散モデルベースの text-to-image 生成モデル
46
+ - **言語:** 日本語
47
+ - **ライセンス:** CreativeML Open RAIL++-M-NC License
48
+ - **モデルの説明:** このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは [Latent Diffusion Model](https://arxiv.org/abs/2112.10752) と [OpenCLIP-ViT/H](https://github.com/mlfoundations/open_clip) です。
49
+ - **補足:**
50
+ - **参考文献:**
51
+
52
+ @InProceedings{Rombach_2022_CVPR,
53
+ author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
54
+ title = {High-Resolution Image Synthesis With Latent Diffusion Models},
55
+ booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
56
+ month = {June},
57
+ year = {2022},
58
+ pages = {10684-10695}
59
+ }
60
+
61
+ ## モデルの使用例
62
+
63
+ Stable Diffusion v2と同じ使い方です。
64
+ たくさんの方法がありますが、2つのパターンを提供します。
65
+ - Web UI
66
+ - Diffusers
67
+
68
+ ### Web UIの場合
69
+ **今回からは--no-halfオプションをオンにしてください。また、xformersをインストールすることをおすすめします。**
70
+ こちらの[取扱説明書](https://alfredplpl.hatenablog.com/entry/2023/01/11/182146)に従って作成してください。
71
+
72
+ ### Diffusersの場合
73
+
74
+ [🤗's Diffusers library](https://github.com/huggingface/diffusers) を使ってください。
75
+
76
+ まずは、以下のスクリプトを実行し、ライブラリをいれてください。
77
+
78
+ ```bash
79
+ pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate scipy
80
+ ```
81
+
82
+ 次のスクリプトを実行し、画像を生成してください。
83
+
84
+ ```python
85
+ from diffusers import StableDiffusionPipeline, EulerAncestralDiscreteScheduler
86
+ import torch
87
+
88
+ model_id = "aipicasso/cool-japan-diffusion-2-1-2-beta"
89
+
90
+ scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
91
+ pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float32)
92
+ pipe = pipe.to("cuda")
93
+
94
+ prompt = "anime, masterpiece, a portrait of a girl, good pupil, 4k, detailed"
95
+ negative_prompt="deformed, blurry, bad anatomy, bad pupil, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, poorly drawn hands, bad hands, fused fingers, messy drawing, broken legs censor, low quality, mutated hands and fingers, long body, mutation, poorly drawn, bad eyes, ui, error, missing fingers, fused fingers, one hand with more than 5 fingers, one hand with less than 5 fingers, one hand with more than 5 digit, one hand with less than 5 digit, extra digit, fewer digits, fused digit, missing digit, bad digit, liquid digit, long body, uncoordinated body, unnatural body, lowres, jpeg artifacts, 3d, cg, text, japanese kanji"
96
+ images = pipe(prompt,negative_prompt=negative_prompt, num_inference_steps=20).images
97
+ images[0].save("girl.png")
98
+
99
+ ```
100
+
101
+ **注意**:
102
+ - [xformers](https://github.com/facebookresearch/xformers) を使うと早くなるらしいです。
103
+ - GPUを使う際にGPUのメモリが少ない人は `pipe.enable_attention_slicing()` を使ってください。
104
+
105
+ #### 想定される用途
106
+
107
+ - 画像生成AIに関する報道
108
+ - 公共放送だけでなく、営利企業でも可能
109
+ - 画像合成AIに関する情報を「知る権利」は創作業界に悪影響を及ぼさないと判断したためです。また、報道の自由などを尊重しました。
110
+ - クールジャパンの紹介
111
+ - 他国の人にクールジャパンとはなにかを説明すること。
112
+ - 他国の留学生はクールジャパンに惹かれて日本に来ることがおおくあります。そこで、クールジャパンが日本では「クールでない」とされていることにがっかりされることがとても多いとAlfred Incrementは感じております。他国の人が憧れる自国の文化をもっと誇りに思ってください。
113
+ - 研究開発
114
+ - Discord上でのモデルの利用
115
+ - プロンプトエンジニアリング
116
+ - ファインチューニング(追加学習とも)
117
+ - DreamBooth など
118
+ - 他のモデルとのマージ
119
+ - Latent Diffusion Modelとクールジャパンとの相性
120
+ - 本モデルの性能をFIDなどで調べること
121
+ - 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
122
+ - 教育
123
+ - 美大生や専門学校生の卒業制作
124
+ - 大学生の卒業論文や課題制作
125
+ - 先生が画像生成AIの現状を伝えること
126
+ - 自己表現
127
+ - SNS上で自分の感情や思考を表現すること
128
+ - Hugging Face の Community にかいてある用途
129
+ - 日本語か英語で質問してください
130
+
131
+ #### 想定されない用途
132
+ - 物事を事実として表現するようなこと
133
+ - 収益化されているYouTubeなどのコンテンツへの使用
134
+ - 商用のサービスとして直接提供すること
135
+ - 先生を困らせるようなこと
136
+ - その他、創作業界に悪影響を及ぼすこと
137
+
138
+ # 使用してはいけない用途や悪意のある用途
139
+ - デジタル贋作 ([Digital Forgery](https://arxiv.org/abs/2212.03860)) は公開しないでください(著作権法に違反するおそれ)
140
+ - 特に既存のキャラクターは公開しないでください(著作権法に違反するおそれ)
141
+ - なお、学習していない[キャラクターも生成できる](https://twitter.com/ThePioneerJPnew/status/1609074173892235264?s=20&t=-rY1ufzNeIDT3Fm5YdME6g)そうです。(このツイート自体は研究目的として許可しています。)
142
+ - 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
143
+ - わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
144
+ - いわゆる業界のマナーを守らないようなこと
145
+ - 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
146
+ - フェイクニュース
147
+
148
+ ## モデルの限界やバイアス
149
+
150
+ ### モデルの限界
151
+
152
+ - よくわかっていない
153
+
154
+ ### バイアス
155
+
156
+ Stable Diffusionと同じバイアスが掛かっています。
157
+ 気をつけてください。
158
+
159
+ ## 学習
160
+
161
+ **学習データ**
162
+
163
+ 次のデータやモデルを主に使ってStable Diffusionをファインチューニングしています。
164
+
165
+ - VAEについて
166
+ - DanbooruやDanbooru datasetを除いた日本の国内法を遵守したデータ: 65万種類 (データ拡張により無限枚作成)
167
+ - U-Netについて
168
+ - DanbooruやDanbooru datasetを除いた日本の国内法を遵守したデータ: 200万ペア
169
+ - マージしたモデル: 3つ
170
+
171
+ **学習プロセス**
172
+
173
+ Stable DiffusionのVAEとU-Netをファインチューニングしました。
174
+
175
+ - **ハードウェア:** A6000
176
+ - **オプティマイザー:** AdamW
177
+ - **Gradient Accumulations**: 1
178
+ - **バッチサイズ:** 1
179
+
180
+ ## 評価結果
181
+
182
+ ## 環境への影響
183
+
184
+ ほとんどありません。
185
+
186
+ - **ハードウェアタイプ:** A6000
187
+ - **使用時間(単位は時間):** 200
188
+ - **クラウド事業者:** なし
189
+ - **学習した場所:** 日本
190
+ - **カーボン排出量:** そんなにない
191
+
192
+ ## 参考文献
193
+ @InProceedings{Rombach_2022_CVPR,
194
+ author = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
195
+ title = {High-Resolution Image Synthesis With Latent Diffusion Models},
196
+ booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
197
+ month = {June},
198
+ year = {2022},
199
+ pages = {10684-10695}
200
+ }
201
+
202
+ *このモデルカードは [Stable Diffusion v2](https://huggingface.co/stabilityai/stable-diffusion-2/raw/main/README.md) に基づいて、Alfred Incrementがかきました。
v2-1-2.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:25d0b8d5947005252e2fabc0007e6806fe283c0bb5eeb9e56633b05a40f7c5af
3
+ size 4339300678