extra_gated_prompt: >-
このモデルをこのページからダウンロードするためにはHugging
Faceに登録された情報を提供する必要があります。この提供された情報は画像生成AIを活用する情報を案内するために使われます。 To download
this model from this page, you need to provide information registered with
Hugging Face. The information provided will be used to guide you on how to
utilize the image-generation AI.
license: openrail++
tags:
- stable-diffusion
- text-to-image
inference: false
library_name: diffusers
Emi Model Card
English: Click Here
はじめに
Emi 2 (Ethereal master of illustration 2) は、 最先端の開発機材H100、RTX 4090と画像生成Stable Diffusion XL 1.0を用いて AI Picasso社が開発したAIアートに特化した画像生成AIです。 このモデルの特徴として、Danbooruなどにある無断転載画像を学習していないことがあげられます。
使い方
ここからデモを利用することができます。 本格的に利用する人はここからモデルをダウンロードできます。
シンプルな作品例
positive prompt: anime artwork, anime style, (1girl), (black bob hair:1.5), brown eyes, red maples, sky, ((transparent))
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand
positive prompt: monochrome, black and white, (japanese manga), mount fuji
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand
positive prompt: (1man), focus, white wavy short hair, blue eyes, black shirt, white background, simple background
negative prompt: (embedding:unaestheticXLv31:0.5), photo, deformed, realism, disfigured, low contrast, bad hand
モデルの出力向上について
- 使えるプロンプトはWaifu Diffusionと同じです。また、Stable Diffusionのように使うこともできます。
- ネガティブプロンプトにTextual Inversionを使用することをおすすめします。
- 手が不安定なため、DreamShaper XL1.0などの実写系モデルとのマージをおすすめします。
- ChatGPTを用いてプロンプトを洗練すると、自分の枠を超えた作品に出会えます。
- 最新のComfyUIにあるFreeUノード、またはWeb UIの拡張機能を次のパラメータで使うとさらに出力が上がる可能性があります。次の画像はFreeUを使った例です。
- s1=1.2, s2=0.7, b1=1.1, b2=1.3
法律について
本モデルは日本にて作成されました。したがって、日本の法律が適用されます。 本モデルの学習は、著作権法第30条の4に基づき、合法であると主張します。 また、本モデルの配布については、著作権法や刑法175条に照らしてみても、 正犯や幇助犯にも該当しないと主張します。詳しくは柿沼弁護士の見解を御覧ください。 ただし、ライセンスにもある通り、本モデルの生成物は各種法令に従って取り扱って下さい。
連絡先
以下、一般的なモデルカードの日本語訳です。
モデル詳細
- モデルタイプ: 拡散モデルベースの text-to-image 生成モデル
- 言語: 日本語
- ライセンス: CreativeML Open RAIL++-M License
- モデルの説明: このモデルはプロンプトに応じて適切な画像を生成することができます。アルゴリズムは Latent Diffusion Model と OpenCLIP-ViT/G、CLIP-L です。
- 補足:
- 参考文献:
@misc{podell2023sdxl,
title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
year={2023},
eprint={2307.01952},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
モデルの使用例
Stable Diffusion XL 1.0と同じ使い方です。 たくさんの方法がありますが、3つのパターンを提供します。
- ComfyUI
- Fooocus
- Diffusers
ComfyUIやFooocusの場合
Stable Diffusion XL 1.0 の使い方と同じく、safetensor形式のモデルファイルを使ってください。 詳しいインストール方法は、こちらの記事を参照してください。
Diffusersの場合
🤗's Diffusers library を使ってください。
まずは、以下のスクリプトを実行し、ライブラリをいれてください。
pip install invisible_watermark transformers accelerate safetensors diffusers
次のスクリプトを実行し、画像を生成してください。
from diffusers import StableDiffusionXLPipeline, EulerAncestralDiscreteScheduler
import torch
model_id = "aipicasso/emi-2"
scheduler = EulerAncestralDiscreteScheduler.from_pretrained(model_id,subfolder="scheduler")
pipe = StableDiffusionXLPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
prompt = "1girl, upper body, brown bob short hair, brown eyes, looking at viewer, cherry blossom"
images = pipe(prompt, num_inference_steps=20).images
images[0].save("girl.png")
複雑な操作はデモのソースコードを参考にしてください。
想定される用途
- イラストや漫画、アニメの作画補助
- 商用・非商用は問わない
- 依頼の際のクリエイターとのコミュニケーション
- 画像生成サービスの商用提供
- 生成物の取り扱いには注意して使ってください。
- 自己表現
- このAIを使い、「あなた」らしさを発信すること
- 研究開発
- Discord上でのモデルの利用
- プロンプトエンジニアリング
- ファインチューニング(追加学習とも)
- DreamBooth など
- 他のモデルとのマージ
- 本モデルの性能をFIDなどで調べること
- 本モデルがStable Diffusion以外のモデルとは独立であることをチェックサムやハッシュ関数などで調べること
- Discord上でのモデルの利用
- 教育
- 美大生や専門学校生の卒業制作
- 大学生の卒業論文や課題制作
- 先生が画像生成AIの現状を伝えること
- Hugging Face の Community にかいてある用途
- 日本語か英語で質問してください
想定されない用途
- 物事を事実として表現するようなこと
- 先生を困らせるようなこと
- その他、創作業界に悪影響を及ぼすこと
使用してはいけない用途や悪意のある用途
- マネー・ロンダリングに用いないでください
- デジタル贋作 (Digital Forgery) は公開しないでください(著作権法に違反するおそれ)
- 他人の作品を無断でImage-to-Imageしないでください(著作権法に違反するおそれ)
- わいせつ物を頒布しないでください (刑法175条に違反するおそれ)
- いわゆる業界のマナーを守らないようなこと
- 事実に基づかないことを事実のように語らないようにしてください(威力業務妨害罪が適用されるおそれ)
- フェイクニュース
モデルの限界やバイアス
モデルの限界
- 拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、その限界は判明していない。
バイアス
- 拡散モデルや大規模言語モデルは、いまだに未知の部分が多く、バイアスは判明していない。
学習
学習データ
- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて手動で集めた約3000枚の画像
- Stable Diffusionと同様のデータセットからDanbooruの無断転載画像を取り除いて自動で集めた約50万枚の画像
学習プロセス
- ハードウェア: H100, RTX 4090
評価結果
第三者による評価を求めています。
環境への影響
- ハードウェアタイプ: H100, RTX 4090
- 使用時間(単位は時間): 1000
- 学習した場所: 日本
参考文献
@misc{podell2023sdxl,
title={SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis},
author={Dustin Podell and Zion English and Kyle Lacey and Andreas Blattmann and Tim Dockhorn and Jonas Müller and Joe Penna and Robin Rombach},
year={2023},
eprint={2307.01952},
archivePrefix={arXiv},
primaryClass={cs.CV}
}