File size: 10,639 Bytes
0f7de68
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5afb266
0f7de68
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
---
license: creativeml-openrail-m
tags:
- stable-diffusion
- text-to-image
library_name: "stable-diffusion"
inference: false
extra_gated_prompt: |
 获取此模型之前,请再确认一下。

 此模型开放获取,适用所有人,并通过 CreativeML OpenRAIL-M 许可进一步限定权利和使用方式。

 CreativeML OpenRAIL 许可规定:

 1. 您不得使用该模型故意生成或共享非法或有害的输出或内容
 2. CompVis 对您生成的输出不主张任何权利,您可以自由使用它们,并对的使用负责,使用必须不违反许可证中的规定
 3. 您可以重新分发权重并商用该模型或将其作为服务使用。如果您这样做,请注意您必须包含与许可证中相同的使用限制,并向所有用户共享 CreativeML OpenRAIL-M 副本(请仔细阅读完整许可证)
 请在此处阅读完整许可证: [https://huggingface.co/spaces/CompVis/stable-diffusion-license](https://huggingface.co/spaces/CompVis/stable-diffusion-license)

 点击下方的“访问存储库”即表示您同意可以将您的*联系信息*(电子邮件地址和用户名)与模型作者共享。

 extra_gated_fields:
  我已阅读许可证并同意其条款: 复选框
---

稳定扩散是一种潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的照片。

**Stable-Diffusion-v-1-4** 检查点是使用[Stable-Diffusion-v-1-2](https://steps/huggingface.co/CompVis/stable-diffusion-v-1-2-original) 
检查点的权重进行初始化的,并在“laion-aesthetics v2 5+”上以 512x512 的分辨率进行了 225k 步的微调,并且丢弃了10%的文本条件,以改进[无分类器引导采样](https://arxiv.org/abs/2207.12598)。

#### 下载权重
- [sd-v1-4.ckpt](https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4.ckpt)
- [sd-v1-4-full-ema.ckpt](https://huggingface.co/CompVis/stable-diffusion-v-1-4-original/resolve/main/sd-v1-4-full-ema.ckpt)

这些权重旨在与原始的[CompVis 稳定扩散代码库](https://github.com/CompVis/stable-diffusion)一起使用。如果您正在寻找与 Diffusers 库一起使用的模型,请[点击这里](https://huggingface.co/CompVis/stable-diffusion-v1-4)。

## 模型详情
- **开发者**:Robin Rombach, Patrick Esser
- **模型类型**:基于扩散的文本到图像生成模型
- **语言**:英语
- **许可证**:[创意 ml OpenRAIL M 许可证](https://huggingface.co/spaces/CompVis/stable-diffusion-license)是一种[开放 RAIL M 许可证](https://www.licenses.ai/blog/2022/8/18/naming-convention-of-responsible-ai-licenses),改编自[BigScience](https://bigscience.huggingface.co/)和[RAIL 倡议](https://www.licenses.ai/)在负责任的人工智能许可领域共同开展的工作。另见关于我们许可证所基于的[BLOOM 开放 RAIL 许可证的文章](https://bigscience.huggingface.co/blog/the-bigscience-rail-license)。
- **模型描述**:这是一个可以根据文本提示生成和修改图像的模型。它是一种[潜在扩散模型](https://arxiv.org/abs/2112.10752),使用固定的、预训练的文本编码器([CLIP ViT-L/14](https://arxiv.org/abs/2103.00020)),如[Imagen 论文](https://arxiv.org/abs/2205.11487)中所建议的。
- **更多信息资源**:[GitHub 存储库](https://github.com/CompVis/stable-diffusion),[论文](https://arxiv.org/abs/2112.10752)。
- **引用方式**      @InProceedings{Rombach_2022_CVPR,
          author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
          title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
          booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
          month     = {June},
          year      = {2022},
          pages     = {10684-10695}
      }

# 用途

## 直接使用
该模型仅用于研究目的。可能的研究领域和任务包括

- 安全部署有可能产生有害内容的模型。
- 探究和理解生成式模型的局限性和偏差。
- 生成艺术品并用于设计和其他艺术过程。
- 在教育或创意工具中的应用。
- 生成式模型的研究。

以下是不允许的使用方式。

### 滥用、恶意使用和超出范围的使用
_注意:本节内容取自 [DALLE-MINI 模型卡](https://huggingface.co/dalle-mini/dalle-mini),但对 Stable Diffusion v1 同样适用。


模型不应被用于故意创建或传播给人们造成敌对或疏远环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像;或传播历史或当前的刻板印象内容。
#### 超出范围的使用
该模型并没有被训练成对人或事件的真实或事实性的表示,因此使用该模型生成此类内容超出了该模型的能力范围。
#### 滥用和恶意使用
使用该模型生成对个人残忍的内容是对该模型的滥用。这包括但不限于:

- 生成对人、他们的环境、文化、宗教等的贬低、非人化或其他有害的表现。
- 故意推广或传播歧视性内容或有害的刻板印象。
- 在未经他人同意的情况下冒充个人。
- 未经可能看到的人同意的性内容。
- 错误和虚假信息
- 极端暴力和血腥的表现
- 分享违反使用条款的受版权或许可保护的材料。
- 分享违反其使用条款的受版权或许可保护材料的更改内容。

## 限制和偏差

### 限制
- 模型无法达到完美的照片写实主义
- 模型不能渲染清晰可读的文本
- 模型在涉及组合性的更困难的任务上表现不佳,例如渲染与“A 红色立方体在蓝色球体之上”相对应的图像
- 面部和一般人可能无法正确生成
- 该模型主要使用英语标题进行训练,在其他语言中效果不佳
- 模型的自动编码部分是有损的
- 该模型是在大规模数据集[LAION-5B](https://laion.ai/blog/laion-5b/)上进行训练的,该数据集包含成人材料,在没有额外安全机制和考虑的情况下,不适合产品使用
- 没有使用额外的措施来消除数据集的重复。因此,我们观察到在训练数据中重复的图像有一定程度的记忆。可以在[https://rom1504.github.io/clip-retrieval/](https://rom1504.github.io/clip-retrieval/)上搜索训练数据,可能有助于检测记忆中的图像。

### 偏差
虽然图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏差。
Stable Diffusion v1 在[LAION-2B(en)](https://laion.ai/blog/laion-5b/)的子集上进行了训练,
该子集主要由仅限英语描述的图像组成。
使用其他语言的社区和文化的文本和图像可能没有得到充分考虑。
这影响了模型的整体输出,因为白色和西方文化往往被设置为默认值。此外,
模型生成非英语提示内容的能力明显不如英语提示。


## 训练

**训练数据**
模型开发者使用以下数据集来训练模型:

- LAION-2B(en)及其子集(见下一节)

**训练过程**
Stable Diffusion v1 是一种潜在扩散模型,它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练期间,

- 通过编码器对图像进行编码,将图像转换为潜在表示。自动编码器使用相对下采样因子 8,将形状为 H x W x 3 的图像映射到形状为 H/f x W/f x 4 的潜在
- 通过 ViT-L/14 文本编码器对文本提示进行编码
- 文本编码器的非池化输出通过交叉注意馈送到潜在扩散模型的 UNet 主干
- 损失是添加到潜在的噪声和由 UNet 做出的预测之间的重建目标

我们目前提供三个检查点,`sd-v1-1.ckpt`、`sd-v1-2.ckpt`和`sd-v1-3.ckpt`,
它们的训练方式如下,

- `sd-v1-1.ckpt`:在[laion2B-en](https://huggingface.co/datasets/laion/laion2B-en)上以`256x256`的分辨率进行 237k 步。
在[laion-high-resolution](https://huggingface.co/datasets/laion/laion-high-resolution)上以`512x512`的分辨率进行 194k 步(来自 LAION-5B 的 1.7 亿个示例,分辨率`>= 1024x1024`)。
- `sd-v1-2.ckpt`:从`sd-v1-1.ckpt`恢复。
在“laion-improved-aesthetics”上以`512x512`的分辨率进行 515k 步(laion2B-en 的一个子集,过滤为原始尺寸`>= 512x512`的图像,估计的美学评分`>5.0`,估计的水印概率`<0.5`。水印估计来自 LAION-5B 元数据,美学评分使用[改进的美学估计器](https://github.com/christophschuhmann/improved-aesthetic-predictor)进行估计)。
- `sd-v1-3.ckpt`:从`sd-v1-2.ckpt`恢复。在“laion-improved-aesthetics”上以`512x512`的分辨率进行 195k 步,并将文本条件的下降率降低 10%,以改进[无分类器引导采样](https://arxiv.org/abs/2207.12598)。

- **硬件**:32 x 8 x A100 GPU
- **优化器**:AdamW
- **梯度积累**:2
- **批次**:32 x 8 x 2 x 4 = 2048
- **学习率**:预热至 0.0001 10000 步,然后保持不变

## 评估结果
使用不同的无分类器引导尺度(1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0)和 50 个 PLMS 采样步骤进行的评估显示了检查点的相对改进:

![pareto](https://huggingface.co/CompVis/stable-diffusion/resolve/main/v1-variants-scores.jpg) 

使用 50 个 PLMS 步骤和来自 COCO2017 验证集的 10000 个随机提示进行评估,在 512x512 分辨率下进行评估。未针对 FID 分数进行优化。

## 环境影响

**Stable Diffusion v1 估计排放量**
根据这些信息,我们使用[Lacoste 等人(2019)](https://arxiv.org/abs/1910.09700)中提出的[机器学习影响计算器](https://mlco2.github.io/impact#compute)估计以下 CO2 排放量。硬件、运行时间、云提供商和计算区域用于估计碳影响。

- **硬件类型**:A100 PCIe 40GB
- **使用小时数**:150000
- **云提供商**:AWS
- **计算区域**:美国东部
- **碳排放(电力消耗 x 时间 x 基于电网位置产生的碳)**:11250 千克 CO2 当量。

## 引用

```bibtex
    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }
```

*本模型卡由罗宾·罗巴赫和帕特里克·埃塞尔撰写,并基于[DALL-E Mini 模型卡](https://huggingface.co/dalle-mini/dalle-mini)。*