稳定扩散是一种潜在的文本到图像扩散模型，能够根据任何文本输入生成逼真的照片。

Stable-Diffusion-v-1-4 检查点是使用Stable-Diffusion-v-1-2 检查点的权重进行初始化的，并在“laion-aesthetics v2 5+”上以 512x512 的分辨率进行了 225k 步的微调，并且丢弃了10%的文本条件，以改进无分类器引导采样。

下载权重

这些权重旨在与原始的CompVis 稳定扩散代码库一起使用。如果您正在寻找与 Diffusers 库一起使用的模型，请点击这里。

模型详情

开发者：Robin Rombach, Patrick Esser
模型类型：基于扩散的文本到图像生成模型
语言：英语
许可证：创意 ml OpenRAIL M 许可证是一种开放 RAIL M 许可证，改编自BigScience和RAIL 倡议在负责任的人工智能许可领域共同开展的工作。另见关于我们许可证所基于的BLOOM 开放 RAIL 许可证的文章。
模型描述：这是一个可以根据文本提示生成和修改图像的模型。它是一种潜在扩散模型，使用固定的、预训练的文本编码器(CLIP ViT-L/14)，如Imagen 论文中所建议的。
更多信息资源：GitHub 存储库，论文。

引用方式：

@InProceedings{Rombach_2022_CVPR,
    author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
    title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {10684-10695}
}

用途

直接使用

该模型仅用于研究目的。可能的研究领域和任务包括

安全部署有可能产生有害内容的模型。
探究和理解生成式模型的局限性和偏差。
生成艺术品并用于设计和其他艺术过程。
在教育或创意工具中的应用。
生成式模型的研究。

以下是不允许的使用方式。

滥用、恶意使用和超出范围的使用

_注意：本节内容取自 DALLE-MINI 模型卡，但对 Stable Diffusion v1 同样适用。

模型不应被用于故意创建或传播给人们造成敌对或疏远环境的图像。这包括生成人们可预见会感到不安、痛苦或冒犯的图像；或传播历史或当前的刻板印象内容。

超出范围的使用

该模型并没有被训练成对人或事件的真实或事实性的表示，因此使用该模型生成此类内容超出了该模型的能力范围。

滥用和恶意使用

使用该模型生成对个人残忍的内容是对该模型的滥用。这包括但不限于：

生成对人、他们的环境、文化、宗教等的贬低、非人化或其他有害的表现。
故意推广或传播歧视性内容或有害的刻板印象。
在未经他人同意的情况下冒充个人。
未经可能看到的人同意的性内容。
错误和虚假信息
极端暴力和血腥的表现
分享违反使用条款的受版权或许可保护的材料。
分享违反其使用条款的受版权或许可保护材料的更改内容。

限制和偏差

限制

模型无法达到完美的照片写实主义
模型不能渲染清晰可读的文本
模型在涉及组合性的更困难的任务上表现不佳，例如渲染与“A 红色立方体在蓝色球体之上”相对应的图像
面部和一般人可能无法正确生成
该模型主要使用英语标题进行训练，在其他语言中效果不佳
模型的自动编码部分是有损的
该模型是在大规模数据集LAION-5B上进行训练的，该数据集包含成人材料，在没有额外安全机制和考虑的情况下，不适合产品使用
没有使用额外的措施来消除数据集的重复。因此，我们观察到在训练数据中重复的图像有一定程度的记忆。可以在https://rom1504.github.io/clip-retrieval/上搜索训练数据，可能有助于检测记忆中的图像。

偏差

虽然图像生成模型的能力令人印象深刻，但它们也可能强化或加剧社会偏差。 Stable Diffusion v1 在LAION-2B(en)的子集上进行了训练，该子集主要由仅限英语描述的图像组成。使用其他语言的社区和文化的文本和图像可能没有得到充分考虑。这影响了模型的整体输出，因为白色和西方文化往往被设置为默认值。此外，模型生成非英语提示内容的能力明显不如英语提示。

训练

训练数据 模型开发者使用以下数据集来训练模型：

LAION-2B（en）及其子集（见下一节）

训练过程 Stable Diffusion v1 是一种潜在扩散模型，它将自动编码器与在自动编码器的潜在空间中训练的扩散模型相结合。在训练期间，

通过编码器对图像进行编码，将图像转换为潜在表示。自动编码器使用相对下采样因子 8，将形状为 H x W x 3 的图像映射到形状为 H/f x W/f x 4 的潜在
通过 ViT-L/14 文本编码器对文本提示进行编码
文本编码器的非池化输出通过交叉注意馈送到潜在扩散模型的 UNet 主干
损失是添加到潜在的噪声和由 UNet 做出的预测之间的重建目标

我们目前提供三个检查点，sd-v1-1.ckpt、sd-v1-2.ckpt和sd-v1-3.ckpt，它们的训练方式如下，

sd-v1-1.ckpt：在laion2B-en上以256x256的分辨率进行 237k 步。在laion-high-resolution上以512x512的分辨率进行 194k 步（来自 LAION-5B 的 1.7 亿个示例，分辨率>= 1024x1024）。
sd-v1-2.ckpt：从sd-v1-1.ckpt恢复。在“laion-improved-aesthetics”上以512x512的分辨率进行 515k 步（laion2B-en 的一个子集，过滤为原始尺寸>= 512x512的图像，估计的美学评分>5.0，估计的水印概率<0.5。水印估计来自 LAION-5B 元数据，美学评分使用改进的美学估计器进行估计）。
sd-v1-3.ckpt：从sd-v1-2.ckpt恢复。在“laion-improved-aesthetics”上以512x512的分辨率进行 195k 步，并将文本条件的下降率降低 10%，以改进无分类器引导采样。
硬件：32 x 8 x A100 GPU
优化器：AdamW
梯度积累：2
批次：32 x 8 x 2 x 4 = 2048
学习率：预热至 0.0001 10000 步，然后保持不变

评估结果

使用不同的无分类器引导尺度（1.5、2.0、3.0、4.0、5.0、6.0、7.0、8.0）和 50 个 PLMS 采样步骤进行的评估显示了检查点的相对改进：

使用 50 个 PLMS 步骤和来自 COCO2017 验证集的 10000 个随机提示进行评估，在 512x512 分辨率下进行评估。未针对 FID 分数进行优化。

环境影响

Stable Diffusion v1 估计排放量 根据这些信息，我们使用Lacoste 等人（2019）中提出的机器学习影响计算器估计以下 CO2 排放量。硬件、运行时间、云提供商和计算区域用于估计碳影响。

硬件类型：A100 PCIe 40GB
使用小时数：150000
云提供商：AWS
计算区域：美国东部
碳排放（电力消耗 x 时间 x 基于电网位置产生的碳）：11250 千克 CO2 当量。

引用

    @InProceedings{Rombach_2022_CVPR,
        author    = {Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Bj\"orn},
        title     = {High-Resolution Image Synthesis With Latent Diffusion Models},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2022},
        pages     = {10684-10695}
    }

本模型卡由罗宾·罗巴赫和帕特里克·埃塞尔撰写，并基于DALL-E Mini 模型卡。