README.md · stabilityai/stable-diffusion-3.5-large at refs/pr/51

metadata

license: other
license_name: stabilityai-ai-community
license_link: LICENSE.md
tags:
  - text-to-image
  - stable-diffusion
  - diffusers
  - art
  - music
inference: true
extra_gated_prompt: >-
  By clicking "Agree", you agree to the [License
  Agreement](https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/LICENSE.md)
  and acknowledge Stability AI's [Privacy
  Policy](https://stability.ai/privacy-policy).
extra_gated_fields:
  Name: text
  Email: text
  Country: country
  Organization or Affiliation: text
  Receive email updates and promotions on Stability AI products, services, and research?:
    type: select
    options:
      - 'Yes'
      - 'No'
  What do you intend to use the model for?:
    type: select
    options:
      - Research
      - Personal use
      - Creative Professional
      - Startup
      - Enterprise
  I agree to the License Agreement and acknowledge Stability AI's Privacy Policy: checkbox
language:
  - en
  - aa
  - ae
pipeline_tag: image-to-image
datasets:
  - microsoft/orca-agentinstruct-1M-v1
new_version: genmo/mochi-1-preview
library_name: adapter-transformers

#稳定扩散3.5大

##模型

稳定扩散3.5大是一种多模式扩散转换器(MMDiT)文本到图像模型，其特点是在图像质量、排版、复杂的即时理解和资源效率方面提高了性能。

请注意：此型号发布于稳定性社区许可证.访问稳定性AI学习或联系我们有关商业许可的详细信息。

###型号说明

编制单位：稳定性AI
型号类型：MMDiT文本到图像生成模型
型号说明：此模型根据文本提示生成图像。多模扩散变压器使用三个固定的、预训练的文本编码器，并使用QK标准化来提高训练稳定性。

###许可证

社区许可证：每年总收入低于100万美元的组织或个人可免费用于研究、非商业和商业用途。更多详情请参阅社区许可协议。更多信息请访问https://stability.ai/license.
年收入超过100万美元的个人和组织：请联系我们获得企业许可证。

###模型源

对于本地或自托管使用，我们建议ComfyUI用于基于节点的UI推断，或扩散器或GitHub供编程使用。

ComfyUI： GitHub,工作流示例
拥抱面空间： 空间
扩散器:见下文.
GitHub:GitHub.
API端点：

###实施详细信息

QK归一化：实施QK归一化技术，提高训练稳定性。
文本编码器： -剪辑：OpenCLIP-ViT/G,夹子-ViT/L，上下文长度77个标记 -T5：T5-xxl，上下文长度77/256个在训练的不同阶段的标记
培训数据和策略：

这一模型是根据各种各样的数据训练的，包括合成数据和经过筛选的公开数据。

有关原始MMDiT架构的更多技术细节，请参阅研究论文.

###模型性能

看见博客为我们研究的比较表现在即时坚持和审美质量。

##文件结构

单击此处访问“文件和版本”选项卡

├--文本编码器/
│├--README.md
│├--clip_g.safetensors
│├--clip_l.safetensors
│├--t5xxxl_fp16.safetensors
│└--t5xxxl_fp8_e4m3fn.safetensors
│
├--README.md
├--许可证
├--sd3_large.safetensors
├--SD3.5L_example_workflow.json
└--sd3_large_demo.png

**下面的文件结构用于扩散器集成**
├--调度程序/
├--文本编码器/
├--text_encoder_2/
├--text_encoder_3/
├--标记器/
├--标记器_2/
├--标记器_3/
├--变压器/
├--vae/
└--model_index.json

##与散流器一起使用升级至最新版本的🧨 扩散器库

PIP安装-U扩散器

然后你就可以跑了

进口火炬
从扩散器导入StableDiffusion3Pipeline

管道=稳定扩散3管道。from_pretrained(“稳定/稳定扩散-3.5-大”)，torch_dtype=torch。bfloat16)
pipe=pipe.to(“cuda”)

image=管道(
“一只手持标语的水豚”，
NUM_interference_steps=28，
guidance_scale=3.5，
).图像[0]
image.save("capybara.png")

###使用扩散器对模型进行量化

减少您的VRAM使用量，使型号适合 🤏 VRAM GPU

PIP安装位和字节

从扩散器导入BitsAndBytesConfig，SD3Transformer2DModel
从扩散器导入StableDiffusion3Pipeline
进口火炬

model_id="稳定/稳定扩散-3.5-大"

NF4_config=BitsAndBytesConfig(
load_in_4bit=真，
BNB_4bit_quant_type="NF4"，
BNB_4bit_compute_dtype=torch.bfloat16
)
model_NF4=SD3Transformer2DModel.from_pretrained(
model_id，
子文件夹="transformer"，
quantization_config=NF4_config，
torch_dtype=torch.bfloat16
)

pipeline=StableDiffusion3Pipeline.from_pretrained(
model_id，
变压器=型号NF4，
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt="这是一幅异想天开、创意十足的画面，描绘了一种由华夫饼干和河马混合而成的混合生物，在早餐主题景观中，沐浴在融化的黄油河中。它以河马特有的庞大体型为特色。然而，这种生物的身体不像通常的灰色皮肤，而是像刚从烤盘上拿下来的金棕色酥脆华夫饼。表皮的纹理是熟悉的格子图案华夫饼，每个方块都充满了糖浆的光泽。这是河马的自然栖息地，有早餐餐桌的布置，一条温暖融化的黄油流淌的河流，背景是从葱郁的薄烤饼般的树叶中探出的超大餐具或盘子，还有一棵树旁边的高耸的胡椒磨。在这个奇幻的世界里，当太阳升起时，它投下了温暖的黄油般的光芒。这只满足于黄油河的生物打了个哈欠。附近，一群鸟飞走了。

image=管道(
prompt=提示，
NUM_interference_steps=28，
制导标度=4.5，
Max_sequence_length=512，
).图像[0]
image.save("whimsical.png")

###微调

请参阅微调指南在这里.

##uses

###预期用途

预期用途包括： *艺术作品的产生和在设计和其他艺术过程中的使用。 *在教育或创意工具中的应用。 *研究生成模型，包括理解生成模型的局限性。

该模型的所有用途必须符合我们的可接受的使用政策.

###超出范围的使用

该模型未被训练为真实或真实地表示人物或事件。因此，使用该模型生成这样的内容超出了该模型的能力范围。

##安全

作为我们设计安全和负责任的人工智能部署方法的一部分，我们采取了慎重的措施，以确保完整性在开发的早期阶段就开始。我们在整个模型开发过程中实施了安全措施。我们实施了旨在降低某些损害风险的安全缓解措施，但我们建议开发人员进行自己的测试，并根据其特定用例应用额外的缓解措施。
有关我们的安全方法的更多信息，请访问我们的安全页.

###完整性评估

我们的完整性评估方法包括针对某些损害的结构化评估和红队测试。测试主要以英语进行，可能不包括所有可能的损害。

###已识别的风险和缓解措施：

*有害内容：我们在训练模型时使用了经过筛选的数据集，并实施了保护措施，试图在有用性和防止伤害之间取得适当的平衡。但是，这并不能保证所有可能的有害内容都已被删除。高级开发人员和部署人员应谨慎行事，并根据其特定的产品策略和应用程序用例实施内容安全防护栏。 *误用：技术限制以及开发人员和最终用户培训有助于减少模型的恶意应用。所有用户都必须遵守我们的可接受的使用政策，包括应用微调和即时工程机制时。有关违规使用我们产品的信息，请参考稳定性AI可接受使用政策。 *隐私侵犯：鼓励开发人员和部署人员使用尊重数据隐私的技术遵守隐私法规。

###联系

请报告模型的任何问题或联系我们：

*安全问题：safety@stability.ai *安全问题：security@stability.ai *隐私问题：privacy@stability.ai *许可证和总则：https://stability.ai/license *企业许可证：https://stability.ai/enterprise