jjlak's picture
Update README.md
730ff77 verified
|
raw
history blame
9.64 kB
metadata
license: other
license_name: stabilityai-ai-community
license_link: LICENSE.md
tags:
  - text-to-image
  - stable-diffusion
  - diffusers
  - art
  - music
inference: true
extra_gated_prompt: >-
  By clicking "Agree", you agree to the [License
  Agreement](https://huggingface.co/stabilityai/stable-diffusion-3.5-large/blob/main/LICENSE.md)
  and acknowledge Stability AI's [Privacy
  Policy](https://stability.ai/privacy-policy).
extra_gated_fields:
  Name: text
  Email: text
  Country: country
  Organization or Affiliation: text
  Receive email updates and promotions on Stability AI products, services, and research?:
    type: select
    options:
      - 'Yes'
      - 'No'
  What do you intend to use the model for?:
    type: select
    options:
      - Research
      - Personal use
      - Creative Professional
      - Startup
      - Enterprise
  I agree to the License Agreement and acknowledge Stability AI's Privacy Policy: checkbox
language:
  - en
  - aa
  - ae
pipeline_tag: image-to-image
datasets:
  - microsoft/orca-agentinstruct-1M-v1
new_version: genmo/mochi-1-preview
library_name: adapter-transformers

#稳定扩散3.5大 3.5大演示图像

##模型

MMDiT

稳定扩散3.5大是一种多模式扩散转换器(MMDiT)文本到图像模型,其特点是在图像质量、排版、复杂的即时理解和资源效率方面提高了性能。

请注意:此型号发布于稳定性社区许可证.访问稳定性AI学习或联系我们有关商业许可的详细信息。

###型号说明

  • 编制单位:稳定性AI
  • 型号类型:MMDiT文本到图像生成模型
  • 型号说明:此模型根据文本提示生成图像。多模扩散变压器使用三个固定的、预训练的文本编码器,并使用QK标准化来提高训练稳定性。

###许可证

  • 社区许可证:每年总收入低于100万美元的组织或个人可免费用于研究、非商业和商业用途。更多详情请参阅社区许可协议。更多信息请访问https://stability.ai/license.
  • 年收入超过100万美元的个人和组织:请联系我们获得企业许可证。

###模型源

对于本地或自托管使用,我们建议ComfyUI用于基于节点的UI推断,或扩散器GitHub供编程使用。

###实施详细信息

  • QK归一化:实施QK归一化技术,提高训练稳定性。

  • 文本编码器: -剪辑:OpenCLIP-ViT/G,夹子-ViT/L,上下文长度77个标记 -T5:T5-xxl,上下文长度77/256个在训练的不同阶段的标记

  • 培训数据和策略:

这一模型是根据各种各样的数据训练的,包括合成数据和经过筛选的公开数据。

有关原始MMDiT架构的更多技术细节,请参阅研究论文.

###模型性能

看见博客为我们研究的比较表现在即时坚持和审美质量。

##文件结构

单击此处访问“文件和版本”选项卡

├--文本编码器/
│├--README.md
│├--clip_g.safetensors
│├--clip_l.safetensors
│├--t5xxxl_fp16.safetensors
│└--t5xxxl_fp8_e4m3fn.safetensors
│
├--README.md
├--许可证
├--sd3_large.safetensors
├--SD3.5L_example_workflow.json
└--sd3_large_demo.png

**下面的文件结构用于扩散器集成**
├--调度程序/
├--文本编码器/
├--text_encoder_2/
├--text_encoder_3/
├--标记器/
├--标记器_2/
├--标记器_3/
├--变压器/
├--vae/
└--model_index.json

##与散流器一起使用 升级至最新版本的🧨 扩散器库

PIP安装-U扩散器

然后你就可以跑了

进口火炬
从扩散器导入StableDiffusion3Pipeline

管道=稳定扩散3管道。from_pretrained(“稳定/稳定扩散-3.5-大”),torch_dtype=torch。bfloat16)
pipe=pipe.to(“cuda”)

image=管道(
“一只手持标语的水豚”,
NUM_interference_steps=28,
guidance_scale=3.5,
).图像[0]
image.save("capybara.png")

###使用扩散器对模型进行量化

减少您的VRAM使用量,使型号适合 🤏 VRAM GPU

PIP安装位和字节
从扩散器导入BitsAndBytesConfig,SD3Transformer2DModel
从扩散器导入StableDiffusion3Pipeline
进口火炬

model_id="稳定/稳定扩散-3.5-大"

NF4_config=BitsAndBytesConfig(
load_in_4bit=真,
BNB_4bit_quant_type="NF4",
BNB_4bit_compute_dtype=torch.bfloat16
)
model_NF4=SD3Transformer2DModel.from_pretrained(
model_id,
子文件夹="transformer",
quantization_config=NF4_config,
torch_dtype=torch.bfloat16
)

pipeline=StableDiffusion3Pipeline.from_pretrained(
model_id,
变压器=型号NF4,
torch_dtype=torch.bfloat16
)
pipeline.enable_model_cpu_offload()

prompt="这是一幅异想天开、创意十足的画面,描绘了一种由华夫饼干和河马混合而成的混合生物,在早餐主题景观中,沐浴在融化的黄油河中。它以河马特有的庞大体型为特色。然而,这种生物的身体不像通常的灰色皮肤,而是像刚从烤盘上拿下来的金棕色酥脆华夫饼。表皮的纹理是熟悉的格子图案华夫饼,每个方块都充满了糖浆的光泽。这是河马的自然栖息地,有早餐餐桌的布置,一条温暖融化的黄油流淌的河流,背景是从葱郁的薄烤饼般的树叶中探出的超大餐具或盘子,还有一棵树旁边的高耸的胡椒磨。在这个奇幻的世界里,当太阳升起时,它投下了温暖的黄油般的光芒。这只满足于黄油河的生物打了个哈欠。附近,一群鸟飞走了。

image=管道(
prompt=提示,
NUM_interference_steps=28,
制导标度=4.5,
Max_sequence_length=512,
).图像[0]
image.save("whimsical.png")

###微调

请参阅微调指南在这里.

##uses

###预期用途

预期用途包括: *艺术作品的产生和在设计和其他艺术过程中的使用。 *在教育或创意工具中的应用。 *研究生成模型,包括理解生成模型的局限性。

该模型的所有用途必须符合我们的可接受的使用政策.

###超出范围的使用

该模型未被训练为真实或真实地表示人物或事件。因此,使用该模型生成这样的内容超出了该模型的能力范围。

##安全

作为我们设计安全和负责任的人工智能部署方法的一部分,我们采取了慎重的措施,以确保完整性在开发的早期阶段就开始。我们在整个模型开发过程中实施了安全措施。我们实施了旨在降低某些损害风险的安全缓解措施,但我们建议开发人员进行自己的测试,并根据其特定用例应用额外的缓解措施。
有关我们的安全方法的更多信息,请访问我们的安全页.

###完整性评估

我们的完整性评估方法包括针对某些损害的结构化评估和红队测试。测试主要以英语进行,可能不包括所有可能的损害。

###已识别的风险和缓解措施:

*有害内容:我们在训练模型时使用了经过筛选的数据集,并实施了保护措施,试图在有用性和防止伤害之间取得适当的平衡。但是,这并不能保证所有可能的有害内容都已被删除。高级开发人员和部署人员应谨慎行事,并根据其特定的产品策略和应用程序用例实施内容安全防护栏。 *误用:技术限制以及开发人员和最终用户培训有助于减少模型的恶意应用。所有用户都必须遵守我们的可接受的使用政策,包括应用微调和即时工程机制时。有关违规使用我们产品的信息,请参考稳定性AI可接受使用政策。 *隐私侵犯:鼓励开发人员和部署人员使用尊重数据隐私的技术遵守隐私法规。

###联系

请报告模型的任何问题或联系我们:

*安全问题:safety@stability.ai *安全问题:security@stability.ai *隐私问题:privacy@stability.ai *许可证和总则:https://stability.ai/license *企业许可证:https://stability.ai/enterprise