chfm

SeeSee21 commited on 3 days ago

Commit

1536e1d

0 Parent(s):

Duplicate from SeeSee21/Z-Anime

Browse files

Co-authored-by: Sebastian Böhnke <SeeSee21@users.noreply.huggingface.co>

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +48 -0
README.md +520 -0
aio/z-anime-base-aio-bf16.safetensors +3 -0
aio/z-anime-base-aio-fp8.safetensors +3 -0
aio/z-anime-distill-4step-aio-bf16.safetensors +3 -0
aio/z-anime-distill-4step-aio-fp8.safetensors +3 -0
aio/z-anime-distill-8step-aio-bf16.safetensors +3 -0
aio/z-anime-distill-8step-aio-fp8.safetensors +3 -0
config.json +131 -0
diffusers/model_index.json +24 -0
diffusers/scheduler/scheduler_config.json +18 -0
diffusers/text_encoder/config.json +68 -0
diffusers/text_encoder/generation_config.json +6 -0
diffusers/text_encoder/model.safetensors +3 -0
diffusers/tokenizer/added_tokens.json +28 -0
diffusers/tokenizer/chat_template.jinja +89 -0
diffusers/tokenizer/merges.txt +0 -0
diffusers/tokenizer/special_tokens_map.json +31 -0
diffusers/tokenizer/tokenizer_config.json +239 -0
diffusers/tokenizer/vocab.json +0 -0
diffusers/transformer/config.json +32 -0
diffusers/transformer/diffusion_pytorch_model-00001-of-00002.safetensors +3 -0
diffusers/transformer/diffusion_pytorch_model-00002-of-00002.safetensors +3 -0
diffusers/transformer/diffusion_pytorch_model.safetensors.index.json +528 -0
diffusers/vae/config.json +38 -0
diffusers/vae/diffusion_pytorch_model.safetensors +3 -0
diffusion_models/z-anime-base-bf16.safetensors +3 -0
diffusion_models/z-anime-base-fp8.safetensors +3 -0
diffusion_models/z-anime-distill-4step-bf16.safetensors +3 -0
diffusion_models/z-anime-distill-4step-fp8.safetensors +3 -0
diffusion_models/z-anime-distill-8step-bf16.safetensors +3 -0
diffusion_models/z-anime-distill-8step-fp8.safetensors +3 -0
gguf/z-anime-base-q4_k_s.gguf +3 -0
gguf/z-anime-base-q8_0.gguf +3 -0
images/1.png +3 -0
images/2.png +3 -0
images/3.png +3 -0
images/4.png +3 -0
images/5.png +3 -0
images/6.png +3 -0
images/7.png +3 -0
images/8.png +3 -0
images/9.png +3 -0
images/cover.png +3 -0
images/workflow-cover.png +3 -0
images/workflow-overview.png +0 -0
text_encoder/qwen_3_4b-bf16.safetensors +3 -0
text_encoder/qwen_3_4b-engineer-v4-bf16.safetensors +3 -0
text_encoder/qwen_3_4b-engineer-v4-fp8.safetensors +3 -0
text_encoder/qwen_3_4b-fp8.safetensors +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,48 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+images/1.png filter=lfs diff=lfs merge=lfs -text
+images/2.png filter=lfs diff=lfs merge=lfs -text
+images/3.png filter=lfs diff=lfs merge=lfs -text
+images/4.png filter=lfs diff=lfs merge=lfs -text
+images/5.png filter=lfs diff=lfs merge=lfs -text
+images/6.png filter=lfs diff=lfs merge=lfs -text
+images/7.png filter=lfs diff=lfs merge=lfs -text
+images/8.png filter=lfs diff=lfs merge=lfs -text
+images/9.png filter=lfs diff=lfs merge=lfs -text
+images/cover.png filter=lfs diff=lfs merge=lfs -text
+images/workflow-cover.png filter=lfs diff=lfs merge=lfs -text
+gguf/z-anime-base-q4_k_s.gguf filter=lfs diff=lfs merge=lfs -text
+gguf/z-anime-base-q8_0.gguf filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,520 @@

+---
+license: apache-2.0
+language:
+  - en
+tags:
+  - text-to-image
+  - image-generation
+  - diffusion
+  - anime
+  - z-image
+  - z-anime
+  - comfyui
+  - gguf
+  - fp8
+  - bf16
+  - aio
+pipeline_tag: text-to-image
+library_name: diffusers
+base_model:
+  - Tongyi-MAI/Z-Image
+base_model_relation: finetune
+---
+# 🎌 Z-Anime | Full Anime Fine-Tune on Z-Image Base
+<div align="center">
+  <img src="images/cover.png" width="380" alt="Z-Anime" />
+</div>
+<div align="center">
+**Full Fine-Tune • Rich Aesthetics • Strong Diversity • Full Negative Prompt Support**
+**BF16 & FP8 & GGUF & AIO • Natural Language Prompts • 8GB VRAM**
+</div>
+---
+## 🖼️ Preview Gallery
+<table>
+  <tr>
+    <td><img src="images/1.png" alt="Z-Anime preview 1" /></td>
+    <td><img src="images/2.png" alt="Z-Anime preview 2" /></td>
+    <td><img src="images/3.png" alt="Z-Anime preview 3" /></td>
+  </tr>
+  <tr>
+    <td><img src="images/4.png" alt="Z-Anime preview 4" /></td>
+    <td><img src="images/5.png" alt="Z-Anime preview 5" /></td>
+    <td><img src="images/6.png" alt="Z-Anime preview 6" /></td>
+  </tr>
+  <tr>
+    <td><img src="images/7.png" alt="Z-Anime preview 7" /></td>
+    <td><img src="images/8.png" alt="Z-Anime preview 8" /></td>
+    <td><img src="images/9.png" alt="Z-Anime preview 9" /></td>
+  </tr>
+</table>
+---
+## ✨ What is Z-Anime?
+**Z-Anime** is a full fine-tune of Alibaba's **Z-Image Base** architecture — **not a LoRA merge**, but a fully trained anime-focused model family built from the ground up.
+Built on the **S3-DiT (Single-Stream Diffusion Transformer, 6B parameters)**, Z-Anime inherits the strong foundation of Z-Image Base: rich diversity, strong controllability, full negative prompt support, and a high ceiling for fine-tuning — now adapted for anime-style generation.
+This repository contains the full **Z-Anime family**:
+| Variant | Focus | Best For |
+|---|---|---|
+| 🎌 **Z-Anime Base** | Highest quality | Final renders, full control |
+| ⚡ **Z-Anime Distill-8-Step** | Speed + quality balance | Everyday generation |
+| 🚀 **Z-Anime Distill-4-Step** | Maximum speed | Fast iteration, batches |
+| 📦 **GGUF Variants** | Lower memory usage | Low VRAM / CPU / AMD-friendly workflows |
+| 📦 **AIO Variants** | Single-file convenience | Easy ComfyUI setup |
+| 🐍 **Diffusers Folder** | `from_pretrained()` ready | Python pipelines, further fine-tuning |
+---
+## 🎯 Key Features
+- ✅ Full fine-tune on Z-Image Base — **not** a LoRA merge
+- ✅ Rich anime aesthetics with strong style diversity
+- ✅ Natural language prompting — works best with descriptive prompts, not tag lists
+- ✅ High diversity across characters, poses, compositions, and layouts
+- ✅ LoRA training ready — strong base for further fine-tuning
+- ✅ Partially NSFW capable
+- ✅ 8GB VRAM compatible
+- ✅ GGUF variants available
+- ✅ AIO variants available (Base, 4-Step, 8-Step)
+---
+## 🗺️ Z-Anime Roadmap
+### ✅ Released
+#### 🎌 Z-Anime Base
+Full fine-tune on Z-Image Base — **BF16 & FP8**
+#### ⚡ Z-Anime Distill-8-Step
+**BF16 & FP8** — fast anime generation in **8 steps**, **CFG 1.0**
+#### 🚀 Z-Anime Distill-4-Step
+**BF16 & FP8** — ultra-fast anime generation in **4 steps**, **CFG 1.0**
+#### 📦 GGUF Variants
+Available for **low VRAM**, **CPU inference**, and **AMD-friendly** workflows.
+- **Z-Anime-Base-Q8_0** — Q8_0 quantization (**~6.73 GB**)
+- **Z-Anime-Base-Q4_K_S** — Q4_K_S quantization (**~4.2 GB**)
+#### 📦 AIO Variants
+All-in-one checkpoints with **image model + VAE + Text Encoder integrated** in a single file.
+Available for **Base**, **Distill-4-Step** and **Distill-8-Step** — each in **BF16 & FP8**.
+#### 🧩 VAE & Text Encoder
+The required **VAE** (`ae.safetensors`) and **Text Encoder** (`qwen_3_4b.safetensors`) are also included in this repository for users running the standard (non-AIO) variants.
+#### 🐍 Diffusers Folder
+The full **Diffusers-format folder** (`diffusers/`) is included — drop-in compatible with `ZImagePipeline.from_pretrained()` for Python users who want to run inference outside ComfyUI or use Z-Anime as a starting point for further fine-tuning.
+More updates coming — follow to stay notified! 🎌
+---
+## 📦 Versions Overview
+### 🟢 BF16 (~12GB)
+Maximum precision. **BFloat16** format with minimal quality compromise. Best for final renders, careful work, and LoRA training.
+### 🟡 FP8 (~6GB)
+Recommended for most users. Smaller files, faster downloads, and excellent quality with only minor tradeoffs compared to BF16.
+### 🔵 GGUF
+Optimized for lightweight inference setups, especially useful for low VRAM, CPU inference, or alternative backends.
+### 🟣 AIO
+All-in-one checkpoints with **image model + Text Encoder + VAE integrated** into a single file for the easiest setup. Available for Base, Distill-4-Step and Distill-8-Step.
+---
+## 🎌 Z-Anime Base
+The foundation of the Z-Anime family.
+A full fine-tune with the **highest quality ceiling**, the **widest creative range**, and **full negative prompt support**.
+### Recommended Settings
+```yaml
+steps: 28-50
+cfg: 3.0-5.0   # up to 9.0 possible
+sampler: euler_ancestral
+scheduler: beta
+negative_prompt: strongly recommended
+```
+### CFG Guide
+- **3.0–5.0** → sweet spot for balanced quality and creativity
+- **5.0–7.0** → tighter prompt adherence
+- **7.0–9.0** → maximum control, but watch for oversaturation
+- **Above 9.0** → not recommended
+Negative prompts have **full effect** on Z-Anime Base and are highly recommended.
+---
+## ⚡ Z-Anime Distill-8-Step
+The sweet spot of the family.
+Distilled from Z-Anime Base, this version delivers strong anime results in just **8 steps** while keeping most of the quality.
+### Recommended Settings
+```yaml
+steps: 8
+cfg: 1.0   # max ~1.5
+sampler: euler_ancestral
+scheduler: beta
+negative_prompt: limited effect
+```
+### CFG Guide
+- Best at **CFG 1.0**
+- Small increases to **1.3–1.5** are possible
+- Do **not** go above **1.5** — artifacts may appear
+Negative prompts have only **limited effect** at this distillation level. If your workflow includes **ConditioningZeroOut**, prefer that instead of a large negative prompt.
+---
+## 🚀 Z-Anime Distill-4-Step
+The fastest Z-Anime variant.
+Built for **maximum throughput** — ideal for rapid prototyping, quick batch generation, and speed-focused workflows.
+### Recommended Settings
+```yaml
+steps: 4
+cfg: 1.0   # max ~1.5
+sampler: euler_ancestral
+scheduler: beta
+negative_prompt: limited effect
+```
+### Tips for 4-Step
+- Stay at **CFG 1.0** for the most stable results
+- Put the most important visual details **early** in the prompt
+- An optional upscaler such as hires fix or SeedVR2 can help recover fine detail
+---
+## 📐 Resolution Guide
+| Use Case | Resolution |
+|---|---|
+| Portrait / character art | **832 × 1216** |
+| Landscape / scenes / backgrounds | **1216 × 832** |
+| Square / general purpose | **1024 × 1024** |
+| Tall / full body / wallpaper | **768 × 1344** |
+| Cinematic / wide scenes | **1920 × 1088** |
+| Detailed portraits | **1024 × 1536** |
+**Supported range:** approximately **512 × 512 to 2048 × 2048**, any aspect ratio.
+All main variants are designed to run on **8GB VRAM**.
+---
+## 💡 Prompting Guide
+**Natural language works best — not tag lists.**
+### ✅ Good
+```text
+A young anime girl with long silver hair and golden eyes, wearing a traditional shrine maiden outfit with white haori and red hakama. She stands in a sunlit bamboo forest, cherry blossoms falling softly around her. Warm afternoon light filtering through the trees, detailed fabric shading, expressive face, calm serene expression, high quality anime illustration with fine line work.
+```
+### ❌ Avoid
+```text
+anime girl, silver hair, shrine maiden, bamboo, cherry blossom, warm light
+```
+### Character Portraits
+```text
+Detailed anime portrait of [character], soft rim lighting, expressive eyes with detailed reflections, fine hair strands, clean linework, professional anime illustration quality.
+```
+### Action Scenes
+```text
+Dynamic anime [scene], dramatic angle, motion energy, speed lines, particle effects, cinematic composition, detailed shading, high quality anime art.
+```
+### Backgrounds & Landscapes
+```text
+Anime [location] at [time of day], [lighting], [atmosphere], beautiful background art, wallpaper quality, highly detailed environment.
+```
+---
+## 🔧 Installation
+### Step 1 — Download the version you want
+Choose between:
+- **Standard / Distill models** in **BF16** or **FP8** (+ VAE + Text Encoder)
+- **GGUF variants** for low VRAM / CPU / AMD-friendly inference (+ VAE + Text Encoder)
+- **AIO variants** for single-file convenience (no extra VAE / Text Encoder needed)
+### Step 2 — Place the files
+#### Standard BF16 / FP8 models
+```text
+ComfyUI/models/diffusion_models/
+├── z-anime-base-bf16.safetensors
+├── z-anime-base-fp8.safetensors
+├── z-anime-distill-8step-bf16.safetensors
+├── z-anime-distill-8step-fp8.safetensors
+├── z-anime-distill-4step-bf16.safetensors
+└── z-anime-distill-4step-fp8.safetensors
+```
+#### GGUF variants
+```text
+ComfyUI/models/unet/
+├── z-anime-base-q8_0.gguf
+└── z-anime-base-q4_k_s.gguf
+```
+#### Text Encoder
+Two text encoders are included — pick **one**:
+```text
+ComfyUI/models/clip/
+└── qwen_3_4b-bf16.safetensors          # default (Z-Image standard, BF16)
+   or
+└── qwen_3_4b-fp8.safetensors           # default (Z-Image standard, FP8)
+   or
+└── qwen_3_4b-engineer-v4-bf16.safetensors   # alternative (Engineer V4, BF16)
+   or
+└── qwen_3_4b-engineer-v4-fp8.safetensors    # alternative (Engineer V4, FP8)
+```
+- **Default (`qwen_3_4b-*`)** — the standard Z-Image text encoder, repackaged as a single `.safetensors` file (BF16 + FP8). This is what the model was trained against.
+- **Engineer V4 (`qwen_3_4b-engineer-v4-*`)** — an alternative full fine-tune of the Z-Image text encoder by **BennyDaBall**, drop-in compatible. Often produces more varied outputs from the same seed. See *Credits* below for the original repo.
+#### VAE
+```text
+ComfyUI/models/vae/
+└── ae.safetensors
+```
+#### AIO variants
+For the AIO versions, you only need the single checkpoint file — no extra VAE or Text Encoder required:
+```text
+ComfyUI/models/checkpoints/
+├── z-anime-base-aio-bf16.safetensors
+├── z-anime-base-aio-fp8.safetensors
+├── z-anime-distill-8step-aio-bf16.safetensors
+├── z-anime-distill-8step-aio-fp8.safetensors
+├── z-anime-distill-4step-aio-bf16.safetensors
+└── z-anime-distill-4step-aio-fp8.safetensors
+```
+### Step 3 — Load in ComfyUI
+#### For standard BF16 / FP8 versions
+Use:
+- **Load Diffusion Model** for the model file
+- **CLIP Loader** for the text encoder
+- **VAE Loader** for the VAE
+#### For GGUF versions
+- Load the **GGUF model from the `models/unet/` folder**
+- Use the same **CLIP** and **VAE** files as above
+#### For AIO versions
+Use a standard **Checkpoint Loader** — no extra CLIP or VAE loading required.
+---
+## 📦 Custom Nodes
+- **rgthree-comfy**
+- **ComfyUI-Lora-Manager**
+- **ComfyUI-GGUF** *(only for the GGUF variants)*
+- **ComfyUI-SeedVR2_VideoUpscaler** *(optional, only for SeedVR2 upscale)*
+---
+## 🐍 Using the Diffusers Folder
+For Python users, the full Diffusers-format folder is included under `diffusers/` and can be loaded directly with the `subfolder` argument:
+```python
+import torch
+from diffusers import ZImagePipeline
+pipe = ZImagePipeline.from_pretrained(
+    "SeeSee21/Z-Anime",
+    subfolder="diffusers",
+    torch_dtype=torch.bfloat16,
+).to("cuda")
+image = pipe(
+    prompt="A young anime girl with long silver hair and golden eyes, "
+           "shrine maiden outfit, sunlit bamboo forest, cherry blossoms, "
+           "professional anime illustration, fine line work.",
+    num_inference_steps=40,
+    guidance_scale=4.0,
+).images[0]
+image.save("z-anime-output.png")
+```
+This format is also a clean starting point for further fine-tuning (LoRA or full fine-tune) with frameworks like **OneTrainer**, **diffusers**, or **kohya-ss**.
+---
+## 🧩 Official Workflow
+<div align="center">
+  <img src="images/workflow-cover.png" width="380" alt="Z-Anime Workflow" />
+</div>
+A ready-to-use ComfyUI workflow that supports **all variants** (Base / Distill-8 / Distill-4, BF16 / FP8 / GGUF / AIO) is included in [`workflows/Z-Anime-Workflow-v1.json`](workflows/Z-Anime-Workflow-v1.json).
+It includes:
+- 📦 Model switch (Diffusion / GGUF / AIO loaders — toggle one at a time)
+- 📖 Optional LoRA loader
+- ✍️ Positive + Negative prompt nodes (with default anime negative)
+- 📐 Resolution presets
+- 🎨 Generate + 🔼 Optional 1.5× upscale with side-by-side compare
+- 📚 Built-in MarkdownNote guide with settings per variant
+<div align="center">
+  <img src="images/workflow-overview.png" alt="Z-Anime Workflow overview" />
+</div>
+---
+## 📁 Repository Structure
+```text
+Z-Anime/
+├── README.md
+├── config.json
+│
+├── diffusion_models/
+│   ├── z-anime-base-bf16.safetensors
+│   ├── z-anime-base-fp8.safetensors
+│   ├── z-anime-distill-8step-bf16.safetensors
+│   ├── z-anime-distill-8step-fp8.safetensors
+│   ├── z-anime-distill-4step-bf16.safetensors
+│   └── z-anime-distill-4step-fp8.safetensors
+│
+├── gguf/
+│   ├── z-anime-base-q8_0.gguf
+│   └── z-anime-base-q4_k_s.gguf
+│
+├── aio/
+│   ├── z-anime-base-aio-bf16.safetensors
+│   ├── z-anime-base-aio-fp8.safetensors
+│   ├── z-anime-distill-8step-aio-bf16.safetensors
+│   ├── z-anime-distill-8step-aio-fp8.safetensors
+│   ├── z-anime-distill-4step-aio-bf16.safetensors
+│   └── z-anime-distill-4step-aio-fp8.safetensors
+│
+├── text_encoder/
+│   ├── qwen_3_4b-bf16.safetensors                  # default
+│   ├── qwen_3_4b-fp8.safetensors                   # default
+│   ├── qwen_3_4b-engineer-v4-bf16.safetensors      # alternative (BennyDaBall)
+│   └── qwen_3_4b-engineer-v4-fp8.safetensors       # alternative (BennyDaBall)
+│
+├── vae/
+│   └── ae.safetensors
+│
+├── diffusers/
+│   ├── model_index.json
+│   ├── scheduler/
+│   ├── tokenizer/
+│   ├── text_encoder/
+│   ├── transformer/   (sharded safetensors + index)
+│   └── vae/
+│
+├── images/
+│   ├── cover.png
+│   ├── workflow-cover.png
+│   ├── workflow-overview.png
+│   ├── 1.png
+│   ├── 2.png
+│   ├── 3.png
+│   ├── 4.png
+│   ├── 5.png
+│   ├── 6.png
+│   ├── 7.png
+│   ├── 8.png
+│   └── 9.png
+└── workflows/
+    └── Z-Anime-Workflow-v1.json
+```
+---
+## 📈 Version History
+### v1.0 — Initial Release
+- **Z-Anime Base** released in **BF16 & FP8**
+- **Z-Anime Distill-8-Step** released in **BF16 & FP8**
+- **Z-Anime Distill-4-Step** released in **BF16 & FP8**
+- **GGUF variants added**
+  - **Z-Anime-Base-Q8_0** — Q8_0 quantization (~6.73 GB)
+  - **Z-Anime-Base-Q4_K_S** — Q4_K_S quantization (~4.2 GB)
+- **AIO variants added** — Base, Distill-4-Step and Distill-8-Step (each in BF16 & FP8)
+- **VAE** (`ae.safetensors`) and **Text Encoder** (`qwen_3_4b.safetensors`) included
+- Optimized for **euler_ancestral**, **euler + beta**, and simple practical use across the family
+---
+## 🔗 Links
+- **CivitAI Page:** [civitai.red/models/2483351](https://civitai.red/models/2483351)
+- **Base Model:** [Tongyi-MAI/Z-Image](https://huggingface.co/Tongyi-MAI/Z-Image)
+- **Author:** [SeeSee21 on Hugging Face](https://huggingface.co/SeeSee21)
+---
+## 🙏 Credits
+- **Base Architecture:** Tongyi Lab (Alibaba) — Z-Image
+- **Fine-Tune:** SeeSee21
+- **License:** Apache 2.0
+- **Architecture:** S3-DiT (Single-Stream Diffusion Transformer, 6B parameters)
+- **Base Model:** [`Tongyi-MAI/Z-Image`](https://huggingface.co/Tongyi-MAI/Z-Image)
+- **Engineer V4 Text Encoder:** [`BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4`](https://huggingface.co/BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4) — full fine-tune with SMART training, included as alternative text encoder
+---
+## ❤️ Notes
+Z-Anime is an experimental anime-focused model family built to explore what a full fine-tune on Z-Image Base can achieve in this space.
+It is already strong for anime aesthetics, character work, and fast iteration, and future versions will continue to improve diversity, character handling, prompting flexibility, and overall quality.
+**Z-Anime — anime at its finest, powered by Z-Image Base. 🎌**

aio/z-anime-base-aio-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90a8b6c67557cee05cccf2d8e596adcbf52ded4754879203d2b275a03f5e9096
+size 20690181512

aio/z-anime-base-aio-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef778cee4e515ff0c6e930cdcd1315e32ab96380730ae5d21ee3e03f2d414e81
+size 10512806304

aio/z-anime-distill-4step-aio-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f165264e86d641d9e4c630fc2e624cdae3363aa5c27ad434a72b34cea173c558
+size 20690181536

aio/z-anime-distill-4step-aio-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5e47fee7d57caf036cf1678a49dce99353f9546e60b09d8da29fd14f85b9a09
+size 10512806320

aio/z-anime-distill-8step-aio-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bd85af9db1f587f41775b5c1acc3443d482bc00ce2f8229d4cac27eaba986e6
+size 20690181536

aio/z-anime-distill-8step-aio-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a342f2651ae36f905de8cc4b110daf0120f0a2ab38ab1ca79d50bca61b61eb60
+size 10512806320

config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "model_type": "z-anime",
+  "architecture": "S3-DiT",
+  "parameters": "6B",
+  "license": "apache-2.0",
+  "base_model": "Tongyi-MAI/Z-Image",
+  "base_model_relation": "finetune",
+  "author": "SeeSee21",
+  "pipeline_tag": "text-to-image",
+  "prompting": {
+    "style": "natural-language",
+    "negative_prompt_support": {
+      "base": "full",
+      "distill_8step": "limited",
+      "distill_4step": "limited"
+    }
+  },
+  "variants": {
+    "base": {
+      "bf16": "diffusion_models/z-anime-base-bf16.safetensors",
+      "fp8": "diffusion_models/z-anime-base-fp8.safetensors",
+      "aio_bf16": "aio/z-anime-base-aio-bf16.safetensors",
+      "aio_fp8": "aio/z-anime-base-aio-fp8.safetensors",
+      "recommended_settings": {
+        "steps": "28-50",
+        "cfg": "3.0-5.0",
+        "sampler": "euler_ancestral",
+        "scheduler": "beta"
+      }
+    },
+    "distill_8step": {
+      "bf16": "diffusion_models/z-anime-distill-8step-bf16.safetensors",
+      "fp8": "diffusion_models/z-anime-distill-8step-fp8.safetensors",
+      "aio_bf16": "aio/z-anime-distill-8step-aio-bf16.safetensors",
+      "aio_fp8": "aio/z-anime-distill-8step-aio-fp8.safetensors",
+      "recommended_settings": {
+        "steps": 8,
+        "cfg": 1.0,
+        "sampler": "euler_ancestral",
+        "scheduler": "beta"
+      }
+    },
+    "distill_4step": {
+      "bf16": "diffusion_models/z-anime-distill-4step-bf16.safetensors",
+      "fp8": "diffusion_models/z-anime-distill-4step-fp8.safetensors",
+      "aio_bf16": "aio/z-anime-distill-4step-aio-bf16.safetensors",
+      "aio_fp8": "aio/z-anime-distill-4step-aio-fp8.safetensors",
+      "recommended_settings": {
+        "steps": 4,
+        "cfg": 1.0,
+        "sampler": "euler_ancestral",
+        "scheduler": "beta"
+      }
+    },
+    "gguf": {
+      "q8_0": {
+        "file": "gguf/z-anime-base-q8_0.gguf",
+        "description": "Q8_0 quantization",
+        "size": "~6.73 GB"
+      },
+      "q4_k_s": {
+        "file": "gguf/z-anime-base-q4_k_s.gguf",
+        "description": "Q4_K_S quantization",
+        "size": "~4.2 GB"
+      }
+    }
+  },
+  "diffusers_folder": {
+    "path": "diffusers/",
+    "pipeline_class": "ZImagePipeline",
+    "usage": "ZImagePipeline.from_pretrained('SeeSee21/Z-Anime', subfolder='diffusers', torch_dtype=torch.bfloat16)",
+    "components": [
+      "model_index.json",
+      "scheduler/",
+      "tokenizer/",
+      "text_encoder/",
+      "transformer/",
+      "vae/"
+    ]
+  },
+  "components": {
+    "text_encoders": {
+      "default": {
+        "bf16": "text_encoder/qwen_3_4b-bf16.safetensors",
+        "fp8": "text_encoder/qwen_3_4b-fp8.safetensors",
+        "description": "Standard Z-Image text encoder, repackaged as a single safetensors",
+        "comfyui_path": "ComfyUI/models/clip/"
+      },
+      "engineer_v4": {
+        "bf16": "text_encoder/qwen_3_4b-engineer-v4-bf16.safetensors",
+        "fp8": "text_encoder/qwen_3_4b-engineer-v4-fp8.safetensors",
+        "description": "Alternative full fine-tune by BennyDaBall (SMART training, more varied outputs)",
+        "source": "https://huggingface.co/BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4",
+        "comfyui_path": "ComfyUI/models/clip/"
+      }
+    },
+    "vae": {
+      "file": "vae/ae.safetensors",
+      "description": "Z-Image VAE (slightly trained alongside Z-Anime)",
+      "comfyui_path": "ComfyUI/models/vae/"
+    }
+  },
+  "comfyui_paths": {
+    "diffusion_models": "ComfyUI/models/diffusion_models/",
+    "unet": "ComfyUI/models/unet/",
+    "clip": "ComfyUI/models/clip/",
+    "vae": "ComfyUI/models/vae/",
+    "checkpoints": "ComfyUI/models/checkpoints/"
+  },
+  "requirements": {
+    "custom_nodes": [
+      "rgthree-comfy",
+      "ComfyUI-Lora-Manager",
+      "ComfyUI-SeedVR2_VideoUpscaler (optional)"
+    ]
+  },
+  "supported_vram": "8GB+",
+  "links": {
+    "civitai": "https://civitai.red/models/2483351",
+    "base_model": "https://huggingface.co/Tongyi-MAI/Z-Image",
+    "engineer_v4": "https://huggingface.co/BennyDaBall/Qwen3-4b-Z-Image-Engineer-V4",
+    "author": "https://huggingface.co/SeeSee21"
+  },
+  "notes": [
+    "BF16 and FP8 are the main release formats.",
+    "GGUF variants are intended for lower-memory or alternative inference setups.",
+    "AIO variants include the Text Encoder and VAE in a single file (Base, 4-Step, 8-Step).",
+    "Two text encoders are included: the standard Z-Image one (default) and BennyDaBall's Engineer V4 (alternative).",
+    "The diffusers/ subfolder is a full diffusers-format checkpoint loadable via ZImagePipeline.from_pretrained(repo, subfolder='diffusers')."
+  ]
+}

diffusers/model_index.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_class_name": "ZImagePipeline",
+  "_diffusers_version": "0.37.0.dev0",
+  "scheduler": [
+    "diffusers",
+    "FlowMatchEulerDiscreteScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "Qwen3ForCausalLM"
+  ],
+  "tokenizer": [
+    "transformers",
+    "Qwen2Tokenizer"
+  ],
+  "transformer": [
+    "diffusers",
+    "ZImageTransformer2DModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKL"
+  ]
+}

diffusers/scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.37.0.dev0",
+  "base_image_seq_len": 256,
+  "base_shift": 0.5,
+  "invert_sigmas": false,
+  "max_image_seq_len": 4096,
+  "max_shift": 1.15,
+  "num_train_timesteps": 1000,
+  "shift": 6.0,
+  "shift_terminal": null,
+  "stochastic_sampling": false,
+  "time_shift_type": "exponential",
+  "use_beta_sigmas": false,
+  "use_dynamic_shifting": false,
+  "use_exponential_sigmas": false,
+  "use_karras_sigmas": false
+}

diffusers/text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 2560,
+  "initializer_range": 0.02,
+  "intermediate_size": 9728,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "transformers_version": "4.56.2",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

diffusers/text_encoder/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "transformers_version": "4.56.2"
+}

diffusers/text_encoder/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f78cf5e0d7ebbad18659d1f7192a4159273a794e51852be4d0a067a1f6f943db
+size 4800649802

diffusers/tokenizer/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

diffusers/tokenizer/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

diffusers/tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

diffusers/tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

diffusers/tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

diffusers/tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

diffusers/transformer/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_class_name": "ZImageTransformer2DModel",
+  "_diffusers_version": "0.37.0.dev0",
+  "all_f_patch_size": [
+    1
+  ],
+  "all_patch_size": [
+    2
+  ],
+  "axes_dims": [
+    32,
+    48,
+    48
+  ],
+  "axes_lens": [
+    1536,
+    512,
+    512
+  ],
+  "cap_feat_dim": 2560,
+  "dim": 3840,
+  "in_channels": 16,
+  "n_heads": 30,
+  "n_kv_heads": 30,
+  "n_layers": 30,
+  "n_refiner_layers": 2,
+  "norm_eps": 1e-05,
+  "qk_norm": true,
+  "rope_theta": 256.0,
+  "siglip_feat_dim": null,
+  "t_scale": 1000.0
+}

diffusers/transformer/diffusion_pytorch_model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30522af3f6e6cf0cb53638b428a702516cc9dbebc3992d99837ff9125e244d70
+size 9973727144

diffusers/transformer/diffusion_pytorch_model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca4cd5ab296a3ea3ff81226be27c612aeaa591921d91c512459991716f8426aa
+size 2336146728

diffusers/transformer/diffusion_pytorch_model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,528 @@

+{
+  "metadata": {
+    "total_size": 12309817472
+  },
+  "weight_map": {
+    "all_final_layer.2-1.adaLN_modulation.1.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "all_final_layer.2-1.adaLN_modulation.1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "all_final_layer.2-1.linear.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "all_final_layer.2-1.linear.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "all_x_embedder.2-1.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "all_x_embedder.2-1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "cap_embedder.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "cap_embedder.1.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "cap_embedder.1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "cap_pad_token": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "context_refiner.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.10.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.11.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.12.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.13.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.14.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.15.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.16.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.17.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.18.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.19.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.2.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.20.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.21.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.22.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.23.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.23.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.24.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.25.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.26.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.27.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.28.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.adaLN_modulation.0.bias": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.adaLN_modulation.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.norm_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.norm_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.to_k.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.to_out.0.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.to_q.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention.to_v.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.attention_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.feed_forward.w1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.feed_forward.w2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.feed_forward.w3.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.ffn_norm1.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.29.ffn_norm2.weight": "diffusion_pytorch_model-00002-of-00002.safetensors",
+    "layers.3.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.3.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.4.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.5.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.6.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.7.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.8.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "layers.9.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.0.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.adaLN_modulation.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.adaLN_modulation.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.norm_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.norm_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.to_k.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.to_out.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.to_q.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention.to_v.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.attention_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.feed_forward.w1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.feed_forward.w2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.feed_forward.w3.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.ffn_norm1.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "noise_refiner.1.ffn_norm2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "t_embedder.mlp.0.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "t_embedder.mlp.0.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "t_embedder.mlp.2.bias": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "t_embedder.mlp.2.weight": "diffusion_pytorch_model-00001-of-00002.safetensors",
+    "x_pad_token": "diffusion_pytorch_model-00001-of-00002.safetensors"
+  }
+}

diffusers/vae/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.37.0.dev0",
+  "_name_or_path": "../checkpoints/flux-dev",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "force_upcast": true,
+  "in_channels": 3,
+  "latent_channels": 16,
+  "latents_mean": null,
+  "latents_std": null,
+  "layers_per_block": 2,
+  "mid_block_add_attention": true,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 1024,
+  "scaling_factor": 0.3611,
+  "shift_factor": 0.1159,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ],
+  "use_post_quant_conv": false,
+  "use_quant_conv": false
+}

diffusers/vae/diffusion_pytorch_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c717328c8ad41faab2ccfd52ae17332505c6833cf176aad56e7b58f2c4d4c94
+size 335306212

diffusion_models/z-anime-base-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3012b73377b234d47b932809a9ed596fb57fd57f901dd71c0ecb13d835463518
+size 12309874488

diffusion_models/z-anime-base-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d2faf5f7e223ecf4942b52b55d816b026afdb7a447cb98cf7cd297240ffad96
+size 6154966640

diffusion_models/z-anime-distill-4step-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a083f389432c5cf04bfa686a1e819f894d01e4a00bdf02e846617e17052ac77
+size 12309881520

diffusion_models/z-anime-distill-4step-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bb34d67a2a1167bb5e0eba17ccf352d1d5c6d69018bda7d71f886e323a6b0bf
+size 6154968720

diffusion_models/z-anime-distill-8step-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63b560e512306d2d97518e93cb0f3f306b014a0b4082da3a6b8a046d2677f8e1
+size 12309880976

diffusion_models/z-anime-distill-8step-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:287b8474ffb15e361dbde51da5bce2770fcf038a144b5ad92083d217d549cb31
+size 6154968720

gguf/z-anime-base-q4_k_s.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4b8ffb198f16c20a425853e6e3144d2d99c99d1f5f65c5b229a7e472ee167ed
+size 4511516736

gguf/z-anime-base-q8_0.gguf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f69475bfb1dbedbf9421a75270e2bbe6d7b71d71dabf6c798fc432c21daca271
+size 7224707136

images/1.png ADDED Viewed

Git LFS Details

SHA256: 1a4d0ea0015d0954c488361107a8ed105a7ad926f14dc9b45ebcfd91c61c445f
Pointer size: 132 Bytes
Size of remote file: 3.75 MB

images/2.png ADDED Viewed

Git LFS Details

SHA256: 8540fda505055eb20a36c6ed0216884f35f45f3fb2f83c49e94882c83f2cf91f
Pointer size: 132 Bytes
Size of remote file: 4.98 MB

images/3.png ADDED Viewed

Git LFS Details

SHA256: 39a95caec8c6814fc6f2ae447e8eb74d966b566b2caf35d55ffb27562ce84e53
Pointer size: 132 Bytes
Size of remote file: 4.62 MB

images/4.png ADDED Viewed

Git LFS Details

SHA256: 407ed85853bcdd977ea356882e903dc92f1753f99061a5aca835a94cbc901728
Pointer size: 132 Bytes
Size of remote file: 3.9 MB

images/5.png ADDED Viewed

Git LFS Details

SHA256: 3afb0460afdc5ff975e908218753d9c51616c62e3d3a494f3d7e73761b765934
Pointer size: 132 Bytes
Size of remote file: 3.49 MB

images/6.png ADDED Viewed

Git LFS Details

SHA256: a31be0bf88a69d8c718d2c6cff3381a929dc03be659aae8067de3bb534b159b0
Pointer size: 132 Bytes
Size of remote file: 4.22 MB

images/7.png ADDED Viewed

Git LFS Details

SHA256: 0be2595b04526058a54a3d50bb99e15146ce24de0ef542e13e799ebce235b271
Pointer size: 132 Bytes
Size of remote file: 3.71 MB

images/8.png ADDED Viewed

Git LFS Details

SHA256: 479fea796476ef79034337d7ecc5358298c32ac400526e66b91a49dbb9348a5e
Pointer size: 132 Bytes
Size of remote file: 1.96 MB

images/9.png ADDED Viewed

Git LFS Details

SHA256: 6be70441300a704ccc51dcf097fa8480d5ec939fc974c21f4a38f844fcb3616f
Pointer size: 132 Bytes
Size of remote file: 2.16 MB

images/cover.png ADDED Viewed

Git LFS Details

SHA256: 95f52edced663294c26cfa89c5adbfd50c7cdfab5244f102e60d6991fa608da4
Pointer size: 132 Bytes
Size of remote file: 4 MB

images/workflow-cover.png ADDED Viewed

Git LFS Details

SHA256: a9714fec9db98736d851a82d52c16aa402d87841fe0f48c3d6d28d65aca922ba
Pointer size: 132 Bytes
Size of remote file: 1.91 MB

images/workflow-overview.png ADDED Viewed

text_encoder/qwen_3_4b-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c671498573ac2f7a5501502ccce8d2b08ea6ca2f661c458e708f36b36edfc5a
+size 8044982048

text_encoder/qwen_3_4b-engineer-v4-bf16.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd925aad8df000d3f8b306b5f5780dd3c41c944476c5e9ca20a72ad455b2eeef
+size 8044982080

text_encoder/qwen_3_4b-engineer-v4-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:deb07cdb971031fcd0af164a56468453b980278b6d4b4b6633b2f58f57fbb5e3
+size 4022515040

text_encoder/qwen_3_4b-fp8.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38a245fc197f16c4025467ef46dce247d076af8f013bb8b1617013beea46d0e4
+size 4022515040