Disty0
/

sotediffusion-v2

@@ -33,6 +33,92 @@ An anime diffusion model finetuned on Würstchen V3.
 <img class="image" src="https://cdn-uploads.huggingface.co/production/uploads/6456af6195082f722d178522/uua4L9aaqJ0LI8gYv4xmC.png" width="320">
 </table>
 ## Training:
 **GPU used**: 7x Nvidia H100 80GB SXM5

 <img class="image" src="https://cdn-uploads.huggingface.co/production/uploads/6456af6195082f722d178522/uua4L9aaqJ0LI8gYv4xmC.png" width="320">
 </table>
+# Code Example
+```shell
+pip install diffusers
+```
+```python
+import torch
+import diffusers
+device = "cuda"
+dtype = torch.float16
+model_path = "Disty0/sotediffusion-v2"
+def get_timestep_ratio_conditioning(t, alphas_cumprod):
+    s = torch.tensor([0.008]) # diffusers uses 0.003 while the original is 0.008
+    clamp_range = [0, 1]
+    min_var = torch.cos(s / (1 + s) * torch.pi * 0.5) ** 2
+    var = alphas_cumprod[t]
+    var = var.clamp(*clamp_range)
+    s, min_var = s.to(var.device), min_var.to(var.device)
+    ratio = (((var * min_var) ** 0.5).acos() / (torch.pi * 0.5)) * (1 + s) - s
+    return ratio
+pipe = diffusers.AutoPipelineForText2Image.from_pretrained(model_path, text_encoder=None, torch_dtype=dtype)
+# diffusers bugs
+pipe.prior_pipe.get_timestep_ratio_conditioning = get_timestep_ratio_conditioning
+pipe.prior_pipe.scheduler.config.clip_sample = False
+# de-dupe
+pipe.decoder_pipe.text_encoder = pipe.text_encoder = None # nothing uses this
+del pipe.decoder_pipe.text_encoder
+del pipe.prior_prior
+del pipe.prior_text_encoder
+del pipe.prior_tokenizer
+del pipe.prior_scheduler
+del pipe.prior_feature_extractor
+del pipe.prior_image_encoder
+pipe = pipe.to(device, dtype=dtype)
+pipe.prior_pipe = pipe.prior_pipe.to(device, dtype=dtype)
+prompt = "1girl, solo, looking at viewer, open mouth, blue eyes, medium breasts, blonde hair, gloves, dress, bow, hair between eyes, bare shoulders, upper body, hair bow, indoors, elbow gloves, hand on own chest, bridal gauntlets, candlestand, smile, rim lighting, from side, castle interior, looking side,"
+quality_prompt = "very aesthetic, best quality, newest"
+negative_prompt = "very displeasing, displeasing, worst quality, bad quality, low quality, realistic, monochrome, comic, sketch, oldest, early, artist name, signature, blurry, simple background, upside down,"
+num_images_per_prompt=1
+# Encode prompts and quality prompts eperately:
+# device, batch_size, num_images_per_prompt, cfg, prompt
+prompt_embeds, prompt_embeds_pooled, _, _ = pipe.prior_pipe.encode_prompt(device, 1, num_images_per_prompt, False, prompt=prompt)
+quality_prompt_embeds, _, _, _ = pipe.prior_pipe.encode_prompt(device, 1, num_images_per_prompt, False, prompt=quality_prompt)
+negative_prompt_embeds, negative_prompt_embeds_pooled, _, _ = pipe.prior_pipe.encode_prompt(device, 1, num_images_per_prompt, False, prompt=negative_prompt)
+empty_prompt_embeds, _, _, _ = pipe.prior_pipe.encode_prompt(device, 1, num_images_per_prompt, False, prompt="")
+empty_prompt_embeds = torch.nn.functional.normalize(empty_prompt_embeds)
+prompt_embeds = torch.cat([prompt_embeds, quality_prompt_embeds], dim=1)
+negative_prompt_embeds = torch.cat([negative_prompt_embeds, empty_prompt_embeds], dim=1)
+pipe.prior_pipe.maybe_free_model_hooks()
+output = pipe(
+    width=1024,
+    height=1536,
+    decoder_guidance_scale=1.0,
+    prior_guidance_scale=7.0,
+    prior_num_inference_steps=30,
+    num_inference_steps=10,
+    output_type="pil",
+    prompt=prompt + " " + quality_prompt,
+    negative_prompt=negative_prompt,
+    prompt_embeds=prompt_embeds,
+    prompt_embeds_pooled=prompt_embeds_pooled,
+    negative_prompt_embeds=negative_prompt_embeds,
+    negative_prompt_embeds_pooled=negative_prompt_embeds_pooled,
+    num_images_per_prompt=num_images_per_prompt,
+).images[0]
+display(output)
+```
 ## Training:
 **GPU used**: 7x Nvidia H100 80GB SXM5