stable-diffusion-xl-inpainting

Paused

App Files Files Community

stable-diffusion-xl-inpainting / sdxl_models.py

williamberman

default device placement

947a0fa 10 months ago

raw

history blame contribute delete

No virus

58.6 kB

	import math
	import os
	from typing import List, Literal, Optional, Union

	import safetensors.torch
	import torch
	import torch.nn.functional as F
	import torchvision.transforms.functional as TF
	from PIL import Image
	from torch import nn


	class ModelUtils:
	@property
	def dtype(self):
	return next(self.parameters()).dtype

	@property
	def device(self):
	return next(self.parameters()).device

	@classmethod
	def load(cls, load_from: str, device='cpu', overrides: Optional[Union[str, List[str]]] = None):
	import load_state_dict_patch

	load_from = [load_from]

	if overrides is not None:
	if isinstance(overrides, str):
	overrides = [overrides]
	load_from += overrides

	state_dict = {}

	for load_from_ in load_from:
	if os.path.isdir(load_from_):
	load_from_ = os.path.join(load_from_, "diffusion_pytorch_model.safetensors")

	state_dict.update(safetensors.torch.load_file(load_from_, device=device))

	with torch.device("meta"):
	model = cls()

	model.load_state_dict(state_dict, assign=True)

	return model


	vae_scaling_factor = 0.13025


	class SDXLVae(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	self.encoder = nn.ModuleDict(dict(
	# 3 -> 128
	conv_in=nn.Conv2d(3, 128, kernel_size=3, padding=1),

	down_blocks=nn.ModuleList([
	# 128 -> 128
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(128, 128, eps=1e-6), ResnetBlock2D(128, 128, eps=1e-6)]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(128, 128, kernel_size=3, stride=2)))]),
	)),
	# 128 -> 256
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(128, 256, eps=1e-6), ResnetBlock2D(256, 256, eps=1e-6)]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(256, 256, kernel_size=3, stride=2)))]),
	)),
	# 256 -> 512
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(256, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(512, 512, kernel_size=3, stride=2)))]),
	)),
	# 512 -> 512
	nn.ModuleDict(dict(resnets=nn.ModuleList([ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]))),
	]),

	# 512 -> 512
	mid_block=nn.ModuleDict(dict(
	attentions=nn.ModuleList([VaeMidBlockAttention(512)]),
	resnets=nn.ModuleList([ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]),
	)),

	# 512 -> 8
	conv_norm_out=nn.GroupNorm(32, 512, eps=1e-06),
	conv_act=nn.SiLU(),
	conv_out=nn.Conv2d(512, 8, kernel_size=3, padding=1)
	))

	# 8 -> 8
	self.quant_conv = nn.Conv2d(8, 8, kernel_size=1)

	# 8 -> 4 from sampling mean and std

	# 4 -> 4
	self.post_quant_conv = nn.Conv2d(4, 4, kernel_size=1)

	self.decoder = nn.ModuleDict(dict(
	# 4 -> 512
	conv_in=nn.Conv2d(4, 512, kernel_size=3, padding=1),

	# 512 -> 512
	mid_block=nn.ModuleDict(dict(
	attentions=nn.ModuleList([VaeMidBlockAttention(512)]),
	resnets=nn.ModuleList([ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]),
	)),

	up_blocks=nn.ModuleList([
	# 512 -> 512
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)))]),
	)),

	# 512 -> 512
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6), ResnetBlock2D(512, 512, eps=1e-6)]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1)))]),
	)),

	# 512 -> 256
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(512, 256, eps=1e-6), ResnetBlock2D(256, 256, eps=1e-6), ResnetBlock2D(256, 256, eps=1e-6)]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)))]),
	)),

	# 256 -> 128
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([ResnetBlock2D(256, 128, eps=1e-6), ResnetBlock2D(128, 128, eps=1e-6), ResnetBlock2D(128, 128, eps=1e-6)]),
	)),
	]),

	# 128 -> 3
	conv_norm_out=nn.GroupNorm(32, 128, eps=1e-06),
	conv_act=nn.SiLU(),
	conv_out=nn.Conv2d(128, 3, kernel_size=3, padding=1)
	))

	# fmt: on

	def encode(self, x, generator=None):
	h = x

	h = self.encoder["conv_in"](h)

	for down_block in self.encoder["down_blocks"]:
	for resnet in down_block["resnets"]:
	h = resnet(h)

	if "downsamplers" in down_block:
	h = F.pad(h, pad=(0, 1, 0, 1), mode="constant", value=0)
	h = down_block["downsamplers"][0]["conv"](h)

	h = self.encoder["mid_block"]["resnets"][0](h)
	h = self.encoder["mid_block"]["attentions"][0](h)
	h = self.encoder["mid_block"]["resnets"][1](h)

	h = self.encoder["conv_norm_out"](h)
	h = self.encoder["conv_act"](h)
	h = self.encoder["conv_out"](h)

	mean, logvar = self.quant_conv(h).chunk(2, dim=1)

	logvar = torch.clamp(logvar, -30.0, 20.0)

	std = torch.exp(0.5 * logvar)

	z = mean + torch.randn(mean.shape, device=mean.device, dtype=mean.dtype, generator=generator) * std

	z = z * vae_scaling_factor

	return z

	def decode(self, z):
	z = z / vae_scaling_factor

	h = z

	h = self.post_quant_conv(h)

	h = self.decoder["conv_in"](h)

	h = self.decoder["mid_block"]["resnets"][0](h)
	h = self.decoder["mid_block"]["attentions"][0](h)
	h = self.decoder["mid_block"]["resnets"][1](h)

	for up_block in self.decoder["up_blocks"]:
	for resnet in up_block["resnets"]:
	h = resnet(h)

	if "upsamplers" in up_block:
	h = F.interpolate(h, scale_factor=2.0, mode="nearest")
	h = up_block["upsamplers"][0]["conv"](h)

	h = self.decoder["conv_norm_out"](h)
	h = self.decoder["conv_act"](h)
	h = self.decoder["conv_out"](h)

	x_pred = h

	return x_pred

	@classmethod
	def input_pil_to_tensor(self, x):
	x = TF.to_tensor(x)
	x = TF.normalize(x, [0.5], [0.5])
	if x.ndim == 3:
	x = x[None, :, :, :]
	return x

	@classmethod
	def output_tensor_to_pil(self, x_pred):
	x_pred = ((x_pred * 0.5 + 0.5).clamp(0, 1) * 255).to(torch.uint8).permute(0, 2, 3, 1).cpu().numpy()

	x_pred = [Image.fromarray(x) for x in x_pred]

	return x_pred

	@classmethod
	def load_fp32(cls, device='cpu', overrides=None):
	return cls.load("./weights/sdxl_vae.safetensors", device=device, overrides=overrides)

	@classmethod
	def load_fp16(cls, device='cpu', overrides=None):
	return cls.load("./weights/sdxl_vae.fp16.safetensors", device=device, overrides=overrides)

	@classmethod
	def load_fp16_fix(cls, device='cpu', overrides=None):
	return cls.load("./weights/sdxl_vae_fp16_fix.safetensors", device=device, overrides=overrides)


	class SDXLUNet(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	encoder_hidden_states_dim = 2048

	# timesteps embedding:

	time_sinusoidal_embedding_dim = 320
	time_embedding_dim = 1280

	self.get_sinusoidal_timestep_embedding = lambda timesteps: get_sinusoidal_embedding(timesteps, time_sinusoidal_embedding_dim)

	self.time_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(time_sinusoidal_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# image size and crop coordinates conditioning embedding (i.e. micro conditioning):

	num_micro_conditioning_values = 6
	micro_conditioning_embedding_dim = 256
	additional_embedding_encoder_dim = 1280
	self.get_sinusoidal_micro_conditioning_embedding = lambda micro_conditioning: get_sinusoidal_embedding(micro_conditioning, micro_conditioning_embedding_dim)

	self.add_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(additional_embedding_encoder_dim + num_micro_conditioning_values * micro_conditioning_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# actual unet blocks:

	self.conv_in = nn.Conv2d(4, 320, kernel_size=3, padding=1)

	self.down_blocks = nn.ModuleList([
	# 320 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 320, time_embedding_dim),
	ResnetBlock2D(320, 320, time_embedding_dim),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(320, 320, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 320 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 640, time_embedding_dim),
	ResnetBlock2D(640, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 640 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	)),
	])

	self.mid_block = nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10)]),
	))

	self.up_blocks = nn.ModuleList([
	# 1280 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280 + 1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280 + 1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280 + 640, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(1280, 1280, kernel_size=3, padding=1)))]),
	)),
	# 1280 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280 + 640, 640, time_embedding_dim),
	ResnetBlock2D(640 + 640, 640, time_embedding_dim),
	ResnetBlock2D(640 + 320, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, padding=1)))]),
	)),
	# 640 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640 + 320, 320, time_embedding_dim),
	ResnetBlock2D(320 + 320, 320, time_embedding_dim),
	ResnetBlock2D(320 + 320, 320, time_embedding_dim),
	]),
	))
	])

	self.conv_norm_out = nn.GroupNorm(32, 320)
	self.conv_act = nn.SiLU()
	self.conv_out = nn.Conv2d(320, 4, kernel_size=3, padding=1)

	# fmt: on

	def forward(
	self,
	x_t,
	t,
	encoder_hidden_states,
	micro_conditioning,
	pooled_encoder_hidden_states,
	down_block_additional_residuals: Optional[List[torch.Tensor]] = None,
	mid_block_additional_residual: Optional[torch.Tensor] = None,
	add_to_down_block_inputs: Optional[List[torch.Tensor]] = None,
	add_to_output: Optional[torch.Tensor] = None,
	):
	hidden_state = x_t

	t = self.get_sinusoidal_timestep_embedding(t)
	t = t.to(dtype=hidden_state.dtype)
	t = self.time_embedding["linear_1"](t)
	t = self.time_embedding["act"](t)
	t = self.time_embedding["linear_2"](t)

	additional_conditioning = self.get_sinusoidal_micro_conditioning_embedding(micro_conditioning)
	additional_conditioning = additional_conditioning.to(dtype=hidden_state.dtype)
	additional_conditioning = additional_conditioning.flatten(1)
	additional_conditioning = torch.concat([pooled_encoder_hidden_states, additional_conditioning], dim=-1)
	additional_conditioning = self.add_embedding["linear_1"](additional_conditioning)
	additional_conditioning = self.add_embedding["act"](additional_conditioning)
	additional_conditioning = self.add_embedding["linear_2"](additional_conditioning)

	t = t + additional_conditioning

	hidden_state = self.conv_in(hidden_state)

	residuals = [hidden_state]

	for down_block in self.down_blocks:
	for i, resnet in enumerate(down_block["resnets"]):
	if add_to_down_block_inputs is not None:
	hidden_state = hidden_state + add_to_down_block_inputs.pop(0)

	hidden_state = resnet(hidden_state, t)

	if "attentions" in down_block:
	hidden_state = down_block["attentions"][i](hidden_state, encoder_hidden_states)

	residuals.append(hidden_state)

	if "downsamplers" in down_block:
	if add_to_down_block_inputs is not None:
	hidden_state = hidden_state + add_to_down_block_inputs.pop(0)

	hidden_state = down_block["downsamplers"][0]["conv"](hidden_state)

	residuals.append(hidden_state)

	hidden_state = self.mid_block["resnets"][0](hidden_state, t)
	hidden_state = self.mid_block["attentions"][0](hidden_state, encoder_hidden_states)
	hidden_state = self.mid_block["resnets"][1](hidden_state, t)

	if mid_block_additional_residual is not None:
	hidden_state = hidden_state + mid_block_additional_residual

	for up_block in self.up_blocks:
	for i, resnet in enumerate(up_block["resnets"]):
	residual = residuals.pop()

	if down_block_additional_residuals is not None:
	residual = residual + down_block_additional_residuals.pop()

	hidden_state = torch.concat([hidden_state, residual], dim=1)

	hidden_state = resnet(hidden_state, t)

	if "attentions" in up_block:
	hidden_state = up_block["attentions"][i](hidden_state, encoder_hidden_states)

	if "upsamplers" in up_block:
	hidden_state = F.interpolate(hidden_state, scale_factor=2.0, mode="nearest")
	hidden_state = up_block["upsamplers"][0]["conv"](hidden_state)

	hidden_state = self.conv_norm_out(hidden_state)
	hidden_state = self.conv_act(hidden_state)
	hidden_state = self.conv_out(hidden_state)

	if add_to_output is not None:
	hidden_state = hidden_state + add_to_output

	eps_hat = hidden_state

	return eps_hat

	@classmethod
	def load_fp32(cls, device='cpu', overrides=None):
	return cls.load("./weights/sdxl_unet.safetensors", device=device, overrides=overrides)

	@classmethod
	def load_fp16(cls, device='cpu', overrides=None):
	return cls.load("./weights/sdxl_unet.fp16.safetensors", device=device, overrides=overrides)


	class SDXLControlNet(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	encoder_hidden_states_dim = 2048

	# timesteps embedding:

	time_sinusoidal_embedding_dim = 320
	time_embedding_dim = 1280

	self.get_sinusoidal_timestep_embedding = lambda timesteps: get_sinusoidal_embedding(timesteps, time_sinusoidal_embedding_dim)

	self.time_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(time_sinusoidal_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# image size and crop coordinates conditioning embedding (i.e. micro conditioning):

	num_micro_conditioning_values = 6
	micro_conditioning_embedding_dim = 256
	additional_embedding_encoder_dim = 1280
	self.get_sinusoidal_micro_conditioning_embedding = lambda micro_conditioning: get_sinusoidal_embedding(micro_conditioning, micro_conditioning_embedding_dim)

	self.add_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(additional_embedding_encoder_dim + num_micro_conditioning_values * micro_conditioning_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# controlnet cond embedding:
	self.controlnet_cond_embedding = nn.ModuleDict(dict(
	conv_in=nn.Conv2d(3, 16, kernel_size=3, padding=1),
	blocks=nn.ModuleList([
	# 16 -> 32
	nn.Conv2d(16, 16, kernel_size=3, padding=1),
	nn.Conv2d(16, 32, kernel_size=3, padding=1, stride=2),
	# 32 -> 96
	nn.Conv2d(32, 32, kernel_size=3, padding=1),
	nn.Conv2d(32, 96, kernel_size=3, padding=1, stride=2),
	# 96 -> 256
	nn.Conv2d(96, 96, kernel_size=3, padding=1),
	nn.Conv2d(96, 256, kernel_size=3, padding=1, stride=2),
	]),
	conv_out=zero_module(nn.Conv2d(256, 320, kernel_size=3, padding=1)),
	))

	# actual unet blocks:

	self.conv_in = nn.Conv2d(4, 320, kernel_size=3, padding=1)

	self.down_blocks = nn.ModuleList([
	# 320 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 320, time_embedding_dim),
	ResnetBlock2D(320, 320, time_embedding_dim),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(320, 320, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 320 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 640, time_embedding_dim),
	ResnetBlock2D(640, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 640 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	)),
	])

	self.controlnet_down_blocks = nn.ModuleList([
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	])

	self.mid_block = nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10)]),
	))

	self.controlnet_mid_block = zero_module(nn.Conv2d(1280, 1280, kernel_size=1))

	# fmt: on

	def forward(
	self,
	x_t,
	t,
	encoder_hidden_states,
	micro_conditioning,
	pooled_encoder_hidden_states,
	controlnet_cond,
	):
	hidden_state = x_t

	t = self.get_sinusoidal_timestep_embedding(t)
	t = t.to(dtype=hidden_state.dtype)
	t = self.time_embedding["linear_1"](t)
	t = self.time_embedding["act"](t)
	t = self.time_embedding["linear_2"](t)

	additional_conditioning = self.get_sinusoidal_micro_conditioning_embedding(micro_conditioning)
	additional_conditioning = additional_conditioning.to(dtype=hidden_state.dtype)
	additional_conditioning = additional_conditioning.flatten(1)
	additional_conditioning = torch.concat([pooled_encoder_hidden_states, additional_conditioning], dim=-1)
	additional_conditioning = self.add_embedding["linear_1"](additional_conditioning)
	additional_conditioning = self.add_embedding["act"](additional_conditioning)
	additional_conditioning = self.add_embedding["linear_2"](additional_conditioning)

	t = t + additional_conditioning

	controlnet_cond = self.controlnet_cond_embedding["conv_in"](controlnet_cond)
	controlnet_cond = F.silu(controlnet_cond)

	for block in self.controlnet_cond_embedding["blocks"]:
	controlnet_cond = F.silu(block(controlnet_cond))

	controlnet_cond = self.controlnet_cond_embedding["conv_out"](controlnet_cond)

	hidden_state = self.conv_in(hidden_state)

	hidden_state = hidden_state + controlnet_cond

	down_block_res_sample = self.controlnet_down_blocks[0](hidden_state)
	down_block_res_samples = [down_block_res_sample]

	for down_block in self.down_blocks:
	for i, resnet in enumerate(down_block["resnets"]):
	hidden_state = resnet(hidden_state, t)

	if "attentions" in down_block:
	hidden_state = down_block["attentions"][i](hidden_state, encoder_hidden_states)

	down_block_res_sample = self.controlnet_down_blocks[len(down_block_res_samples)](hidden_state)
	down_block_res_samples.append(down_block_res_sample)

	if "downsamplers" in down_block:
	hidden_state = down_block["downsamplers"][0]["conv"](hidden_state)

	down_block_res_sample = self.controlnet_down_blocks[len(down_block_res_samples)](hidden_state)
	down_block_res_samples.append(down_block_res_sample)

	hidden_state = self.mid_block["resnets"][0](hidden_state, t)
	hidden_state = self.mid_block["attentions"][0](hidden_state, encoder_hidden_states)
	hidden_state = self.mid_block["resnets"][1](hidden_state, t)

	mid_block_res_sample = self.controlnet_mid_block(hidden_state)

	return dict(
	down_block_res_samples=down_block_res_samples,
	mid_block_res_sample=mid_block_res_sample,
	)

	@classmethod
	def from_unet(cls, unet):
	controlnet = cls()

	controlnet.time_embedding.load_state_dict(unet.time_embedding.state_dict())
	controlnet.add_embedding.load_state_dict(unet.add_embedding.state_dict())

	controlnet.conv_in.load_state_dict(unet.conv_in.state_dict())

	controlnet.down_blocks.load_state_dict(unet.down_blocks.state_dict())
	controlnet.mid_block.load_state_dict(unet.mid_block.state_dict())

	return controlnet


	class SDXLControlNetPreEncodedControlnetCond(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	encoder_hidden_states_dim = 2048

	# timesteps embedding:

	time_sinusoidal_embedding_dim = 320
	time_embedding_dim = 1280

	self.get_sinusoidal_timestep_embedding = lambda timesteps: get_sinusoidal_embedding(timesteps, time_sinusoidal_embedding_dim)

	self.time_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(time_sinusoidal_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# image size and crop coordinates conditioning embedding (i.e. micro conditioning):

	num_micro_conditioning_values = 6
	micro_conditioning_embedding_dim = 256
	additional_embedding_encoder_dim = 1280
	self.get_sinusoidal_micro_conditioning_embedding = lambda micro_conditioning: get_sinusoidal_embedding(micro_conditioning, micro_conditioning_embedding_dim)

	self.add_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(additional_embedding_encoder_dim + num_micro_conditioning_values * micro_conditioning_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# actual unet blocks:

	# unet latents: 4 +
	# control image latents: 4 +
	# controlnet_mask: 1
	# = 9 channels
	self.conv_in = nn.Conv2d(9, 320, kernel_size=3, padding=1)

	self.down_blocks = nn.ModuleList([
	# 320 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 320, time_embedding_dim),
	ResnetBlock2D(320, 320, time_embedding_dim),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(320, 320, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 320 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 640, time_embedding_dim),
	ResnetBlock2D(640, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 640 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	)),
	])

	self.controlnet_down_blocks = nn.ModuleList([
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	])

	self.mid_block = nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10)]),
	))

	self.controlnet_mid_block = zero_module(nn.Conv2d(1280, 1280, kernel_size=1))

	# fmt: on

	def forward(
	self,
	x_t,
	t,
	encoder_hidden_states,
	micro_conditioning,
	pooled_encoder_hidden_states,
	controlnet_cond,
	):
	hidden_state = x_t

	t = self.get_sinusoidal_timestep_embedding(t)
	t = t.to(dtype=hidden_state.dtype)
	t = self.time_embedding["linear_1"](t)
	t = self.time_embedding["act"](t)
	t = self.time_embedding["linear_2"](t)

	additional_conditioning = self.get_sinusoidal_micro_conditioning_embedding(micro_conditioning)
	additional_conditioning = additional_conditioning.to(dtype=hidden_state.dtype)
	additional_conditioning = additional_conditioning.flatten(1)
	additional_conditioning = torch.concat([pooled_encoder_hidden_states, additional_conditioning], dim=-1)
	additional_conditioning = self.add_embedding["linear_1"](additional_conditioning)
	additional_conditioning = self.add_embedding["act"](additional_conditioning)
	additional_conditioning = self.add_embedding["linear_2"](additional_conditioning)

	t = t + additional_conditioning

	hidden_state = torch.concat((hidden_state, controlnet_cond), dim=1)

	hidden_state = self.conv_in(hidden_state)

	down_block_res_sample = self.controlnet_down_blocks[0](hidden_state)
	down_block_res_samples = [down_block_res_sample]

	for down_block in self.down_blocks:
	for i, resnet in enumerate(down_block["resnets"]):
	hidden_state = resnet(hidden_state, t)

	if "attentions" in down_block:
	hidden_state = down_block["attentions"][i](hidden_state, encoder_hidden_states)

	down_block_res_sample = self.controlnet_down_blocks[len(down_block_res_samples)](hidden_state)
	down_block_res_samples.append(down_block_res_sample)

	if "downsamplers" in down_block:
	hidden_state = down_block["downsamplers"][0]["conv"](hidden_state)

	down_block_res_sample = self.controlnet_down_blocks[len(down_block_res_samples)](hidden_state)
	down_block_res_samples.append(down_block_res_sample)

	hidden_state = self.mid_block["resnets"][0](hidden_state, t)
	hidden_state = self.mid_block["attentions"][0](hidden_state, encoder_hidden_states)
	hidden_state = self.mid_block["resnets"][1](hidden_state, t)

	mid_block_res_sample = self.controlnet_mid_block(hidden_state)

	return dict(
	down_block_res_samples=down_block_res_samples,
	mid_block_res_sample=mid_block_res_sample,
	)

	@classmethod
	def from_unet(cls, unet):
	controlnet = cls()

	controlnet.time_embedding.load_state_dict(unet.time_embedding.state_dict())
	controlnet.add_embedding.load_state_dict(unet.add_embedding.state_dict())

	conv_in_weight = unet.conv_in.state_dict()["weight"]
	padding = torch.zeros((320, 5, 3, 3), device=conv_in_weight.device, dtype=conv_in_weight.dtype)
	conv_in_weight = torch.concat((conv_in_weight, padding), dim=1)

	conv_in_bias = unet.conv_in.state_dict()["bias"]

	controlnet.conv_in.load_state_dict({"weight": conv_in_weight, "bias": conv_in_bias})

	controlnet.down_blocks.load_state_dict(unet.down_blocks.state_dict())
	controlnet.mid_block.load_state_dict(unet.mid_block.state_dict())

	return controlnet


	class SDXLControlNetFull(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	encoder_hidden_states_dim = 2048

	# timesteps embedding:

	time_sinusoidal_embedding_dim = 320
	time_embedding_dim = 1280

	self.get_sinusoidal_timestep_embedding = lambda timesteps: get_sinusoidal_embedding(timesteps, time_sinusoidal_embedding_dim)

	self.time_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(time_sinusoidal_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# image size and crop coordinates conditioning embedding (i.e. micro conditioning):

	num_micro_conditioning_values = 6
	micro_conditioning_embedding_dim = 256
	additional_embedding_encoder_dim = 1280
	self.get_sinusoidal_micro_conditioning_embedding = lambda micro_conditioning: get_sinusoidal_embedding(micro_conditioning, micro_conditioning_embedding_dim)

	self.add_embedding = nn.ModuleDict(dict(
	linear_1=nn.Linear(additional_embedding_encoder_dim + num_micro_conditioning_values * micro_conditioning_embedding_dim, time_embedding_dim),
	act=nn.SiLU(),
	linear_2=nn.Linear(time_embedding_dim, time_embedding_dim),
	))

	# controlnet cond embedding:
	self.controlnet_cond_embedding = nn.ModuleDict(dict(
	conv_in=nn.Conv2d(3, 16, kernel_size=3, padding=1),
	blocks=nn.ModuleList([
	# 16 -> 32
	nn.Conv2d(16, 16, kernel_size=3, padding=1),
	nn.Conv2d(16, 32, kernel_size=3, padding=1, stride=2),
	# 32 -> 96
	nn.Conv2d(32, 32, kernel_size=3, padding=1),
	nn.Conv2d(32, 96, kernel_size=3, padding=1, stride=2),
	# 96 -> 256
	nn.Conv2d(96, 96, kernel_size=3, padding=1),
	nn.Conv2d(96, 256, kernel_size=3, padding=1, stride=2),
	]),
	conv_out=zero_module(nn.Conv2d(256, 320, kernel_size=3, padding=1)),
	))

	# actual unet blocks:

	self.conv_in = nn.Conv2d(4, 320, kernel_size=3, padding=1)

	self.down_blocks = nn.ModuleList([
	# 320 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 320, time_embedding_dim),
	ResnetBlock2D(320, 320, time_embedding_dim),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(320, 320, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 320 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(320, 640, time_embedding_dim),
	ResnetBlock2D(640, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	downsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, stride=2, padding=1)))]),
	)),
	# 640 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	)),
	])

	self.controlnet_down_blocks = nn.ModuleList([
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	])

	self.mid_block = nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10)]),
	))

	self.controlnet_mid_block = zero_module(nn.Conv2d(1280, 1280, kernel_size=1))

	self.up_blocks = nn.ModuleList([
	# 1280 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280 + 1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280 + 1280, 1280, time_embedding_dim),
	ResnetBlock2D(1280 + 640, 1280, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	TransformerDecoder2D(1280, encoder_hidden_states_dim, num_transformer_blocks=10),
	]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(1280, 1280, kernel_size=3, padding=1)))]),
	)),
	# 1280 -> 640
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(1280 + 640, 640, time_embedding_dim),
	ResnetBlock2D(640 + 640, 640, time_embedding_dim),
	ResnetBlock2D(640 + 320, 640, time_embedding_dim),
	]),
	attentions=nn.ModuleList([
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	TransformerDecoder2D(640, encoder_hidden_states_dim, num_transformer_blocks=2),
	]),
	upsamplers=nn.ModuleList([nn.ModuleDict(dict(conv=nn.Conv2d(640, 640, kernel_size=3, padding=1)))]),
	)),
	# 640 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList([
	ResnetBlock2D(640 + 320, 320, time_embedding_dim),
	ResnetBlock2D(320 + 320, 320, time_embedding_dim),
	ResnetBlock2D(320 + 320, 320, time_embedding_dim),
	]),
	))
	])

	# take the output of transformer(resnet(hidden_states)) and project it to
	# the number of residual channels for the same block
	self.controlnet_up_blocks = nn.ModuleList([
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 1280, kernel_size=1)),
	zero_module(nn.Conv2d(1280, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 640, kernel_size=1)),
	zero_module(nn.Conv2d(640, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	zero_module(nn.Conv2d(320, 320, kernel_size=1)),
	])

	self.conv_norm_out = nn.GroupNorm(32, 320)
	self.conv_act = nn.SiLU()
	self.conv_out = nn.Conv2d(320, 4, kernel_size=3, padding=1)

	self.controlnet_conv_out = zero_module(nn.Conv2d(4, 4, kernel_size=1))

	# fmt: on

	def forward(
	self,
	x_t,
	t,
	encoder_hidden_states,
	micro_conditioning,
	pooled_encoder_hidden_states,
	controlnet_cond,
	):
	hidden_state = x_t

	t = self.get_sinusoidal_timestep_embedding(t)
	t = t.to(dtype=hidden_state.dtype)
	t = self.time_embedding["linear_1"](t)
	t = self.time_embedding["act"](t)
	t = self.time_embedding["linear_2"](t)

	additional_conditioning = self.get_sinusoidal_micro_conditioning_embedding(micro_conditioning)
	additional_conditioning = additional_conditioning.to(dtype=hidden_state.dtype)
	additional_conditioning = additional_conditioning.flatten(1)
	additional_conditioning = torch.concat([pooled_encoder_hidden_states, additional_conditioning], dim=-1)
	additional_conditioning = self.add_embedding["linear_1"](additional_conditioning)
	additional_conditioning = self.add_embedding["act"](additional_conditioning)
	additional_conditioning = self.add_embedding["linear_2"](additional_conditioning)

	t = t + additional_conditioning

	controlnet_cond = self.controlnet_cond_embedding["conv_in"](controlnet_cond)
	controlnet_cond = F.silu(controlnet_cond)

	for block in self.controlnet_cond_embedding["blocks"]:
	controlnet_cond = F.silu(block(controlnet_cond))

	controlnet_cond = self.controlnet_cond_embedding["conv_out"](controlnet_cond)

	hidden_state = self.conv_in(hidden_state)

	hidden_state = hidden_state + controlnet_cond

	residuals = [hidden_state]

	add_to_down_block_input = self.controlnet_down_blocks[0](hidden_state)
	add_to_down_block_inputs = [add_to_down_block_input]

	for down_block in self.down_blocks:
	for i, resnet in enumerate(down_block["resnets"]):
	hidden_state = resnet(hidden_state, t)

	if "attentions" in down_block:
	hidden_state = down_block["attentions"][i](hidden_state, encoder_hidden_states)

	if len(add_to_down_block_inputs) < len(self.controlnet_down_blocks):
	add_to_down_block_input = self.controlnet_down_blocks[len(add_to_down_block_inputs)](hidden_state)
	add_to_down_block_inputs.append(add_to_down_block_input)

	residuals.append(hidden_state)

	if "downsamplers" in down_block:
	hidden_state = down_block["downsamplers"][0]["conv"](hidden_state)

	if len(add_to_down_block_inputs) < len(self.controlnet_down_blocks):
	add_to_down_block_input = self.controlnet_down_blocks[len(add_to_down_block_inputs)](hidden_state)
	add_to_down_block_inputs.append(add_to_down_block_input)

	residuals.append(hidden_state)

	hidden_state = self.mid_block["resnets"][0](hidden_state, t)
	hidden_state = self.mid_block["attentions"][0](hidden_state, encoder_hidden_states)
	hidden_state = self.mid_block["resnets"][1](hidden_state, t)

	mid_block_res_sample = self.controlnet_mid_block(hidden_state)

	down_block_res_samples = []

	for up_block in self.up_blocks:
	for i, resnet in enumerate(up_block["resnets"]):
	residual = residuals.pop()

	hidden_state = torch.concat([hidden_state, residual], dim=1)

	hidden_state = resnet(hidden_state, t)

	if "attentions" in up_block:
	hidden_state = up_block["attentions"][i](hidden_state, encoder_hidden_states)

	down_block_res_sample = self.controlnet_up_blocks[len(down_block_res_samples)](hidden_state)
	down_block_res_samples.insert(0, down_block_res_sample)

	if "upsamplers" in up_block:
	hidden_state = F.interpolate(hidden_state, scale_factor=2.0, mode="nearest")
	hidden_state = up_block["upsamplers"][0]["conv"](hidden_state)

	hidden_state = self.conv_norm_out(hidden_state)
	hidden_state = self.conv_act(hidden_state)
	hidden_state = self.conv_out(hidden_state)

	add_to_output = self.controlnet_conv_out(hidden_state)

	return dict(
	down_block_res_samples=down_block_res_samples,
	mid_block_res_sample=mid_block_res_sample,
	add_to_down_block_inputs=add_to_down_block_inputs,
	add_to_output=add_to_output,
	)

	@classmethod
	def from_unet(cls, unet):
	controlnet = cls()

	controlnet.time_embedding.load_state_dict(unet.time_embedding.state_dict())
	controlnet.add_embedding.load_state_dict(unet.add_embedding.state_dict())

	controlnet.conv_in.load_state_dict(unet.conv_in.state_dict())

	controlnet.down_blocks.load_state_dict(unet.down_blocks.state_dict())
	controlnet.mid_block.load_state_dict(unet.mid_block.state_dict())
	controlnet.up_blocks.load_state_dict(unet.up_blocks.state_dict())

	controlnet.conv_norm_out.load_state_dict(unet.conv_norm_out.state_dict())
	controlnet.conv_out.load_state_dict(unet.conv_out.state_dict())

	return controlnet


	class SDXLAdapter(nn.Module, ModelUtils):
	def __init__(self):
	super().__init__()

	# fmt: off

	self.adapter = nn.ModuleDict(dict(
	# 3 -> 768
	unshuffle=nn.PixelUnshuffle(16),

	# 768 -> 320
	conv_in=nn.Conv2d(768, 320, kernel_size=3, padding=1),

	body=nn.ModuleList([
	# 320 -> 320
	nn.ModuleDict(dict(
	resnets=nn.ModuleList(
	nn.ModuleDict(dict(block1=nn.Conv2d(320, 320, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(320, 320, kernel_size=1))),
	nn.ModuleDict(dict(block1=nn.Conv2d(320, 320, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(320, 320, kernel_size=1))),
	)
	)),
	# 320 -> 640
	nn.ModuleDict(dict(
	in_conv=nn.Conv2d(320, 640, kernel_size=1),
	resnets=nn.ModuleList(
	nn.ModuleDict(dict(block1=nn.Conv2d(640, 640, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(640, 640, kernel_size=1))),
	nn.ModuleDict(dict(block1=nn.Conv2d(640, 640, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(640, 640, kernel_size=1))),
	)
	)),
	# 640 -> 1280
	nn.ModuleDict(dict(
	downsample=nn.AvgPool2d(kernel_size=2, stride=2, padding=0),
	in_conv=nn.Conv2d(640, 1280, kernel_size=1),
	resnets=nn.ModuleList(
	nn.ModuleDict(dict(block1=nn.Conv2d(1280, 1280, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(1280, 1280, kernel_size=1))),
	nn.ModuleDict(dict(block1=nn.Conv2d(1280, 1280, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(1280, 1280, kernel_size=1))),
	)
	)),
	# 1280 -> 1280
	nn.ModuleDict(dict(
	resnets=nn.ModuleList(
	nn.ModuleDict(dict(block1=nn.Conv2d(1280, 1280, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(1280, 1280, kernel_size=1))),
	nn.ModuleDict(dict(block1=nn.Conv2d(1280, 1280, kernel_size=3, padding=1), act=nn.ReLU(), block2=nn.Conv2d(1280, 1280, kernel_size=1))),
	)
	)),
	])
	))

	# fmt: on

	def forward(self, x):
	x = self.unshuffle(x)
	x = self.conv_in(x)

	features = []

	for block in self.body:
	if "downsample" in block:
	x = block["downsample"](x)

	if "in_conv" in block:
	x = block["in_conv"](x)

	for resnet in block["resnets"]:
	residual = x
	x = resnet["block1"](x)
	x = resnet["act"](x)
	x = resnet["block2"](x)
	x = residual + x

	features.append(x)

	return features


	def get_sinusoidal_embedding(
	indices: torch.Tensor,
	embedding_dim: int,
	):
	half_dim = embedding_dim // 2
	exponent = -math.log(10000) * torch.arange(start=0, end=half_dim, dtype=torch.float32, device=indices.device)
	exponent = exponent / half_dim

	emb = torch.exp(exponent)
	emb = indices.unsqueeze(-1).float() * emb
	emb = torch.cat([torch.cos(emb), torch.sin(emb)], dim=-1)

	return emb


	class ResnetBlock2D(nn.Module):
	def __init__(self, in_channels, out_channels, time_embedding_dim=None, eps=1e-5):
	super().__init__()

	if time_embedding_dim is not None:
	self.time_emb_proj = nn.Linear(time_embedding_dim, out_channels)
	else:
	self.time_emb_proj = None

	self.norm1 = torch.nn.GroupNorm(32, in_channels, eps=eps)
	self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)

	self.norm2 = nn.GroupNorm(32, out_channels, eps=eps)
	self.dropout = nn.Dropout(0.0)
	self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)

	self.nonlinearity = nn.SiLU()

	if in_channels != out_channels:
	self.conv_shortcut = nn.Conv2d(in_channels, out_channels, kernel_size=1)
	else:
	self.conv_shortcut = None

	def forward(self, hidden_states, temb=None):
	residual = hidden_states

	hidden_states = self.norm1(hidden_states)
	hidden_states = self.nonlinearity(hidden_states)
	hidden_states = self.conv1(hidden_states)

	if self.time_emb_proj is not None:
	assert temb is not None
	temb = self.nonlinearity(temb)
	temb = self.time_emb_proj(temb)[:, :, None, None]
	hidden_states = hidden_states + temb

	hidden_states = self.norm2(hidden_states)
	hidden_states = self.nonlinearity(hidden_states)
	hidden_states = self.dropout(hidden_states)
	hidden_states = self.conv2(hidden_states)

	if self.conv_shortcut is not None:
	residual = self.conv_shortcut(residual)

	hidden_states = hidden_states + residual

	return hidden_states


	class TransformerDecoder2D(nn.Module):
	def __init__(self, channels, encoder_hidden_states_dim, num_transformer_blocks):
	super().__init__()

	self.norm = nn.GroupNorm(32, channels, eps=1e-06)
	self.proj_in = nn.Linear(channels, channels)

	self.transformer_blocks = nn.ModuleList([TransformerDecoderBlock(channels, encoder_hidden_states_dim) for _ in range(num_transformer_blocks)])

	self.proj_out = nn.Linear(channels, channels)

	def forward(self, hidden_states, encoder_hidden_states):
	batch_size, channels, height, width = hidden_states.shape

	residual = hidden_states

	hidden_states = self.norm(hidden_states)
	hidden_states = hidden_states.permute(0, 2, 3, 1).reshape(batch_size, height * width, channels)
	hidden_states = self.proj_in(hidden_states)

	for block in self.transformer_blocks:
	hidden_states = block(hidden_states, encoder_hidden_states)

	hidden_states = self.proj_out(hidden_states)
	hidden_states = hidden_states.reshape(batch_size, height, width, channels).permute(0, 3, 1, 2).contiguous()

	hidden_states = hidden_states + residual

	return hidden_states


	class TransformerDecoderBlock(nn.Module):
	def __init__(self, channels, encoder_hidden_states_dim):
	super().__init__()

	self.norm1 = nn.LayerNorm(channels)
	self.attn1 = Attention(channels, channels)

	self.norm2 = nn.LayerNorm(channels)
	self.attn2 = Attention(channels, encoder_hidden_states_dim)

	self.norm3 = nn.LayerNorm(channels)
	self.ff = nn.ModuleDict(dict(net=nn.Sequential(GEGLU(channels, 4 * channels), nn.Dropout(0.0), nn.Linear(4 * channels, channels))))

	def forward(self, hidden_states, encoder_hidden_states):
	hidden_states = self.attn1(self.norm1(hidden_states)) + hidden_states

	hidden_states = self.attn2(self.norm2(hidden_states), encoder_hidden_states) + hidden_states

	hidden_states = self.ff["net"](self.norm3(hidden_states)) + hidden_states

	return hidden_states


	_attention_implementation: Literal["xformers", "torch_2.0_scaled_dot_product"] = "torch_2.0_scaled_dot_product"


	def set_attention_implementation(impl: Literal["xformers", "torch_2.0_scaled_dot_product"]):
	global _attention_implementation
	_attention_implementation = impl


	def attention(to_q, to_k, to_v, to_out, head_dim, hidden_states, encoder_hidden_states=None):
	batch_size, q_seq_len, channels = hidden_states.shape

	if encoder_hidden_states is not None:
	kv = encoder_hidden_states
	else:
	kv = hidden_states

	kv_seq_len = kv.shape[1]

	query = to_q(hidden_states)
	key = to_k(kv)
	value = to_v(kv)

	if _attention_implementation == "xformers":
	import xformers.ops

	query = query.reshape(batch_size, q_seq_len, channels // head_dim, head_dim).contiguous()
	key = key.reshape(batch_size, kv_seq_len, channels // head_dim, head_dim).contiguous()
	value = value.reshape(batch_size, kv_seq_len, channels // head_dim, head_dim).contiguous()

	hidden_states = xformers.ops.memory_efficient_attention(query, key, value)

	hidden_states = hidden_states.to(query.dtype)
	hidden_states = hidden_states.reshape(batch_size, q_seq_len, channels).contiguous()
	elif _attention_implementation == "torch_2.0_scaled_dot_product":
	query = query.reshape(batch_size, q_seq_len, channels // head_dim, head_dim).transpose(1, 2).contiguous()
	key = key.reshape(batch_size, kv_seq_len, channels // head_dim, head_dim).transpose(1, 2).contiguous()
	value = value.reshape(batch_size, kv_seq_len, channels // head_dim, head_dim).transpose(1, 2).contiguous()

	hidden_states = F.scaled_dot_product_attention(query, key, value)

	hidden_states = hidden_states.to(query.dtype)
	hidden_states = hidden_states.transpose(1, 2).reshape(batch_size, q_seq_len, channels).contiguous()
	else:
	assert False

	hidden_states = to_out(hidden_states)

	return hidden_states


	class Attention(nn.Module):
	def __init__(self, channels, encoder_hidden_states_dim):
	super().__init__()
	self.to_q = nn.Linear(channels, channels, bias=False)
	self.to_k = nn.Linear(encoder_hidden_states_dim, channels, bias=False)
	self.to_v = nn.Linear(encoder_hidden_states_dim, channels, bias=False)
	self.to_out = nn.Sequential(nn.Linear(channels, channels), nn.Dropout(0.0))

	def forward(self, hidden_states, encoder_hidden_states=None):
	return attention(self.to_q, self.to_k, self.to_v, self.to_out, 64, hidden_states, encoder_hidden_states)


	class VaeMidBlockAttention(nn.Module):
	def __init__(self, channels):
	super().__init__()
	self.group_norm = nn.GroupNorm(32, channels, eps=1e-06)
	self.to_q = nn.Linear(channels, channels)
	self.to_k = nn.Linear(channels, channels)
	self.to_v = nn.Linear(channels, channels)
	self.to_out = nn.Sequential(nn.Linear(channels, channels), nn.Dropout(0.0))
	self.head_dim = channels

	def forward(self, hidden_states):
	residual = hidden_states

	batch_size, channels, height, width = hidden_states.shape
	hidden_states = hidden_states.view(batch_size, channels, height * width).transpose(1, 2)

	hidden_states = self.group_norm(hidden_states.transpose(1, 2)).transpose(1, 2)

	hidden_states = attention(self.to_q, self.to_k, self.to_v, self.to_out, self.head_dim, hidden_states)

	hidden_states = hidden_states.transpose(1, 2).view(batch_size, channels, height, width)

	hidden_states = hidden_states + residual

	return hidden_states


	class GEGLU(nn.Module):
	def __init__(self, dim_in: int, dim_out: int):
	super().__init__()
	self.proj = nn.Linear(dim_in, dim_out * 2)

	def forward(self, hidden_states):
	hidden_states, gate = self.proj(hidden_states).chunk(2, dim=-1)
	return hidden_states * F.gelu(gate)


	def zero_module(module):
	for p in module.parameters():
	nn.init.zeros_(p)
	return module