Stable-Cascade-FP16-fixed / stable_cascade.py

Upload stable_cascade.py

dc99abb verified 5 months ago

No virus

66 kB

	# コードは Stable Cascade からコピーし、一部修正しています。元ライセンスは MIT です。
	# The code is copied from Stable Cascade and modified. The original license is MIT.
	# https://github.com/Stability-AI/StableCascade

	import math
	from types import SimpleNamespace
	from typing import List, Optional
	import numpy as np
	import torch
	import torch.nn as nn
	import torch.utils.checkpoint
	import torchvision



	def check_scale(tensor):
	return torch.mean(torch.abs(tensor))


	# region VectorQuantize

	# from torchtools https://github.com/pabloppp/pytorch-tools
	# 依存ライブラリを増やしたくないのでここにコピペ


	class vector_quantize(torch.autograd.Function):
	@staticmethod
	def forward(ctx, x, codebook):
	with torch.no_grad():
	codebook_sqr = torch.sum(codebook**2, dim=1)
	x_sqr = torch.sum(x**2, dim=1, keepdim=True)

	dist = torch.addmm(codebook_sqr + x_sqr, x, codebook.t(), alpha=-2.0, beta=1.0)
	_, indices = dist.min(dim=1)

	ctx.save_for_backward(indices, codebook)
	ctx.mark_non_differentiable(indices)

	nn = torch.index_select(codebook, 0, indices)
	return nn, indices

	@staticmethod
	def backward(ctx, grad_output, grad_indices):
	grad_inputs, grad_codebook = None, None

	if ctx.needs_input_grad[0]:
	grad_inputs = grad_output.clone()
	if ctx.needs_input_grad[1]:
	# Gradient wrt. the codebook
	indices, codebook = ctx.saved_tensors

	grad_codebook = torch.zeros_like(codebook)
	grad_codebook.index_add_(0, indices, grad_output)

	return (grad_inputs, grad_codebook)


	class VectorQuantize(nn.Module):
	def __init__(self, embedding_size, k, ema_decay=0.99, ema_loss=False):
	"""
	Takes an input of variable size (as long as the last dimension matches the embedding size).
	Returns one tensor containing the nearest neighbour embeddings to each of the inputs,
	with the same size as the input, vq and commitment components for the loss as a tuple
	in the second output and the indices of the quantized vectors in the third:
	quantized, (vq_loss, commit_loss), indices
	"""
	super(VectorQuantize, self).__init__()

	self.codebook = nn.Embedding(k, embedding_size)
	self.codebook.weight.data.uniform_(-1.0 / k, 1.0 / k)
	self.vq = vector_quantize.apply

	self.ema_decay = ema_decay
	self.ema_loss = ema_loss
	if ema_loss:
	self.register_buffer("ema_element_count", torch.ones(k))
	self.register_buffer("ema_weight_sum", torch.zeros_like(self.codebook.weight))

	def _laplace_smoothing(self, x, epsilon):
	n = torch.sum(x)
	return (x + epsilon) / (n + x.size(0) * epsilon) * n

	def _updateEMA(self, z_e_x, indices):
	mask = nn.functional.one_hot(indices, self.ema_element_count.size(0)).float()
	elem_count = mask.sum(dim=0)
	weight_sum = torch.mm(mask.t(), z_e_x)

	self.ema_element_count = (self.ema_decay * self.ema_element_count) + ((1 - self.ema_decay) * elem_count)
	self.ema_element_count = self._laplace_smoothing(self.ema_element_count, 1e-5)
	self.ema_weight_sum = (self.ema_decay * self.ema_weight_sum) + ((1 - self.ema_decay) * weight_sum)

	self.codebook.weight.data = self.ema_weight_sum / self.ema_element_count.unsqueeze(-1)

	def idx2vq(self, idx, dim=-1):
	q_idx = self.codebook(idx)
	if dim != -1:
	q_idx = q_idx.movedim(-1, dim)
	return q_idx

	def forward(self, x, get_losses=True, dim=-1):
	if dim != -1:
	x = x.movedim(dim, -1)
	z_e_x = x.contiguous().view(-1, x.size(-1)) if len(x.shape) > 2 else x
	z_q_x, indices = self.vq(z_e_x, self.codebook.weight.detach())
	vq_loss, commit_loss = None, None
	if self.ema_loss and self.training:
	self._updateEMA(z_e_x.detach(), indices.detach())
	# pick the graded embeddings after updating the codebook in order to have a more accurate commitment loss
	z_q_x_grd = torch.index_select(self.codebook.weight, dim=0, index=indices)
	if get_losses:
	vq_loss = (z_q_x_grd - z_e_x.detach()).pow(2).mean()
	commit_loss = (z_e_x - z_q_x_grd.detach()).pow(2).mean()

	z_q_x = z_q_x.view(x.shape)
	if dim != -1:
	z_q_x = z_q_x.movedim(-1, dim)
	return z_q_x, (vq_loss, commit_loss), indices.view(x.shape[:-1])


	# endregion


	class EfficientNetEncoder(nn.Module):
	def __init__(self, c_latent=16):
	super().__init__()
	self.backbone = torchvision.models.efficientnet_v2_s(weights="DEFAULT").features.eval()
	self.mapper = nn.Sequential(
	nn.Conv2d(1280, c_latent, kernel_size=1, bias=False),
	nn.BatchNorm2d(c_latent, affine=False), # then normalize them to have mean 0 and std 1
	)

	def forward(self, x):
	return self.mapper(self.backbone(x))

	@property
	def dtype(self) -> torch.dtype:
	return next(self.parameters()).dtype

	@property
	def device(self) -> torch.device:
	return next(self.parameters()).device

	def encode(self, x):
	"""
	VAE と同じように使えるようにするためのメソッド。正しくはちゃんと呼び出し側で分けるべきだが、暫定的な対応。
	The method to make it usable like VAE. It should be separated properly, but it is a temporary response.
	"""
	# latents = vae.encode(img_tensors).latent_dist.sample().to("cpu")
	x = self(x)
	return SimpleNamespace(latent_dist=SimpleNamespace(sample=lambda: x))


	# なんかわりと乱暴な実装(;'∀')
	# 一から学習することもないだろうから、無効化しておく

	# class Linear(torch.nn.Linear):
	# def reset_parameters(self):
	# return None

	# class Conv2d(torch.nn.Conv2d):
	# def reset_parameters(self):
	# return None

	from torch.nn import Conv2d
	from torch.nn import Linear


	class Attention2D(nn.Module):
	def __init__(self, c, nhead, dropout=0.0):
	super().__init__()
	self.attn = nn.MultiheadAttention(c, nhead, dropout=dropout, bias=True, batch_first=True)

	def forward(self, x, kv, self_attn=False):
	orig_shape = x.shape
	x = x.view(x.size(0), x.size(1), -1).permute(0, 2, 1) # Bx4xHxW -> Bx(HxW)x4
	if self_attn:
	kv = torch.cat([x, kv], dim=1)
	x = self.attn(x, kv, kv, need_weights=False)[0]
	x = x.permute(0, 2, 1).view(*orig_shape)
	return x


	class LayerNorm2d(nn.LayerNorm):
	def __init__(self, args, *kwargs):
	super().__init__(args, *kwargs)

	def forward(self, x):
	return super().forward(x.permute(0, 2, 3, 1)).permute(0, 3, 1, 2)


	class GlobalResponseNorm(nn.Module):
	"from https://github.com/facebookresearch/ConvNeXt-V2/blob/3608f67cc1dae164790c5d0aead7bf2d73d9719b/models/utils.py#L105"

	def __init__(self, dim):
	super().__init__()
	self.gamma = nn.Parameter(torch.zeros(1, 1, 1, dim))
	self.beta = nn.Parameter(torch.zeros(1, 1, 1, dim))

	def forward(self, x):
	Gx = torch.norm(x, p=2, dim=(1, 2), keepdim=True)
	Nx = Gx / (Gx.mean(dim=-1, keepdim=True) + 1e-6)
	return self.gamma * (x * Nx) + self.beta + x


	class ResBlock(nn.Module):
	def __init__(self, c, c_skip=0, kernel_size=3, dropout=0.0): # , num_heads=4, expansion=2):
	super().__init__()
	self.depthwise = Conv2d(c, c, kernel_size=kernel_size, padding=kernel_size // 2, groups=c)
	# self.depthwise = SAMBlock(c, num_heads, expansion)
	self.norm = LayerNorm2d(c, elementwise_affine=False, eps=1e-6)
	self.channelwise = nn.Sequential(
	Linear(c + c_skip, c * 4), nn.GELU(), GlobalResponseNorm(c * 4), nn.Dropout(dropout), Linear(c * 4, c)
	)

	self.gradient_checkpointing = False
	self.factor = 1

	def set_factor(self, k):
	if self.factor!=1:
	return
	self.factor = k
	self.depthwise.bias.data /= k
	self.channelwise[4].weight.data /= k
	self.channelwise[4].bias.data /= k

	def set_gradient_checkpointing(self, value):
	self.gradient_checkpointing = value

	def forward_body(self, x, x_skip=None):
	x_res = x
	#x = x /self.factor
	x = self.depthwise(x)
	x = self.norm(x)
	# if torch.any(torch.isnan(x)):
	#print("nan in first norm")
	if x_skip is not None:
	x = torch.cat([x, x_skip], dim=1)
	x = self.channelwise(x.permute(0, 2, 3, 1)).permute(0, 3, 1, 2)# * self.factor
	# if torch.any(torch.isnan(x)):
	#print("nan in second norm")
	# result = x + x_res
	# if check_scale(x) > 5:
	# self.scale = 0.1
	return x+ x_res

	def forward(self, x, x_skip=None):
	# if self.factor > 1:
	#print("ResBlock: factor > 1")
	if self.training and self.gradient_checkpointing:
	# logger.info("ResnetBlock2D: gradient_checkpointing")

	def create_custom_forward(func):
	def custom_forward(*inputs):
	return func(*inputs)

	return custom_forward

	x = torch.utils.checkpoint.checkpoint(create_custom_forward(self.forward_body), x, x_skip)
	else:
	x = self.forward_body(x, x_skip)

	return x


	class AttnBlock(nn.Module):
	def __init__(self, c, c_cond, nhead, self_attn=True, dropout=0.0):
	super().__init__()
	self.self_attn = self_attn
	self.norm = LayerNorm2d(c, elementwise_affine=False, eps=1e-6)
	self.attention = Attention2D(c, nhead, dropout)
	self.kv_mapper = nn.Sequential(nn.SiLU(), Linear(c_cond, c))

	self.gradient_checkpointing = False
	self.factor = 1

	def set_factor(self, k):
	if self.factor!=1:
	return
	self.factor = k
	self.attention.attn.out_proj.weight.data /= k
	if self.attention.attn.out_proj.bias is not None:
	self.attention.attn.out_proj.bias.data /= k

	def set_gradient_checkpointing(self, value):
	self.gradient_checkpointing = value

	def forward_body(self, x, kv):
	kv = self.kv_mapper(kv)
	x = x + self.attention(self.norm(x), kv, self_attn=self.self_attn) #* self.factor
	return x

	def forward(self, x, kv):
	# if self.factor > 1:
	#print("AttnBlock: factor > 1")
	if self.training and self.gradient_checkpointing:
	# logger.info("AttnBlock: gradient_checkpointing")

	def create_custom_forward(func):
	def custom_forward(*inputs):
	return func(*inputs)

	return custom_forward

	x = torch.utils.checkpoint.checkpoint(create_custom_forward(self.forward_body), x, kv)
	else:
	x = self.forward_body(x, kv)

	return x


	class FeedForwardBlock(nn.Module):
	def __init__(self, c, dropout=0.0):
	super().__init__()
	self.norm = LayerNorm2d(c, elementwise_affine=False, eps=1e-6)
	self.channelwise = nn.Sequential(
	Linear(c, c * 4), nn.GELU(), GlobalResponseNorm(c * 4), nn.Dropout(dropout), Linear(c * 4, c)
	)

	self.gradient_checkpointing = False

	def set_gradient_checkpointing(self, value):
	self.gradient_checkpointing = value

	def forward_body(self, x):
	x = x + self.channelwise(self.norm(x).permute(0, 2, 3, 1)).permute(0, 3, 1, 2)
	return x

	def forward(self, x):
	if self.training and self.gradient_checkpointing:
	# logger.info("FeedForwardBlock: gradient_checkpointing")

	def create_custom_forward(func):
	def custom_forward(*inputs):
	return func(*inputs)

	return custom_forward

	x = torch.utils.checkpoint.checkpoint(create_custom_forward(self.forward_body), x)
	else:
	x = self.forward_body(x)

	return x


	class TimestepBlock(nn.Module):
	def __init__(self, c, c_timestep, conds=["sca"]):
	super().__init__()
	self.mapper = Linear(c_timestep, c * 2)
	self.conds = conds
	for cname in conds:
	setattr(self, f"mapper_{cname}", Linear(c_timestep, c * 2))
	self.factor = 1

	def set_factor(self, k, ext_k):
	if self.factor!=1:
	return
	#print(f"TimestepBlock: factor = {k}, ext_k = {ext_k}")
	self.factor = k
	k_factor = k/ext_k
	a_weight_factor = 1/k_factor
	b_weight_factor = 1/k
	a_bias_offset = - ((k_factor - 1)/(k_factor))/(len(self.conds) + 1)

	for module in [self.mapper, *(getattr(self, f"mapper_{cname}") for cname in self.conds)]:
	a_bias, b_bias = module.bias.data.chunk(2, dim=0)
	a_weight, b_weight = module.weight.data.chunk(2, dim=0)
	module.weight.data.copy_(
	torch.concat([
	a_weight * a_weight_factor,
	b_weight * b_weight_factor
	])
	)
	module.bias.data.copy_(
	torch.concat([
	a_bias * a_weight_factor + a_bias_offset,
	b_bias * b_weight_factor
	])
	)

	def forward(self, x, t):
	# if self.factor > 1:
	#print("TimestepBlock: factor > 1")
	t = t.chunk(len(self.conds) + 1, dim=1)
	a, b = self.mapper(t[0])[:, :, None, None].chunk(2, dim=1)
	for i, c in enumerate(self.conds):
	ac, bc = getattr(self, f"mapper_{c}")(t[i + 1])[:, :, None, None].chunk(2, dim=1)
	a, b = a + ac, b + bc
	return (x * (1 + a) + b) # * self.factor


	class UpDownBlock2d(nn.Module):
	def __init__(self, c_in, c_out, mode, enabled=True):
	super().__init__()
	assert mode in ["up", "down"]
	interpolation = (
	nn.Upsample(scale_factor=2 if mode == "up" else 0.5, mode="bilinear", align_corners=True) if enabled else nn.Identity()
	)
	mapping = nn.Conv2d(c_in, c_out, kernel_size=1)
	self.blocks = nn.ModuleList([interpolation, mapping] if mode == "up" else [mapping, interpolation])

	self.mode = mode

	self.gradient_checkpointing = False

	def set_gradient_checkpointing(self, value):
	self.gradient_checkpointing = value

	def forward_body(self, x):
	org_dtype = x.dtype
	for i, block in enumerate(self.blocks):
	# 公式の実装では、常に float で計算しているが、すこしでもメモリを節約するために bfloat16 + Upsample のみ float に変換する
	# In the official implementation, it always calculates in float, but for the sake of saving memory, it converts to float only for bfloat16 + Upsample
	if x.dtype == torch.bfloat16 and (self.mode == "up" and i == 0 or self.mode != "up" and i == 1):
	x = x.float()
	x = block(x)
	x = x.to(org_dtype)
	return x

	def forward(self, x):
	if self.training and self.gradient_checkpointing:
	# logger.info("UpDownBlock2d: gradient_checkpointing")

	def create_custom_forward(func):
	def custom_forward(*inputs):
	return func(*inputs)

	return custom_forward

	x = torch.utils.checkpoint.checkpoint(create_custom_forward(self.forward_body), x)
	else:
	x = self.forward_body(x)

	return x


	class StageAResBlock(nn.Module):
	def __init__(self, c, c_hidden):
	super().__init__()
	# depthwise/attention
	self.norm1 = nn.LayerNorm(c, elementwise_affine=False, eps=1e-6)
	self.depthwise = nn.Sequential(nn.ReplicationPad2d(1), nn.Conv2d(c, c, kernel_size=3, groups=c))

	# channelwise
	self.norm2 = nn.LayerNorm(c, elementwise_affine=False, eps=1e-6)
	self.channelwise = nn.Sequential(
	nn.Linear(c, c_hidden),
	nn.GELU(),
	nn.Linear(c_hidden, c),
	)

	self.gammas = nn.Parameter(torch.zeros(6), requires_grad=True)

	# Init weights
	def _basic_init(module):
	if isinstance(module, nn.Linear) or isinstance(module, nn.Conv2d):
	torch.nn.init.xavier_uniform_(module.weight)
	if module.bias is not None:
	nn.init.constant_(module.bias, 0)

	self.apply(_basic_init)

	def _norm(self, x, norm):
	return norm(x.permute(0, 2, 3, 1)).permute(0, 3, 1, 2)

	def forward(self, x):
	mods = self.gammas

	x_temp = self._norm(x, self.norm1) * (1 + mods[0]) + mods[1]
	x = x + self.depthwise(x_temp) * mods[2]

	x_temp = self._norm(x, self.norm2) * (1 + mods[3]) + mods[4]
	x = x + self.channelwise(x_temp.permute(0, 2, 3, 1)).permute(0, 3, 1, 2) * mods[5]

	return x


	class StageA(nn.Module):
	def __init__(self, levels=2, bottleneck_blocks=12, c_hidden=384, c_latent=4, codebook_size=8192, scale_factor=0.43): # 0.3764
	super().__init__()
	self.c_latent = c_latent
	self.scale_factor = scale_factor
	c_levels = [c_hidden // (2**i) for i in reversed(range(levels))]

	# Encoder blocks
	self.in_block = nn.Sequential(nn.PixelUnshuffle(2), nn.Conv2d(3 * 4, c_levels[0], kernel_size=1))
	down_blocks = []
	for i in range(levels):
	if i > 0:
	down_blocks.append(nn.Conv2d(c_levels[i - 1], c_levels[i], kernel_size=4, stride=2, padding=1))
	block = StageAResBlock(c_levels[i], c_levels[i] * 4)
	down_blocks.append(block)
	down_blocks.append(
	nn.Sequential(
	nn.Conv2d(c_levels[-1], c_latent, kernel_size=1, bias=False),
	nn.BatchNorm2d(c_latent), # then normalize them to have mean 0 and std 1
	)
	)
	self.down_blocks = nn.Sequential(*down_blocks)
	self.down_blocks[0]

	self.codebook_size = codebook_size
	self.vquantizer = VectorQuantize(c_latent, k=codebook_size)

	# Decoder blocks
	up_blocks = [nn.Sequential(nn.Conv2d(c_latent, c_levels[-1], kernel_size=1))]
	for i in range(levels):
	for j in range(bottleneck_blocks if i == 0 else 1):
	block = StageAResBlock(c_levels[levels - 1 - i], c_levels[levels - 1 - i] * 4)
	up_blocks.append(block)
	if i < levels - 1:
	up_blocks.append(
	nn.ConvTranspose2d(c_levels[levels - 1 - i], c_levels[levels - 2 - i], kernel_size=4, stride=2, padding=1)
	)
	self.up_blocks = nn.Sequential(*up_blocks)
	self.out_block = nn.Sequential(
	nn.Conv2d(c_levels[0], 3 * 4, kernel_size=1),
	nn.PixelShuffle(2),
	)

	def encode(self, x, quantize=False):
	x = self.in_block(x)
	x = self.down_blocks(x)
	if quantize:
	qe, (vq_loss, commit_loss), indices = self.vquantizer.forward(x, dim=1)
	return qe / self.scale_factor, x / self.scale_factor, indices, vq_loss + commit_loss * 0.25
	else:
	return x / self.scale_factor, None, None, None

	def decode(self, x):
	x = x * self.scale_factor
	x = self.up_blocks(x)
	x = self.out_block(x)
	return x

	def forward(self, x, quantize=False):
	qe, x, _, vq_loss = self.encode(x, quantize)
	x = self.decode(qe)
	return x, vq_loss


	r"""

	https://github.com/Stability-AI/StableCascade/blob/master/configs/inference/stage_b_3b.yaml

	# GLOBAL STUFF
	model_version: 3B
	dtype: bfloat16

	# For demonstration purposes in reconstruct_images.ipynb
	webdataset_path: file:inference/imagenet_1024.tar
	batch_size: 4
	image_size: 1024
	grad_accum_steps: 1

	effnet_checkpoint_path: models/effnet_encoder.safetensors
	stage_a_checkpoint_path: models/stage_a.safetensors
	generator_checkpoint_path: models/stage_b_bf16.safetensors
	"""


	class StageB(nn.Module):
	def __init__(
	self,
	c_in=4,
	c_out=4,
	c_r=64,
	patch_size=2,
	c_cond=1280,
	c_hidden=[320, 640, 1280, 1280],
	nhead=[-1, -1, 20, 20],
	blocks=[[2, 6, 28, 6], [6, 28, 6, 2]],
	block_repeat=[[1, 1, 1, 1], [3, 3, 2, 2]],
	level_config=["CT", "CT", "CTA", "CTA"],
	c_clip=1280,
	c_clip_seq=4,
	c_effnet=16,
	c_pixels=3,
	kernel_size=3,
	dropout=[0, 0, 0.1, 0.1],
	self_attn=True,
	t_conds=["sca"],
	):
	super().__init__()
	self.c_r = c_r
	self.t_conds = t_conds
	self.c_clip_seq = c_clip_seq
	if not isinstance(dropout, list):
	dropout = [dropout] * len(c_hidden)
	if not isinstance(self_attn, list):
	self_attn = [self_attn] * len(c_hidden)

	# CONDITIONING
	self.effnet_mapper = nn.Sequential(
	nn.Conv2d(c_effnet, c_hidden[0] * 4, kernel_size=1),
	nn.GELU(),
	nn.Conv2d(c_hidden[0] * 4, c_hidden[0], kernel_size=1),
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	)
	self.pixels_mapper = nn.Sequential(
	nn.Conv2d(c_pixels, c_hidden[0] * 4, kernel_size=1),
	nn.GELU(),
	nn.Conv2d(c_hidden[0] * 4, c_hidden[0], kernel_size=1),
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	)
	self.clip_mapper = nn.Linear(c_clip, c_cond * c_clip_seq)
	self.clip_norm = nn.LayerNorm(c_cond, elementwise_affine=False, eps=1e-6)

	self.embedding = nn.Sequential(
	nn.PixelUnshuffle(patch_size),
	nn.Conv2d(c_in * (patch_size**2), c_hidden[0], kernel_size=1),
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	)

	def get_block(block_type, c_hidden, nhead, c_skip=0, dropout=0, self_attn=True):
	if block_type == "C":
	return ResBlock(c_hidden, c_skip, kernel_size=kernel_size, dropout=dropout)
	elif block_type == "A":
	return AttnBlock(c_hidden, c_cond, nhead, self_attn=self_attn, dropout=dropout)
	elif block_type == "F":
	return FeedForwardBlock(c_hidden, dropout=dropout)
	elif block_type == "T":
	return TimestepBlock(c_hidden, c_r, conds=t_conds)
	else:
	raise Exception(f"Block type {block_type} not supported")

	# BLOCKS
	# -- down blocks
	self.down_blocks = nn.ModuleList()
	self.down_downscalers = nn.ModuleList()
	self.down_repeat_mappers = nn.ModuleList()
	for i in range(len(c_hidden)):
	if i > 0:
	self.down_downscalers.append(
	nn.Sequential(
	LayerNorm2d(c_hidden[i - 1], elementwise_affine=False, eps=1e-6),
	nn.Conv2d(c_hidden[i - 1], c_hidden[i], kernel_size=2, stride=2),
	)
	)
	else:
	self.down_downscalers.append(nn.Identity())
	down_block = nn.ModuleList()
	for _ in range(blocks[0][i]):
	for block_type in level_config[i]:
	block = get_block(block_type, c_hidden[i], nhead[i], dropout=dropout[i], self_attn=self_attn[i])
	down_block.append(block)
	self.down_blocks.append(down_block)
	if block_repeat is not None:
	block_repeat_mappers = nn.ModuleList()
	for _ in range(block_repeat[0][i] - 1):
	block_repeat_mappers.append(nn.Conv2d(c_hidden[i], c_hidden[i], kernel_size=1))
	self.down_repeat_mappers.append(block_repeat_mappers)

	# -- up blocks
	self.up_blocks = nn.ModuleList()
	self.up_upscalers = nn.ModuleList()
	self.up_repeat_mappers = nn.ModuleList()
	for i in reversed(range(len(c_hidden))):
	if i > 0:
	self.up_upscalers.append(
	nn.Sequential(
	LayerNorm2d(c_hidden[i], elementwise_affine=False, eps=1e-6),
	nn.ConvTranspose2d(c_hidden[i], c_hidden[i - 1], kernel_size=2, stride=2),
	)
	)
	else:
	self.up_upscalers.append(nn.Identity())
	up_block = nn.ModuleList()
	for j in range(blocks[1][::-1][i]):
	for k, block_type in enumerate(level_config[i]):
	c_skip = c_hidden[i] if i < len(c_hidden) - 1 and j == k == 0 else 0
	block = get_block(block_type, c_hidden[i], nhead[i], c_skip=c_skip, dropout=dropout[i], self_attn=self_attn[i])
	up_block.append(block)
	self.up_blocks.append(up_block)
	if block_repeat is not None:
	block_repeat_mappers = nn.ModuleList()
	for _ in range(block_repeat[1][::-1][i] - 1):
	block_repeat_mappers.append(nn.Conv2d(c_hidden[i], c_hidden[i], kernel_size=1))
	self.up_repeat_mappers.append(block_repeat_mappers)

	# OUTPUT
	self.clf = nn.Sequential(
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	nn.Conv2d(c_hidden[0], c_out * (patch_size**2), kernel_size=1),
	nn.PixelShuffle(patch_size),
	)

	# --- WEIGHT INIT ---
	self.apply(self._init_weights) # General init
	nn.init.normal_(self.clip_mapper.weight, std=0.02) # conditionings
	nn.init.normal_(self.effnet_mapper[0].weight, std=0.02) # conditionings
	nn.init.normal_(self.effnet_mapper[2].weight, std=0.02) # conditionings
	nn.init.normal_(self.pixels_mapper[0].weight, std=0.02) # conditionings
	nn.init.normal_(self.pixels_mapper[2].weight, std=0.02) # conditionings
	torch.nn.init.xavier_uniform_(self.embedding[1].weight, 0.02) # inputs
	nn.init.constant_(self.clf[1].weight, 0) # outputs

	# blocks
	for level_block in self.down_blocks + self.up_blocks:
	for block in level_block:
	if isinstance(block, ResBlock) or isinstance(block, FeedForwardBlock):
	block.channelwise[-1].weight.data *= np.sqrt(1 / sum(blocks[0]))
	elif isinstance(block, TimestepBlock):
	for layer in block.modules():
	if isinstance(layer, nn.Linear):
	nn.init.constant_(layer.weight, 0)

	def _init_weights(self, m):
	if isinstance(m, (nn.Conv2d, nn.Linear)):
	torch.nn.init.xavier_uniform_(m.weight)
	if m.bias is not None:
	nn.init.constant_(m.bias, 0)

	def gen_r_embedding(self, r, max_positions=10000):
	r = r * max_positions
	half_dim = self.c_r // 2
	emb = math.log(max_positions) / (half_dim - 1)
	emb = torch.arange(half_dim, device=r.device).float().mul(-emb).exp()
	emb = r[:, None] * emb[None, :]
	emb = torch.cat([emb.sin(), emb.cos()], dim=1)
	if self.c_r % 2 == 1: # zero pad
	emb = nn.functional.pad(emb, (0, 1), mode="constant")
	return emb

	def gen_c_embeddings(self, clip):
	if len(clip.shape) == 2:
	clip = clip.unsqueeze(1)
	clip = self.clip_mapper(clip).view(clip.size(0), clip.size(1) * self.c_clip_seq, -1)
	clip = self.clip_norm(clip)
	return clip

	def _down_encode(self, x, r_embed, clip):
	level_outputs = []
	block_group = zip(self.down_blocks, self.down_downscalers, self.down_repeat_mappers)
	for down_block, downscaler, repmap in block_group:
	x = downscaler(x)
	for i in range(len(repmap) + 1):
	for block in down_block:
	if isinstance(block, ResBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, ResBlock)
	):
	x = block(x)
	elif isinstance(block, AttnBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, AttnBlock)
	):
	x = block(x, clip)
	elif isinstance(block, TimestepBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, TimestepBlock)
	):
	x = block(x, r_embed)
	else:
	x = block(x)
	if i < len(repmap):
	x = repmap[i](x)
	level_outputs.insert(0, x)
	return level_outputs

	def _up_decode(self, level_outputs, r_embed, clip):
	x = level_outputs[0]
	block_group = zip(self.up_blocks, self.up_upscalers, self.up_repeat_mappers)
	for i, (up_block, upscaler, repmap) in enumerate(block_group):
	for j in range(len(repmap) + 1):
	for k, block in enumerate(up_block):
	if isinstance(block, ResBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, ResBlock)
	):
	skip = level_outputs[i] if k == 0 and i > 0 else None
	if skip is not None and (x.size(-1) != skip.size(-1) or x.size(-2) != skip.size(-2)):
	x = torch.nn.functional.interpolate(x.float(), skip.shape[-2:], mode="bilinear", align_corners=True)
	x = block(x, skip)
	elif isinstance(block, AttnBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, AttnBlock)
	):
	x = block(x, clip)
	elif isinstance(block, TimestepBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, TimestepBlock)
	):
	x = block(x, r_embed)
	else:
	x = block(x)
	if j < len(repmap):
	x = repmap[j](x)
	x = upscaler(x)
	return x

	def forward(self, x, r, effnet, clip, pixels=None, **kwargs):
	if pixels is None:
	pixels = x.new_zeros(x.size(0), 3, 8, 8)

	# Process the conditioning embeddings
	r_embed = self.gen_r_embedding(r)
	for c in self.t_conds:
	t_cond = kwargs.get(c, torch.zeros_like(r))
	r_embed = torch.cat([r_embed, self.gen_r_embedding(t_cond)], dim=1)
	clip = self.gen_c_embeddings(clip)

	# Model Blocks
	x = self.embedding(x)
	x = x + self.effnet_mapper(
	nn.functional.interpolate(effnet.float(), size=x.shape[-2:], mode="bilinear", align_corners=True)
	)
	x = x + nn.functional.interpolate(
	self.pixels_mapper(pixels).float(), size=x.shape[-2:], mode="bilinear", align_corners=True
	)
	level_outputs = self._down_encode(x, r_embed, clip)
	x = self._up_decode(level_outputs, r_embed, clip)
	return self.clf(x)

	def update_weights_ema(self, src_model, beta=0.999):
	for self_params, src_params in zip(self.parameters(), src_model.parameters()):
	self_params.data = self_params.data * beta + src_params.data.clone().to(self_params.device) * (1 - beta)
	for self_buffers, src_buffers in zip(self.buffers(), src_model.buffers()):
	self_buffers.data = self_buffers.data * beta + src_buffers.data.clone().to(self_buffers.device) * (1 - beta)


	r"""

	https://github.com/Stability-AI/StableCascade/blob/master/configs/inference/stage_c_3b.yaml

	# GLOBAL STUFF
	model_version: 3.6B
	dtype: bfloat16

	effnet_checkpoint_path: models/effnet_encoder.safetensors
	previewer_checkpoint_path: models/previewer.safetensors
	generator_checkpoint_path: models/stage_c_bf16.safetensors
	"""


	class StageC(nn.Module):
	def __init__(
	self,
	c_in=16,
	c_out=16,
	c_r=64,
	patch_size=1,
	c_cond=2048,
	c_hidden=[2048, 2048],
	nhead=[32, 32],
	blocks=[[8, 24], [24, 8]],
	block_repeat=[[1, 1], [1, 1]],
	level_config=["CTA", "CTA"],
	c_clip_text=1280,
	c_clip_text_pooled=1280,
	c_clip_img=768,
	c_clip_seq=4,
	kernel_size=3,
	dropout=[0.1, 0.1],
	self_attn=True,
	t_conds=["sca", "crp"],
	switch_level=[False],
	):
	super().__init__()
	self.c_r = c_r
	self.t_conds = t_conds
	self.c_clip_seq = c_clip_seq
	if not isinstance(dropout, list):
	dropout = [dropout] * len(c_hidden)
	if not isinstance(self_attn, list):
	self_attn = [self_attn] * len(c_hidden)

	# CONDITIONING
	self.clip_txt_mapper = nn.Linear(c_clip_text, c_cond)
	self.clip_txt_pooled_mapper = nn.Linear(c_clip_text_pooled, c_cond * c_clip_seq)
	self.clip_img_mapper = nn.Linear(c_clip_img, c_cond * c_clip_seq)
	self.clip_norm = nn.LayerNorm(c_cond, elementwise_affine=False, eps=1e-6)

	self.embedding = nn.Sequential(
	nn.PixelUnshuffle(patch_size),
	nn.Conv2d(c_in * (patch_size**2), c_hidden[0], kernel_size=1),
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	)

	def get_block(block_type, c_hidden, nhead, c_skip=0, dropout=0, self_attn=True):
	if block_type == "C":
	return ResBlock(c_hidden, c_skip, kernel_size=kernel_size, dropout=dropout)
	elif block_type == "A":
	return AttnBlock(c_hidden, c_cond, nhead, self_attn=self_attn, dropout=dropout)
	elif block_type == "F":
	return FeedForwardBlock(c_hidden, dropout=dropout)
	elif block_type == "T":
	return TimestepBlock(c_hidden, c_r, conds=t_conds)
	else:
	raise Exception(f"Block type {block_type} not supported")

	# BLOCKS
	# -- down blocks
	self.down_blocks = nn.ModuleList()
	self.down_downscalers = nn.ModuleList()
	self.down_repeat_mappers = nn.ModuleList()
	for i in range(len(c_hidden)):
	if i > 0:
	self.down_downscalers.append(
	nn.Sequential(
	LayerNorm2d(c_hidden[i - 1], elementwise_affine=False, eps=1e-6),
	UpDownBlock2d(c_hidden[i - 1], c_hidden[i], mode="down", enabled=switch_level[i - 1]),
	)
	)
	else:
	self.down_downscalers.append(nn.Identity())
	down_block = nn.ModuleList()
	for _ in range(blocks[0][i]):
	for block_type in level_config[i]:
	block = get_block(block_type, c_hidden[i], nhead[i], dropout=dropout[i], self_attn=self_attn[i])
	down_block.append(block)
	self.down_blocks.append(down_block)
	if block_repeat is not None:
	block_repeat_mappers = nn.ModuleList()
	for _ in range(block_repeat[0][i] - 1):
	block_repeat_mappers.append(nn.Conv2d(c_hidden[i], c_hidden[i], kernel_size=1))
	self.down_repeat_mappers.append(block_repeat_mappers)

	# -- up blocks
	self.up_blocks = nn.ModuleList()
	self.up_upscalers = nn.ModuleList()
	self.up_repeat_mappers = nn.ModuleList()
	for i in reversed(range(len(c_hidden))):
	if i > 0:
	self.up_upscalers.append(
	nn.Sequential(
	LayerNorm2d(c_hidden[i], elementwise_affine=False, eps=1e-6),
	UpDownBlock2d(c_hidden[i], c_hidden[i - 1], mode="up", enabled=switch_level[i - 1]),
	)
	)
	else:
	self.up_upscalers.append(nn.Identity())
	up_block = nn.ModuleList()
	for j in range(blocks[1][::-1][i]):
	for k, block_type in enumerate(level_config[i]):
	c_skip = c_hidden[i] if i < len(c_hidden) - 1 and j == k == 0 else 0
	block = get_block(block_type, c_hidden[i], nhead[i], c_skip=c_skip, dropout=dropout[i], self_attn=self_attn[i])
	up_block.append(block)
	self.up_blocks.append(up_block)
	if block_repeat is not None:
	block_repeat_mappers = nn.ModuleList()
	for _ in range(block_repeat[1][::-1][i] - 1):
	block_repeat_mappers.append(nn.Conv2d(c_hidden[i], c_hidden[i], kernel_size=1))
	self.up_repeat_mappers.append(block_repeat_mappers)

	# OUTPUT
	self.clf = nn.Sequential(
	LayerNorm2d(c_hidden[0], elementwise_affine=False, eps=1e-6),
	nn.Conv2d(c_hidden[0], c_out * (patch_size**2), kernel_size=1),
	nn.PixelShuffle(patch_size),
	)

	# --- WEIGHT INIT ---
	self.apply(self._init_weights) # General init
	nn.init.normal_(self.clip_txt_mapper.weight, std=0.02) # conditionings
	nn.init.normal_(self.clip_txt_pooled_mapper.weight, std=0.02) # conditionings
	nn.init.normal_(self.clip_img_mapper.weight, std=0.02) # conditionings
	torch.nn.init.xavier_uniform_(self.embedding[1].weight, 0.02) # inputs
	nn.init.constant_(self.clf[1].weight, 0) # outputs

	# blocks
	for level_block in self.down_blocks + self.up_blocks:
	for block in level_block:
	if isinstance(block, ResBlock) or isinstance(block, FeedForwardBlock):
	block.channelwise[-1].weight.data *= np.sqrt(1 / sum(blocks[0]))
	elif isinstance(block, TimestepBlock):
	for layer in block.modules():
	if isinstance(layer, nn.Linear):
	nn.init.constant_(layer.weight, 0)

	def _init_weights(self, m):
	if isinstance(m, (nn.Conv2d, nn.Linear)):
	torch.nn.init.xavier_uniform_(m.weight)
	if m.bias is not None:
	nn.init.constant_(m.bias, 0)

	def set_gradient_checkpointing(self, value):
	for block in self.down_blocks + self.up_blocks:
	for layer in block:
	if hasattr(layer, "set_gradient_checkpointing"):
	layer.set_gradient_checkpointing(value)

	def gen_r_embedding(self, r, max_positions=10000):
	r = r * max_positions
	half_dim = self.c_r // 2
	emb = math.log(max_positions) / (half_dim - 1)
	emb = torch.arange(half_dim, device=r.device).float().mul(-emb).exp()
	emb = r[:, None] * emb[None, :]
	emb = torch.cat([emb.sin(), emb.cos()], dim=1)
	if self.c_r % 2 == 1: # zero pad
	emb = nn.functional.pad(emb, (0, 1), mode="constant")
	return emb

	def gen_c_embeddings(self, clip_txt, clip_txt_pooled, clip_img):
	clip_txt = self.clip_txt_mapper(clip_txt)
	if len(clip_txt_pooled.shape) == 2:
	clip_txt_pool = clip_txt_pooled.unsqueeze(1)
	if len(clip_img.shape) == 2:
	clip_img = clip_img.unsqueeze(1)
	clip_txt_pool = self.clip_txt_pooled_mapper(clip_txt_pooled).view(
	clip_txt_pooled.size(0), clip_txt_pooled.size(1) * self.c_clip_seq, -1
	)
	clip_img = self.clip_img_mapper(clip_img).view(clip_img.size(0), clip_img.size(1) * self.c_clip_seq, -1)
	clip = torch.cat([clip_txt, clip_txt_pool, clip_img], dim=1)
	clip = self.clip_norm(clip)
	return clip

	def _down_encode(self, x, r_embed, clip, cnet=None):
	level_outputs = []
	block_group = zip(self.down_blocks, self.down_downscalers, self.down_repeat_mappers)
	for down_block, downscaler, repmap in block_group:
	x = downscaler(x)
	for i in range(len(repmap) + 1):
	for block in down_block:
	if isinstance(block, ResBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, ResBlock)
	):
	if cnet is not None:
	next_cnet = cnet()
	if next_cnet is not None:
	x = x + nn.functional.interpolate(next_cnet, size=x.shape[-2:], mode="bilinear", align_corners=True)
	x = block(x)
	elif isinstance(block, AttnBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, AttnBlock)
	):
	x = block(x, clip)
	elif isinstance(block, TimestepBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, TimestepBlock)
	):
	x = block(x, r_embed)
	else:
	x = block(x)
	if i < len(repmap):
	x = repmap[i](x)
	level_outputs.insert(0, x)
	return level_outputs

	def _up_decode(self, level_outputs, r_embed, clip, cnet=None):
	x = level_outputs[0]
	block_group = zip(self.up_blocks, self.up_upscalers, self.up_repeat_mappers)
	now_factor = 1
	for i, (up_block, upscaler, repmap) in enumerate(block_group):
	for j in range(len(repmap) + 1):
	for k, block in enumerate(up_block):
	# if getattr(block, "factor", 1) > 1:
	# now_factor = -getattr(block, "factor", 1)
	# scale = check_scale(x)
	# if scale > 5 or (now_factor < 0 and scale > (5/-now_factor)):
	#print('='*55)
	#print(f"in: {i} {j} {k}")
	#print("up", scale)
	if isinstance(block, ResBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, ResBlock)
	):
	skip = level_outputs[i] if k == 0 and i > 0 else None
	if skip is not None and (x.size(-1) != skip.size(-1) or x.size(-2) != skip.size(-2)):
	x = torch.nn.functional.interpolate(x.float(), skip.shape[-2:], mode="bilinear", align_corners=True)
	if cnet is not None:
	next_cnet = cnet()
	if next_cnet is not None:
	x = x + nn.functional.interpolate(next_cnet, size=x.shape[-2:], mode="bilinear", align_corners=True)
	x = block(x, skip)
	# if now_factor > 1 and block.factor == 1:
	# block.set_factor(now_factor)
	elif isinstance(block, AttnBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, AttnBlock)
	):
	x = block(x, clip)
	# if now_factor > 1 and block.factor == 1:
	# block.set_factor(now_factor)
	elif isinstance(block, TimestepBlock) or (
	hasattr(block, "_fsdp_wrapped_module") and isinstance(block._fsdp_wrapped_module, TimestepBlock)
	):
	x = block(x, r_embed)
	# scale = check_scale(x)
	# if now_factor > 1 and block.factor == 1:
	# block.set_factor(now_factor, now_factor)
	# pass
	# elif i==1:
	# now_factor = 5
	# block.set_factor(now_factor, 1)
	else:
	x = block(x)
	# scale = check_scale(x)
	# if scale > 5 or (now_factor < 0 and scale > (5/-now_factor)):
	#print(f"out: {i} {j} {k}", '='*50)
	#print("up", scale)
	#print(block.__class__.__name__, torch.sum(torch.isnan(x)))
	if j < len(repmap):
	x = repmap[j](x)
	#print('-- pre upscaler ---')
	#print(check_scale(x))
	x = upscaler(x)
	#print('-- post upscaler ---')
	#print(check_scale(x))
	# if now_factor > 1:
	# if isinstance(upscaler, UpDownBlock2d):
	# upscaler.blocks[1].weight.data /= now_factor
	# upscaler.blocks[1].bias.data /= now_factor
	# scale = check_scale(x)
	# if scale > 5:
	#print('='*50)
	#print("upscaler", check_scale(x))
	return x

	def forward(self, x, r, clip_text, clip_text_pooled, clip_img, cnet=None, **kwargs):
	# Process the conditioning embeddings
	r_embed = self.gen_r_embedding(r)
	for c in self.t_conds:
	t_cond = kwargs.get(c, torch.zeros_like(r))
	r_embed = torch.cat([r_embed, self.gen_r_embedding(t_cond)], dim=1)
	clip = self.gen_c_embeddings(clip_text, clip_text_pooled, clip_img)

	# Model Blocks
	x = self.embedding(x)
	#print(check_scale(x))
	# ControlNet is not supported yet
	# if cnet is not None:
	# cnet = ControlNetDeliverer(cnet)
	level_outputs = self._down_encode(x, r_embed, clip, cnet)
	x1 = self._up_decode(level_outputs, r_embed, clip, cnet)
	result1 = self.clf(x1)
	return result1
	# self.half()
	sd = self.state_dict()
	# x2 = self._up_decode(level_outputs, r_embed, clip, cnet)
	# result2 = self.clf(x2)
	#print(torch.nn.functional.mse_loss(result1, result2))
	from safetensors.torch import save_file
	save_file(sd, 'factor5_pass4.safetensors')
	raise Exception("Early Stop")

	def update_weights_ema(self, src_model, beta=0.999):
	for self_params, src_params in zip(self.parameters(), src_model.parameters()):
	self_params.data = self_params.data * beta + src_params.data.clone().to(self_params.device) * (1 - beta)
	for self_buffers, src_buffers in zip(self.buffers(), src_model.buffers()):
	self_buffers.data = self_buffers.data * beta + src_buffers.data.clone().to(self_buffers.device) * (1 - beta)

	@property
	def device(self):
	return next(self.parameters()).device

	@property
	def dtype(self):
	return next(self.parameters()).dtype


	# Fast Decoder for Stage C latents. E.g. 16 x 24 x 24 -> 3 x 192 x 192
	class Previewer(nn.Module):
	def __init__(self, c_in=16, c_hidden=512, c_out=3):
	super().__init__()
	self.blocks = nn.Sequential(
	nn.Conv2d(c_in, c_hidden, kernel_size=1), # 16 channels to 512 channels
	nn.GELU(),
	nn.BatchNorm2d(c_hidden),
	nn.Conv2d(c_hidden, c_hidden, kernel_size=3, padding=1),
	nn.GELU(),
	nn.BatchNorm2d(c_hidden),
	nn.ConvTranspose2d(c_hidden, c_hidden // 2, kernel_size=2, stride=2), # 16 -> 32
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 2),
	nn.Conv2d(c_hidden // 2, c_hidden // 2, kernel_size=3, padding=1),
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 2),
	nn.ConvTranspose2d(c_hidden // 2, c_hidden // 4, kernel_size=2, stride=2), # 32 -> 64
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 4),
	nn.Conv2d(c_hidden // 4, c_hidden // 4, kernel_size=3, padding=1),
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 4),
	nn.ConvTranspose2d(c_hidden // 4, c_hidden // 4, kernel_size=2, stride=2), # 64 -> 128
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 4),
	nn.Conv2d(c_hidden // 4, c_hidden // 4, kernel_size=3, padding=1),
	nn.GELU(),
	nn.BatchNorm2d(c_hidden // 4),
	nn.Conv2d(c_hidden // 4, c_out, kernel_size=1),
	)

	def forward(self, x):
	return self.blocks(x)

	@property
	def device(self):
	return next(self.parameters()).device

	@property
	def dtype(self):
	return next(self.parameters()).dtype


	def get_clip_conditions(captions: Optional[List[str]], input_ids, tokenizer, text_model):
	# deprecated

	# self, batch: dict, tokenizer, text_model, is_eval=False, is_unconditional=False, eval_image_embeds=False, return_fields=None
	# is_eval の処理をここでやるのは微妙なので別のところでやる
	# is_unconditional もここでやるのは微妙なので別のところでやる
	# clip_image はとりあえずサポートしない
	if captions is not None:
	clip_tokens_unpooled = tokenizer(
	captions, truncation=True, padding="max_length", max_length=tokenizer.model_max_length, return_tensors="pt"
	).to(text_model.device)
	text_encoder_output = text_model(**clip_tokens_unpooled, output_hidden_states=True)
	else:
	text_encoder_output = text_model(input_ids, output_hidden_states=True)

	text_embeddings = text_encoder_output.hidden_states[-1]
	text_pooled_embeddings = text_encoder_output.text_embeds.unsqueeze(1)

	return text_embeddings, text_pooled_embeddings
	# return {"clip_text": text_embeddings, "clip_text_pooled": text_pooled_embeddings} # , "clip_img": image_embeddings}


	# region gdf


	class SimpleSampler:
	def __init__(self, gdf):
	self.gdf = gdf
	self.current_step = -1

	def __call__(self, args, *kwargs):
	self.current_step += 1
	return self.step(args, *kwargs)

	def init_x(self, shape):
	return torch.randn(*shape)

	def step(self, x, x0, epsilon, logSNR, logSNR_prev):
	raise NotImplementedError("You should override the 'apply' function.")


	class DDIMSampler(SimpleSampler):
	def step(self, x, x0, epsilon, logSNR, logSNR_prev, eta=0):
	a, b = self.gdf.input_scaler(logSNR)
	if len(a.shape) == 1:
	a, b = a.view(-1, [1] (len(x0.shape) - 1)), b.view(-1, [1] (len(x0.shape) - 1))

	a_prev, b_prev = self.gdf.input_scaler(logSNR_prev)
	if len(a_prev.shape) == 1:
	a_prev, b_prev = a_prev.view(-1, [1] (len(x0.shape) - 1)), b_prev.view(-1, [1] (len(x0.shape) - 1))

	sigma_tau = eta * (b_prev2 / b2).sqrt() * (1 - a2 / a_prev2).sqrt() if eta > 0 else 0
	# x = a_prev * x0 + (1 - a_prev2 - sigma_tau 2).sqrt() * epsilon + sigma_tau * torch.randn_like(x0)
	x = a_prev * x0 + (b_prev2 - sigma_tau2).sqrt() * epsilon + sigma_tau * torch.randn_like(x0)
	return x


	class DDPMSampler(DDIMSampler):
	def step(self, x, x0, epsilon, logSNR, logSNR_prev, eta=1):
	return super().step(x, x0, epsilon, logSNR, logSNR_prev, eta)


	class LCMSampler(SimpleSampler):
	def step(self, x, x0, epsilon, logSNR, logSNR_prev):
	a_prev, b_prev = self.gdf.input_scaler(logSNR_prev)
	if len(a_prev.shape) == 1:
	a_prev, b_prev = a_prev.view(-1, [1] (len(x0.shape) - 1)), b_prev.view(-1, [1] (len(x0.shape) - 1))
	return x0 * a_prev + torch.randn_like(epsilon) * b_prev


	class GDF:
	def __init__(self, schedule, input_scaler, target, noise_cond, loss_weight, offset_noise=0):
	self.schedule = schedule
	self.input_scaler = input_scaler
	self.target = target
	self.noise_cond = noise_cond
	self.loss_weight = loss_weight
	self.offset_noise = offset_noise

	def setup_limits(self, stretch_max=True, stretch_min=True, shift=1):
	stretched_limits = self.input_scaler.setup_limits(self.schedule, self.input_scaler, stretch_max, stretch_min, shift)
	return stretched_limits

	def diffuse(self, x0, epsilon=None, t=None, shift=1, loss_shift=1, offset=None):
	if epsilon is None:
	epsilon = torch.randn_like(x0)
	if self.offset_noise > 0:
	if offset is None:
	offset = torch.randn([x0.size(0), x0.size(1)] + [1] * (len(x0.shape) - 2)).to(x0.device)
	epsilon = epsilon + offset * self.offset_noise
	logSNR = self.schedule(x0.size(0) if t is None else t, shift=shift).to(x0.device)
	a, b = self.input_scaler(logSNR) # B
	if len(a.shape) == 1:
	a, b = a.view(-1, [1] (len(x0.shape) - 1)), b.view(-1, [1] (len(x0.shape) - 1)) # BxCxHxW
	target = self.target(x0, epsilon, logSNR, a, b)

	# noised, noise, logSNR, t_cond
	return x0 * a + epsilon * b, epsilon, target, logSNR, self.noise_cond(logSNR), self.loss_weight(logSNR, shift=loss_shift)

	def undiffuse(self, x, logSNR, pred):
	a, b = self.input_scaler(logSNR)
	if len(a.shape) == 1:
	a, b = a.view(-1, [1] (len(x.shape) - 1)), b.view(-1, [1] (len(x.shape) - 1))
	return self.target.x0(x, pred, logSNR, a, b), self.target.epsilon(x, pred, logSNR, a, b)

	def sample(
	self,
	model,
	model_inputs,
	shape,
	unconditional_inputs=None,
	sampler=None,
	schedule=None,
	t_start=1.0,
	t_end=0.0,
	timesteps=20,
	x_init=None,
	cfg=3.0,
	cfg_t_stop=None,
	cfg_t_start=None,
	cfg_rho=0.7,
	sampler_params=None,
	shift=1,
	device="cpu",
	):
	sampler_params = {} if sampler_params is None else sampler_params
	if sampler is None:
	sampler = DDPMSampler(self)
	r_range = torch.linspace(t_start, t_end, timesteps + 1)
	schedule = self.schedule if schedule is None else schedule
	logSNR_range = schedule(r_range, shift=shift)[:, None].expand(-1, shape[0] if x_init is None else x_init.size(0)).to(device)

	x = sampler.init_x(shape).to(device) if x_init is None else x_init.clone()
	if cfg is not None:
	if unconditional_inputs is None:
	unconditional_inputs = {k: torch.zeros_like(v) for k, v in model_inputs.items()}
	model_inputs = {
	k: (
	torch.cat([v, v_u], dim=0)
	if isinstance(v, torch.Tensor)
	else (
	[
	(
	torch.cat([vi, vi_u], dim=0)
	if isinstance(vi, torch.Tensor) and isinstance(vi_u, torch.Tensor)
	else None
	)
	for vi, vi_u in zip(v, v_u)
	]
	if isinstance(v, list)
	else (
	{vk: torch.cat([v[vk], v_u.get(vk, torch.zeros_like(v[vk]))], dim=0) for vk in v}
	if isinstance(v, dict)
	else None
	)
	)
	)
	for (k, v), (k_u, v_u) in zip(model_inputs.items(), unconditional_inputs.items())
	}
	for i in range(0, timesteps):
	noise_cond = self.noise_cond(logSNR_range[i])
	if (
	cfg is not None
	and (cfg_t_stop is None or r_range[i].item() >= cfg_t_stop)
	and (cfg_t_start is None or r_range[i].item() <= cfg_t_start)
	):
	cfg_val = cfg
	if isinstance(cfg_val, (list, tuple)):
	assert len(cfg_val) == 2, "cfg must be a float or a list/tuple of length 2"
	cfg_val = cfg_val[0] * r_range[i].item() + cfg_val[1] * (1 - r_range[i].item())
	pred, pred_unconditional = model(torch.cat([x, x], dim=0), noise_cond.repeat(2), **model_inputs).chunk(2)
	pred_cfg = torch.lerp(pred_unconditional, pred, cfg_val)
	if cfg_rho > 0:
	std_pos, std_cfg = pred.std(), pred_cfg.std()
	pred = cfg_rho * (pred_cfg * std_pos / (std_cfg + 1e-9)) + pred_cfg * (1 - cfg_rho)
	else:
	pred = pred_cfg
	else:
	pred = model(x, noise_cond, **model_inputs)
	x0, epsilon = self.undiffuse(x, logSNR_range[i], pred)
	x = sampler(x, x0, epsilon, logSNR_range[i], logSNR_range[i + 1], **sampler_params)
	altered_vars = yield (x0, x, pred)

	# Update some running variables if the user wants
	if altered_vars is not None:
	cfg = altered_vars.get("cfg", cfg)
	cfg_rho = altered_vars.get("cfg_rho", cfg_rho)
	sampler = altered_vars.get("sampler", sampler)
	model_inputs = altered_vars.get("model_inputs", model_inputs)
	x = altered_vars.get("x", x)
	x_init = altered_vars.get("x_init", x_init)


	class BaseSchedule:
	def __init__(self, args, force_limits=True, discrete_steps=None, shift=1, *kwargs):
	self.setup(args, *kwargs)
	self.limits = None
	self.discrete_steps = discrete_steps
	self.shift = shift
	if force_limits:
	self.reset_limits()

	def reset_limits(self, shift=1, disable=False):
	try:
	self.limits = None if disable else self(torch.tensor([1.0, 0.0]), shift=shift).tolist() # min, max
	return self.limits
	except Exception:
	#print("WARNING: this schedule doesn't support t and will be unbounded")
	return None

	def setup(self, args, *kwargs):
	raise NotImplementedError("this method needs to be overridden")

	def schedule(self, args, *kwargs):
	raise NotImplementedError("this method needs to be overridden")

	def __call__(self, t, args, shift=1, *kwargs):
	if isinstance(t, torch.Tensor):
	batch_size = None
	if self.discrete_steps is not None:
	if t.dtype != torch.long:
	t = (t * (self.discrete_steps - 1)).round().long()
	t = t / (self.discrete_steps - 1)
	t = t.clamp(0, 1)
	else:
	batch_size = t
	t = None
	logSNR = self.schedule(t, batch_size, args, *kwargs)
	if shift * self.shift != 1:
	logSNR += 2 * np.log(1 / (shift * self.shift))
	if self.limits is not None:
	logSNR = logSNR.clamp(*self.limits)
	return logSNR


	class CosineSchedule(BaseSchedule):
	def setup(self, s=0.008, clamp_range=[0.0001, 0.9999], norm_instead=False):
	self.s = torch.tensor([s])
	self.clamp_range = clamp_range
	self.norm_instead = norm_instead
	self.min_var = torch.cos(self.s / (1 + self.s) * torch.pi * 0.5) ** 2

	def schedule(self, t, batch_size):
	if t is None:
	t = (1 - torch.rand(batch_size)).add(0.001).clamp(0.001, 1.0)
	s, min_var = self.s.to(t.device), self.min_var.to(t.device)
	var = torch.cos((s + t) / (1 + s) * torch.pi * 0.5).clamp(0, 1) ** 2 / min_var
	if self.norm_instead:
	var = var * (self.clamp_range[1] - self.clamp_range[0]) + self.clamp_range[0]
	else:
	var = var.clamp(*self.clamp_range)
	logSNR = (var / (1 - var)).log()
	return logSNR


	class BaseScaler:
	def __init__(self):
	self.stretched_limits = None

	def setup_limits(self, schedule, input_scaler, stretch_max=True, stretch_min=True, shift=1):
	min_logSNR = schedule(torch.ones(1), shift=shift)
	max_logSNR = schedule(torch.zeros(1), shift=shift)

	min_a, max_b = [v.item() for v in input_scaler(min_logSNR)] if stretch_max else [0, 1]
	max_a, min_b = [v.item() for v in input_scaler(max_logSNR)] if stretch_min else [1, 0]
	self.stretched_limits = [min_a, max_a, min_b, max_b]
	return self.stretched_limits

	def stretch_limits(self, a, b):
	min_a, max_a, min_b, max_b = self.stretched_limits
	return (a - min_a) / (max_a - min_a), (b - min_b) / (max_b - min_b)

	def scalers(self, logSNR):
	raise NotImplementedError("this method needs to be overridden")

	def __call__(self, logSNR):
	a, b = self.scalers(logSNR)
	if self.stretched_limits is not None:
	a, b = self.stretch_limits(a, b)
	return a, b


	class VPScaler(BaseScaler):
	def scalers(self, logSNR):
	a_squared = logSNR.sigmoid()
	a = a_squared.sqrt()
	b = (1 - a_squared).sqrt()
	return a, b


	class EpsilonTarget:
	def __call__(self, x0, epsilon, logSNR, a, b):
	return epsilon

	def x0(self, noised, pred, logSNR, a, b):
	return (noised - pred * b) / a

	def epsilon(self, noised, pred, logSNR, a, b):
	return pred


	class BaseNoiseCond:
	def __init__(self, args, shift=1, clamp_range=None, *kwargs):
	clamp_range = [-1e9, 1e9] if clamp_range is None else clamp_range
	self.shift = shift
	self.clamp_range = clamp_range
	self.setup(args, *kwargs)

	def setup(self, args, *kwargs):
	pass # this method is optional, override it if required

	def cond(self, logSNR):
	raise NotImplementedError("this method needs to be overridden")

	def __call__(self, logSNR):
	if self.shift != 1:
	logSNR = logSNR.clone() + 2 * np.log(self.shift)
	return self.cond(logSNR).clamp(*self.clamp_range)


	class CosineTNoiseCond(BaseNoiseCond):
	def setup(self, s=0.008, clamp_range=[0, 1]): # [0.0001, 0.9999]
	self.s = torch.tensor([s])
	self.clamp_range = clamp_range
	self.min_var = torch.cos(self.s / (1 + self.s) * torch.pi * 0.5) ** 2

	def cond(self, logSNR):
	var = logSNR.sigmoid()
	var = var.clamp(*self.clamp_range)
	s, min_var = self.s.to(var.device), self.min_var.to(var.device)
	t = (((var * min_var) ** 0.5).acos() / (torch.pi * 0.5)) * (1 + s) - s
	return t


	# --- Loss Weighting
	class BaseLossWeight:
	def weight(self, logSNR):
	raise NotImplementedError("this method needs to be overridden")

	def __call__(self, logSNR, args, shift=1, clamp_range=None, *kwargs):
	clamp_range = [-1e9, 1e9] if clamp_range is None else clamp_range
	if shift != 1:
	logSNR = logSNR.clone() + 2 * np.log(shift)
	return self.weight(logSNR, args, kwargs).clamp(clamp_range)


	# class ComposedLossWeight(BaseLossWeight):
	# def __init__(self, div, mul):
	# self.mul = [mul] if isinstance(mul, BaseLossWeight) else mul
	# self.div = [div] if isinstance(div, BaseLossWeight) else div

	# def weight(self, logSNR):
	# prod, div = 1, 1
	# for m in self.mul:
	# prod *= m.weight(logSNR)
	# for d in self.div:
	# div *= d.weight(logSNR)
	# return prod/div

	# class ConstantLossWeight(BaseLossWeight):
	# def __init__(self, v=1):
	# self.v = v

	# def weight(self, logSNR):
	# return torch.ones_like(logSNR) * self.v

	# class SNRLossWeight(BaseLossWeight):
	# def weight(self, logSNR):
	# return logSNR.exp()


	class P2LossWeight(BaseLossWeight):
	def __init__(self, k=1.0, gamma=1.0, s=1.0):
	self.k, self.gamma, self.s = k, gamma, s

	def weight(self, logSNR):
	return (self.k + (logSNR * self.s).exp()) ** -self.gamma


	# class SNRPlusOneLossWeight(BaseLossWeight):
	# def weight(self, logSNR):
	# return logSNR.exp() + 1

	# class MinSNRLossWeight(BaseLossWeight):
	# def __init__(self, max_snr=5):
	# self.max_snr = max_snr

	# def weight(self, logSNR):
	# return logSNR.exp().clamp(max=self.max_snr)

	# class MinSNRPlusOneLossWeight(BaseLossWeight):
	# def __init__(self, max_snr=5):
	# self.max_snr = max_snr

	# def weight(self, logSNR):
	# return (logSNR.exp() + 1).clamp(max=self.max_snr)

	# class TruncatedSNRLossWeight(BaseLossWeight):
	# def __init__(self, min_snr=1):
	# self.min_snr = min_snr

	# def weight(self, logSNR):
	# return logSNR.exp().clamp(min=self.min_snr)

	# class SechLossWeight(BaseLossWeight):
	# def __init__(self, div=2):
	# self.div = div

	# def weight(self, logSNR):
	# return 1/(logSNR/self.div).cosh()

	# class DebiasedLossWeight(BaseLossWeight):
	# def weight(self, logSNR):
	# return 1/logSNR.exp().sqrt()

	# class SigmoidLossWeight(BaseLossWeight):
	# def __init__(self, s=1):
	# self.s = s

	# def weight(self, logSNR):
	# return (logSNR * self.s).sigmoid()


	class AdaptiveLossWeight(BaseLossWeight):
	def __init__(self, logsnr_range=[-10, 10], buckets=300, weight_range=[1e-7, 1e7]):
	self.bucket_ranges = torch.linspace(logsnr_range[0], logsnr_range[1], buckets - 1)
	self.bucket_losses = torch.ones(buckets)
	self.weight_range = weight_range

	def weight(self, logSNR):
	indices = torch.searchsorted(self.bucket_ranges.to(logSNR.device), logSNR)
	return (1 / self.bucket_losses.to(logSNR.device)[indices]).clamp(*self.weight_range)

	def update_buckets(self, logSNR, loss, beta=0.99):
	indices = torch.searchsorted(self.bucket_ranges.to(logSNR.device), logSNR).cpu()
	self.bucket_losses[indices] = self.bucket_losses[indices] * beta + loss.detach().cpu() * (1 - beta)


	# endregion gdf