sdxs / train-Copy1.py
recoilme's picture
Fresh start
94a2309
raw
history blame
35.1 kB
import os
import math
import torch
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import DataLoader, Sampler
from torch.utils.data.distributed import DistributedSampler
from collections import defaultdict
from torch.optim.lr_scheduler import LambdaLR
from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
from accelerate import Accelerator
from datasets import load_from_disk
from tqdm import tqdm
from PIL import Image,ImageOps
import wandb
import random
import gc
from accelerate.state import DistributedType
from torch.distributed import broadcast_object_list
from torch.utils.checkpoint import checkpoint
from diffusers.models.attention_processor import AttnProcessor2_0
from datetime import datetime
import bitsandbytes as bnb
# --------------------------- Параметры ---------------------------
ds_path = "datasets/384"
batch_size = 50
base_learning_rate = 3e-5
min_learning_rate = 3e-6
num_epochs = 10
num_warmup_steps = 1000
project = "unet"
use_wandb = True
save_model = True
sample_interval_share = 5 # samples/save per epoch
fbp = False # fused backward pass
adam8bit = True
percentile_clipping = 97 # Lion
torch_compile = False
unet_gradient = True
clip_sample = False #Scheduler
fixed_seed = False
shuffle = True
dtype = torch.float32
steps_offset = 1 # Scheduler
limit = 0
checkpoints_folder = ""
mixed_precision = "no"
accelerator = Accelerator(mixed_precision=mixed_precision)
device = accelerator.device
# Параметры для диффузии
n_diffusion_steps = 50
samples_to_generate = 12
guidance_scale = 5
# Папки для сохранения результатов
generated_folder = "samples"
os.makedirs(generated_folder, exist_ok=True)
# Настройка seed для воспроизводимости
current_date = datetime.now()
seed = int(current_date.strftime("%Y%m%d"))
if fixed_seed:
torch.manual_seed(seed)
np.random.seed(seed)
random.seed(seed)
if torch.cuda.is_available():
torch.cuda.manual_seed_all(seed)
#torch.backends.cuda.matmul.allow_tf32 = True
#torch.backends.cudnn.allow_tf32 = True
# --------------------------- Параметры LoRA ---------------------------
# pip install peft
lora_name = "" #"nusha" # Имя для сохранения/загрузки LoRA адаптеров
lora_rank = 32 # Ранг LoRA (чем меньше, тем компактнее модель)
lora_alpha = 64 # Альфа параметр LoRA, определяющий масштаб
print("init")
# --------------------------- Инициализация WandB ---------------------------
if use_wandb and accelerator.is_main_process:
wandb.init(project=project+lora_name, config={
"batch_size": batch_size,
"base_learning_rate": base_learning_rate,
"num_epochs": num_epochs,
"fbp": fbp,
"adam8bit": adam8bit,
})
# Включение Flash Attention 2/SDPA
torch.backends.cuda.enable_flash_sdp(True)
# --------------------------- Инициализация Accelerator --------------------
gen = torch.Generator(device=device)
gen.manual_seed(seed)
# --------------------------- Загрузка моделей ---------------------------
# VAE загружается на CPU для экономии GPU-памяти
vae = AutoencoderKL.from_pretrained("vae", variant="fp16").to("cpu").eval()
# DDPMScheduler с V_Prediction и Zero-SNR
scheduler = DDPMScheduler(
num_train_timesteps=1000, # Полный график шагов для обучения
prediction_type="v_prediction", # V-Prediction
rescale_betas_zero_snr=True, # Включение Zero-SNR
clip_sample = clip_sample,
steps_offset = steps_offset
)
class DistributedResolutionBatchSampler(Sampler):
def __init__(self, dataset, batch_size, num_replicas, rank, shuffle=True, drop_last=True):
self.dataset = dataset
self.batch_size = max(1, batch_size // num_replicas)
self.num_replicas = num_replicas
self.rank = rank
self.shuffle = shuffle
self.drop_last = drop_last
self.epoch = 0
# Используем numpy для ускорения
try:
widths = np.array(dataset["width"])
heights = np.array(dataset["height"])
except KeyError:
widths = np.zeros(len(dataset))
heights = np.zeros(len(dataset))
# Создаем уникальные ключи для размеров
self.size_keys = np.unique(np.stack([widths, heights], axis=1), axis=0)
# Группируем индексы по размерам используя numpy
self.size_groups = {}
for w, h in self.size_keys:
mask = (widths == w) & (heights == h)
self.size_groups[(w, h)] = np.where(mask)[0]
# Предварительно вычисляем количество полных батчей для каждой группы
self.group_num_batches = {}
total_batches = 0
for size, indices in self.size_groups.items():
num_full_batches = len(indices) // (self.batch_size * self.num_replicas)
self.group_num_batches[size] = num_full_batches
total_batches += num_full_batches
# Округляем до числа, делящегося на num_replicas
self.num_batches = (total_batches // self.num_replicas) * self.num_replicas
def __iter__(self):
# print(f"Rank {self.rank}: Starting iteration")
# Очищаем CUDA кэш перед формированием новых батчей
if torch.cuda.is_available():
torch.cuda.empty_cache()
all_batches = []
rng = np.random.RandomState(self.epoch)
for size, indices in self.size_groups.items():
# print(f"Rank {self.rank}: Processing size {size}, {len(indices)} samples")
indices = indices.copy()
if self.shuffle:
rng.shuffle(indices)
num_full_batches = self.group_num_batches[size]
if num_full_batches == 0:
continue
# Берем только индексы для полных батчей
valid_indices = indices[:num_full_batches * self.batch_size * self.num_replicas]
# Reshape для быстрого разделения на батчи
batches = valid_indices.reshape(-1, self.batch_size * self.num_replicas)
# Выбираем часть для текущего GPU
start_idx = self.rank * self.batch_size
end_idx = start_idx + self.batch_size
gpu_batches = batches[:, start_idx:end_idx]
all_batches.extend(gpu_batches)
if self.shuffle:
rng.shuffle(all_batches)
# Синхронизируем все процессы после формирования батчей
accelerator.wait_for_everyone()
# print(f"Rank {self.rank}: Created {len(all_batches)} batches")
return iter(all_batches)
def __len__(self):
return self.num_batches
def set_epoch(self, epoch):
self.epoch = epoch
# Функция для выборки фиксированных семплов по размерам
def get_fixed_samples_by_resolution(dataset, samples_per_group=1):
"""Выбирает фиксированные семплы для каждого уникального разрешения"""
# Группируем по размерам
size_groups = defaultdict(list)
try:
widths = dataset["width"]
heights = dataset["height"]
except KeyError:
widths = [0] * len(dataset)
heights = [0] * len(dataset)
for i, (w, h) in enumerate(zip(widths, heights)):
size = (w, h)
size_groups[size].append(i)
# Выбираем фиксированные примеры из каждой группы
fixed_samples = {}
for size, indices in size_groups.items():
# Определяем сколько семплов брать из этой группы
n_samples = min(samples_per_group, len(indices))
if len(size_groups)==1:
n_samples = samples_to_generate
if n_samples == 0:
continue
# Выбираем случайные индексы
sample_indices = random.sample(indices, n_samples)
samples_data = [dataset[idx] for idx in sample_indices]
# Собираем данные
latents = torch.tensor(np.array([item["vae"] for item in samples_data])).to(device=device,dtype=dtype)
embeddings = torch.tensor(np.array([item["embeddings"] for item in samples_data])).to(device,dtype=dtype)
texts = [item["text"] for item in samples_data]
# Сохраняем для этого размера
fixed_samples[size] = (latents, embeddings, texts)
print(f"Создано {len(fixed_samples)} групп фиксированных семплов по разрешениям")
return fixed_samples
if limit > 0:
dataset = load_from_disk(ds_path).select(range(limit))
else:
dataset = load_from_disk(ds_path)
def collate_fn_simple(batch):
# Преобразуем список в тензоры и перемещаем на девайс
latents = torch.tensor(np.array([item["vae"] for item in batch])).to(device,dtype=dtype)
embeddings = torch.tensor(np.array([item["embeddings"] for item in batch])).to(device,dtype=dtype)
return latents, embeddings
def collate_fn(batch):
if not batch:
return [], []
# Берем эталонную форму
ref_vae_shape = np.array(batch[0]["vae"]).shape
ref_embed_shape = np.array(batch[0]["embeddings"]).shape
# Фильтруем
valid_latents = []
valid_embeddings = []
for item in batch:
if (np.array(item["vae"]).shape == ref_vae_shape and
np.array(item["embeddings"]).shape == ref_embed_shape):
valid_latents.append(item["vae"])
valid_embeddings.append(item["embeddings"])
# Создаем тензоры
latents = torch.tensor(np.array(valid_latents)).to(device,dtype=dtype)
embeddings = torch.tensor(np.array(valid_embeddings)).to(device,dtype=dtype)
return latents, embeddings
# Используем наш ResolutionBatchSampler
#batch_sampler = ResolutionBatchSampler(dataset, batch_size=batch_size, shuffle=True)
#dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn)
# Создаем ResolutionBatchSampler на основе индексов от DistributedSampler
batch_sampler = DistributedResolutionBatchSampler(
dataset=dataset,
batch_size=batch_size,
num_replicas=accelerator.num_processes,
rank=accelerator.process_index,
shuffle=shuffle
)
# Создаем DataLoader
dataloader = DataLoader(dataset, batch_sampler=batch_sampler, collate_fn=collate_fn_simple)
print("Total samples",len(dataloader))
dataloader = accelerator.prepare(dataloader)
# Инициализация переменных для возобновления обучения
start_epoch = 0
global_step = 0
# Расчёт общего количества шагов
total_training_steps = (len(dataloader) * num_epochs)
# Get the world size
world_size = accelerator.state.num_processes
#print(f"World Size: {world_size}")
# Опция загрузки модели из последнего чекпоинта (если существует)
latest_checkpoint = os.path.join(checkpoints_folder, project)
if os.path.isdir(latest_checkpoint):
print("Загружаем UNet из чекпоинта:", latest_checkpoint)
if dtype == torch.float32:
unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device=device,dtype=dtype)
else:
unet = UNet2DConditionModel.from_pretrained(latest_checkpoint, variant="fp16").to(device=device,dtype=dtype)
if unet_gradient:
unet.enable_gradient_checkpointing()
unet.set_use_memory_efficient_attention_xformers(False) # отключаем xformers
try:
unet.set_attn_processor(AttnProcessor2_0()) # Используем стандартный AttnProcessor
except Exception as e:
print(f"Ошибка при включении SDPA: {e}")
print("Попытка использовать enable_xformers_memory_efficient_attention.")
unet.set_use_memory_efficient_attention_xformers(True)
if hasattr(torch.backends.cuda, "flash_sdp_enabled"):
print(f"torch.backends.cuda.flash_sdp_enabled(): {torch.backends.cuda.flash_sdp_enabled()}")
if hasattr(torch.backends.cuda, "mem_efficient_sdp_enabled"):
print(f"torch.backends.cuda.mem_efficient_sdp_enabled(): {torch.backends.cuda.mem_efficient_sdp_enabled()}")
if hasattr(torch.nn.functional, "get_flash_attention_available"):
print(f"torch.nn.functional.get_flash_attention_available(): {torch.nn.functional.get_flash_attention_available()}")
if torch_compile:
print("compiling")
torch.set_float32_matmul_precision('high')
unet = torch.compile(unet)#, mode="reduce-overhead", fullgraph=True)
print("compiling - ok")
if lora_name:
print(f"--- Настройка LoRA через PEFT (Rank={lora_rank}, Alpha={lora_alpha}) ---")
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.tuners.lora import LoraModel
import os
# 1. Замораживаем все параметры UNet
unet.requires_grad_(False)
print("Параметры базового UNet заморожены.")
# 2. Создаем конфигурацию LoRA
lora_config = LoraConfig(
r=lora_rank,
lora_alpha=lora_alpha,
target_modules=["to_q", "to_k", "to_v", "to_out.0"],
)
unet.add_adapter(lora_config)
# 3. Оборачиваем UNet в PEFT-модель
from peft import get_peft_model
peft_unet = get_peft_model(unet, lora_config)
# 4. Получаем параметры для оптимизации
params_to_optimize = list(p for p in peft_unet.parameters() if p.requires_grad)
# 5. Выводим информацию о количестве параметров
if accelerator.is_main_process:
lora_params_count = sum(p.numel() for p in params_to_optimize)
total_params_count = sum(p.numel() for p in unet.parameters())
print(f"Количество обучаемых параметров (LoRA): {lora_params_count:,}")
print(f"Общее количество параметров UNet: {total_params_count:,}")
# 6. Путь для сохранения
lora_save_path = os.path.join("lora", lora_name)
os.makedirs(lora_save_path, exist_ok=True)
# 7. Функция для сохранения
def save_lora_checkpoint(model):
if accelerator.is_main_process:
print(f"Сохраняем LoRA адаптеры в {lora_save_path}")
from peft.utils.save_and_load import get_peft_model_state_dict
# Получаем state_dict только LoRA
lora_state_dict = get_peft_model_state_dict(model)
# Сохраняем веса
torch.save(lora_state_dict, os.path.join(lora_save_path, "adapter_model.bin"))
# Сохраняем конфиг
model.peft_config["default"].save_pretrained(lora_save_path)
# SDXL must be compatible
from diffusers import StableDiffusionXLPipeline
StableDiffusionXLPipeline.save_lora_weights(lora_save_path, lora_state_dict)
# --------------------------- Оптимизатор ---------------------------
# Определяем параметры для оптимизации
#unet = torch.compile(unet)
if lora_name:
# Если используется LoRA, оптимизируем только параметры LoRA
trainable_params = [p for p in unet.parameters() if p.requires_grad]
else:
# Иначе оптимизируем все параметры
if fbp:
trainable_params = list(unet.parameters())
if fbp:
# [1] Создаем словарь оптимизаторов (fused backward)
if adam8bit:
optimizer_dict = {
p: bnb.optim.AdamW8bit(
[p], # Каждый параметр получает свой оптимизатор
lr=base_learning_rate,
eps=1e-8
) for p in trainable_params
}
else:
optimizer_dict = {
p: bnb.optim.Lion8bit(
[p], # Каждый параметр получает свой оптимизатор
lr=base_learning_rate,
betas=(0.9, 0.97),
weight_decay=0.01,
percentile_clipping=percentile_clipping,
) for p in trainable_params
}
# [2] Определяем hook для применения оптимизатора сразу после накопления градиента
def optimizer_hook(param):
optimizer_dict[param].step()
optimizer_dict[param].zero_grad(set_to_none=True)
# [3] Регистрируем hook для trainable параметров модели
for param in trainable_params:
param.register_post_accumulate_grad_hook(optimizer_hook)
# Подготовка через Accelerator
unet, optimizer = accelerator.prepare(unet, optimizer_dict)
else:
if adam8bit:
optimizer = bnb.optim.AdamW8bit(
params=unet.parameters(),
lr=base_learning_rate,
betas=(0.9, 0.999),
eps=1e-8,
weight_decay=0.01
)
#from torch.optim import AdamW
#optimizer = AdamW(
# params=unet.parameters(),
# lr=base_learning_rate,
# betas=(0.9, 0.999),
# eps=1e-8,
# weight_decay=0.01
#)
else:
optimizer = bnb.optim.Lion8bit(
params=unet.parameters(),
lr=base_learning_rate,
betas=(0.9, 0.97),
weight_decay=0.01,
percentile_clipping=percentile_clipping,
)
from transformers import get_constant_schedule_with_warmup
# warmup
num_warmup_steps = num_warmup_steps * world_size
#lr_scheduler = get_constant_schedule_with_warmup(
# optimizer=optimizer,
# num_warmup_steps=num_warmup_steps
#)
from torch.optim.lr_scheduler import LambdaLR
def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
# Если не используем затухание, возвращаем базовый LR
if not use_decay:
return base_lr
# Иначе используем линейный прогрев и косинусное затухание
x = step / max_steps
percent = 0.05
if x < percent:
# Линейный прогрев до percent% шагов
return min_lr + (base_lr - min_lr) * (x / percent)
else:
# Косинусное затухание
decay_ratio = (x - percent) / (1 - percent)
return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))
def custom_lr_lambda(step):
return lr_schedule(step, total_training_steps*world_size,
base_learning_rate, min_learning_rate,
(num_warmup_steps>0)) / base_learning_rate
lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)
unet, optimizer, lr_scheduler = accelerator.prepare(unet, optimizer, lr_scheduler)
# --------------------------- Фиксированные семплы для генерации ---------------------------
# Примеры фиксированных семплов по размерам
fixed_samples = get_fixed_samples_by_resolution(dataset)
@torch.compiler.disable()
@torch.no_grad()
def generate_and_save_samples(fixed_samples_cpu, step):
"""
Генерирует семплы для каждого из разрешений и сохраняет их.
Args:
fixed_samples_cpu: Словарь, где ключи - размеры (width, height),
а значения - кортежи (latents, embeddings, text) на CPU.
step: Текущий шаг обучения
"""
original_model = None # Инициализируем, чтобы finally не ругался
try:
original_model = accelerator.unwrap_model(unet)
original_model = original_model.to(dtype = dtype)
original_model.eval()
vae.to(device=device, dtype=dtype)
vae.eval()
scheduler.set_timesteps(n_diffusion_steps)
all_generated_images = []
all_captions = []
for size, (sample_latents, sample_text_embeddings, sample_text) in fixed_samples_cpu.items():
width, height = size
sample_latents = sample_latents.to(dtype=dtype)
sample_text_embeddings = sample_text_embeddings.to(dtype=dtype)
# Инициализируем латенты случайным шумом
# sample_latents уже в dtype, так что noise будет создан в dtype
noise = torch.randn(
sample_latents.shape, # Используем форму от sample_latents, которые теперь на GPU и fp16
generator=gen,
device=device,
dtype=sample_latents.dtype
)
current_latents = noise.clone()
# Подготовка текстовых эмбеддингов для guidance
if guidance_scale > 0:
# empty_embeddings должны быть того же типа и на том же устройстве
empty_embeddings = torch.zeros_like(sample_text_embeddings, dtype=sample_text_embeddings.dtype, device=device)
text_embeddings_batch = torch.cat([empty_embeddings, sample_text_embeddings], dim=0)
else:
text_embeddings_batch = sample_text_embeddings
for t in scheduler.timesteps:
t_batch = t.repeat(current_latents.shape[0]).to(device) # Убедимся, что t на устройстве
if guidance_scale > 0:
latent_model_input = torch.cat([current_latents] * 2)
else:
latent_model_input = current_latents
latent_model_input_scaled = scheduler.scale_model_input(latent_model_input, t_batch)
# Предсказание шума (UNet)
noise_pred = original_model(latent_model_input_scaled, t_batch, text_embeddings_batch).sample
if guidance_scale > 0:
noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)
current_latents = scheduler.step(noise_pred, t, current_latents).prev_sample
#print(f"current_latents Min: {current_latents.min()} Max: {current_latents.max()}")
# Декодирование через VAE
latent_for_vae = (current_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
decoded = vae.decode(latent_for_vae).sample
# Преобразуем тензоры в PIL-изображения
# Для математики с изображением (нормализация) лучше перейти в fp32
decoded_fp32 = decoded.to(torch.float32)
for img_idx, img_tensor in enumerate(decoded_fp32):
img = (img_tensor / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
# If NaNs or infs are present, print them
if np.isnan(img).any():
print("NaNs found, saving stoped! Step:", step)
save_model = False
pil_img = Image.fromarray((img * 255).astype("uint8"))
max_w_overall = max(s[0] for s in fixed_samples_cpu.keys())
max_h_overall = max(s[1] for s in fixed_samples_cpu.keys())
max_w_overall = max(255, max_w_overall)
max_h_overall = max(255, max_h_overall)
padded_img = ImageOps.pad(pil_img, (max_w_overall, max_h_overall), color='white')
all_generated_images.append(padded_img)
caption_text = sample_text[img_idx][:200] if img_idx < len(sample_text) else ""
all_captions.append(caption_text)
sample_path = f"{generated_folder}/{project}_{width}x{height}_{img_idx}.jpg"
pil_img.save(sample_path, "JPEG", quality=96)
if use_wandb and accelerator.is_main_process:
wandb_images = [
wandb.Image(img, caption=f"{all_captions[i]}")
for i, img in enumerate(all_generated_images)
]
wandb.log({"generated_images": wandb_images, "global_step": step})
finally:
vae.to("cpu") # Перемещаем VAE обратно на CPU
original_model = original_model.to(dtype = dtype)
if original_model is not None:
del original_model
# Очистка переменных, которые являются тензорами и были созданы в функции
for var in list(locals().keys()):
if isinstance(locals()[var], torch.Tensor):
del locals()[var]
torch.cuda.empty_cache()
gc.collect()
# --------------------------- Генерация сэмплов перед обучением ---------------------------
if accelerator.is_main_process:
if save_model:
print("Генерация сэмплов до старта обучения...")
generate_and_save_samples(fixed_samples,0)
# Модифицируем функцию сохранения модели для поддержки LoRA
def save_checkpoint(unet,variant=""):
if accelerator.is_main_process:
if lora_name:
# Сохраняем только LoRA адаптеры
save_lora_checkpoint(unet)
else:
# Сохраняем полную модель
if variant!="":
accelerator.unwrap_model(unet.to(dtype=torch.float16)).save_pretrained(os.path.join(checkpoints_folder, f"{project}"),variant=variant)
else:
accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
unet = unet.to(dtype=dtype)
# --------------------------- Тренировочный цикл ---------------------------
# Для логирования среднего лосса каждые % эпохи
if accelerator.is_main_process:
print(f"Total steps per GPU: {total_training_steps}")
epoch_loss_points = []
progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")
# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
steps_per_epoch = len(dataloader)
sample_interval = max(1, steps_per_epoch // sample_interval_share)
min_loss = 1.
# Начинаем с указанной эпохи (полезно при возобновлении)
for epoch in range(start_epoch, start_epoch + num_epochs):
batch_losses = []
batch_grads = []
#unet = unet.to(dtype = dtype)
batch_sampler.set_epoch(epoch)
accelerator.wait_for_everyone()
unet.train()
print("epoch:",epoch)
for step, (latents, embeddings) in enumerate(dataloader):
with accelerator.accumulate(unet):
if save_model == False and step == 5 :
used_gb = torch.cuda.max_memory_allocated() / 1024**3
print(f"Шаг {step}: {used_gb:.2f} GB")
#latents = latents.to(dtype = dtype)
#embeddings = embeddings.to(dtype = dtype)
#print(f"Latents dtype: {latents.dtype}")
#print(f"Embeddings dtype: {embeddings.dtype}")
#print(f"Noise dtype: {noise.dtype}")
# Forward pass
noise = torch.randn_like(latents, dtype=latents.dtype)
timesteps = torch.randint(steps_offset, scheduler.config.num_train_timesteps,
(latents.shape[0],), device=device).long()
# Добавляем шум к латентам
noisy_latents = scheduler.add_noise(latents, noise, timesteps)
# Используем целевое значение
model_pred = unet(noisy_latents, timesteps, embeddings).sample
target_pred = scheduler.get_velocity(latents, noise, timesteps)
# Считаем лосс
# Проверяем model_pred на nan/inf
#if torch.isnan(model_pred.float()).any() or torch.isinf(model_pred.float()).any():
# print(f"Rank {accelerator.process_index}: Found nan/inf in model_pred",model_pred.float())
# # Обработка nan/inf значений
# model_pred = torch.nan_to_num(model_pred.float(), nan=0.0, posinf=1.0, neginf=-1.0)
loss = torch.nn.functional.mse_loss(model_pred, target_pred)
# Проверяем на nan/inf перед backward
if torch.isnan(loss) or torch.isinf(loss):
print(f"Rank {accelerator.process_index}: Found nan/inf in loss: {loss}")
loss = torch.zeros_like(loss)
# Делаем backward через Accelerator
accelerator.backward(loss)
if (global_step % 100 == 0) or (global_step % sample_interval == 0):
accelerator.wait_for_everyone()
grad = 0.0
if not fbp:
if accelerator.sync_gradients:
grad = accelerator.clip_grad_norm_(unet.parameters(), 1.)
optimizer.step()
lr_scheduler.step()
optimizer.zero_grad(set_to_none=True)
# Увеличиваем счетчик глобальных шагов
global_step += 1
# Обновляем прогресс-бар
progress_bar.update(1)
# Логируем метрики
if accelerator.is_main_process:
if fbp:
current_lr = base_learning_rate
else:
current_lr = lr_scheduler.get_last_lr()[0]
batch_losses.append(loss.detach().item())
batch_grads.append(grad)
# Логируем в Wandb
if use_wandb:
wandb.log({
"loss": loss.detach().item(),
"learning_rate": current_lr,
"epoch": epoch,
"grad": grad,
"global_step": global_step
})
# Генерируем сэмплы с заданным интервалом
if global_step % sample_interval == 0:
generate_and_save_samples(fixed_samples,global_step)
# Выводим текущий лосс
avg_loss = np.mean(batch_losses[-sample_interval:])
avg_grad = torch.mean(torch.stack(batch_grads[-sample_interval:])).cpu().item()
print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}")
if save_model:
if avg_loss < min_loss:
min_loss = avg_loss
save_checkpoint(unet,"fp16")
save_checkpoint(unet)
if use_wandb:
wandb.log({"intermediate_loss": avg_loss})
wandb.log({"intermediate_grad": avg_grad})
# По окончании эпохи
#accelerator.wait_for_everyone()
if accelerator.is_main_process:
avg_epoch_loss = np.mean(batch_losses)
print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
if use_wandb:
wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})
# Завершение обучения - сохраняем финальную модель
if accelerator.is_main_process:
print("Обучение завершено! Сохраняем финальную модель...")
# Сохраняем основную модель
if save_model:
save_checkpoint(unet)
print("Готово!")
# randomize ode timesteps
# input_timestep = torch.round(
# F.sigmoid(torch.randn((n,), device=latents.device)), decimals=3
# )
#def create_distribution(num_points, device=None):
# # Диапазон вероятностей на оси x
# x = torch.linspace(0, 1, num_points, device=device)
# Пользовательская функция плотности вероятности
# probabilities = -7.7 * ((x - 0.5) ** 2) + 2
# Нормализация, чтобы сумма равнялась 1
# probabilities /= probabilities.sum()
# return x, probabilities
#def sample_from_distribution(x, probabilities, n, device=None):
# Выбор индексов на основе распределения вероятностей
# indices = torch.multinomial(probabilities, n, replacement=True)
# return x[indices]
# Пример использования
#num_points = 1000 # Количество точек в диапазоне
#n = latents.shape[0] # Количество временных шагов для выборки
#x, probabilities = create_distribution(num_points, device=latents.device)
#timesteps = sample_from_distribution(x, probabilities, n, device=latents.device)
# Преобразование в формат, подходящий для вашего кода
#timesteps = (timesteps * (scheduler.config.num_train_timesteps - 1)).long()