sdxs / train_siski.py

ep8

7807721 11 days ago

18.5 kB

	import os
	import math
	import torch
	import numpy as np
	import matplotlib.pyplot as plt
	from torch.utils.data import DataLoader
	from torch.optim.lr_scheduler import LambdaLR
	from diffusers import UNet2DConditionModel, AutoencoderKL, DDPMScheduler
	from accelerate import Accelerator
	from datasets import load_from_disk
	from tqdm import tqdm
	from PIL import Image
	import wandb
	import random
	import gc
	from accelerate.state import DistributedType
	from torch.distributed import broadcast_object_list
	#from adamw_bfloat16 import LR, AdamW_BF16


	# --------------------------- Параметры ---------------------------
	save_path = "datasets/siski384"#"datasets/siski64" #"datasets/mnist"
	batch_size = 5
	base_learning_rate = 8e-5
	min_learning_rate = 2e-5
	num_epochs = 36 #18
	project = "sdxs"
	use_wandb = True
	limit = 0
	checkpoint_file = "full_checkpoint.pt"
	reset_lroptim = True
	saveckpt = False
	save_model = True

	# Параметры для диффузии
	n_diffusion_steps = 50 # Увеличиваем число шагов для лучшего качества
	samples_to_generate = 6

	# Папки для сохранения результатов
	generated_folder = "samples"
	checkpoints_folder = ""
	os.makedirs(generated_folder, exist_ok=True)

	# Настройка seed для воспроизводимости
	seed = 42
	torch.manual_seed(seed)
	np.random.seed(seed)
	random.seed(seed)
	if torch.cuda.is_available():
	torch.cuda.manual_seed_all(seed)

	print("init")
	# --------------------------- Инициализация Accelerator ---------------------------
	dtype = torch.bfloat16
	accelerator = Accelerator(mixed_precision="bf16")
	device = accelerator.device
	gen = torch.Generator(device=device)
	gen.manual_seed(42)

	# --------------------------- Инициализация WandB ---------------------------
	if use_wandb and accelerator.is_main_process:
	wandb.init(project=project, config={
	"batch_size": batch_size,
	"base_learning_rate": base_learning_rate,
	"num_epochs": num_epochs,
	"n_diffusion_steps": n_diffusion_steps,
	"samples_to_generate": samples_to_generate,
	"dtype": str(dtype)
	})

	# --------------------------- Загрузка датасета ---------------------------
	if limit > 0:
	dataset = load_from_disk(save_path).select(range(limit))
	else:
	dataset = load_from_disk(save_path)

	def collate_fn(batch):
	# Преобразуем список в тензоры и перемещаем на девайс
	latents = torch.tensor(np.array([item["vae"] for item in batch]), dtype=dtype).to(device)
	embeddings = torch.tensor(np.array([item["embeddings"] for item in batch]), dtype=dtype).to(device)
	return latents, embeddings

	dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)
	print("Total samples",len(dataloader))
	dataloader = accelerator.prepare(dataloader)

	# --------------------------- Загрузка моделей ---------------------------
	# VAE загружается на CPU для экономии GPU-памяти
	vae = AutoencoderKL.from_pretrained("AuraDiffusion/16ch-vae").to("cpu", dtype=dtype)

	# DDPMScheduler с V_Prediction и Zero-SNR
	scheduler = DDPMScheduler(
	num_train_timesteps=1000, # Полный график шагов для обучения
	prediction_type="v_prediction", # V-Prediction
	rescale_betas_zero_snr=True, # Включение Zero-SNR
	timestep_spacing="leading", # Добавляем улучшенное распределение шагов
	steps_offset=1 # Избегаем проблем с нулевым timestep
	)

	# Инициализация переменных для возобновления обучения
	start_epoch = 0
	global_step = 0

	# Расчёт общего количества шагов
	total_training_steps = (len(dataloader) * num_epochs)
	# Get the world size
	world_size = accelerator.state.num_processes
	print(f"World Size: {world_size}")

	# Опция загрузки модели из последнего чекпоинта (если существует)
	latest_checkpoint = os.path.join(checkpoints_folder, project)
	if os.path.isdir(latest_checkpoint):
	print("Загружаем UNet из чекпоинта:", latest_checkpoint)
	unet = UNet2DConditionModel.from_pretrained(latest_checkpoint).to(device, dtype=dtype)

	# --------------------------- Оптимизатор и кастомный LR scheduler ---------------------------
	# Улучшенный AdamW с правильными параметрами
	from optimi import AdamW
	optimizer = torch.optim.AdamW(
	unet.parameters(),
	lr=base_learning_rate,
	betas=(0.9, 0.999),
	weight_decay=1e-6, # Безопасное значение для SD
	eps=1e-8
	)
	#optimizer = AdamW_BF16(unet.parameters(), lr_function=LR(lr=base_learning_rate, preheat_steps=5000, decay_power=-0.25))


	# Улучшенный планировщик с фиксированной скоростью обучения для случаев возобновления
	# и возможностью плавного затухания
	def lr_schedule(step, max_steps, base_lr, min_lr, use_decay=True):
	# Если не используем затухание, возвращаем базовый LR
	if not use_decay:
	return base_lr

	# Иначе используем линейный прогрев и косинусное затухание
	x = step / max_steps
	if x < 0.1:
	# Линейный прогрев до 10% шагов
	return min_lr + (base_lr - min_lr) * (x / 0.1)
	else:
	# Косинусное затухание
	decay_ratio = (x - 0.1) / (1 - 0.1)
	return min_lr + 0.5 * (base_lr - min_lr) * (1 + math.cos(math.pi * decay_ratio))

	# Флаг для контроля использования затухания LR, вы можете менять его при возобновлении обучения
	use_lr_decay = True # Устанавливайте в False, если хотите отключить затухание

	def custom_lr_lambda(step):
	return lr_schedule(step, total_training_steps*world_size,
	base_learning_rate, min_learning_rate,
	use_lr_decay) / base_learning_rate

	lr_scheduler = LambdaLR(optimizer, lr_lambda=custom_lr_lambda)

	# Подготовка через Accelerator
	unet, optimizer,lr_scheduler = accelerator.prepare(unet, optimizer,lr_scheduler)

	# Загрузка полного чекпоинта если существует
	checkpoint_path = os.path.join(checkpoints_folder, checkpoint_file)
	if os.path.isfile(checkpoint_path) and accelerator.is_main_process:
	print(f"Загружаем полный чекпоинт: {checkpoint_path}")
	checkpoint = torch.load(checkpoint_path, map_location="cpu")
	else:
	checkpoint = None

	# Если задействовано распределённое обучение, рассылаем объект чекпоинта всем процессам.
	if accelerator.state.distributed_type != DistributedType.NO:
	checkpoint_list = [checkpoint]
	broadcast_object_list(checkpoint_list, src=0)
	checkpoint = checkpoint_list[0]

	if checkpoint is not None:
	# Загружаем состояния
	accelerator.unwrap_model(unet).load_state_dict(checkpoint['model_state_dict'])
	#if not reset_lroptim:
	# Пересоздаем оптимизатор с текущим learning rate
	# optimizer.param_groups[0]['lr'] = base_learning_rate
	# optimizer = torch.optim.AdamW(
	# unet.parameters(),
	# lr=base_learning_rate, # Можно изменить при возобновлении
	# betas=(0.9, 0.999),
	# weight_decay=1e-6,
	# eps=1e-8
	# )
	# print(f"optimizer learning rate: {optimizer.param_groups[0]['lr']}")
	# optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
	#lr_scheduler.load_state_dict(checkpoint['lr_scheduler_state_dict'])
	start_epoch = checkpoint['epoch'] + 1
	global_step = checkpoint['global_step']
	print(f"Продолжаем с эпохи {start_epoch}, шага {global_step}")


	# --------------------------- Фиксированные семплы для генерации ---------------------------
	# Выбираем фиксированные индексы (приводим к int)
	sample_indices = np.random.choice(len(dataset), samples_to_generate, replace=False)
	sample_data = [dataset[int(i)] for i in sample_indices]

	def get_sample_inputs(sample_data):
	# Получаем latents и текстовые эмбеддинги для выбранных примеров (collate_fn переносит на device)
	return collate_fn(sample_data)

	@torch.no_grad()
	def generate_and_save_samples(step: int):
	"""
	Перемещает VAE на device, генерирует семплы с заданным числом diffusion шагов,
	декодирует их и отправляет на WandB.
	После генерации VAE возвращается на CPU.
	"""
	try:
	original_model = accelerator.unwrap_model(unet)
	# Перемещаем VAE на device для семплирования
	vae.to(accelerator.device, dtype=dtype)

	# Устанавливаем количество diffusion шагов
	scheduler.set_timesteps(n_diffusion_steps)

	# Получаем фиксированные данные
	sample_latents, sample_text_embeddings = get_sample_inputs(sample_data)
	sample_latents = sample_latents.to(dtype)

	# Инициализируем латенты случайным шумом
	sample_latents = torch.randn(
	sample_latents.shape,
	generator=gen,
	device=sample_latents.device,
	dtype=sample_latents.dtype
	)

	# Добавляем CFG для лучшего качества
	guidance_scale = 3.0

	# Генерация изображений
	with torch.no_grad():
	for t in scheduler.timesteps:
	latent_model_input = scheduler.scale_model_input(sample_latents, t)
	noise_pred = original_model(latent_model_input, t, sample_text_embeddings).sample
	# Шаг диффузии
	sample_latents = scheduler.step(noise_pred, t, sample_latents).prev_sample

	# Декодирование через VAE
	latent = (sample_latents.detach() / vae.config.scaling_factor) + vae.config.shift_factor
	latent = latent.to(accelerator.device, dtype=dtype)
	decoded = vae.decode(latent).sample

	# Преобразуем тензоры в PIL-изображения
	generated_images = []
	for img_idx, img_tensor in enumerate(decoded):
	img = (img_tensor.to(torch.float32) / 2 + 0.5).clamp(0, 1).cpu().numpy().transpose(1, 2, 0)
	pil_img = Image.fromarray((img * 255).astype("uint8"))
	generated_images.append(pil_img)
	save_path = f"{generated_folder}/{project}_{img_idx}.jpg"
	pil_img.save(save_path, "JPEG", quality=95)

	# Отправляем изображения на WandB
	if use_wandb and accelerator.is_main_process:
	wandb_images = [wandb.Image(img, caption=f"Sample {i}") for i, img in enumerate(generated_images)]
	wandb.log({"generated_images": wandb_images, "global_step": step})

	finally:
	# Гарантированное перемещение VAE обратно на CPU
	vae.to("cpu")
	if original_model is not None:
	del original_model
	torch.cuda.empty_cache() # Очищаем кэш CUDA
	gc.collect()

	# --------------------------- Генерация сэмплов перед обучением ---------------------------
	if accelerator.is_main_process:
	print("Генерация сэмплов до старта обучения...")
	generate_and_save_samples(step=0)

	# --------------------------- Тренировочный цикл ---------------------------
	# Для логирования среднего лосса каждые 10% эпохи
	if accelerator.is_main_process:
	print(f"Total steps per GPU: {total_training_steps}")
	print(f"[GPU {accelerator.process_index}] Total steps: {total_training_steps}")

	epoch_loss_points = []
	progress_bar = tqdm(total=total_training_steps, disable=not accelerator.is_local_main_process, desc="Training", unit="step")

	# Определяем интервал для сэмплирования и логирования в пределах эпохи (10% эпохи)
	steps_per_epoch = len(dataloader)
	sample_interval = max(1, steps_per_epoch // 4)

	def save_ckpt():
	if saveckpt:
	# После сохранения модели в конце каждой эпохи
	checkpoint_path = os.path.join(checkpoints_folder, checkpoint_file)
	torch.save({
	'model_state_dict': accelerator.unwrap_model(unet).state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	#'lr_scheduler_state_dict': lr_scheduler.state_dict(),
	'epoch': epoch,
	'global_step': global_step,
	}, checkpoint_path)
	print(f"Полный чекпоинт сохранён: {checkpoint_path}")

	# Начинаем с указанной эпохи (полезно при возобновлении)
	for epoch in range(start_epoch, start_epoch + num_epochs):
	batch_losses = []
	unet.train()

	for step, (latents, embeddings) in enumerate(dataloader):
	with accelerator.accumulate(unet):
	# Forward pass - используем timesteps из более широкого диапазона
	noise = torch.randn_like(latents)
	timesteps = torch.randint(
	1, # Начинаем с 1, не с 0
	scheduler.config.num_train_timesteps,
	(latents.shape[0],),
	device=device
	).long()

	# Добавляем шум к латентам
	noisy_latents = scheduler.add_noise(latents, noise, timesteps)

	# Получаем предсказание шума
	noise_pred = unet(noisy_latents, timesteps, embeddings).sample#.to(dtype=torch.bfloat16)

	# Используем целевое значение v_prediction
	target = scheduler.get_velocity(latents, noise, timesteps)
	#print("noise_pred",noise_pred.dtype) # Должно быть torch.bfloat16
	#print("target",target.dtype) # Должно быть torch.bfloat16

	# Считаем лосс в BF16 для стабильности
	loss = torch.nn.functional.mse_loss(
	noise_pred.float(),
	target.float()
	)
	#print("loss",loss.dtype)

	# Делаем backward через Accelerator
	accelerator.backward(loss) # так делал раньше

	# Используем ограничение нормы градиентов через Accelerator
	grad_norm = accelerator.clip_grad_norm_(unet.parameters(), 1.0)

	# Важно: шаг оптимизатора должен быть именно здесь
	optimizer.step()
	lr_scheduler.step()
	optimizer.zero_grad(set_to_none=True)

	# Увеличиваем счетчик глобальных шагов
	global_step += 1

	# Обновляем прогресс-бар
	progress_bar.update(1)

	# Логируем метрики
	if accelerator.is_main_process:
	current_lr = lr_scheduler.get_last_lr()[0]

	batch_losses.append(loss.detach().item())

	# Логируем в Wandb
	if global_step % 2 == 0 and use_wandb:
	wandb.log({
	"loss": loss.detach().item(),
	"learning_rate": current_lr,
	"epoch": epoch,
	"grad_norm": grad_norm.item(),
	"epoch": epoch,
	"global_step": global_step
	})

	# Генерируем сэмплы с заданным интервалом
	if global_step % sample_interval == 0 and accelerator.is_main_process:
	generate_and_save_samples(global_step)

	# Выводим текущий лосс
	avg_loss = np.mean(batch_losses[-sample_interval:])
	#print(f"Эпоха {epoch}, шаг {global_step}, средний лосс: {avg_loss:.6f}, LR: {current_lr:.8f}")
	if use_wandb:
	wandb.log({"intermediate_loss": avg_loss})


	# По окончании эпохи
	accelerator.wait_for_everyone()
	# Сохраняем чекпоинт в конце каждой эпохи
	if accelerator.is_main_process:
	save_ckpt()

	# Сохраняем UNet отдельно для удобства использования
	if save_model:
	accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
	avg_epoch_loss = np.mean(batch_losses)
	print(f"\nЭпоха {epoch} завершена. Средний лосс: {avg_epoch_loss:.6f}")
	if use_wandb:
	wandb.log({"epoch_loss": avg_epoch_loss, "epoch": epoch+1})

	# Завершение обучения - сохраняем финальную модель
	if accelerator.is_main_process:
	print("Обучение завершено! Сохраняем финальную модель...")
	# Сохраняем основную модель
	if save_model:
	accelerator.unwrap_model(unet).save_pretrained(os.path.join(checkpoints_folder, f"{project}"))
	print("Готово!")