Spaces:

anonymous2023-21
/

TEDM-demo

Runtime error

TEDM-demo / trainers /train_base_diffusion.py

anonymous

first commit without models

a2dba58 about 1 year ago

No virus

9.42 kB

	import os
	import torch
	from torch import autocast
	from torch.cuda.amp import GradScaler
	from tqdm import tqdm
	from dataloaders.JSRT import build_dataloaders as build_dataloaders_JSRT
	from models.diffusion_model import DiffusionModel
	from trainers.utils import (TensorboardLogger, compare_configs, sample_plot_image,
	seed_everything)


	def train(config, model, optimizer, train_loader, val_loader, logger, scaler, step):
	best_val_loss = float('inf')
	train_losses = []
	if config.joint_training and config.experiment == 'joint_and_cond':
	img_losses = []
	seg_losses = []
	pbar = tqdm(total=config.val_freq, desc='Training')
	cond = None
	while True:
	for x, y in train_loader:
	pbar.update(1)
	step += 1

	if config.experiment == "joint":
	x = torch.concat([x,y], dim=1)
	elif config.experiment == "conditional":
	cond = x # condition on the image
	cond = cond.to(config.device)
	x = y # predict the segmentation
	elif config.experiment == "joint_and_cond":
	cond = y.to(config.device)
	x = x.to(config.device)

	# Forward pass
	optimizer.zero_grad()
	with autocast(device_type=config.device, enabled=config.mixed_precision):
	loss = model.train_step(x, cond)
	if config.joint_training and config.experiment == 'joint_and_cond':
	img_loss, seg_loss = loss
	loss = img_loss + seg_loss
	img_losses.append(img_loss.item())
	seg_losses.append(seg_loss.item())

	scaler.scale(loss).backward()
	optimizer.step()

	train_losses.append(loss.item())
	if config.joint_training and config.experiment == 'joint_and_cond':
	pbar.set_description(f'Training loss: {loss.item():.4f} (img: {img_loss.item():.4f}, seg: {seg_loss.item():.4f})')
	else:
	pbar.set_description(f'Training loss: {loss.item():.4f}')

	if step % config.log_freq == 0 or config.debug:
	avg_train_loss = sum(train_losses) / len(train_losses)
	print(f'Step {step} - Train loss: {avg_train_loss:.4f}')
	logger.log({'train/loss': avg_train_loss}, step=step)
	if config.joint_training and config.experiment == 'joint_and_cond':
	avg_img_loss = sum(img_losses) / len(img_losses)
	avg_seg_loss = sum(seg_losses) / len(seg_losses)
	logger.log({'train_loss/img': avg_img_loss}, step=step)
	logger.log({'train_loss/seg': avg_seg_loss}, step=step)

	if step % config.val_freq == 0 or config.debug:
	val_results = validate(config, model, val_loader)
	logger.log(val_results, step=step)

	if val_results['val/loss'] < best_val_loss and not config.debug:
	print(f'Step {step} - New best validation loss: '
	f'{val_results["val/loss"]:.4f}, saving model '
	f'in {config.log_dir}')
	best_val_loss = val_results['val/loss']
	save(
	model,
	optimizer,
	config,
	config.log_dir / 'best_model.pt',
	step
	)

	if step >= config.max_steps or config.debug:
	return model


	@torch.no_grad()
	def validate(config, model, val_loader):
	model.eval()
	losses = []
	if config.joint_training and config.experiment == 'joint_and_cond':
	img_losses = []
	seg_losses = []
	cond=None
	for i, (x, y) in tqdm(enumerate(val_loader), desc='Validating'):
	if config.experiment == "joint":
	x = torch.cat([x,y], dim=1)
	elif config.experiment == "conditional":
	cond = x # condition on the image
	cond = cond.to(config.device)
	x = y # predict the segmentation
	elif config.experiment == "joint_and_cond":
	cond = y.to(config.device)
	x = x.to(config.device)

	with autocast(device_type=config.device, enabled=config.mixed_precision):
	if len(val_loader.dataset) > 1000:
	# val set is too large to evaluate for each timestep, take random timesteps
	loss = model.train_step(x, cond)
	else:
	loss = model.val_step(x, cond, t_steps=config.val_steps)
	if config.joint_training and config.experiment == 'joint_and_cond':
	img_loss, seg_loss = loss
	loss = img_loss + seg_loss
	img_losses.append(img_loss.item())
	seg_losses.append(seg_loss.item())

	losses.append(loss.item())

	if i + 1 == config.max_val_steps or config.debug:
	break

	avg_loss = sum(losses) / len(losses)
	if config.joint_training and config.experiment == 'joint_and_cond':
	avg_img_loss = sum(img_losses) / len(img_losses)
	avg_seg_loss = sum(seg_losses) / len(seg_losses)
	print(f'Validation loss: {avg_loss:.4f} (img: {avg_img_loss:.4f}, seg: {avg_seg_loss:.4f})')
	else:
	print(f'Validation loss: {avg_loss:.4f}')

	# Build visualisations
	# select images for visualisation
	if config.experiment == "conditional":
	# note that there is no randomness on how the images are selected
	# if there are enough images on the last validation batch, then we keep those
	# otherwise, we take the first images from a new validation epoch batch
	config.n_sampled_imgs = config.n_sampled_imgs if not config.debug else 1
	N_missing = config.n_sampled_imgs - cond.shape[0]
	iter_val_loader = iter(val_loader) # new validation epoch
	while N_missing > 0: # are we missing images?
	new_cond, _ = next(iter_val_loader)
	cond = torch.cat([cond, new_cond], dim=0)
	N_missing = config.n_sampled_imgs - cond.shape[0]
	del iter_val_loader
	if N_missing < 0: # do we have too many images?
	cond = cond[:config.n_sampled_imgs]

	with autocast(device_type=config.device, enabled=config.mixed_precision):
	sampled_imgs = sample_plot_image(
	model,
	config.timesteps,
	config.img_size,
	config.n_sampled_imgs, # this defaults to 1 if in debug mode
	config.channels if config.experiment != "joint_and_cond" else config.channels + config.out_channels, # out_channels stands for channels in segmentation
	cond=cond,
	normalized=config.normalize,
	)

	model.train()
	return {
	'val/loss': avg_loss,
	'val/sampled images': sampled_imgs
	}


	def save(model, optimizer, config, path, step):
	torch.save({
	'model_state_dict': model.state_dict(),
	'optimizer_state_dict': optimizer.state_dict(),
	'config': config,
	'step': step
	}, path)


	def load(new_config, path):
	checkpoint = torch.load(path, map_location=torch.device(new_config.device))
	old_config = checkpoint['config']
	compare_configs(old_config, new_config)
	model = DiffusionModel(old_config)
	model.to(new_config.device)
	model.load_state_dict(checkpoint['model_state_dict'])
	optimizer = torch.optim.Adam(model.parameters(), lr=new_config.lr)
	optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
	step = checkpoint['step']
	return model, optimizer, step


	def main(config):
	# adjust logdir to include experiment name
	os.makedirs(config.log_dir, exist_ok=True)

	# save config namespace into logdir
	with open(config.log_dir / 'config.txt', 'w') as f:
	for k, v in vars(config).items():
	if type(v) not in [str, int, float, bool]:
	f.write(f'{k}: {str(v)}\n')
	else:
	f.write(f'{k}: {v}\n')

	# Random seed
	seed_everything(config.seed)

	# Init model and optimizer
	if config.resume_path is not None:
	print('Loading model from', config.resume_path)
	diffusion_model, optimizer, step = load(config, config.resume_path)
	else:
	if config.experiment in ["img_only", "joint", "conditional"]:
	diffusion_model = DiffusionModel(config)
	else:
	raise ValueError(f"Unknown experiment: {config.experiment}")

	optimizer = torch.optim.Adam(diffusion_model.parameters(), lr=config.lr, weight_decay=config.weight_decay) # , betas=config.adam_betas)
	step = 0
	diffusion_model.to(config.device)
	diffusion_model.train()

	scaler = GradScaler()

	# Load data
	if config.dataset == "JSRT":
	build_dataloaders = build_dataloaders_JSRT
	else:
	raise ValueError(f"Unknown dataset: {config.dataset}")
	dataloaders = build_dataloaders(
	config.data_dir,
	config.img_size,
	config.batch_size,
	config.num_workers,
	config.n_labelled_images,
	)
	train_dl = dataloaders['train']
	val_dl = dataloaders['val']

	# Logger
	logger = TensorboardLogger(config.log_dir, enabled=not config.debug)

	train(config, diffusion_model, optimizer, train_dl, val_dl, logger, scaler, step)