rule-guided-music / scripts /classifier_train_aug.py

yjhuangcd

First commit

9965bf6 7 months ago

11.1 kB

	"""
	Train a noised image classifier on ImageNet.
	"""

	import argparse
	import os
	import os.path as osp

	import blobfile as bf
	import torch as th
	import torch.distributed as dist
	import torch.nn.functional as F
	from torch.nn.parallel.distributed import DistributedDataParallel as DDP
	from torch.optim import AdamW

	from guided_diffusion import dist_util, logger
	from guided_diffusion.fp16_util import MixedPrecisionTrainer
	from guided_diffusion.pr_datasets_all import load_data
	from guided_diffusion.dit import DiT_models
	from guided_diffusion.resample import create_named_schedule_sampler
	from guided_diffusion.script_util import (
	add_dict_to_argparser,
	create_diffusion,
	args_to_dict,
	classifier_and_diffusion_defaults,
	create_classifier_and_diffusion,
	)
	from load_utils import load_model
	from guided_diffusion.train_util import parse_resume_step_from_filename, log_loss_dict, get_kl_input


	def main():
	args = create_argparser().parse_args()

	comm = dist_util.setup_dist(port=args.port)
	logger.configure(args=args, comm=comm)

	logger.log("creating model and diffusion...")
	model = DiT_models[args.model](
	input_size=args.image_size,
	in_channels=args.in_channels,
	num_classes=args.num_classes,
	chord=True if args.rule == 'chord_progression' else False,
	)
	diffusion = create_diffusion(
	learn_sigma=args.learn_sigma,
	diffusion_steps=args.diffusion_steps,
	noise_schedule=args.noise_schedule,
	timestep_respacing=args.timestep_respacing,
	use_kl=args.use_kl,
	predict_xstart=args.predict_xstart,
	rescale_timesteps=args.rescale_timesteps,
	rescale_learned_sigmas=args.rescale_learned_sigmas,
	)

	# create embed model
	embed_model = load_model(args.embed_model_name, args.embed_model_ckpt)
	del embed_model.loss
	embed_model.to(dist_util.dev())
	embed_model.eval()

	model.to(dist_util.dev())
	if args.noised:
	schedule_sampler = create_named_schedule_sampler(
	args.schedule_sampler, diffusion
	)

	resume_step = 0
	if args.resume_checkpoint:
	resume_step = parse_resume_step_from_filename(args.resume_checkpoint)
	if dist.get_rank() == 0:
	logger.log(
	f"loading model from checkpoint: {args.resume_checkpoint}... at {resume_step} step"
	)
	model.load_state_dict(
	dist_util.load_state_dict(
	args.resume_checkpoint, map_location=dist_util.dev()
	)
	)

	# Needed for creating correct EMAs and fp16 parameters.
	dist_util.sync_params(model.parameters())

	mp_trainer = MixedPrecisionTrainer(
	model=model, use_fp16=args.classifier_use_fp16, initial_lg_loss_scale=16.0
	)

	model = DDP(
	model,
	device_ids=[dist_util.dev()],
	output_device=dist_util.dev(),
	broadcast_buffers=False,
	bucket_cap_mb=128,
	find_unused_parameters=False,
	)

	logger.log("creating data loader...")
	data = load_data(
	data_dir=args.data_dir + "_train.csv",
	batch_size=args.batch_size // args.encode_rep,
	class_cond=True if args.rule is None else False,
	image_size=args.pr_image_size,
	rule=args.rule,
	)
	if args.val_data_dir:
	val_data = load_data(
	data_dir=args.data_dir + "_test.csv",
	batch_size=args.batch_size // args.encode_rep,
	class_cond=True if args.rule is None else False,
	image_size=args.pr_image_size,
	rule=args.rule,
	)
	else:
	val_data = None

	logger.log(f"creating optimizer...")
	opt = AdamW(mp_trainer.master_params, lr=args.lr, weight_decay=args.weight_decay)
	if args.resume_checkpoint:
	opt_checkpoint = bf.join(
	bf.dirname(args.resume_checkpoint), f"opt{resume_step:06}.pt"
	)
	logger.log(f"loading optimizer state from checkpoint: {opt_checkpoint}")
	opt.load_state_dict(
	dist_util.load_state_dict(opt_checkpoint, map_location=dist_util.dev())
	)

	logger.log("training classifier model...")

	def forward_backward_log(data_loader, prefix="train", rule=None):
	batch, extra = next(data_loader)
	if rule is not None:
	if rule == 'chord_progression':
	labels_key = extra["key"].to(dist_util.dev()) # B x 1
	labels_chord = extra["chord"].to(dist_util.dev()) # B x 8
	labels = th.concat((labels_key, labels_chord), dim=-1) # B x (1+8)
	else:
	labels = extra[rule].to(dist_util.dev())
	else:
	labels = extra["y"].to(dist_util.dev())
	if args.get_KL:
	# need more sample diversity in a batch for classification
	batch = get_kl_input(batch, microbatch=args.microbatch_encode, model=embed_model,
	scale_factor=args.scale_factor, recombine=False)
	if batch.shape[0] != labels.shape[0]:
	labels = labels.repeat_interleave(args.encode_rep, dim=0)
	batch = batch.to(dist_util.dev())
	# Noisy images
	if args.noised:
	t, _ = schedule_sampler.sample(batch.shape[0], dist_util.dev())
	# decoder cannot decode samples with t < 750
	if args.no_high_noise:
	t[t > 750] = 1000 - t[t > 750]
	batch = diffusion.q_sample(batch, t)
	else:
	t = th.zeros(batch.shape[0], dtype=th.long, device=dist_util.dev())

	for i, (sub_batch, sub_labels, sub_t) in enumerate(
	split_microbatches(args.microbatch, batch, labels, t)
	):
	if rule == 'chord_progression':
	key, chord = model(sub_batch, sub_t)
	else:
	logits = model(sub_batch, sub_t)
	if rule is not None:
	if rule == 'chord_progression':
	sub_labels_key = sub_labels[:, :1].squeeze()
	sub_labels_chord = sub_labels[:, 1:].reshape(-1)
	chord = chord.reshape(-1, chord.shape[-1])
	loss_key = F.cross_entropy(key, sub_labels_key, reduction="none")
	loss_chord = F.cross_entropy(chord, sub_labels_chord, reduction="none")
	# reshape to B x n_chord (8), and average along n_chord
	loss_chord = loss_chord.reshape(sub_batch.shape[0], -1).mean(dim=-1)
	loss = (loss_key + loss_chord) / 2
	else:
	loss = F.mse_loss(logits, sub_labels, reduction="none").mean(dim=-1)
	else: # train for cfg condition
	loss = F.cross_entropy(logits, sub_labels, reduction="none")

	losses = {}
	losses[f"{prefix}_loss"] = loss.detach()
	if rule is None:
	losses[f"{prefix}_acc@1"] = compute_top_k(
	logits, sub_labels, k=1, reduction="none"
	)
	# losses[f"{prefix}_acc@5"] = compute_top_k(
	# logits, sub_labels, k=5, reduction="none"
	# )
	elif rule == 'chord_progression':
	losses[f"{prefix}_acc@1"] = compute_top_k(
	chord, sub_labels_chord, k=1, reduction="none"
	)
	log_loss_dict(diffusion, sub_t, losses)
	del losses
	loss = loss.mean()
	if loss.requires_grad:
	if i == 0:
	mp_trainer.zero_grad()
	mp_trainer.backward(loss * len(sub_batch) / len(batch))

	for step in range(args.iterations - resume_step):
	logger.logkv("step", step + resume_step)
	logger.logkv(
	"samples",
	(step + resume_step + 1) * args.batch_size * dist.get_world_size(),
	)
	if args.anneal_lr:
	set_annealed_lr(opt, args.lr, (step + resume_step) / args.iterations)
	forward_backward_log(data, rule=args.rule)
	mp_trainer.optimize(opt)
	if val_data is not None and not step % args.eval_interval:
	with th.no_grad():
	with model.no_sync():
	model.eval()
	forward_backward_log(val_data, prefix="val", rule=args.rule)
	model.train()
	if not step % args.log_interval:
	logger.dumpkvs()
	if (
	step
	and dist.get_rank() == 0
	and not (step + resume_step) % args.save_interval
	):
	logger.log("saving model...")
	save_model(mp_trainer, opt, step + resume_step)

	if dist.get_rank() == 0:
	logger.log("saving model...")
	save_model(mp_trainer, opt, step + resume_step)
	dist.barrier()


	def set_annealed_lr(opt, base_lr, frac_done):
	lr = base_lr * (1 - frac_done)
	for param_group in opt.param_groups:
	param_group["lr"] = lr


	def save_model(mp_trainer, opt, step):
	if dist.get_rank() == 0:
	th.save(
	mp_trainer.master_params_to_state_dict(mp_trainer.master_params),
	os.path.join(logger.get_dir(), f"model{step:06d}.pt"),
	)
	th.save(opt.state_dict(), os.path.join(logger.get_dir(), f"opt{step:06d}.pt"))


	def compute_top_k(logits, labels, k, reduction="mean"):
	_, top_ks = th.topk(logits, k, dim=-1)
	if reduction == "mean":
	return (top_ks == labels[:, None]).float().sum(dim=-1).mean().item()
	elif reduction == "none":
	return (top_ks == labels[:, None]).float().sum(dim=-1)


	def split_microbatches(microbatch, *args):
	bs = len(args[0])
	if microbatch == -1 or microbatch >= bs:
	yield tuple(args)
	else:
	for i in range(0, bs, microbatch):
	yield tuple(x[i : i + microbatch] if x is not None else None for x in args)


	def create_argparser():
	defaults = dict(
	project="music-guided-classifier",
	dir="",
	data_dir="",
	val_data_dir="",
	model="DiT-B/8", # DiT model names
	in_channels=4,
	noised=True,
	no_high_noise=False,
	iterations=150000,
	lr=3e-4,
	weight_decay=0.0,
	anneal_lr=False,
	batch_size=4,
	encode_rep=1, # whether to use recombination of encoded excerpts
	microbatch=-1,
	schedule_sampler="uniform",
	resume_checkpoint="",
	log_interval=10,
	eval_interval=5,
	save_interval=10000,
	get_KL=True,
	scale_factor=1.,
	embed_model_name="kl/f8-all-onset",
	embed_model_ckpt="taming-transformers/checkpoints/all_onset/epoch_14.ckpt",
	microbatch_encode=-1,
	pr_image_size=1024,
	rule=None,
	num_classes=9, # number of outputs from classifier
	training=False, # not training diffusion
	port=None, # whether to use fixed port for ngc
	)
	defaults.update(classifier_and_diffusion_defaults())
	parser = argparse.ArgumentParser()
	add_dict_to_argparser(parser, defaults)
	return parser


	if __name__ == "__main__":
	main()