TunaDance / train_seq.py

Upload folder using huggingface_hub

eb71a72 verified 4 months ago

11.9 kB

	import multiprocessing
	import os
	from zlib import Z_FULL_FLUSH
	# os.environ["WANDB_API_KEY"] = "your WANDB_API_KEY" #
	# os.environ["WANDB_MODE"] = "online"
	# os.environ["CUDA_VISIBLE_DEVICES"] = "4,5,6,7"
	import pickle
	from functools import partial
	from pathlib import Path
	from args import FineDance_parse_train_opt, save_arguments_to_yaml
	import sys

	import torch
	import torch.nn.functional as F
	import wandb
	from accelerate import Accelerator, DistributedDataParallelKwargs
	from accelerate.state import AcceleratorState
	from torch.utils.data import DataLoader
	from tqdm import tqdm

	from dataset.FineDance_dataset import FineDance_Smpl
	from dataset.preprocess import increment_path
	from dataset.preprocess import My_Normalizer as Normalizer # do not use Normalizer
	from model.adan import Adan
	from model.diffusion import GaussianDiffusion
	from model.model import DanceDecoder, SeqModel
	from vis import SMPLX_Skeleton, SMPLSkeleton


	def wrap(x):
	return {f"module.{key}": value for key, value in x.items()}


	def maybe_wrap(x, num):
	return x if num == 1 else wrap(x)


	class EDGE:
	def __init__(
	self,
	opt,
	feature_type,
	checkpoint_path="",
	normalizer=None,
	EMA=True,
	learning_rate=4e-4,
	weight_decay=0.02,
	):
	self.opt = opt
	ddp_kwargs = DistributedDataParallelKwargs(find_unused_parameters=True)
	self.accelerator = Accelerator(kwargs_handlers=[ddp_kwargs])
	state = AcceleratorState()
	num_processes = state.num_processes

	self.repr_dim = repr_dim = opt.nfeats
	feature_dim = 35

	self.horizon = horizon = opt.full_seq_len

	self.accelerator.wait_for_everyone()

	self.resume_num = 0
	checkpoint = None
	self.normalizer = None
	if checkpoint_path != "":
	checkpoint = torch.load(
	checkpoint_path, map_location=self.accelerator.device
	)
	self.resume_num = int(os.path.basename(checkpoint_path).split("-")[1].split(".")[0]) # int(os.path.basenam

	model = SeqModel(
	nfeats=repr_dim,
	seq_len=horizon,
	latent_dim=512,
	ff_size=1024,
	num_layers=8,
	num_heads=8,
	dropout=0.1,
	cond_feature_dim=feature_dim,
	activation=F.gelu,
	)
	if opt.nfeats == 139 or opt.nfeats == 135:
	smplx_fk = SMPLSkeleton(device=self.accelerator.device)
	else:
	smplx_fk = SMPLX_Skeleton(device=self.accelerator.device, batch=512000)
	diffusion = GaussianDiffusion(
	model,
	opt,
	horizon,
	repr_dim,
	smplx_model = smplx_fk,
	schedule="cosine",
	n_timestep=1000,
	predict_epsilon=False,
	loss_type="l2",
	use_p2=False,
	cond_drop_prob=0.25,
	guidance_weight=2,
	do_normalize = opt.do_normalize
	)

	print(
	"Model has {} parameters".format(sum(y.numel() for y in model.parameters()))
	)

	self.model = self.accelerator.prepare(model)
	self.diffusion = diffusion.to(self.accelerator.device) # 为什么这里不需要prepare
	self.smplx_fk = smplx_fk # to(self.accelerator.device)
	optim = Adan(model.parameters(), lr=learning_rate, weight_decay=weight_decay)
	self.optim = self.accelerator.prepare(optim)

	if checkpoint_path != "":
	self.model.load_state_dict(
	maybe_wrap(
	checkpoint["ema_state_dict" if EMA else "model_state_dict"],
	num_processes,
	)
	)

	def eval(self):
	self.diffusion.eval()

	def train(self):
	self.diffusion.train()

	def prepare(self, objects):
	return self.accelerator.prepare(*objects)

	def train_loop(self, opt):
	print("train_dataset = FineDance_Dataset ")
	train_dataset = FineDance_Smpl(
	args=opt, # data/
	istrain=True,
	)
	test_dataset = FineDance_Smpl(
	args=opt,
	istrain=False,
	)

	num_cpus = multiprocessing.cpu_count()
	print("batchsize=:", opt.batch_size)
	train_data_loader = DataLoader(
	train_dataset,
	batch_size=opt.batch_size,
	shuffle=True,
	num_workers=min(int(num_cpus * 0.5), 40), # num_workers=min(int(num_cpus * 0.75), 32),
	pin_memory=True,
	drop_last=True,
	)
	test_data_loader = DataLoader(
	test_dataset,
	batch_size=opt.batch_size,
	shuffle=True,
	num_workers=2,
	pin_memory=True,
	drop_last=True,
	)

	train_data_loader = self.accelerator.prepare(train_data_loader)
	# boot up multi-gpu training. test dataloader is only on main process
	load_loop = (
	partial(tqdm, position=1, desc="Batch")
	if self.accelerator.is_main_process
	else lambda x: x
	)
	if self.accelerator.is_main_process:
	save_dir = str(increment_path(Path(opt.project) / opt.exp_name))
	opt.exp_name = save_dir.split("/")[-1]
	wandb.init(project=opt.wandb_pj_name, name=opt.exp_name)
	save_dir = Path(save_dir)
	wdir = save_dir / "weights"
	wdir.mkdir(parents=True, exist_ok=True)
	wandb.save("params.yaml") # 保存wandb配置到文件
	yaml_path = os.path.join(wdir, 'parameters.yaml')
	save_arguments_to_yaml(opt, yaml_path)


	self.accelerator.wait_for_everyone()
	for epoch in range(1, opt.epochs + 1):
	print("epoch:", epoch+self.resume_num)
	avg_loss = 0
	avg_vloss = 0
	avg_fkloss = 0
	avg_footloss = 0

	# train
	self.train()
	for step, (x, cond, filename) in enumerate(
	load_loop(train_data_loader)
	):
	if opt.nfeats == 139 or opt.nfeats==135:
	x = x[:, :, :139]

	total_loss, (loss, v_loss, fk_loss, foot_loss) = self.diffusion(
	x, cond, t_override=None
	)
	# print("3")
	self.optim.zero_grad()
	self.accelerator.backward(total_loss)
	self.optim.step()

	# ema update and train loss update only on main
	if self.accelerator.is_main_process:
	avg_loss += loss.detach().cpu().numpy()
	avg_vloss += v_loss.detach().cpu().numpy()
	avg_fkloss += fk_loss.detach().cpu().numpy()
	avg_footloss += foot_loss.detach().cpu().numpy()
	if step % opt.ema_interval == 0:
	self.diffusion.ema.update_model_average(
	self.diffusion.master_model, self.diffusion.model
	)

	#-----------------------------------------------------------------------------------------------------------
	# test
	# Save model

	if ((epoch+self.resume_num) % opt.save_interval) == 0 or epoch<=1:
	# everyone waits here for the val loop to finish ( don't start next train epoch early)
	self.accelerator.wait_for_everyone()
	self.eval() # debug!
	# save only if on main thread
	if self.accelerator.is_main_process:
	# self.eval()
	# log
	avg_loss /= len(train_data_loader)
	avg_vloss /= len(train_data_loader)
	avg_fkloss /= len(train_data_loader)
	avg_footloss /= len(train_data_loader)
	log_dict = {
	"Train Loss": avg_loss,
	"V Loss": avg_vloss,
	"FK Loss": avg_fkloss,
	"Foot Loss": avg_footloss,
	}

	wandb.log(log_dict)

	ckpt = {
	"ema_state_dict": self.diffusion.master_model.state_dict(), # 经过accelerate prepare的模型，在保存时需要unwrap，反之不需要
	"model_state_dict": self.accelerator.unwrap_model(
	self.model
	).state_dict(),
	"optimizer_state_dict": self.optim.state_dict(),
	"normalizer": self.normalizer,
	}

	torch.save(ckpt, os.path.join(wdir, f"train-{epoch+self.resume_num}.pt"))
	print(f"[MODEL SAVED at Epoch {epoch+self.resume_num}]")

	# generate a sample
	render_count = 2
	shape = (render_count, self.horizon, self.opt.nfeats)
	print("Generating Sample")
	# draw a music from the test dataset
	(x, cond, filename) = next(iter(test_data_loader))
	# if opt.do_normalize:
	# x = self.normalizer.normalize(x)

	if opt.nfeats == 139 or opt.nfeats==135:
	x = x[:, :, :139]

	cond = cond.to(self.accelerator.device)
	# name_iter = name_iter+1
	self.diffusion.render_sample(
	shape,
	cond[:render_count],
	self.normalizer,
	epoch+self.resume_num,
	render_out = os.path.join(opt.render_dir, "train_" + opt.exp_name), # render out
	fk_out = os.path.join(opt.render_dir, "train_" + opt.exp_name),
	name=filename[:render_count],
	# name = str(epoch) + str(name_iter).zfill(3)
	sound=True,
	)
	#-----------------------------------------------------------------------------------------------------------


	if self.accelerator.is_main_process:
	wandb.run.finish()

	def render_sample(
	self, data_tuple, label, render_dir, render_count=-1, mode='normal', fk_out=None, render=True,
	):
	_, cond, wavname = data_tuple
	assert len(cond.shape) == 3
	if render_count < 0:
	render_count = len(cond)
	shape = (render_count, self.horizon, self.repr_dim)
	cond = cond.to(self.accelerator.device).float()
	self.diffusion.render_sample(
	shape,
	cond[:render_count],
	self.normalizer,
	label,
	render_dir,
	name=wavname[:render_count],
	sound=True,
	mode=mode,
	fk_out=fk_out,
	render=render
	)

	def train(opt):
	model = EDGE(opt, opt.feature_type)
	model.train_loop(opt)

	if __name__ == "__main__":
	opt = FineDance_parse_train_opt()
	command = ' '.join(sys.argv)
	if not os.path.exists(os.path.join(opt.project, opt.exp_name)):
	os.makedirs(os.path.join(opt.project, opt.exp_name), exist_ok=False)
	with open(os.path.join(opt.project, opt.exp_name, 'command.txt'), 'w') as f:
	f.write(command)

	yaml_path = os.path.join(opt.project, opt.exp_name, 'parameters.yaml')
	save_arguments_to_yaml(opt, yaml_path)

	train(opt)