Spaces:

zxhuang1698
/

ZeroShape

Build error

File size: 31,971 Bytes

414b431

import numpy as np
import os, time, datetime
import torch
import torch.utils.tensorboard
import torch.profiler
import importlib
import shutil
import utils.util as util
import utils.util_vis as util_vis
import utils.eval_3D as eval_3D

from torch.nn.parallel import DistributedDataParallel as DDP
from utils.util import print_eval, setup, cleanup
from utils.util import EasyDict as edict
from copy import deepcopy
from model.compute_graph import graph_shape

# ============================ main engine for training and evaluation ============================

class Runner():

    def __init__(self, opt):
        super().__init__()
        if os.path.isdir(opt.output_path) and opt.resume == False and opt.device == 0:
            for filename in os.listdir(opt.output_path):
                if "tfevents" in filename: os.remove(os.path.join(opt.output_path, filename))
                if "html" in filename: os.remove(os.path.join(opt.output_path, filename))
                if "vis" in filename: shutil.rmtree(os.path.join(opt.output_path, filename))
                if "embedding" in filename: shutil.rmtree(os.path.join(opt.output_path, filename))
        if opt.device == 0: 
            os.makedirs(opt.output_path,exist_ok=True)
        setup(opt.device, opt.world_size, opt.port)
        opt.batch_size = opt.batch_size // opt.world_size
    
    def get_viz_data(self, opt):
        # get data for visualization
        viz_data_list = []
        sample_range = len(self.viz_loader)
        viz_interval = sample_range // opt.eval.n_vis
        for i in range(sample_range):
            current_batch = next(self.viz_loader_iter)
            if i % viz_interval != 0: continue
            viz_data_list.append(current_batch)
        return viz_data_list
    
    def load_dataset(self, opt, eval_split="test"):
        data_train = importlib.import_module('data.{}'.format(opt.data.dataset_train))
        data_test = importlib.import_module('data.{}'.format(opt.data.dataset_test))
        if opt.device == 0: print("loading training data...")
        self.train_data = data_train.Dataset(opt, split="train")
        self.train_loader = self.train_data.setup_loader(opt, shuffle=True, use_ddp=True, drop_last=True)
        self.num_batches = len(self.train_loader)
        if opt.device == 0: print("loading test data...")
        self.test_data = data_test.Dataset(opt, split=eval_split)
        self.test_loader = self.test_data.setup_loader(opt, shuffle=False, use_ddp=True, drop_last=True, batch_size=opt.eval.batch_size)
        self.num_batches_test = len(self.test_loader)
        if len(self.test_loader.sampler) * opt.world_size < len(self.test_data):
            self.aux_test_dataset = torch.utils.data.Subset(self.test_data,
                                    range(len(self.test_loader.sampler) * opt.world_size, len(self.test_data)))
            self.aux_test_loader = torch.utils.data.DataLoader(
                self.aux_test_dataset, batch_size=opt.eval.batch_size, shuffle=False, drop_last=False,
                num_workers=opt.data.num_workers)
        if opt.device == 0:
            print("creating data for visualization...")
            self.viz_loader = self.test_data.setup_loader(opt, shuffle=False, use_ddp=False, drop_last=False, batch_size=1)
            self.viz_loader_iter = iter(self.viz_loader)
            self.viz_data = self.get_viz_data(opt)

    def build_networks(self, opt):
        if opt.device == 0: print("building networks...")
        self.graph = DDP(graph_shape.Graph(opt).to(opt.device), device_ids=[opt.device], find_unused_parameters=(not opt.optim.fix_dpt or not opt.optim.fix_clip))

# =================================================== set up training =========================================================

    def setup_optimizer(self, opt):
        if opt.device == 0: print("setting up optimizers...")
        if opt.optim.fix_dpt:
            # when we do not need to train the dpt depth, every param will start from scratch
            scratch_param_decay = []
            scratch_param_nodecay = []
            # loop over all params
            for name, param in self.graph.named_parameters():
                # skip and fixed params
                if not param.requires_grad or 'dpt_depth' in name or 'intr_' in name:
                    continue
                # do not add wd on bias or low-dim params
                if param.ndim <= 1 or name.endswith(".bias"):
                    scratch_param_nodecay.append(param)
                    # print("{} -> scratch_param_nodecay".format(name))
                else:
                    scratch_param_decay.append(param)
                    # print("{} -> scratch_param_decay".format(name))
            # create the optim dictionary
            optim_dict = [
                {'params': scratch_param_nodecay, 'lr': opt.optim.lr, 'weight_decay': 0.},
                {'params': scratch_param_decay, 'lr': opt.optim.lr, 'weight_decay': opt.optim.weight_decay}
            ]
        else:
            # when we need to train dpt as well, related params should go to finetune list
            finetune_param_nodecay = []
            scratch_param_nodecay = []
            finetune_param_decay = []
            scratch_param_decay = []
            for name, param in self.graph.named_parameters():
                # skip and fixed params
                if not param.requires_grad:
                    continue
                # put dpt params into finetune list
                if 'dpt_depth' in name or 'intr_' in name:
                    if param.ndim <= 1 or name.endswith(".bias"):
                        # print("{} -> finetune_param_nodecay".format(name))
                        finetune_param_nodecay.append(param)
                    else:
                        finetune_param_decay.append(param)
                        # print("{} -> finetune_param_decay".format(name))
                # all other params go to scratch list
                else:
                    if param.ndim <= 1 or name.endswith(".bias"):
                        scratch_param_nodecay.append(param)
                        # print("{} -> scratch_param_nodecay".format(name))
                    else:
                        scratch_param_decay.append(param)
                        # print("{} -> scratch_param_decay".format(name))
            # create the optim dictionary
            optim_dict = [
                {'params': finetune_param_nodecay, 'lr': opt.optim.lr_ft, 'weight_decay': 0.},
                {'params': finetune_param_decay, 'lr': opt.optim.lr_ft, 'weight_decay': opt.optim.weight_decay},
                {'params': scratch_param_nodecay, 'lr': opt.optim.lr, 'weight_decay': 0.},
                {'params': scratch_param_decay, 'lr': opt.optim.lr, 'weight_decay': opt.optim.weight_decay}
            ]
            
        self.optim = torch.optim.AdamW(optim_dict, betas=(0.9, 0.95))
        if opt.optim.sched: 
            self.sched = torch.optim.lr_scheduler.CosineAnnealingLR(self.optim, opt.max_epoch)
        if opt.optim.amp:
            self.scaler = torch.cuda.amp.GradScaler()

    def restore_checkpoint(self, opt, best=False, evaluate=False):
        epoch_start, iter_start = None, None
        if opt.resume:
            if opt.device == 0: print("resuming from previous checkpoint...")
            epoch_start, iter_start, best_val, best_ep = util.restore_checkpoint(opt, self, resume=opt.resume, best=best, evaluate=evaluate)
            self.best_val = best_val
            self.best_ep = best_ep
        elif opt.load is not None:
            if opt.device == 0: print("loading weights from checkpoint {}...".format(opt.load))
            epoch_start, iter_start, best_val, best_ep = util.restore_checkpoint(opt, self, load_name=opt.load)
        else:
            if opt.device == 0: print("initializing weights from scratch...")
        self.epoch_start = epoch_start or 0
        self.iter_start = iter_start or 0

    def setup_visualizer(self, opt, test=False):
        if opt.device == 0: 
            print("setting up visualizers...")
            if opt.tb:
                if test == False:
                    self.tb = torch.utils.tensorboard.SummaryWriter(log_dir=opt.output_path, flush_secs=10)
                else:
                    embedding_folder = os.path.join(opt.output_path, 'embedding')
                    os.makedirs(embedding_folder, exist_ok=True)
                    self.tb = torch.utils.tensorboard.SummaryWriter(log_dir=embedding_folder, flush_secs=10)
    
    def train(self, opt):
        # before training
        torch.cuda.set_device(opt.device)
        torch.cuda.empty_cache()
        if opt.device == 0: print("TRAINING START")
        self.train_metric_logger = util.MetricLogger(delimiter="  ")
        self.train_metric_logger.add_meter('lr', util.SmoothedValue(window_size=1, fmt='{value:.6f}'))
        self.iter_skip = self.iter_start % len(self.train_loader)
        self.it = self.iter_start
        self.skip_dis = False
        if not opt.resume: 
            self.best_val = np.inf
            self.best_ep = 1
        # training
        if self.iter_start == 0 and not opt.debug: self.evaluate(opt, ep=0, training=True)
        for self.ep in range(self.epoch_start, opt.max_epoch):
            self.train_epoch(opt)
        # after training
        if opt.device == 0: self.save_checkpoint(opt, ep=self.ep, it=self.it, best_val=self.best_val, best_ep=self.best_ep)
        if opt.tb and opt.device == 0:
            self.tb.flush()
            self.tb.close()
        if opt.device == 0: 
            print("TRAINING DONE")
            print("Best CD: %.4f @ epoch %d" % (self.best_val, self.best_ep))
        cleanup()
    
    def train_epoch(self, opt):
        # before train epoch
        self.train_loader.sampler.set_epoch(self.ep)
        if opt.device == 0:
            print("training epoch {}".format(self.ep+1))
        batch_progress = range(self.num_batches)
        self.graph.train()
        # train epoch
        loader = iter(self.train_loader)
        
        if opt.debug and opt.profile:
            with torch.profiler.profile(
                    schedule=torch.profiler.schedule(wait=3, warmup=3, active=5, repeat=2),
                    on_trace_ready=torch.profiler.tensorboard_trace_handler('debug/profiler_log'),
                    record_shapes=True,
                    profile_memory=True,
                    with_stack=False
            ) as prof:
                for batch_id in batch_progress:
                    if batch_id >= (1 + 1 + 3) * 2:
                        # exit the program after 2 iterations of the warmup, active, and repeat steps
                        exit()
                    
                    # if resuming from previous checkpoint, skip until the last iteration number is reached
                    if self.iter_skip>0:
                        self.iter_skip -= 1
                        continue
                    batch = next(loader)
                    # train iteration
                    var = edict(batch)
                    opt.H, opt.W = opt.image_size
                    var = util.move_to_device(var, opt.device)
                    loss = self.train_iteration(opt, var, batch_progress)
                    prof.step()
        else:
            for batch_id in batch_progress:
                # if resuming from previous checkpoint, skip until the last iteration number is reached
                if self.iter_skip>0:
                    self.iter_skip -= 1
                    continue
                batch = next(loader)
                # train iteration
                var = edict(batch)
                opt.H, opt.W = opt.image_size
                var = util.move_to_device(var, opt.device)
                loss = self.train_iteration(opt, var, batch_progress)
            
        # after train epoch
        if opt.optim.sched: self.sched.step()
        if (self.ep + 1) % opt.freq.eval == 0:
            if opt.device == 0: print("validating epoch {}".format(self.ep+1))
            current_val = self.evaluate(opt, ep=self.ep+1, training=True)
            if current_val < self.best_val and opt.device == 0:
                self.best_val = current_val
                self.best_ep = self.ep + 1
                self.save_checkpoint(opt, ep=self.ep, it=self.it, best_val=self.best_val, best_ep=self.best_ep, best=True, latest=True)

    def train_iteration(self, opt, var, batch_progress):
        # before train iteration
        torch.distributed.barrier()
        # train iteration
        with torch.autocast(device_type='cuda', dtype=torch.float16, enabled=opt.optim.amp):
            var, loss = self.graph.forward(opt, var, training=True, get_loss=True)
            loss = self.summarize_loss(opt, var, loss)
            loss_scaled = loss.all / opt.optim.accum
            
        # backward
        if opt.optim.amp:
            self.scaler.scale(loss_scaled).backward()
            # skip update if accumulating gradient
            if (self.it + 1) % opt.optim.accum == 0:
                self.scaler.unscale_(self.optim)
                # gradient clipping
                if opt.optim.clip_norm:
                    norm = torch.nn.utils.clip_grad_norm_(self.graph.parameters(), opt.optim.clip_norm)
                    if opt.debug: print("Grad norm: {}".format(norm))
                self.scaler.step(self.optim)
                self.scaler.update()
                self.optim.zero_grad()
        else:
            loss_scaled.backward()
            if (self.it + 1) % opt.optim.accum == 0:
                if opt.optim.clip_norm:
                    norm = torch.nn.utils.clip_grad_norm_(self.graph.parameters(), opt.optim.clip_norm)
                    if opt.debug: print("Grad norm: {}".format(norm))
                self.optim.step()
                self.optim.zero_grad()
            
        # after train iteration
        lr = self.sched.get_last_lr()[0] if opt.optim.sched else opt.optim.lr
        self.train_metric_logger.update(lr=lr)
        self.train_metric_logger.update(loss=loss.all)
        if opt.device == 0: 
            self.graph.eval()
            # if (self.it) % opt.freq.vis == 0: self.visualize(opt, var, step=self.it, split="train")
            if (self.it) % opt.freq.ckpt_latest == 0 and not opt.debug: 
                self.save_checkpoint(opt, ep=self.ep, it=self.it, best_val=self.best_val, best_ep=self.best_ep, latest=True)
            if (self.it) % opt.freq.scalar == 0 and not opt.debug: 
                self.log_scalars(opt, var, loss, step=self.it, split="train")
            if (self.it) % (opt.freq.save_vis * (self.it//10000*10+1)) == 0 and not opt.debug: 
                self.vis_train_iter(opt)
            if (self.it) % opt.freq.print == 0:
                print('[{}] '.format(datetime.datetime.now().time()), end='')
                print(f'Train Iter {self.it}/{self.num_batches*opt.max_epoch}: {self.train_metric_logger}')
            self.graph.train()
        self.it += 1
        return loss
        
    @torch.no_grad()
    def vis_train_iter(self, opt):
        for i in range(len(self.viz_data)):
            var_viz = edict(deepcopy(self.viz_data[i]))
            var_viz = util.move_to_device(var_viz, opt.device)
            var_viz = self.graph.module(opt, var_viz, training=False, get_loss=False)
            eval_3D.eval_metrics(opt, var_viz, self.graph.module.impl_network, vis_only=True)
            vis_folder = "vis_log/iter_{}".format(self.it)
            os.makedirs("{}/{}".format(opt.output_path, vis_folder), exist_ok=True)
            util_vis.dump_images(opt, var_viz.idx, "image_input", var_viz.rgb_input_map, masks=None, from_range=(0, 1), folder=vis_folder)
            util_vis.dump_images(opt, var_viz.idx, "mask_input", var_viz.mask_input_map, folder=vis_folder)
            util_vis.dump_meshes_viz(opt, var_viz.idx, "mesh_viz", var_viz.mesh_pred, folder=vis_folder)
            if 'depth_pred' in var_viz:
                util_vis.dump_depths(opt, var_viz.idx, "depth_est", var_viz.depth_pred, var_viz.mask_input_map, rescale=True, folder=vis_folder)
            if 'depth_input_map' in var_viz:
                util_vis.dump_depths(opt, var_viz.idx, "depth_input", var_viz.depth_input_map, var_viz.mask_input_map, rescale=True, folder=vis_folder)
            if 'attn_vis' in var_viz:
                util_vis.dump_attentions(opt, var_viz.idx, "attn", var_viz.attn_vis, folder=vis_folder)
            if 'gt_surf_points' in var_viz and 'seen_points' in var_viz:
                util_vis.dump_pointclouds_compare(opt, var_viz.idx, "seen_surface", var_viz.seen_points, var_viz.gt_surf_points, folder=vis_folder)

    def summarize_loss(self, opt, var, loss, non_act_loss_key=[]):
        loss_all = 0.
        assert("all" not in loss)
        # weigh losses
        for key in loss:
            assert(key in opt.loss_weight)
            if opt.loss_weight[key] is not None:
                assert not torch.isinf(loss[key].mean()), "loss {} is Inf".format(key)
                assert not torch.isnan(loss[key].mean()), "loss {} is NaN".format(key)
                loss_all += float(opt.loss_weight[key])*loss[key].mean() if key not in non_act_loss_key else 0.0*loss[key].mean()
        loss.update(all=loss_all)
        return loss

# =================================================== set up evaluation =========================================================

    @torch.no_grad()
    def evaluate(self, opt, ep, training=False):
        self.graph.eval()
        
        # lists for metrics
        cd_accs = []
        cd_comps = []
        f_scores = []
        cat_indices = []
        loss_eval = edict()
        metric_eval = dict(dist_acc=0., dist_cov=0.)
        eval_metric_logger = util.MetricLogger(delimiter="  ")
        
        # result file on the fly
        if not training: 
            assert opt.device == 0
            full_results_file = open(os.path.join(opt.output_path, '{}_full_results.txt'.format(opt.data.dataset_test)), 'w')
            full_results_file.write("IND, CD, ACC, COMP, ")
            full_results_file.write(", ".join(["F-score@{:.2f}".format(opt.eval.f_thresholds[i]*100) for i in range(len(opt.eval.f_thresholds))]))   
        
        # dataloader on the test set
        with torch.cuda.device(opt.device):
            for it, batch in enumerate(self.test_loader):
                
                # inference the model
                var = edict(batch)
                var = self.evaluate_batch(opt, var, ep, it, single_gpu=False)

                # record CD for evaluation
                dist_acc, dist_cov = eval_3D.eval_metrics(opt, var, self.graph.module.impl_network)
                
                # accumulate the scores
                cd_accs.append(var.cd_acc)
                cd_comps.append(var.cd_comp)
                f_scores.append(var.f_score)
                cat_indices.append(var.category_label)
                eval_metric_logger.update(ACC=dist_acc)
                eval_metric_logger.update(COMP=dist_cov)
                eval_metric_logger.update(CD=(dist_acc+dist_cov) / 2)
                
                if opt.device == 0 and it % opt.freq.print_eval == 0: 
                    print('[{}] '.format(datetime.datetime.now().time()), end='')
                    print(f'Eval Iter {it}/{len(self.test_loader)} @ EP {ep}: {eval_metric_logger}')
                    
                # write to file
                if not training: 
                    full_results_file.write("\n")
                    full_results_file.write("{:d}".format(var.idx.item()))
                    full_results_file.write("\t{:.4f}".format((var.cd_acc.item() + var.cd_comp.item()) / 2))
                    full_results_file.write("\t{:.4f}".format(var.cd_acc.item()))
                    full_results_file.write("\t{:.4f}".format(var.cd_comp.item()))
                    full_results_file.write("\t" + "\t".join(["{:.4f}".format(var.f_score[0][i].item()) for i in range(len(opt.eval.f_thresholds))]))     
                    full_results_file.flush()
                
                # dump the result if in eval mode
                if not training: 
                    self.dump_results(opt, var, ep, write_new=(it == 0))

                # save the predicted mesh for vis data if in train mode
                if it == 0 and training and opt.device == 0: 
                    print("visualizing and saving results...")
                    for i in range(len(self.viz_data)):
                        var_viz = edict(deepcopy(self.viz_data[i]))
                        var_viz = self.evaluate_batch(opt, var_viz, ep, it, single_gpu=True)
                        eval_3D.eval_metrics(opt, var_viz, self.graph.module.impl_network, vis_only=True)
                        # self.visualize(opt, var_viz, step=ep, split="eval")
                        self.dump_results(opt, var_viz, ep, train=True)
                    # write html that organizes the results
                    util_vis.create_gif_html(os.path.join(opt.output_path, "vis_{}".format(ep)), 
                                             os.path.join(opt.output_path, "results_ep{}.html".format(ep)), 
                                             skip_every=1)
            
            # collect the eval results into tensors
            cd_accs = torch.cat(cd_accs, dim=0)
            cd_comps = torch.cat(cd_comps, dim=0)
            f_scores = torch.cat(f_scores, dim=0)
            cat_indices = torch.cat(cat_indices, dim=0)

        if opt.world_size > 1:
            # empty tensors for gathering
            cd_accs_all = [torch.zeros_like(cd_accs).to(opt.device) for _ in range(opt.world_size)]
            cd_comps_all = [torch.zeros_like(cd_comps).to(opt.device) for _ in range(opt.world_size)]
            f_scores_all = [torch.zeros_like(f_scores).to(opt.device) for _ in range(opt.world_size)]
            cat_indices_all = [torch.zeros_like(cat_indices).long().to(opt.device) for _ in range(opt.world_size)]
            
            # gather the metrics
            torch.distributed.barrier()
            torch.distributed.all_gather(cd_accs_all, cd_accs)
            torch.distributed.all_gather(cd_comps_all, cd_comps)
            torch.distributed.all_gather(f_scores_all, f_scores)
            torch.distributed.all_gather(cat_indices_all, cat_indices)
            cd_accs_all = torch.cat(cd_accs_all, dim=0)
            cd_comps_all = torch.cat(cd_comps_all, dim=0)
            f_scores_all = torch.cat(f_scores_all, dim=0)
            cat_indices_all = torch.cat(cat_indices_all, dim=0)
        else:
            cd_accs_all = cd_accs
            cd_comps_all = cd_comps
            f_scores_all = f_scores
            cat_indices_all = cat_indices
        # handle last batch, if any
        if len(self.test_loader.sampler) * opt.world_size < len(self.test_data):
            cd_accs_all = [cd_accs_all]
            cd_comps_all = [cd_comps_all]
            f_scores_all = [f_scores_all]
            cat_indices_all = [cat_indices_all]
            for batch in self.aux_test_loader:
                # inference the model
                var = edict(batch)
                var = self.evaluate_batch(opt, var, ep, it, single_gpu=False)

                # record CD for evaluation
                dist_acc, dist_cov = eval_3D.eval_metrics(opt, var, self.graph.module.impl_network)
                # accumulate the scores
                cd_accs_all.append(var.cd_acc)
                cd_comps_all.append(var.cd_comp)
                f_scores_all.append(var.f_score)
                cat_indices_all.append(var.category_label)
                
                # dump the result if in eval mode
                if not training and opt.device == 0: 
                    self.dump_results(opt, var, ep, write_new=(it == 0))
                    
            cd_accs_all = torch.cat(cd_accs_all, dim=0)
            cd_comps_all = torch.cat(cd_comps_all, dim=0)
            f_scores_all = torch.cat(f_scores_all, dim=0)
            cat_indices_all = torch.cat(cat_indices_all, dim=0)

        assert cd_accs_all.shape[0] == len(self.test_data)
        if not training: 
            full_results_file.close()
        # printout and save the metrics     
        if opt.device == 0:
            metric_eval["dist_acc"] = cd_accs_all.mean()
            metric_eval["dist_cov"] = cd_comps_all.mean()

            # print eval info
            print_eval(opt, loss=None, chamfer=(metric_eval["dist_acc"],
                                                metric_eval["dist_cov"]))
            val_metric = (metric_eval["dist_acc"] + metric_eval["dist_cov"]) / 2
        
            if training:
                # log/visualize results to tb/vis
                self.log_scalars(opt, var, loss_eval, metric=metric_eval, step=ep, split="eval")
            
            if not training:
                # save the per-cat evaluation metrics if on shapenet
                per_cat_cd_file = os.path.join(opt.output_path, 'cd_cat.txt')
                with open(per_cat_cd_file, "w") as outfile:
                    outfile.write("CD     Acc    Comp   Count Cat\n")
                    for i in range(opt.data.num_classes_test):
                        if (cat_indices_all==i).sum() == 0:
                            continue
                        acc_i = cd_accs_all[cat_indices_all==i].mean().item()
                        comp_i = cd_comps_all[cat_indices_all==i].mean().item()
                        counts_cat = torch.sum(cat_indices_all==i)
                        cd_i = (acc_i + comp_i) / 2
                        outfile.write("%.4f %.4f %.4f %5d %s\n" % (cd_i, acc_i, comp_i, counts_cat, self.test_data.label2cat[i]))
                        
                # print f_scores
                f_scores_avg = f_scores_all.mean(dim=0)
                print('##############################')
                for i in range(len(opt.eval.f_thresholds)):
                    print('F-score @ %.2f: %.4f' % (opt.eval.f_thresholds[i]*100, f_scores_avg[i].item()))
                print('##############################')

                # write to file
                result_file = os.path.join(opt.output_path, 'quantitative_{}.txt'.format(opt.data.dataset_test))
                with open(result_file, "w") as outfile:
                    outfile.write('CD     Acc    Comp \n')
                    outfile.write('%.4f %.4f %.4f\n' % (val_metric, metric_eval["dist_acc"], metric_eval["dist_cov"]))
                    for i in range(len(opt.eval.f_thresholds)):
                        outfile.write('F-score @ %.2f: %.4f\n' % (opt.eval.f_thresholds[i]*100, f_scores_avg[i].item()))

                # write html that organizes the results
                util_vis.create_gif_html(os.path.join(opt.output_path, "dump_{}".format(opt.data.dataset_test)), 
                                         os.path.join(opt.output_path, "results_test.html"), skip_every=10)
                
            # torch.cuda.empty_cache()
            return val_metric.item()
        return float('inf')

    def evaluate_batch(self, opt, var, ep=None, it=None, single_gpu=False):
        var = util.move_to_device(var, opt.device)
        if single_gpu:
            var  = self.graph.module(opt, var, training=False, get_loss=False)
        else:
            var = self.graph(opt, var, training=False, get_loss=False)
        return var

    @torch.no_grad()
    def log_scalars(self, opt, var, loss, metric=None, step=0, split="train"):
        if split=="train":
            dist_acc, dist_cov = eval_3D.eval_metrics(opt, var, self.graph.module.impl_network)
            metric = dict(dist_acc=dist_acc, dist_cov=dist_cov)
        for key, value in loss.items():
            if key=="all": continue
            self.tb.add_scalar("{0}/loss_{1}".format(split, key), value.mean(), step)
        if metric is not None:
            for key, value in metric.items():
                self.tb.add_scalar("{0}/{1}".format(split, key), value, step)
        # log the attention average values
        if 'attn_geo_avg' in var:
            self.tb.add_scalar("{0}/attn_geo_avg".format(split), var.attn_geo_avg, step)
        if 'attn_geo_seen' in var:
            self.tb.add_scalar("{0}/attn_geo_seen".format(split), var.attn_geo_seen, step)
        if 'attn_geo_occl' in var:
            self.tb.add_scalar("{0}/attn_geo_occl".format(split), var.attn_geo_occl, step)
        if 'attn_geo_bg' in var:
            self.tb.add_scalar("{0}/attn_geo_bg".format(split), var.attn_geo_bg, step)

    @torch.no_grad()
    def visualize(self, opt, var, step=0, split="train"):
        if 'pose_input' in var:
            pose_input = var.pose_input
        elif 'pose_gt' in var:
            pose_input = var.pose_gt
        else:
            pose_input = None
        util_vis.tb_image(opt, self.tb, step, split, "image_input_map", var.rgb_input_map, masks=None, from_range=(0, 1), poses=pose_input)
        util_vis.tb_image(opt, self.tb, step, split, "image_input_map_est", var.rgb_input_map, masks=None, from_range=(0, 1), 
                          poses=var.pose_pred if 'pose_pred' in var else var.pose)
        util_vis.tb_image(opt, self.tb, step, split, "mask_input_map", var.mask_input_map)
        if 'depth_pred' in var:
            util_vis.tb_image(opt, self.tb, step, split, "depth_est_map", var.depth_pred)
        if 'depth_input_map' in var:
            util_vis.tb_image(opt, self.tb, step, split, "depth_input_map", var.depth_input_map)

    @torch.no_grad()
    def dump_results(self, opt, var, ep, write_new=False, train=False):
        # create the dir
        current_folder = "dump_{}".format(opt.data.dataset_test) if train == False else "vis_{}".format(ep)
        os.makedirs("{}/{}/".format(opt.output_path, current_folder), exist_ok=True)
        
        # save the results
        if 'pose_input' in var:
            pose_input = var.pose_input
        elif 'pose_gt' in var:
            pose_input = var.pose_gt
        else:
            pose_input = None
        util_vis.dump_images(opt, var.idx, "image_input", var.rgb_input_map, masks=None, from_range=(0, 1), poses=pose_input, folder=current_folder)
        util_vis.dump_images(opt, var.idx, "mask_input", var.mask_input_map, folder=current_folder)
        util_vis.dump_meshes(opt, var.idx, "mesh", var.mesh_pred, folder=current_folder)
        util_vis.dump_meshes_viz(opt, var.idx, "mesh_viz", var.mesh_pred, folder=current_folder) # image frames + gifs
        if 'depth_pred' in var:
            util_vis.dump_depths(opt, var.idx, "depth_est", var.depth_pred, var.mask_input_map, rescale=True, folder=current_folder)
        if 'depth_input_map' in var:
            util_vis.dump_depths(opt, var.idx, "depth_input", var.depth_input_map, var.mask_input_map, rescale=True, folder=current_folder)
        if 'gt_surf_points' in var and 'seen_points' in var:
            util_vis.dump_pointclouds_compare(opt, var.idx, "seen_surface", var.seen_points, var.gt_surf_points, folder=current_folder)
        if 'attn_vis' in var:
            util_vis.dump_attentions(opt, var.idx, "attn", var.attn_vis, folder=current_folder)
        if 'attn_pc' in var:
            util_vis.dump_pointclouds(opt, var.idx, "attn_pc", var.attn_pc["points"], var.attn_pc["colors"], folder=current_folder)
        if 'dpc' in var:
            util_vis.dump_pointclouds_compare(opt, var.idx, "pointclouds_comp", var.dpc_pred, var.dpc.points, folder=current_folder)

    def save_checkpoint(self, opt, ep=0, it=0, best_val=np.inf, best_ep=1, latest=False, best=False):
        util.save_checkpoint(opt, self, ep=ep, it=it, best_val=best_val, best_ep=best_ep, latest=latest, best=best)
        if not latest:
            print("checkpoint saved: ({0}) {1}, epoch {2} (iteration {3})".format(opt.group, opt.name, ep, it))
        if best:
            print("Saving the current model as the best...")