Qiyp commited on Aug 22, 2024

Commit

1633fcc

1 Parent(s): 3e5c029

code of stage1 & 3, remove large files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

1_feature_extractor/1_main_training_IB.py +624 -0
1_feature_extractor/1_training_IB.sh +40 -0
1_feature_extractor/LICENSE +21 -0
1_feature_extractor/README copy.md +24 -0
1_feature_extractor/README.md +17 -0
1_feature_extractor/__pycache__/augmentations.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/datasets.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/losses_hint.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_IB.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_clip.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_dinov2.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_proteus_clip.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_proteus_dinov2.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_proteus_synclr.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/models_synclr.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/samplers.cpython-39.pyc +0 -0
1_feature_extractor/__pycache__/utils.cpython-39.pyc +0 -0
1_feature_extractor/augmentations.py +94 -0
1_feature_extractor/datasets.py +110 -0
1_feature_extractor/fast_vis.sh +37 -0
1_feature_extractor/fast_vis_proteus_feats.py +98 -0
1_feature_extractor/fast_vis_settings_all.py +548 -0
1_feature_extractor/log/DINOv2_training/log.txt +203 -0
1_feature_extractor/log/DINOv2_training/log/20240725_001002.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240725_084736.log +555 -0
1_feature_extractor/log/DINOv2_training/log/20240725_085916.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240726_110417.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240726_171814.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240728_153020.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240728_214526.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240729_102738.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240730_084148.log +301 -0
1_feature_extractor/log/DINOv2_training/log/20240730_085449.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240731_102940.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240801_091959.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240801_155326.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240803_163338.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240803_231933.log +0 -0
1_feature_extractor/log/DINOv2_training/log/20240804_144252.log +0 -0
1_feature_extractor/losses_hint.py +49 -0
1_feature_extractor/main.py +520 -0
1_feature_extractor/models_IB.py +40 -0
1_feature_extractor/models_clip.py +438 -0
1_feature_extractor/models_dinov2.py +907 -0
1_feature_extractor/models_proteus_clip.py +101 -0
1_feature_extractor/models_proteus_dinov2.py +200 -0
1_feature_extractor/models_proteus_synclr.py +161 -0
1_feature_extractor/models_synclr.py +500 -0
1_feature_extractor/original_images.png +0 -0
1_feature_extractor/requirements.txt +134 -0

1_feature_extractor/1_main_training_IB.py ADDED Viewed

	@@ -0,0 +1,624 @@

+# Copyright (c) 2015-present, Facebook, Inc.
+# All rights reserved.
+import argparse
+import datetime
+import numpy as np
+import time
+import torch
+import torch.backends.cudnn as cudnn
+import json
+from pathlib import Path
+from timm.models import create_model
+from timm.loss import LabelSmoothingCrossEntropy, SoftTargetCrossEntropy
+from timm.scheduler import create_scheduler
+from timm.optim import create_optimizer
+from timm.utils import NativeScaler, get_state_dict, ModelEma
+from augmentations import collate_data_and_cast_aug
+from datasets import build_dataset
+from losses_hint import DistillationLoss
+from samplers import RASampler
+from functools import partial
+import importlib
+import utils
+import random
+import math
+from multiprocessing import Value
+from abc import ABC
+import sys
+from typing import Iterable, Optional
+from timm.data import Mixup
+from timm.utils import accuracy, ModelEma
+import utils
+import logging
+import torch.distributed as dist
+import os
+class MaskingGenerator(ABC):
+    def __init__(self, input_size):
+        if not isinstance(input_size, tuple):
+            input_size = (input_size,) * 2
+        self.height, self.width = input_size
+        self.num_patches = self.height * self.width
+    def __repr__(self):
+        raise NotImplementedError
+    def get_shape(self):
+        return self.height, self.width
+    def _mask(self, mask, max_mask_patches):
+        raise NotImplementedError
+    def get_none_mask(self):
+        return np.zeros(shape=self.get_shape(), dtype=bool)
+class RandomMaskingGenerator(MaskingGenerator):
+    def __init__(
+        self,
+        input_size,
+    ):
+        """
+        Args:
+            input_size: the size of the token map, e.g., 14x14
+        """
+        super().__init__(input_size)
+    def __repr__(self):
+        repr_str = f"Random Generator({self.height}, {self.width})"
+        return repr_str
+    def _mask(self, mask, max_mask_patches):
+        return super()._mask(mask, max_mask_patches)
+    def __call__(self, num_masking_patches=0):
+        if num_masking_patches <= 0:
+            return np.zeros(shape=self.get_shape(), dtype=bool)
+        mask = np.hstack([np.ones(num_masking_patches, dtype=bool),
+                          np.zeros(self.num_patches - num_masking_patches, dtype=bool)])
+        np.random.shuffle(mask)
+        mask = mask.reshape(self.get_shape())
+        return mask
+def setup_logger(log_dir, rank=0):
+    if rank != 0:
+        return  # 只有主进程（rank 0）配置日志记录器
+    log_formatter = logging.Formatter("%(asctime)s [%(levelname)-5.5s]  %(message)s")
+    root_logger = logging.getLogger()
+    root_logger.setLevel(logging.INFO)
+    log_file_handler = logging.FileHandler(log_dir, encoding='utf-8')
+    log_file_handler.setFormatter(log_formatter)
+    root_logger.addHandler(log_file_handler)
+    log_stream_handler = logging.StreamHandler(sys.stdout)
+    log_stream_handler.setFormatter(log_formatter)
+    root_logger.addHandler(log_stream_handler)
+    logging.info('Logging file is %s' % log_dir)
+def get_args_parser():
+    parser = argparse.ArgumentParser('DeiT training and evaluation script', add_help=False)
+    parser.add_argument('--batch-size', default=64, type=int)
+    parser.add_argument('--epochs', default=300, type=int)
+    parser.add_argument('--bce-loss', action='store_true')
+    parser.add_argument('--unscale-lr', action='store_true')
+    # Model parameters
+    parser.add_argument('--model', default='deit_base_patch16_224', type=str)
+    parser.add_argument('--target_model', default='deit_base_patch16_224', type=str)
+    parser.add_argument('--input-size', default=224, type=int, help='images input size')
+    parser.add_argument('--drop', type=float, default=0.0, metavar='PCT',
+                        help='Dropout rate (default: 0.)')
+    parser.add_argument('--drop-path', type=float, default=0.1, metavar='PCT',
+                        help='Drop path rate (default: 0.1)')
+    parser.add_argument('--model-ema', action='store_true')
+    parser.add_argument('--no-model-ema', action='store_false', dest='model_ema')
+    parser.set_defaults(model_ema=True)
+    parser.add_argument('--model-ema-decay', type=float, default=0.99996, help='')
+    parser.add_argument('--model-ema-force-cpu', action='store_true', default=False, help='')
+    # Optimizer parameters
+    parser.add_argument('--opt', default='adamw', type=str, metavar='OPTIMIZER',
+                        help='Optimizer (default: "adamw"')
+    parser.add_argument('--opt-eps', default=1e-8, type=float, metavar='EPSILON',
+                        help='Optimizer Epsilon (default: 1e-8)')
+    parser.add_argument('--opt-betas', default=None, type=float, nargs='+', metavar='BETA',
+                        help='Optimizer Betas (default: None, use opt default)')
+    parser.add_argument('--clip-grad', type=float, default=None, metavar='NORM',
+                        help='Clip gradient norm (default: None, no clipping)')
+    parser.add_argument('--momentum', type=float, default=0.9, metavar='M',
+                        help='SGD momentum (default: 0.9)')
+    parser.add_argument('--weight-decay', type=float, default=0.05,
+                        help='weight decay (default: 0.05)')
+    # Learning rate schedule parameters
+    parser.add_argument('--sched', default='cosine', type=str, metavar='SCHEDULER',
+                        help='LR scheduler (default: "cosine"')
+    parser.add_argument('--lr', type=float, default=4e-4, metavar='LR',
+                        help='learning rate (default: 5e-4)')
+    parser.add_argument('--lr-noise', type=float, nargs='+', default=None, metavar='pct, pct',
+                        help='learning rate noise on/off epoch percentages')
+    parser.add_argument('--lr-noise-pct', type=float, default=0.67, metavar='PERCENT',
+                        help='learning rate noise limit percent (default: 0.67)')
+    parser.add_argument('--lr-noise-std', type=float, default=1.0, metavar='STDDEV',
+                        help='learning rate noise std-dev (default: 1.0)')
+    parser.add_argument('--warmup-lr', type=float, default=1e-6, metavar='LR',
+                        help='warmup learning rate (default: 1e-6)')
+    parser.add_argument('--min-lr', type=float, default=1e-5, metavar='LR',
+                        help='lower lr bound for cyclic schedulers that hit 0 (1e-5)')
+    parser.add_argument('--decay-epochs', type=float, default=30, metavar='N',
+                        help='epoch interval to decay LR')
+    parser.add_argument('--warmup-epochs', type=int, default=5, metavar='N',
+                        help='epochs to warmup LR, if scheduler supports')
+    parser.add_argument('--cooldown-epochs', type=int, default=10, metavar='N',
+                        help='epochs to cooldown LR at min_lr, after cyclic schedule ends')
+    parser.add_argument('--patience-epochs', type=int, default=10, metavar='N',
+                        help='patience epochs for Plateau LR scheduler (default: 10')
+    parser.add_argument('--decay-rate', '--dr', type=float, default=0.1, metavar='RATE',
+                        help='LR decay rate (default: 0.1)')
+    # Augmentation parameters
+    parser.add_argument('--color-jitter', type=float, default=0.3, metavar='PCT',
+                        help='Color jitter factor (default: 0.3)')
+    parser.add_argument('--aa', type=str, default='rand-m9-mstd0.5-inc1', metavar='NAME',
+                        help='Use AutoAugment policy. "v0" or "original". " + \
+                             "(default: rand-m9-mstd0.5-inc1)'),
+    parser.add_argument('--smoothing', type=float, default=0.1, help='Label smoothing (default: 0.1)')
+    parser.add_argument('--train-interpolation', type=str, default='bicubic',
+                        help='Training interpolation (random, bilinear, bicubic default: "bicubic")')
+    parser.add_argument('--repeated-aug', action='store_true')
+    parser.add_argument('--no-repeated-aug', action='store_false', dest='repeated_aug')
+    parser.set_defaults(repeated_aug=True)
+    parser.add_argument('--train-mode', action='store_true')
+    parser.add_argument('--no-train-mode', action='store_false', dest='train_mode')
+    parser.set_defaults(train_mode=True)
+    parser.add_argument('--ThreeAugment', action='store_true') #3augment
+    parser.add_argument('--src', action='store_true') #simple random crop
+    # add dataset parameters
+    parser.add_argument('--global_crops_size', '--img_size', default=224, type=int,
+                        help="this should be equal to image size")
+    parser.add_argument('--patch_size', default=16, type=int,
+                        help="patch size for vit patch embedding")
+    # add masking parameter
+    parser.add_argument('--mask_ratio', default=(0.1, 0.5), type=float, nargs='+',
+                        help="mask ratio can be either a value or a range")
+    parser.add_argument('--mask_probability', default=0., type=float,
+                        help="how many samples with be applied with masking")
+    parser.add_argument('--mask_first_n', action='store_true',
+                        help="mask the first n sample to avoid shuffling. Needed for MAE-style encoder")
+    parser.add_argument('--clone_batch', default=1, type=int,
+                        help="how many times to clone the batch for masking (default: 1, not cloning)")
+    # * Random Erase params
+    parser.add_argument('--reprob', type=float, default=0.25, metavar='PCT',
+                        help='Random erase prob (default: 0.25)')
+    parser.add_argument('--remode', type=str, default='pixel',
+                        help='Random erase mode (default: "pixel")')
+    parser.add_argument('--recount', type=int, default=1,
+                        help='Random erase count (default: 1)')
+    parser.add_argument('--resplit', action='store_true', default=False,
+                        help='Do not random erase first (clean) augmentation split')
+    # * Mixup params
+    parser.add_argument('--mixup', type=float, default=0.8,
+                        help='mixup alpha, mixup enabled if > 0. (default: 0.8)')
+    parser.add_argument('--cutmix', type=float, default=1.0,
+                        help='cutmix alpha, cutmix enabled if > 0. (default: 1.0)')
+    parser.add_argument('--cutmix-minmax', type=float, nargs='+', default=None,
+                        help='cutmix min/max ratio, overrides alpha and enables cutmix if set (default: None)')
+    parser.add_argument('--mixup-prob', type=float, default=1.0,
+                        help='Probability of performing mixup or cutmix when either/both is enabled')
+    parser.add_argument('--mixup-switch-prob', type=float, default=0.5,
+                        help='Probability of switching to cutmix when both mixup and cutmix enabled')
+    parser.add_argument('--mixup-mode', type=str, default='batch',
+                        help='How to apply mixup/cutmix params. Per "batch", "pair", or "elem"')
+    # Distillation parameters
+    parser.add_argument('--teacher-model', default='base', type=str)
+    parser.add_argument('--teacher-path', type=str, default='')
+    parser.add_argument('--distillation-type', default='none', choices=['none', 'soft', 'hard'], type=str, help="")
+    parser.add_argument('--distillation-alpha', default=0.5, type=float, help="")
+    parser.add_argument('--distillation-tau', default=1.0, type=float, help="")
+    parser.add_argument('--lambda_token', type=float, default=1.0)
+    parser.add_argument('--lambda_fea', type=float, default=1.0)
+    parser.add_argument('--lambda_patch', type=float, default=1.0)
+    # * Cosub params
+    parser.add_argument('--cosub', action='store_true')
+    # * Finetuning params
+    parser.add_argument('--finetune', default='', help='finetune from checkpoint')
+    parser.add_argument('--attn-only', action='store_true')
+    parser.add_argument('--weight_inherit', default='')
+    # Dataset parameters
+    parser.add_argument('--data-path', default='/datasets01/imagenet_full_size/061417/', type=str,
+                        help='dataset path')
+    parser.add_argument('--data-set', default='IMNET', choices=['CIFAR', 'IMNET', 'IMNET_ibot', 'IMNET_ibot_aug', 'IMNET_ibot_fast_aug', 'INAT', 'INAT19', 'IMNET_L', 'IMNET_L_ibot'],
+                        type=str, help='Image Net dataset path')
+    parser.add_argument('--inat-category', default='name',
+                        choices=['kingdom', 'phylum', 'class', 'order', 'supercategory', 'family', 'genus', 'name'],
+                        type=str, help='semantic granularity')
+    parser.add_argument('--output_dir', default='',
+                        help='path where to save, empty for no saving')
+    parser.add_argument('--log_dir', default='/data1/qiyp/Proteus-pytorch/pretrain/log/DINOv2_training/log',
+                        type=str, help='saving logging info every 20 iters')
+    parser.add_argument('--device', default='cuda',
+                        help='device to use for training / testing')
+    parser.add_argument('--seed', default=0, type=int)
+    parser.add_argument('--resume', default='', help='resume from checkpoint')
+    parser.add_argument('--start_epoch', default=0, type=int, metavar='N',
+                        help='start epoch')
+    parser.add_argument('--eval', action='store_true', help='Perform evaluation only')
+    parser.add_argument('--eval-crop-ratio', default=0.875, type=float, help="Crop ratio for evaluation")
+    parser.add_argument('--dist-eval', action='store_true', default=False, help='Enabling distributed evaluation')
+    parser.add_argument('--num_workers', default=10, type=int)
+    parser.add_argument('--pin-mem', action='store_true',
+                        help='Pin CPU memory in DataLoader for more efficient (sometimes) transfer to GPU.')
+    parser.add_argument('--no-pin-mem', action='store_false', dest='pin_mem',
+                        help='')
+    parser.set_defaults(pin_mem=True)
+    # distributed training parameters
+    parser.add_argument('--distributed', action='store_true', default=False, help='Enabling distributed training')
+    parser.add_argument('--world_size', default=1, type=int,
+                        help='number of distributed processes')
+    parser.add_argument('--dist_url', default='env://', help='url used to set up distributed training')
+    return parser
+def show_learnable_params(model):
+    enabled = set()
+    for name, param in model.named_parameters():
+        if param.requires_grad:
+            enabled.add(name)
+    # print("Parameters to be updated: ")
+    logging.info("Parameters to be updated: ")
+    for each in enabled:
+        # print('\t{}\n'.format(str(each)))
+        logging.info('\t{}\n'.format(str(each)))
+    # print('\n')
+    logging.info('\n')
+def show_unlearnable_params(model):
+    disabled = set()
+    for name, param in model.named_parameters():
+        if not param.requires_grad:
+            disabled.add(name)
+    logging.info("Parameters that are not being updated: ")
+    for each in disabled:
+        logging.info('\t{}'.format(str(each)))
+    logging.info('\n')
+def main(args):
+    utils.init_distributed_mode(args)
+    print(args)
+    device = torch.device(args.device)
+     # 获取当前进程的 rank
+    rank = dist.get_rank() if dist.is_initialized() else 0
+    # set up logger
+    os.makedirs(args.log_dir, exist_ok=True)
+    setup_logger(args.log_dir + '/' + time.strftime('%Y%m%d_%H%M%S') + '.log', rank)
+    logging.info('job dir: {}'.format(os.path.dirname(os.path.realpath(__file__))))
+    logging.info("{}".format(args).replace(', ', ',\n') + '\n')
+    # fix the seed for reproducibility
+    seed = args.seed + utils.get_rank()
+    torch.manual_seed(seed)
+    np.random.seed(seed)
+    # random.seed(seed)
+    cudnn.benchmark = True
+    dataset_train, args.nb_classes = build_dataset(is_train=True, args=args)
+    logging.info(dataset_train)
+    if args.distributed:
+        num_tasks = utils.get_world_size()
+        global_rank = utils.get_rank()
+        if args.repeated_aug:
+            sampler_train = RASampler(
+                dataset_train, num_replicas=num_tasks, rank=global_rank, shuffle=True
+            )
+        else:
+            sampler_train = torch.utils.data.DistributedSampler(
+                dataset_train, num_replicas=num_tasks, rank=global_rank, shuffle=True
+            )
+    else:
+        sampler_train = torch.utils.data.RandomSampler(dataset_train)
+    logging.info("Sampler_train = %s" % str(sampler_train))
+    n_tokens = (args.global_crops_size // args.patch_size) ** 2
+    mask_generator = RandomMaskingGenerator(
+        input_size=args.global_crops_size // args.patch_size,
+    )
+    collate_fn = partial(
+        collate_data_and_cast_aug,
+        mask_ratio=args.mask_ratio,
+        mask_probability=args.mask_probability,
+        dtype=torch.half,   # half precision
+        n_tokens=n_tokens,
+        mask_first_n=args.mask_first_n,
+        mask_generator=mask_generator,
+        clone_batch=args.clone_batch,
+    )
+    data_loader_train = torch.utils.data.DataLoader(
+        dataset_train, sampler=sampler_train,
+        batch_size=args.batch_size,
+        num_workers=args.num_workers,
+        pin_memory=args.pin_mem,
+        drop_last=True,
+        collate_fn=collate_fn,
+    )
+    mixup_fn = None
+    print(f"Creating model: {args.model}")  # models_proteus_dinov2
+    meta_arch_module = importlib.import_module(args.model)
+    MetaArch = meta_arch_module.MetaArch
+    model = MetaArch(args)
+    logging.info("Model = %s" % str(model))
+    if args.finetune:
+        checkpoint = torch.load(args.finetune, map_location='cpu')
+        if 'state_dict' in checkpoint:
+            pretrained_dict = checkpoint['state_dict']
+        elif 'model' in checkpoint:
+            pretrained_dict = checkpoint['model']
+        else:
+            pretrained_dict = checkpoint
+        missing_keys, unexpected_keys = model.load_state_dict(pretrained_dict, False)
+        # print('missing_keys: ', missing_keys)
+        # print('unexpected_keys: ', unexpected_keys)
+        logging.info('Finetuning from %s' % args.finetune)
+        logging.info('missing_keys: %s' % str(missing_keys))
+        logging.info('unexpected_keys: %s' % str(unexpected_keys))
+    if args.attn_only:
+        for name_p,p in model.named_parameters():
+            if '.attn.' in name_p:
+                p.requires_grad = True
+            else:
+                p.requires_grad = False
+        try:
+            model.head.weight.requires_grad = True
+            model.head.bias.requires_grad = True
+        except:
+            model.fc.weight.requires_grad = True
+            model.fc.bias.requires_grad = True
+        try:
+            model.pos_embed.requires_grad = True
+        except:
+            print('no position encoding')
+        try:
+            for p in model.patch_embed.parameters():
+                p.requires_grad = False
+        except:
+            print('no patch embed')
+    model.to(device)
+    model_ema = None
+    if args.model_ema:
+        # Important to create EMA model after cuda(), DP wrapper, and AMP but before SyncBN and DDP wrapper
+        model_ema = ModelEma(
+            model.student.backbone,
+            decay=args.model_ema_decay,
+            device='cpu' if args.model_ema_force_cpu else '',
+            resume='')
+    model_without_ddp = model
+    if args.distributed:
+        model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.gpu], find_unused_parameters=True)
+        model_without_ddp = model.module
+    n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    # print('number of params:', n_parameters)
+    logging.info('number of params: %s' % n_parameters)
+    if not args.unscale_lr:
+        logging.info('base lr = %s' % args.lr)
+        linear_scaled_lr = args.lr * args.batch_size * utils.get_world_size() / 512.0
+        args.lr = linear_scaled_lr
+        logging.info('actural lr = %s' % linear_scaled_lr)
+    optimizer = create_optimizer(args, model_without_ddp)
+    loss_scaler = NativeScaler()
+    lr_scheduler, _ = create_scheduler(args, optimizer)
+    output_dir = Path(args.output_dir)
+    if args.resume:
+        if args.resume.startswith('https'):
+            checkpoint = torch.hub.load_state_dict_from_url(
+                args.resume, map_location='cpu', check_hash=True)
+        else:
+            checkpoint = torch.load(args.resume, map_location='cpu')
+        model_without_ddp.load_state_dict(checkpoint['model'])
+        if not args.eval and 'optimizer' in checkpoint and 'lr_scheduler' in checkpoint and 'epoch' in checkpoint:
+            optimizer.load_state_dict(checkpoint['optimizer'])
+            lr_scheduler.load_state_dict(checkpoint['lr_scheduler'])
+            args.start_epoch = checkpoint['epoch'] + 1
+            if args.model_ema:
+                utils._load_checkpoint_for_ema(model_ema, checkpoint['model_ema'])
+            if 'scaler' in checkpoint:
+                loss_scaler.load_state_dict(checkpoint['scaler'])
+        lr_scheduler.step(args.start_epoch)
+        logging.info('Resuming from %s' % args.resume)
+    # print(f"Start training for {args.epochs} epochs")
+    logging.info("Start training for %s epochs" % args.epochs)
+    start_time = time.time()
+    max_accuracy = 0.0
+    for epoch in range(args.start_epoch, args.epochs):
+        if args.distributed:
+            data_loader_train.sampler.set_epoch(epoch)
+        if epoch < 5:
+            # 前5个epoch仅放开 entropy model 的参数
+            for name, param in model.named_parameters():
+                if 'info_bottleneck' in name:
+                    param.requires_grad = True
+                else:
+                    param.requires_grad = False
+            if epoch == 0:
+                show_learnable_params(model)
+        else:
+             # 其余epoch放开所有参数，但固定model.teacher的参数
+            for name, param in model.named_parameters():
+                    param.requires_grad = True
+            for name, param in model.named_parameters():
+                if 'teacher' in name:
+                    param.requires_grad = False
+            if epoch == 5:
+                show_unlearnable_params(model)
+        train_stats = train_one_epoch(
+            model, data_loader_train,
+            optimizer, device, epoch, loss_scaler,
+            args.clip_grad, model_ema, mixup_fn,
+            set_training_mode=args.train_mode,  # keep in eval mode for deit finetuning / train mode for training and deit III finetuning
+            args = args,
+        )
+        lr_scheduler.step(epoch)
+        if args.output_dir:
+            checkpoint_paths = [output_dir / 'checkpoint.pth']
+            for checkpoint_path in checkpoint_paths:
+                utils.save_on_master({
+                    'model': model_without_ddp.state_dict(),
+                    'optimizer': optimizer.state_dict(),
+                    'lr_scheduler': lr_scheduler.state_dict(),
+                    'epoch': epoch,
+                    'model_ema': get_state_dict(model_ema),
+                    'scaler': loss_scaler.state_dict(),
+                    'args': args,
+                }, checkpoint_path)
+        if args.output_dir and (epoch % 5 == 0 or epoch + 1 == args.epochs):
+            checkpoint_path = output_dir / f'checkpoint{epoch:04}.pth'
+            utils.save_on_master({
+                'model': model_without_ddp.state_dict(),
+                'optimizer': optimizer.state_dict(),
+                'lr_scheduler': lr_scheduler.state_dict(),
+                'epoch': epoch,
+                'model_ema': get_state_dict(model_ema),
+                'scaler': loss_scaler.state_dict(),
+                'args': args,
+            }, checkpoint_path)
+        log_stats = {**{f'train_{k}': v for k, v in train_stats.items()},
+                     'epoch': epoch,
+                     'n_parameters': n_parameters}
+        if args.output_dir and utils.is_main_process():
+            with (output_dir / "log.txt").open("a") as f:
+                f.write(json.dumps(log_stats) + "\n")
+    total_time = time.time() - start_time
+    total_time_str = str(datetime.timedelta(seconds=int(total_time)))
+    # print('Training time {}'.format(total_time_str))
+    logging.info('Training time %s' % total_time_str)
+def train_one_epoch(model: torch.nn.Module,
+                    data_loader: Iterable, optimizer: torch.optim.Optimizer,
+                    device: torch.device, epoch: int, loss_scaler, max_norm: float = 0,
+                    model_ema: Optional[ModelEma] = None, mixup_fn: Optional[Mixup] = None,
+                    set_training_mode=True, args = None):
+    model.train(set_training_mode)
+    metric_logger = utils.MetricLogger(delimiter="  ")
+    metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))
+    header = 'Epoch: [{}]'.format(epoch)
+    print_freq = 20
+    loader_len = len(data_loader)
+    for data_iter_step, inputs_dict in enumerate(metric_logger.log_every(data_loader, print_freq, header)):
+        for k, v in inputs_dict.items():
+            if isinstance(v, torch.Tensor):
+                inputs_dict[k] = v.to(device, non_blocking=True)
+        with torch.cuda.amp.autocast():
+            loss_dict = model(inputs_dict)
+        loss = loss_dict["loss"]
+        patch_loss = loss_dict["patch_loss"]
+        fea_loss = loss_dict["fea_loss"]
+        token_loss = loss_dict["token_loss"]
+        bpp_loss = loss_dict["bpp_loss"]
+        task_loss = loss_dict["task_loss"]
+        patch_loss_value = patch_loss.item()
+        token_loss_value = token_loss.item()
+        fea_loss_value = fea_loss.item()
+        bpp_loss_value = bpp_loss.item()
+        task_loss_value = task_loss.item()
+        loss_value = loss.item()
+        if not math.isfinite(loss_value):
+            # print("Loss is {}, stopping training".format(loss_value))
+            logging.info("Loss is %s, stopping training" % loss_value)
+            logging.info("bpp_loss is {}, patch_loss is {}, token_loss is {}, fea_loss is {}".format(bpp_loss_value, patch_loss_value, token_loss_value, fea_loss_value))
+            sys.exit(1)
+        optimizer.zero_grad()
+        # this attribute is added by timm on one optimizer (adahessian)
+        is_second_order = hasattr(optimizer, 'is_second_order') and optimizer.is_second_order
+        loss_scaler(loss, optimizer, clip_grad=max_norm,
+                    parameters=model.parameters(), create_graph=is_second_order)
+        torch.cuda.synchronize()
+        if model_ema is not None:
+            model_ema.update(model.module.student.backbone)
+        metric_logger.update(loss=loss_value)
+        metric_logger.update(task_loss=task_loss_value)
+        metric_logger.update(bpp_loss=bpp_loss_value)
+        metric_logger.update(patch_loss=patch_loss_value)
+        metric_logger.update(token_loss=token_loss_value)
+        metric_logger.update(fea_loss=fea_loss_value)
+        metric_logger.update(lr=optimizer.param_groups[0]["lr"])
+    # gather the stats from all processes
+    metric_logger.synchronize_between_processes()
+    # print("Averaged stats:", metric_logger)
+    logging.info("Averaged stats: {}".format(metric_logger))
+    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser('DeiT training and evaluation script', parents=[get_args_parser()])
+    args = parser.parse_args()
+    if args.output_dir:
+        Path(args.output_dir).mkdir(parents=True, exist_ok=True)
+    main(args)

1_feature_extractor/1_training_IB.sh ADDED Viewed

	@@ -0,0 +1,40 @@

+#### access DINOv2
+export CUDA_VISIBLE_DEVICES=0,1,2;
+python -m torch.distributed.launch --nproc_per_node=3 --use_env 1_main_training_IB.py \
+    --batch-size 48 --warmup-epochs 5 --epochs 200 \
+    --data-set IMNET --data-path '/data1/datasets/imagenet_fold' \
+    --teacher-model vit_large --target_model vit_base --model models_proteus_dinov2 \
+    --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+    --lambda_token 1.0 --lambda_fea 1.05 --lambda_patch 1.05 \
+    --resume "/data0/qiyp/Proteus-pytorch/pretrain/log/DINOv2_training/checkpoint0160.pth" \
+    --log_dir '/data0/qiyp/Proteus-pytorch/pretrain/log/DINOv2_training/log/' \
+    --output_dir log/DINOv2_training;
+#### access SynCLR
+# python -m torch.distributed.launch --nproc_per_node=4 --use_env main.py \
+#     --batch-size 128 --warmup-epochs 5 --epochs 300 \
+#     --data-set IMNET --data-path imagenet_path \
+#     --teacher-model vit_large --target_model vit_base --model models_proteus_synclr \
+#     --teacher-path pretrained_synclr_path \
+#     --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+#     --lambda_token 1.0 --lambda_fea 1.0 --lambda_patch 1.0 \
+#     --output_dir log/SynCLR_training;
+#### access CLIP
+# python -m torch.distributed.launch --nproc_per_node=4 --use_env main.py \
+#     --batch-size 128 --warmup-epochs 5 --epochs 300 \
+#     --data-set IMNET --data-path imagenet_path \
+#     --teacher-model vit_large --target_model vit_base --model models_proteus_clip \
+#     --teacher-path pretrained_clip_path \
+#     --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+#     --lambda_token 1.0 --lambda_fea 0.0 --lambda_patch 0.0 \
+#     --output_dir log/CLIP_training;

1_feature_extractor/LICENSE ADDED Viewed

	@@ -0,0 +1,21 @@

+MIT License
+Copyright (c) 2024 Yunpeng Qi
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

1_feature_extractor/README copy.md ADDED Viewed

	@@ -0,0 +1,24 @@

+# Pre-training on ImageNet-1K
+## Installation
+Please follow the installation instructions in [DINOv2](https://github.com/facebookresearch/dinov2/tree/main?tab=readme-ov-file#installation) and install timm==0.9.16 as well.
+## Dataset
+We prepare ImageNet-1K following the instructions in [DeiT](https://github.com/facebookresearch/deit/blob/main/README_deit.md#data-preparation).
+## Training
+1. Specify the directory of datasets with `data-path` in the training script `run_pretrain.sh`.
+2. Use the `teacher-model` and `target_model` parameters to select the appropriate teacher and student models.
+3. Specify the model choices with `model` to choose from DINOv2, SynCLR, CLIP.
+4. For SynCLR and CLIP training, use the `teacher-path` parameter to indicate the path to the pre-trained teacher model.
+5. Simply run the training script as follows:
+   ```
+   bash run_pretrain.sh
+   ```
+## Acknowledgment
+This part is heavily build upon [DeiT](https://github.com/facebookresearch/deit?tab=readme-ov-file), [DINOv2](https://github.com/facebookresearch/dinov2), [SynCLR](https://github.com/google-research/syn-rep-learn/tree/main/SynCLR). We gratefully thank the authors for their wonderful works.

1_feature_extractor/README.md ADDED Viewed

	@@ -0,0 +1,17 @@

+# 1_feature_extractor
+training information bottleneck
+IF Model: https://huggingface.co/Qiyp/1_feature_extractor
+Installation:
+Clone the repository and then use the provided requirements.txt to install the dependencies:
+pip install -r requirements.txt
+put the proteus_vitb_backbone.pth into ./ckpt
+load pretrained Feature Extractor for further training: --resume + Feature Extractor path
+load pretrained Feature Extractor for feature extractraction: --finetune + Feature Extractor path
+training scripts: 1_training_IB.sh
+vis feature's semantic information: train_dec.sh

1_feature_extractor/__pycache__/augmentations.cpython-39.pyc ADDED Viewed

Binary file (2.08 kB). View file

1_feature_extractor/__pycache__/datasets.cpython-39.pyc ADDED Viewed

Binary file (3.12 kB). View file

1_feature_extractor/__pycache__/losses_hint.cpython-39.pyc ADDED Viewed

Binary file (2.17 kB). View file

1_feature_extractor/__pycache__/models_IB.cpython-39.pyc ADDED Viewed

Binary file (1.62 kB). View file

1_feature_extractor/__pycache__/models_clip.cpython-39.pyc ADDED Viewed

Binary file (12.6 kB). View file

1_feature_extractor/__pycache__/models_dinov2.cpython-39.pyc ADDED Viewed

Binary file (27.1 kB). View file

1_feature_extractor/__pycache__/models_proteus_clip.cpython-39.pyc ADDED Viewed

Binary file (2.26 kB). View file

1_feature_extractor/__pycache__/models_proteus_dinov2.cpython-39.pyc ADDED Viewed

Binary file (4.61 kB). View file

1_feature_extractor/__pycache__/models_proteus_synclr.cpython-39.pyc ADDED Viewed

Binary file (3.58 kB). View file

1_feature_extractor/__pycache__/models_synclr.cpython-39.pyc ADDED Viewed

Binary file (16.1 kB). View file

1_feature_extractor/__pycache__/samplers.cpython-39.pyc ADDED Viewed

Binary file (2.25 kB). View file

1_feature_extractor/__pycache__/utils.cpython-39.pyc ADDED Viewed

Binary file (7.63 kB). View file

1_feature_extractor/augmentations.py ADDED Viewed

	@@ -0,0 +1,94 @@

+# Copyright 2023 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import logging
+import random
+from torchvision import transforms
+import torch
+logger = logging.getLogger("dinov2")
+def collate_data_and_cast_aug(
+    samples_list,
+    mask_ratio,
+    mask_probability,
+    dtype,
+    n_tokens=None,
+    mask_first_n=False,
+    mask_generator=None,
+    clone_batch=1,
+):
+    # dtype = torch.half  # TODO: Remove
+    n_global_crops = 1
+    assert n_global_crops > 0, "global crops number should be > 0"
+    collated_global_crops = torch.stack([s[i] for i in range(n_global_crops) for s in samples_list])
+    labels = [s[1] for s in samples_list]
+    labels = torch.LongTensor(labels)
+    collated_global_labels = labels.repeat(n_global_crops)
+    B = len(collated_global_crops)
+    N = n_tokens
+    n_samples_masked = int(B * mask_probability)
+    masks_list = []
+    upperbound = 0
+    masks_enc = torch.full((1,), 0, dtype=torch.int32)
+    masks_pred = torch.full((1,), 0, dtype=torch.int32)
+    # specify the number of masks to append
+    number_masks = n_samples_masked * clone_batch
+    # do per-sample masking
+    if isinstance(mask_ratio, (tuple, list)) and len(mask_ratio) == 2:
+        probs = torch.linspace(*mask_ratio, number_masks + 1)
+        for i in range(0, number_masks):
+            prob_min = probs[i]
+            prob_max = probs[i + 1]
+            masks_list.append(torch.BoolTensor(mask_generator(int(N * random.uniform(prob_min, prob_max)))))
+            upperbound += int(N * prob_max)
+    else:
+        mask_ratio = mask_ratio[0]
+        # apply the same mask ratio to all images
+        for i in range(0, number_masks):
+            masks_list.append(torch.BoolTensor(mask_generator(int(N * mask_ratio))))
+            upperbound += int(N * mask_ratio)
+    # append masks for unmasked samples
+    for i in range(n_samples_masked, B):
+        # masks_list.append(torch.BoolTensor(mask_generator(0)))
+        masks_list.append(torch.BoolTensor(mask_generator.get_none_mask()))
+    if not mask_first_n and mask_probability > 0.0:  # shuffle masking -- not shuffling for mae-style
+        random.shuffle(masks_list)
+    collated_masks = torch.stack(masks_list).flatten(1)
+    mask_indices_list = collated_masks.flatten().nonzero().flatten()
+    masks_weight = (1 / collated_masks.sum(-1).clamp(min=1.0)).unsqueeze(-1).expand_as(collated_masks)[collated_masks]
+    return {
+        "collated_global_crops": collated_global_crops.to(dtype),
+        "collated_global_labels": collated_global_labels,
+        "collated_masks": collated_masks,
+        "mask_indices_list": mask_indices_list,
+        "masks_weight": masks_weight,
+        "upperbound": upperbound,
+        "n_masked_patches": torch.full((1,), fill_value=mask_indices_list.shape[0], dtype=torch.long),
+        "masks_enc": masks_enc,
+        "masks_pred": masks_pred,
+    }

1_feature_extractor/datasets.py ADDED Viewed

	@@ -0,0 +1,110 @@

+# Copyright (c) 2015-present, Facebook, Inc.
+# All rights reserved.
+import os
+import json
+from torchvision.datasets import DatasetFolder
+from torchvision.io import read_image
+from torchvision import datasets, transforms
+from torchvision.datasets.folder import ImageFolder, default_loader
+from timm.data.constants import IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD
+from timm.data import create_transform
+from PIL import Image
+class INatDataset(ImageFolder):
+    def __init__(self, root, train=True, year=2018, transform=None, target_transform=None,
+                 category='name', loader=default_loader):
+        self.transform = transform
+        self.loader = loader
+        self.target_transform = target_transform
+        self.year = year
+        # assert category in ['kingdom','phylum','class','order','supercategory','family','genus','name']
+        path_json = os.path.join(root, f'{"train" if train else "val"}{year}.json')
+        with open(path_json) as json_file:
+            data = json.load(json_file)
+        with open(os.path.join(root, 'categories.json')) as json_file:
+            data_catg = json.load(json_file)
+        path_json_for_targeter = os.path.join(root, f"train{year}.json")
+        with open(path_json_for_targeter) as json_file:
+            data_for_targeter = json.load(json_file)
+        targeter = {}
+        indexer = 0
+        for elem in data_for_targeter['annotations']:
+            king = []
+            king.append(data_catg[int(elem['category_id'])][category])
+            if king[0] not in targeter.keys():
+                targeter[king[0]] = indexer
+                indexer += 1
+        self.nb_classes = len(targeter)
+        self.samples = []
+        for elem in data['images']:
+            cut = elem['file_name'].split('/')
+            target_current = int(cut[2])
+            path_current = os.path.join(root, cut[0], cut[2], cut[3])
+            categors = data_catg[target_current]
+            target_current_true = targeter[categors[category]]
+            self.samples.append((path_current, target_current_true))
+    # __getitem__ and __len__ inherited from ImageFolder
+def build_dataset(is_train, args):
+    transform = build_transform(is_train, args)
+    if args.data_set == 'CIFAR':
+        dataset = datasets.CIFAR100(args.data_path, train=is_train, transform=transform)
+        nb_classes = 100
+    elif args.data_set == 'IMNET':
+        root = os.path.join(args.data_path, 'train' if is_train else 'val')
+        dataset = datasets.ImageFolder(root, transform=transform)
+        nb_classes = 1000
+    elif args.data_set == 'INAT':
+        dataset = INatDataset(args.data_path, train=is_train, year=2018,
+                              category=args.inat_category, transform=transform)
+        nb_classes = dataset.nb_classes
+    elif args.data_set == 'INAT19':
+        dataset = INatDataset(args.data_path, train=is_train, year=2019,
+                              category=args.inat_category, transform=transform)
+        nb_classes = dataset.nb_classes
+    return dataset, nb_classes
+def build_transform(is_train, args):
+    resize_im = args.input_size > 32
+    if is_train:
+        # this should always dispatch to transforms_imagenet_train
+        transform = create_transform(
+            input_size=args.input_size,
+            is_training=True,
+            color_jitter=args.color_jitter,
+            auto_augment=args.aa,
+            interpolation=args.train_interpolation,
+            re_prob=args.reprob,
+            re_mode=args.remode,
+            re_count=args.recount,
+        )
+        if not resize_im:
+            # replace RandomResizedCropAndInterpolation with
+            # RandomCrop
+            transform.transforms[0] = transforms.RandomCrop(
+                args.input_size, padding=4)
+        return transform
+    t = []
+    if resize_im:
+        size = int(args.input_size / args.eval_crop_ratio)
+        t.append(
+            transforms.Resize(size, interpolation=3),  # to maintain same ratio w.r.t. 224 images
+        )
+        t.append(transforms.CenterCrop(args.input_size))
+    t.append(transforms.ToTensor())
+    t.append(transforms.Normalize(IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD))
+    return transforms.Compose(t)

1_feature_extractor/fast_vis.sh ADDED Viewed

	@@ -0,0 +1,37 @@

+#### access DINOv2
+export CUDA_VISIBLE_DEVICES=6;
+python fast_vis_settings_all.py \
+    --batch-size 64 --warmup-epochs 5 --epochs 300 \
+    --data-set IMNET --data-path '/data1/datasets/imagenet_fold' \
+    --teacher-model vit_large --target_model vit_base --model models_proteus_dinov2 \
+    --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+    --lambda_token 1.0 --lambda_fea 1.0 --lambda_patch 1.0 \
+    --finetune "/data0/qiyp/Proteus-pytorch/pretrain/log/DINOv2_training/checkpoint0160.pth" \
+    --output_dir log/DINOv2_training;
+#### access SynCLR
+# python -m torch.distributed.launch --nproc_per_node=4 --use_env main.py \
+#     --batch-size 128 --warmup-epochs 5 --epochs 300 \
+#     --data-set IMNET --data-path imagenet_path \
+#     --teacher-model vit_large --target_model vit_base --model models_proteus_synclr \
+#     --teacher-path pretrained_synclr_path \
+#     --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+#     --lambda_token 1.0 --lambda_fea 1.0 --lambda_patch 1.0 \
+#     --output_dir log/SynCLR_training;
+#### access CLIP
+# python -m torch.distributed.launch --nproc_per_node=4 --use_env main.py \
+#     --batch-size 128 --warmup-epochs 5 --epochs 300 \
+#     --data-set IMNET --data-path imagenet_path \
+#     --teacher-model vit_large --target_model vit_base --model models_proteus_clip \
+#     --teacher-path pretrained_clip_path \
+#     --patch_size 14 --mask_probability 0.5 --mask_ratio 0.5 --mask_first_n \
+#     --lambda_token 1.0 --lambda_fea 0.0 --lambda_patch 0.0 \
+#     --output_dir log/CLIP_training;

1_feature_extractor/fast_vis_proteus_feats.py ADDED Viewed

	@@ -0,0 +1,98 @@

+import math
+import matplotlib.pyplot as plt
+import numpy as np
+import einops
+import torch
+from PIL import Image
+import torchvision
+from PIL import Image
+import models_dinov2
+device = "cuda" if torch.cuda.is_available() else "cpu"
+patch_size = 14
+# feat_extractor = getattr(models_dinov2, 'vit_base')
+feat_extractor = getattr(models_dinov2, 'vit_large')
+model = feat_extractor(img_size=224,
+            patch_size=14,
+            init_values=1.0,
+            ffn_layer='mlp',
+            block_chunks=0,
+            num_register_tokens=0,
+            interpolate_antialias=False,
+            interpolate_offset=0.1)
+# checkpoint_path = '/data0/qiyp/Proteus-pytorch/pretrain/ckpt/proteus_vitb_backbone.pth'  # 替换为实际的检查点路径
+checkpoint_path = '/data0/qiyp/Proteus-pytorch/pretrain/ckpt/proteus_vitl_backbone.pth'  # 替换为实际的检查点路径
+# 加载检查点
+checkpoint = torch.load(checkpoint_path, map_location='cpu')
+# 加载模型权重
+if 'state_dict' in checkpoint:
+    pretrained_dict = checkpoint['state_dict']
+elif 'model' in checkpoint:
+    pretrained_dict = checkpoint['model']
+else:
+    pretrained_dict = checkpoint
+# 只加载与学生模型相关的部分
+model.load_state_dict(pretrained_dict, strict=False)
+model.to(device)
+patch_h = 224 // 14
+patch_w = 224 // 14
+feat_dim = 768
+def visualize_features(features, output_path='./feature_visualization.png'):
+    # Assuming features are of shape (batch_size, num_features, height, width)
+    batch_size, num_features, height, width = features.shape
+    # Normalize the feature maps to the range [0, 1]
+    vis = features.mean(dim=1, keepdim=True)
+    vis = vis - vis.min()
+    vis = vis / vis.max()
+    # Squeeze the channel dimension
+    vis = vis.squeeze(1).cpu().detach().numpy()
+    # Apply a colormap (e.g., viridis) to convert it to RGB
+    vis_colored = np.zeros((batch_size, height, width, 3))
+    for i in range(batch_size):
+        vis_colored[i] = plt.cm.viridis(vis[i])[:, :, :3]  # Drop the alpha channel
+    # Convert vis_colored to a tensor and save using torchvision
+    vis_colored = torch.tensor(vis_colored).permute(0, 3, 1, 2)  # Convert to (batch, channels, height, width)
+    # Save the image
+    torchvision.utils.save_image(vis_colored, output_path, normalize=True)
+from torchvision import transforms
+transform = transforms.Compose([
+    transforms.Resize((224, 224)),  # 调整图像大小
+    transforms.ToTensor(),  # 转换为tensor
+    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 标准化
+])
+images = [
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/0-anime_boy_sticker__holding_kitten__happy.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/62-Deadpool_minion.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/79-with_Wooden_carved_bear__salmon_and_gold_mini_ball_surround_the_blank_signboard__illustrate.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/99-Akira_toriyama_motorbike__cheatah__puma__japanese_classic_car__collectable_figure__shiny_plastic_.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/124-crowded_1920s_Chicago_street_with_lots_of_model_T_cars_and_people.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/157-steampunk_girl_with_pink_hair_riding_in_a_hot_air_balloon__hot_air_balloon_resembles_gold_and_si.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/ILSVRC2012_val_00008636.png"),
+    Image.open("/data0/qiyp/mae/imagenet-1k-samples/ILSVRC2012_val_00010240.png"),
+          ]
+# inputs = processor(images=images, return_tensors="pt", padding=True).to(device)
+tensors = [transform(img) for img in images]
+batched_tensors = torch.stack(tensors).to(device)
+with torch.no_grad():
+    outputs = model(batched_tensors, is_training=True)
+    features = outputs['x_norm_patchtokens']  # (batch_size, num_patches, feat_dim)
+    print(features.shape)
+    features = features.view(-1, patch_h, patch_w, features.shape[2])  # [B, h, w, c]
+    features = features.permute(0, 3, 1, 2)
+    visualize_features(features)
+    # pooled_output = outputs.pooler_output  # pooled CLS states.

1_feature_extractor/fast_vis_settings_all.py ADDED Viewed

	@@ -0,0 +1,548 @@

+# Copyright (c) 2015-present, Facebook, Inc.
+# All rights reserved.
+import argparse
+import datetime
+import numpy as np
+import time
+import torch
+import torch.backends.cudnn as cudnn
+import json
+from pathlib import Path
+from timm.models import create_model
+from timm.loss import LabelSmoothingCrossEntropy, SoftTargetCrossEntropy
+from timm.scheduler import create_scheduler
+from timm.optim import create_optimizer
+from timm.utils import NativeScaler, get_state_dict, ModelEma
+from augmentations import collate_data_and_cast_aug
+from datasets import build_dataset
+from losses_hint import DistillationLoss
+from samplers import RASampler
+from functools import partial
+import importlib
+import utils
+import random
+import math
+from multiprocessing import Value
+from abc import ABC
+import sys
+from typing import Iterable, Optional
+from timm.data import Mixup
+from timm.utils import accuracy, ModelEma
+import utils
+import os
+# os.environ["CUDA_VISIBLE_DEVICES"] = "5"
+class MaskingGenerator(ABC):
+    def __init__(self, input_size):
+        if not isinstance(input_size, tuple):
+            input_size = (input_size,) * 2
+        self.height, self.width = input_size
+        self.num_patches = self.height * self.width
+    def __repr__(self):
+        raise NotImplementedError
+    def get_shape(self):
+        return self.height, self.width
+    def _mask(self, mask, max_mask_patches):
+        raise NotImplementedError
+    def get_none_mask(self):
+        return np.zeros(shape=self.get_shape(), dtype=bool)
+class RandomMaskingGenerator(MaskingGenerator):
+    def __init__(
+        self,
+        input_size,
+    ):
+        """
+        Args:
+            input_size: the size of the token map, e.g., 14x14
+        """
+        super().__init__(input_size)
+    def __repr__(self):
+        repr_str = f"Random Generator({self.height}, {self.width})"
+        return repr_str
+    def _mask(self, mask, max_mask_patches):
+        return super()._mask(mask, max_mask_patches)
+    def __call__(self, num_masking_patches=0):
+        if num_masking_patches <= 0:
+            return np.zeros(shape=self.get_shape(), dtype=bool)
+        mask = np.hstack([np.ones(num_masking_patches, dtype=bool),
+                          np.zeros(self.num_patches - num_masking_patches, dtype=bool)])
+        np.random.shuffle(mask)
+        mask = mask.reshape(self.get_shape())
+        return mask
+def get_args_parser():
+    parser = argparse.ArgumentParser('DeiT training and evaluation script', add_help=False)
+    parser.add_argument('--batch-size', default=64, type=int)
+    parser.add_argument('--epochs', default=300, type=int)
+    parser.add_argument('--bce-loss', action='store_true')
+    parser.add_argument('--unscale-lr', action='store_true')
+    # Model parameters
+    parser.add_argument('--model', default='deit_base_patch16_224', type=str)
+    parser.add_argument('--target_model', default='deit_base_patch16_224', type=str)
+    parser.add_argument('--input-size', default=224, type=int, help='images input size')
+    parser.add_argument('--drop', type=float, default=0.0, metavar='PCT',
+                        help='Dropout rate (default: 0.)')
+    parser.add_argument('--drop-path', type=float, default=0.1, metavar='PCT',
+                        help='Drop path rate (default: 0.1)')
+    parser.add_argument('--model-ema', action='store_true')
+    parser.add_argument('--no-model-ema', action='store_false', dest='model_ema')
+    parser.set_defaults(model_ema=True)
+    parser.add_argument('--model-ema-decay', type=float, default=0.99996, help='')
+    parser.add_argument('--model-ema-force-cpu', action='store_true', default=False, help='')
+    # Optimizer parameters
+    parser.add_argument('--opt', default='adamw', type=str, metavar='OPTIMIZER',
+                        help='Optimizer (default: "adamw"')
+    parser.add_argument('--opt-eps', default=1e-8, type=float, metavar='EPSILON',
+                        help='Optimizer Epsilon (default: 1e-8)')
+    parser.add_argument('--opt-betas', default=None, type=float, nargs='+', metavar='BETA',
+                        help='Optimizer Betas (default: None, use opt default)')
+    parser.add_argument('--clip-grad', type=float, default=None, metavar='NORM',
+                        help='Clip gradient norm (default: None, no clipping)')
+    parser.add_argument('--momentum', type=float, default=0.9, metavar='M',
+                        help='SGD momentum (default: 0.9)')
+    parser.add_argument('--weight-decay', type=float, default=0.05,
+                        help='weight decay (default: 0.05)')
+    # Learning rate schedule parameters
+    parser.add_argument('--sched', default='cosine', type=str, metavar='SCHEDULER',
+                        help='LR scheduler (default: "cosine"')
+    parser.add_argument('--lr', type=float, default=5e-4, metavar='LR',
+                        help='learning rate (default: 5e-4)')
+    parser.add_argument('--lr-noise', type=float, nargs='+', default=None, metavar='pct, pct',
+                        help='learning rate noise on/off epoch percentages')
+    parser.add_argument('--lr-noise-pct', type=float, default=0.67, metavar='PERCENT',
+                        help='learning rate noise limit percent (default: 0.67)')
+    parser.add_argument('--lr-noise-std', type=float, default=1.0, metavar='STDDEV',
+                        help='learning rate noise std-dev (default: 1.0)')
+    parser.add_argument('--warmup-lr', type=float, default=1e-6, metavar='LR',
+                        help='warmup learning rate (default: 1e-6)')
+    parser.add_argument('--min-lr', type=float, default=1e-5, metavar='LR',
+                        help='lower lr bound for cyclic schedulers that hit 0 (1e-5)')
+    parser.add_argument('--decay-epochs', type=float, default=30, metavar='N',
+                        help='epoch interval to decay LR')
+    parser.add_argument('--warmup-epochs', type=int, default=5, metavar='N',
+                        help='epochs to warmup LR, if scheduler supports')
+    parser.add_argument('--cooldown-epochs', type=int, default=10, metavar='N',
+                        help='epochs to cooldown LR at min_lr, after cyclic schedule ends')
+    parser.add_argument('--patience-epochs', type=int, default=10, metavar='N',
+                        help='patience epochs for Plateau LR scheduler (default: 10')
+    parser.add_argument('--decay-rate', '--dr', type=float, default=0.1, metavar='RATE',
+                        help='LR decay rate (default: 0.1)')
+    # Augmentation parameters
+    parser.add_argument('--color-jitter', type=float, default=0.3, metavar='PCT',
+                        help='Color jitter factor (default: 0.3)')
+    parser.add_argument('--aa', type=str, default='rand-m9-mstd0.5-inc1', metavar='NAME',
+                        help='Use AutoAugment policy. "v0" or "original". " + \
+                             "(default: rand-m9-mstd0.5-inc1)'),
+    parser.add_argument('--smoothing', type=float, default=0.1, help='Label smoothing (default: 0.1)')
+    parser.add_argument('--train-interpolation', type=str, default='bicubic',
+                        help='Training interpolation (random, bilinear, bicubic default: "bicubic")')
+    parser.add_argument('--repeated-aug', action='store_true')
+    parser.add_argument('--no-repeated-aug', action='store_false', dest='repeated_aug')
+    parser.set_defaults(repeated_aug=True)
+    parser.add_argument('--train-mode', action='store_true')
+    parser.add_argument('--no-train-mode', action='store_false', dest='train_mode')
+    parser.set_defaults(train_mode=True)
+    parser.add_argument('--ThreeAugment', action='store_true') #3augment
+    parser.add_argument('--src', action='store_true') #simple random crop
+    # add dataset parameters
+    parser.add_argument('--global_crops_size', '--img_size', default=224, type=int,
+                        help="this should be equal to image size")
+    parser.add_argument('--patch_size', default=16, type=int,
+                        help="patch size for vit patch embedding")
+    # add masking parameter
+    parser.add_argument('--mask_ratio', default=(0.1, 0.5), type=float, nargs='+',
+                        help="mask ratio can be either a value or a range")
+    parser.add_argument('--mask_probability', default=0., type=float,
+                        help="how many samples with be applied with masking")
+    parser.add_argument('--mask_first_n', action='store_true',
+                        help="mask the first n sample to avoid shuffling. Needed for MAE-style encoder")
+    parser.add_argument('--clone_batch', default=1, type=int,
+                        help="how many times to clone the batch for masking (default: 1, not cloning)")
+    # * Random Erase params
+    parser.add_argument('--reprob', type=float, default=0.25, metavar='PCT',
+                        help='Random erase prob (default: 0.25)')
+    parser.add_argument('--remode', type=str, default='pixel',
+                        help='Random erase mode (default: "pixel")')
+    parser.add_argument('--recount', type=int, default=1,
+                        help='Random erase count (default: 1)')
+    parser.add_argument('--resplit', action='store_true', default=False,
+                        help='Do not random erase first (clean) augmentation split')
+    # * Mixup params
+    parser.add_argument('--mixup', type=float, default=0.8,
+                        help='mixup alpha, mixup enabled if > 0. (default: 0.8)')
+    parser.add_argument('--cutmix', type=float, default=1.0,
+                        help='cutmix alpha, cutmix enabled if > 0. (default: 1.0)')
+    parser.add_argument('--cutmix-minmax', type=float, nargs='+', default=None,
+                        help='cutmix min/max ratio, overrides alpha and enables cutmix if set (default: None)')
+    parser.add_argument('--mixup-prob', type=float, default=1.0,
+                        help='Probability of performing mixup or cutmix when either/both is enabled')
+    parser.add_argument('--mixup-switch-prob', type=float, default=0.5,
+                        help='Probability of switching to cutmix when both mixup and cutmix enabled')
+    parser.add_argument('--mixup-mode', type=str, default='batch',
+                        help='How to apply mixup/cutmix params. Per "batch", "pair", or "elem"')
+    # Distillation parameters
+    parser.add_argument('--teacher-model', default='base', type=str)
+    parser.add_argument('--teacher-path', type=str, default='')
+    parser.add_argument('--distillation-type', default='none', choices=['none', 'soft', 'hard'], type=str, help="")
+    parser.add_argument('--distillation-alpha', default=0.5, type=float, help="")
+    parser.add_argument('--distillation-tau', default=1.0, type=float, help="")
+    parser.add_argument('--lambda_token', type=float, default=1.0)
+    parser.add_argument('--lambda_fea', type=float, default=1.0)
+    parser.add_argument('--lambda_patch', type=float, default=1.0)
+    # * Cosub params
+    parser.add_argument('--cosub', action='store_true')
+    # * Finetuning params
+    parser.add_argument('--finetune', default='', help='finetune from checkpoint')
+    parser.add_argument('--attn-only', action='store_true')
+    parser.add_argument('--weight_inherit', default='')
+    # Dataset parameters
+    parser.add_argument('--data-path', default='/datasets01/imagenet_full_size/061417/', type=str,
+                        help='dataset path')
+    parser.add_argument('--data-set', default='IMNET', choices=['CIFAR', 'IMNET', 'IMNET_ibot', 'IMNET_ibot_aug', 'IMNET_ibot_fast_aug', 'INAT', 'INAT19', 'IMNET_L', 'IMNET_L_ibot'],
+                        type=str, help='Image Net dataset path')
+    parser.add_argument('--inat-category', default='name',
+                        choices=['kingdom', 'phylum', 'class', 'order', 'supercategory', 'family', 'genus', 'name'],
+                        type=str, help='semantic granularity')
+    parser.add_argument('--output_dir', default='',
+                        help='path where to save, empty for no saving')
+    parser.add_argument('--device', default='cuda',
+                        help='device to use for training / testing')
+    parser.add_argument('--seed', default=0, type=int)
+    parser.add_argument('--resume', default='', help='resume from checkpoint')
+    parser.add_argument('--start_epoch', default=0, type=int, metavar='N',
+                        help='start epoch')
+    parser.add_argument('--eval', action='store_true', help='Perform evaluation only')
+    parser.add_argument('--eval-crop-ratio', default=0.875, type=float, help="Crop ratio for evaluation")
+    parser.add_argument('--dist-eval', action='store_true', default=False, help='Enabling distributed evaluation')
+    parser.add_argument('--num_workers', default=10, type=int)
+    parser.add_argument('--pin-mem', action='store_true',
+                        help='Pin CPU memory in DataLoader for more efficient (sometimes) transfer to GPU.')
+    parser.add_argument('--no-pin-mem', action='store_false', dest='pin_mem',
+                        help='')
+    parser.set_defaults(pin_mem=True)
+    # distributed training parameters
+    parser.add_argument('--distributed', action='store_true', default=False, help='Enabling distributed training')
+    parser.add_argument('--world_size', default=1, type=int,
+                        help='number of distributed processes')
+    parser.add_argument('--dist_url', default='env://', help='url used to set up distributed training')
+    return parser
+import torchvision
+import matplotlib.pyplot as plt
+import torchvision.transforms as transforms
+def visualize_features(features, output_path='./feature_visualization_w_ib.png'):
+    # Assuming features are of shape (batch_size, num_features, height, width)
+    batch_size, num_features, height, width = features.shape
+    # Normalize the feature maps to the range [0, 1]
+    vis = features.mean(dim=1, keepdim=True)
+    vis = vis - vis.min()
+    vis = vis / vis.max()
+    # Squeeze the channel dimension
+    vis = vis.squeeze(1).cpu().detach().numpy()
+    # Apply a colormap (e.g., viridis) to convert it to RGB
+    vis_colored = np.zeros((batch_size, height, width, 3))
+    for i in range(batch_size):
+        vis_colored[i] = plt.cm.viridis(vis[i])[:, :, :3]  # Drop the alpha channel
+    # Convert vis_colored to a tensor and save using torchvision
+    vis_colored = torch.tensor(vis_colored).permute(0, 3, 1, 2)  # Convert to (batch, channels, height, width)
+    # Save the image
+    torchvision.utils.save_image(vis_colored, output_path, normalize=True)
+def save_original_images(tensors, output_path='./original_images.png'):
+    # 将归一化反转
+    unnormalize = transforms.Normalize(
+        mean=[-0.485/0.229, -0.456/0.224, -0.406/0.225],
+        std=[1/0.229, 1/0.224, 1/0.225]
+    )
+    unnormalized_tensors = [unnormalize(tensor) for tensor in tensors]
+    unnormalized_batch = torch.stack(unnormalized_tensors)
+    torchvision.utils.save_image(unnormalized_batch, output_path, nrow=4, normalize=True)
+def main(args):
+    utils.init_distributed_mode(args)
+    print(args)
+    device = torch.device(args.device)
+    # fix the seed for reproducibility
+    seed = args.seed + utils.get_rank()
+    torch.manual_seed(seed)
+    np.random.seed(seed)
+    # random.seed(seed)
+    cudnn.benchmark = True
+    dataset_train, args.nb_classes = build_dataset(is_train=True, args=args)
+    if args.distributed:
+        num_tasks = utils.get_world_size()
+        global_rank = utils.get_rank()
+        if args.repeated_aug:
+            sampler_train = RASampler(
+                dataset_train, num_replicas=num_tasks, rank=global_rank, shuffle=True
+            )
+        else:
+            sampler_train = torch.utils.data.DistributedSampler(
+                dataset_train, num_replicas=num_tasks, rank=global_rank, shuffle=True
+            )
+    else:
+        sampler_train = torch.utils.data.RandomSampler(dataset_train)
+    n_tokens = (args.global_crops_size // args.patch_size) ** 2
+    mask_generator = RandomMaskingGenerator(
+        input_size=args.global_crops_size // args.patch_size,
+    )
+    collate_fn = partial(
+        collate_data_and_cast_aug,
+        mask_ratio=args.mask_ratio,
+        mask_probability=args.mask_probability,
+        dtype=torch.half,   # half precision
+        n_tokens=n_tokens,
+        mask_first_n=args.mask_first_n,
+        mask_generator=mask_generator,
+        clone_batch=args.clone_batch,
+    )
+    data_loader_train = torch.utils.data.DataLoader(
+        dataset_train, sampler=sampler_train,
+        batch_size=args.batch_size,
+        num_workers=args.num_workers,
+        pin_memory=args.pin_mem,
+        drop_last=True,
+        collate_fn=collate_fn,
+    )
+    mixup_fn = None
+    print(f"Creating model: {args.model}")
+    meta_arch_module = importlib.import_module(args.model)
+    MetaArch = meta_arch_module.MetaArch
+    model = MetaArch(args)
+    if args.finetune:
+        checkpoint = torch.load(args.finetune, map_location='cpu')
+        if 'state_dict' in checkpoint:
+            pretrained_dict = checkpoint['state_dict']
+        elif 'model' in checkpoint:
+            pretrained_dict = checkpoint['model']
+        else:
+            pretrained_dict = checkpoint
+        missing_keys, unexpected_keys = model.load_state_dict(pretrained_dict, False)
+        print('missing_keys: ', missing_keys)
+        print('unexpected_keys: ', unexpected_keys)
+    if args.attn_only:
+        for name_p,p in model.named_parameters():
+            if '.attn.' in name_p:
+                p.requires_grad = True
+            else:
+                p.requires_grad = False
+        try:
+            model.head.weight.requires_grad = True
+            model.head.bias.requires_grad = True
+        except:
+            model.fc.weight.requires_grad = True
+            model.fc.bias.requires_grad = True
+        try:
+            model.pos_embed.requires_grad = True
+        except:
+            print('no position encoding')
+        try:
+            for p in model.patch_embed.parameters():
+                p.requires_grad = False
+        except:
+            print('no patch embed')
+    model.to(device)
+    model_ema = None
+    if args.model_ema:
+        # Important to create EMA model after cuda(), DP wrapper, and AMP but before SyncBN and DDP wrapper
+        model_ema = ModelEma(
+            model.student.backbone,
+            decay=args.model_ema_decay,
+            device='cpu' if args.model_ema_force_cpu else '',
+            resume='')
+    model_without_ddp = model
+    if args.distributed:
+        model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.gpu], find_unused_parameters=True)
+        model_without_ddp = model.module
+    n_parameters = sum(p.numel() for p in model.parameters() if p.requires_grad)
+    print('number of params:', n_parameters)
+    if not args.unscale_lr:
+        linear_scaled_lr = args.lr * args.batch_size * utils.get_world_size() / 512.0
+        args.lr = linear_scaled_lr
+    optimizer = create_optimizer(args, model_without_ddp)
+    loss_scaler = NativeScaler()
+    lr_scheduler, _ = create_scheduler(args, optimizer)
+    output_dir = Path(args.output_dir)
+    if args.resume:
+        if args.resume.startswith('https'):
+            checkpoint = torch.hub.load_state_dict_from_url(
+                args.resume, map_location='cpu', check_hash=True)
+        else:
+            checkpoint = torch.load(args.resume, map_location='cpu')
+        model_without_ddp.load_state_dict(checkpoint['model'])
+        if not args.eval and 'optimizer' in checkpoint and 'lr_scheduler' in checkpoint and 'epoch' in checkpoint:
+            optimizer.load_state_dict(checkpoint['optimizer'])
+            lr_scheduler.load_state_dict(checkpoint['lr_scheduler'])
+            args.start_epoch = checkpoint['epoch'] + 1
+            if args.model_ema:
+                utils._load_checkpoint_for_ema(model_ema, checkpoint['model_ema'])
+            if 'scaler' in checkpoint:
+                loss_scaler.load_state_dict(checkpoint['scaler'])
+        lr_scheduler.step(args.start_epoch)
+    from torchvision import transforms
+    transform = transforms.Compose([
+        transforms.Resize((224, 224)),  # 调整图像大小
+        transforms.ToTensor(),  # 转换为tensor
+        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 标准化
+    ])
+    from PIL import Image
+    images = [
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/0-anime_boy_sticker__holding_kitten__happy.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/62-Deadpool_minion.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/79-with_Wooden_carved_bear__salmon_and_gold_mini_ball_surround_the_blank_signboard__illustrate.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/99-Akira_toriyama_motorbike__cheatah__puma__japanese_classic_car__collectable_figure__shiny_plastic_.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/124-crowded_1920s_Chicago_street_with_lots_of_model_T_cars_and_people.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/157-steampunk_girl_with_pink_hair_riding_in_a_hot_air_balloon__hot_air_balloon_resembles_gold_and_si.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/ILSVRC2012_val_00008636.png"),
+        Image.open("/data0/qiyp/mae/imagenet-1k-samples/ILSVRC2012_val_00010240.png"),
+        ]
+    tensors = [transform(img) for img in images]
+    batched_tensors = torch.stack(tensors).to(device)
+    save_original_images(batched_tensors, output_path='./original_images.png')
+    with torch.no_grad():
+        outputs = model.student.backbone(batched_tensors, is_training=True)
+        features = outputs['x_norm_patchtokens']  # (batch_size, num_patches, feat_dim)
+        print(features.shape)
+        features, _ = model.info_bottleneck(features, is_training=False)
+        features = features.view(-1, 16, 16, features.shape[2])  # [B, h, w, c]
+        features = features.permute(0, 3, 1, 2)
+        visualize_features(features)
+def train_one_epoch(model: torch.nn.Module,
+                    data_loader: Iterable, optimizer: torch.optim.Optimizer,
+                    device: torch.device, epoch: int, loss_scaler, max_norm: float = 0,
+                    model_ema: Optional[ModelEma] = None, mixup_fn: Optional[Mixup] = None,
+                    set_training_mode=True, args = None):
+    model.train(set_training_mode)
+    metric_logger = utils.MetricLogger(delimiter="  ")
+    metric_logger.add_meter('lr', utils.SmoothedValue(window_size=1, fmt='{value:.6f}'))
+    header = 'Epoch: [{}]'.format(epoch)
+    print_freq = 10
+    loader_len = len(data_loader)
+    for data_iter_step, inputs_dict in enumerate(metric_logger.log_every(data_loader, print_freq, header)):
+        for k, v in inputs_dict.items():
+            if isinstance(v, torch.Tensor):
+                inputs_dict[k] = v.to(device, non_blocking=True)
+        with torch.cuda.amp.autocast():
+            loss_dict = model(inputs_dict)
+        loss = loss_dict["loss"]
+        patch_loss = loss_dict["patch_loss"]
+        fea_loss = loss_dict["fea_loss"]
+        token_loss = loss_dict["token_loss"]
+        patch_loss_value = patch_loss.item()
+        token_loss_value = token_loss.item()
+        fea_loss_value = fea_loss.item()
+        loss_value = loss.item()
+        if not math.isfinite(loss_value):
+            print("Loss is {}, stopping training".format(loss_value))
+            sys.exit(1)
+        optimizer.zero_grad()
+        # this attribute is added by timm on one optimizer (adahessian)
+        is_second_order = hasattr(optimizer, 'is_second_order') and optimizer.is_second_order
+        loss_scaler(loss, optimizer, clip_grad=max_norm,
+                    parameters=model.parameters(), create_graph=is_second_order)
+        torch.cuda.synchronize()
+        if model_ema is not None:
+            model_ema.update(model.module.student.backbone)
+        metric_logger.update(loss=loss_value)
+        metric_logger.update(patch_loss=patch_loss_value)
+        metric_logger.update(token_loss=token_loss_value)
+        metric_logger.update(fea_loss=fea_loss_value)
+        metric_logger.update(lr=optimizer.param_groups[0]["lr"])
+    # gather the stats from all processes
+    metric_logger.synchronize_between_processes()
+    print("Averaged stats:", metric_logger)
+    return {k: meter.global_avg for k, meter in metric_logger.meters.items()}
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser('DeiT training and evaluation script', parents=[get_args_parser()])
+    args = parser.parse_args()
+    if args.output_dir:
+        Path(args.output_dir).mkdir(parents=True, exist_ok=True)
+    main(args)

1_feature_extractor/log/DINOv2_training/log.txt ADDED Viewed

	@@ -0,0 +1,203 @@

+{"train_lr": 1.0000000000000353e-06, "train_loss": 9.738612308347825, "train_task_loss": 4.1162851987411075, "train_bpp_loss": 28.111635084060744, "train_patch_loss": 2.1926947419615765, "train_token_loss": 0.6686155230319091, "train_fea_loss": 1.254974935296104, "epoch": 0, "n_parameters": 144845568}
+{"train_lr": 1.0000000000000353e-06, "train_loss": 9.232701392577802, "train_task_loss": 3.6589209317660734, "train_bpp_loss": 27.86890183459464, "train_patch_loss": 1.9597956623069102, "train_token_loss": 0.6684419002523906, "train_fea_loss": 1.030683369156149, "epoch": 1, "n_parameters": 144845568}
+{"train_lr": 7.579999999999412e-05, "train_loss": 7.21169285546485, "train_task_loss": 3.139855162607585, "train_bpp_loss": 20.35918810360914, "train_patch_loss": 1.6089605613649607, "train_token_loss": 0.6681283143200843, "train_fea_loss": 0.8627662869969861, "epoch": 2, "n_parameters": 144845568}
+{"train_lr": 0.0001506000000000007, "train_loss": 4.554179431234809, "train_task_loss": 3.242361048226067, "train_bpp_loss": 6.559091770915772, "train_patch_loss": 1.606790432570983, "train_token_loss": 0.6681644691438745, "train_fea_loss": 0.9674061452158444, "epoch": 3, "n_parameters": 144845568}
+{"train_lr": 0.00022540000000000762, "train_loss": 3.735120667863807, "train_task_loss": 3.387666613328085, "train_bpp_loss": 1.7372702604485788, "train_patch_loss": 1.6483151540636636, "train_token_loss": 0.6679934723992095, "train_fea_loss": 1.0713579858914555, "epoch": 4, "n_parameters": 144845568}
+{"train_lr": 1.0000000000000597e-06, "train_loss": 5.909162417715259, "train_task_loss": 3.1000390200824333, "train_bpp_loss": 28.091233481177323, "train_patch_loss": 1.2870068884135293, "train_token_loss": 0.6689227937365607, "train_fea_loss": 1.1441093232500539, "epoch": 0, "n_parameters": 144845568}
+{"train_lr": 1.0000000000000597e-06, "train_loss": 5.4208089515959905, "train_task_loss": 2.6417781315404447, "train_bpp_loss": 27.790307712640693, "train_patch_loss": 1.0698811880355295, "train_token_loss": 0.6684176272018064, "train_fea_loss": 0.9034793063801684, "epoch": 1, "n_parameters": 144845568}
+{"train_lr": 2.330000000000072e-05, "train_loss": 4.90253949746025, "train_task_loss": 2.468064440561713, "train_bpp_loss": 24.344750106834965, "train_patch_loss": 0.9905159351565569, "train_token_loss": 0.6681102167086885, "train_fea_loss": 0.809438281672464, "epoch": 2, "n_parameters": 144845568}
+{"train_lr": 4.5600000000004605e-05, "train_loss": 4.039170976486995, "train_task_loss": 2.4127648418648637, "train_bpp_loss": 16.264061019539263, "train_patch_loss": 0.9645157243489183, "train_token_loss": 0.668388756130525, "train_fea_loss": 0.7798603551274688, "epoch": 3, "n_parameters": 144845568}
+{"train_lr": 6.790000000000497e-05, "train_loss": 3.154224511977437, "train_task_loss": 2.4628324630252605, "train_bpp_loss": 6.913920321606761, "train_patch_loss": 0.9734525120118075, "train_token_loss": 0.668419569109877, "train_fea_loss": 0.8209603751900134, "epoch": 4, "n_parameters": 144845568}
+{"train_lr": 9.019999999999779e-05, "train_loss": 2.855963341034145, "train_task_loss": 2.595376729947343, "train_bpp_loss": 2.605866110010399, "train_patch_loss": 1.0060626347426422, "train_token_loss": 0.7175173823357665, "train_fea_loss": 0.8717967045071314, "epoch": 5, "n_parameters": 144845568}
+{"train_lr": 0.00011234201335381617, "train_loss": 2.8053760061786472, "train_task_loss": 2.636510731433507, "train_bpp_loss": 1.6886527469109216, "train_patch_loss": 1.019217302998175, "train_token_loss": 0.7347769178539443, "train_fea_loss": 0.8825165003926742, "epoch": 6, "n_parameters": 144845568}
+{"train_lr": 0.00011227255068590994, "train_loss": 2.761493076880773, "train_task_loss": 2.6242000526464957, "train_bpp_loss": 1.3729302407391994, "train_patch_loss": 1.0161546610956855, "train_token_loss": 0.735874281325143, "train_fea_loss": 0.8721711006757024, "epoch": 7, "n_parameters": 144845568}
+{"train_lr": 0.0001121904989670886, "train_loss": 2.7252962913819783, "train_task_loss": 2.6068851682994008, "train_bpp_loss": 1.1841112330144972, "train_patch_loss": 1.01152529233812, "train_token_loss": 0.7345748117854662, "train_fea_loss": 0.8607850549831915, "epoch": 8, "n_parameters": 144845568}
+{"train_lr": 0.00011209587844235662, "train_loss": 2.6992331013548, "train_task_loss": 2.594223390594661, "train_bpp_loss": 1.0500971039855402, "train_patch_loss": 1.00772097030525, "train_token_loss": 0.7340729326429627, "train_fea_loss": 0.8524294771026257, "epoch": 9, "n_parameters": 144845568}
+{"train_lr": 0.0001119887124579783, "train_loss": 2.678213749384637, "train_task_loss": 2.5821204649494423, "train_bpp_loss": 0.9609328405931592, "train_patch_loss": 1.0029366761982013, "train_token_loss": 0.7342181133186753, "train_fea_loss": 0.8449656662421761, "epoch": 10, "n_parameters": 144845568}
+{"train_lr": 0.00011186902745551124, "train_loss": 2.662179193613555, "train_task_loss": 2.571508611331312, "train_bpp_loss": 0.9067058223556522, "train_patch_loss": 0.9990729609732147, "train_token_loss": 0.7330601164686987, "train_fea_loss": 0.8393755242634985, "epoch": 11, "n_parameters": 144845568}
+{"train_lr": 0.00011173685296543875, "train_loss": 2.6492657475530814, "train_task_loss": 2.562294816915437, "train_bpp_loss": 0.8697093047259702, "train_patch_loss": 0.995477003563526, "train_token_loss": 0.7320167214611916, "train_fea_loss": 0.834801082157617, "epoch": 12, "n_parameters": 144845568}
+{"train_lr": 0.00011159222159984347, "train_loss": 2.6404250215033263, "train_task_loss": 2.5562614543492987, "train_bpp_loss": 0.8416356684604316, "train_patch_loss": 0.9931515277579999, "train_token_loss": 0.7319663158244938, "train_fea_loss": 0.8311436018064546, "epoch": 13, "n_parameters": 144845568}
+{"train_lr": 0.00011143516904437194, "train_loss": 2.631879109013781, "train_task_loss": 2.5498513719625326, "train_bpp_loss": 0.8202773725337011, "train_patch_loss": 0.99033929754665, "train_token_loss": 0.7316777065275706, "train_fea_loss": 0.8278343591714006, "epoch": 14, "n_parameters": 144845568}
+{"train_lr": 0.00011126573404935182, "train_loss": 2.6259225274054265, "train_task_loss": 2.5454919715579467, "train_bpp_loss": 0.8043055602369441, "train_patch_loss": 0.9886904231225737, "train_token_loss": 0.731208170509542, "train_fea_loss": 0.8255933674758108, "epoch": 15, "n_parameters": 144845568}
+{"train_lr": 0.0001110839584203689, "train_loss": 2.6198472417533685, "train_task_loss": 2.5406655372529148, "train_bpp_loss": 0.791817048280913, "train_patch_loss": 0.9866770549277536, "train_token_loss": 0.7308970645976831, "train_fea_loss": 0.8230914076035328, "epoch": 16, "n_parameters": 144845568}
+{"train_lr": 0.0001108898870078482, "train_loss": 2.6147061569584933, "train_task_loss": 2.5367300099552534, "train_bpp_loss": 0.7797614707582468, "train_patch_loss": 0.985000457371221, "train_token_loss": 0.7312123553148455, "train_fea_loss": 0.8205171879849953, "epoch": 17, "n_parameters": 144845568}
+{"train_lr": 0.00011068356769595686, "train_loss": 2.609768410336128, "train_task_loss": 2.5328920738910026, "train_bpp_loss": 0.7687633632072549, "train_patch_loss": 0.9837793158322609, "train_token_loss": 0.7307359146476864, "train_fea_loss": 0.8183768322217844, "epoch": 18, "n_parameters": 144845568}
+{"train_lr": 0.0001104650513909484, "train_loss": 2.6053047203313677, "train_task_loss": 2.52939695734486, "train_bpp_loss": 0.7590776344502179, "train_patch_loss": 0.9826806558796363, "train_token_loss": 0.7301465437459431, "train_fea_loss": 0.8165697485534585, "epoch": 19, "n_parameters": 144845568}
+{"train_lr": 0.00011023439200841275, "train_loss": 2.60126930419847, "train_task_loss": 2.526219468670998, "train_bpp_loss": 0.7504983498341888, "train_patch_loss": 0.981161863478325, "train_token_loss": 0.7301577162488901, "train_fea_loss": 0.8148998804368096, "epoch": 20, "n_parameters": 144845568}
+{"train_lr": 0.00010973687463990103, "train_loss": 2.6637201429449684, "train_task_loss": 2.5465192173382074, "train_bpp_loss": 0.5860046291750648, "train_patch_loss": 0.9867626110592084, "train_token_loss": 0.7298668318939545, "train_fea_loss": 0.8298897645157054, "epoch": 21, "n_parameters": 144845568}
+{"train_lr": 0.00010973687463990103, "train_loss": 2.6604584804970584, "train_task_loss": 2.5488337897550433, "train_bpp_loss": 0.5581234564080084, "train_patch_loss": 0.98777336684643, "train_token_loss": 0.730239200644749, "train_fea_loss": 0.8308212128188684, "epoch": 22, "n_parameters": 144845568}
+{"train_lr": 0.00010947013940891518, "train_loss": 2.6580159922512316, "train_task_loss": 2.5488927058553954, "train_bpp_loss": 0.5456164319233464, "train_patch_loss": 0.9876678835765885, "train_token_loss": 0.7302756367019004, "train_fea_loss": 0.8309491750956189, "epoch": 23, "n_parameters": 144845568}
+{"train_lr": 0.00010919150658002209, "train_loss": 2.6552707054864446, "train_task_loss": 2.548027373189263, "train_bpp_loss": 0.5362166606305208, "train_patch_loss": 0.987526344177838, "train_token_loss": 0.7304425147100747, "train_fea_loss": 0.830058504461045, "epoch": 24, "n_parameters": 144845568}
+{"train_lr": 0.00010890104490178482, "train_loss": 2.6532317997365116, "train_task_loss": 2.5475874447243676, "train_bpp_loss": 0.5282217790852848, "train_patch_loss": 0.9868854832560788, "train_token_loss": 0.7307839357099838, "train_fea_loss": 0.8299180160475363, "epoch": 25, "n_parameters": 144845568}
+{"train_lr": 0.00010828492456631287, "train_loss": 2.6756018440750577, "train_task_loss": 2.554671129796931, "train_bpp_loss": 0.48372285632077133, "train_patch_loss": 0.9893747716762429, "train_token_loss": 0.7302002353723244, "train_fea_loss": 0.83509611297506, "epoch": 26, "n_parameters": 144845568}
+{"train_lr": 0.00010828492456631287, "train_loss": 2.672080845176745, "train_task_loss": 2.5541286950649544, "train_bpp_loss": 0.4718086026637978, "train_patch_loss": 0.9892294842401426, "train_token_loss": 0.7304161941873835, "train_fea_loss": 0.8344830075631754, "epoch": 27, "n_parameters": 144845568}
+{"train_lr": 0.00010795941792757138, "train_loss": 2.6682109270039365, "train_task_loss": 2.552076613383113, "train_bpp_loss": 0.4645372550583911, "train_patch_loss": 0.9893483498738967, "train_token_loss": 0.7297189640332398, "train_fea_loss": 0.8330092908327671, "epoch": 28, "n_parameters": 144845568}
+{"train_lr": 0.00010762238643889585, "train_loss": 2.6648726280626778, "train_task_loss": 2.5502606650068462, "train_bpp_loss": 0.458447851656045, "train_patch_loss": 0.988596663794679, "train_token_loss": 0.7296670780559595, "train_fea_loss": 0.8319969125855848, "epoch": 29, "n_parameters": 144845568}
+{"train_lr": 0.00010727391325772412, "train_loss": 2.66122928966614, "train_task_loss": 2.5479887132521726, "train_bpp_loss": 0.4529623082800985, "train_patch_loss": 0.9877295848607517, "train_token_loss": 0.7298175230917099, "train_fea_loss": 0.8304415963706281, "epoch": 30, "n_parameters": 144845568}
+{"train_lr": 0.00010691408436465084, "train_loss": 2.6585902343425962, "train_task_loss": 2.546459772737978, "train_bpp_loss": 0.44852184575292275, "train_patch_loss": 0.9874212175062734, "train_token_loss": 0.7292956591402884, "train_fea_loss": 0.8297428859540705, "epoch": 31, "n_parameters": 144845568}
+{"train_lr": 0.00010654298854205488, "train_loss": 2.655904775418395, "train_task_loss": 2.5447790948875086, "train_bpp_loss": 0.44450271940216135, "train_patch_loss": 0.9865645243444567, "train_token_loss": 0.7294259656095605, "train_fea_loss": 0.8287885952718573, "epoch": 32, "n_parameters": 144845568}
+{"train_lr": 0.0001061607173522522, "train_loss": 2.653865991727554, "train_task_loss": 2.5435698100184796, "train_bpp_loss": 0.4411847302678981, "train_patch_loss": 0.98615532235535, "train_token_loss": 0.7293780767236003, "train_fea_loss": 0.8280364017178722, "epoch": 33, "n_parameters": 144845568}
+{"train_lr": 0.00010576736511496153, "train_loss": 2.649993774818359, "train_task_loss": 2.540434418590092, "train_bpp_loss": 0.4382374218332289, "train_patch_loss": 0.9851716845977506, "train_token_loss": 0.7283954293907082, "train_fea_loss": 0.8268672945759565, "epoch": 34, "n_parameters": 144845568}
+{"train_lr": 0.00010536302888396166, "train_loss": 2.64796845856116, "train_task_loss": 2.539067151297411, "train_bpp_loss": 0.4356052296792271, "train_patch_loss": 0.9849777258128571, "train_token_loss": 0.7279274276853036, "train_fea_loss": 0.8261619895200828, "epoch": 35, "n_parameters": 144845568}
+{"train_lr": 0.00010494780842314013, "train_loss": 2.646916040002728, "train_task_loss": 2.538628663867712, "train_bpp_loss": 0.43314950562102333, "train_patch_loss": 0.9843870765022594, "train_token_loss": 0.7287507657747831, "train_fea_loss": 0.8254908122640434, "epoch": 36, "n_parameters": 144845568}
+{"train_lr": 0.00010452180618197858, "train_loss": 2.6438271829979025, "train_task_loss": 2.5360889318678304, "train_bpp_loss": 0.43095300335781, "train_patch_loss": 0.9832675016509722, "train_token_loss": 0.7280113412965116, "train_fea_loss": 0.8248100794753511, "epoch": 37, "n_parameters": 144845568}
+{"train_lr": 0.00010408512727011787, "train_loss": 2.6436403147715457, "train_task_loss": 2.536438628754241, "train_bpp_loss": 0.42880674428697363, "train_patch_loss": 0.9832872114673579, "train_token_loss": 0.7284368306166119, "train_fea_loss": 0.8247145772900442, "epoch": 38, "n_parameters": 144845568}
+{"train_lr": 0.00010363787943157281, "train_loss": 2.640265642149414, "train_task_loss": 2.5335381660583636, "train_bpp_loss": 0.42690990286783204, "train_patch_loss": 0.982539902213398, "train_token_loss": 0.7274603552767913, "train_fea_loss": 0.8235378990137427, "epoch": 39, "n_parameters": 144845568}
+{"train_lr": 0.0001031801730180277, "train_loss": 2.638479518384742, "train_task_loss": 2.532214540898871, "train_bpp_loss": 0.4250599086704514, "train_patch_loss": 0.9822922450729268, "train_token_loss": 0.7268436730546738, "train_fea_loss": 0.8230786147199088, "epoch": 40, "n_parameters": 144845568}
+{"train_lr": 0.00010271212096170505, "train_loss": 2.6368867533473517, "train_task_loss": 2.5310158089464374, "train_bpp_loss": 0.4234837778348127, "train_patch_loss": 0.9816671004675204, "train_token_loss": 0.7268876022875881, "train_fea_loss": 0.8224610961522523, "epoch": 41, "n_parameters": 144845568}
+{"train_lr": 0.00010223383874746677, "train_loss": 2.6354142183826554, "train_task_loss": 2.529919751140354, "train_bpp_loss": 0.42197786968612344, "train_patch_loss": 0.9807341171861839, "train_token_loss": 0.7272372794665879, "train_fea_loss": 0.8219483458689398, "epoch": 42, "n_parameters": 144845568}
+{"train_lr": 0.00010174544438424974, "train_loss": 2.634054534628594, "train_task_loss": 2.528918670253645, "train_bpp_loss": 0.4205434575589816, "train_patch_loss": 0.9803530661996713, "train_token_loss": 0.7265599571498964, "train_fea_loss": 0.8220056383613702, "epoch": 43, "n_parameters": 144845568}
+{"train_lr": 0.00010124705837609591, "train_loss": 2.6349923593892184, "train_task_loss": 2.5301807783186723, "train_bpp_loss": 0.4192463266741422, "train_patch_loss": 0.9804664164607366, "train_token_loss": 0.726979716709978, "train_fea_loss": 0.8227346358883331, "epoch": 44, "n_parameters": 144845568}
+{"train_lr": 0.00010073880369226542, "train_loss": 2.63449551127583, "train_task_loss": 2.529952161675163, "train_bpp_loss": 0.4181733996109318, "train_patch_loss": 0.9800947665212323, "train_token_loss": 0.7259607360401242, "train_fea_loss": 0.8238966495861753, "epoch": 45, "n_parameters": 144845568}
+{"train_lr": 0.00010022080573700511, "train_loss": 2.6345730214078222, "train_task_loss": 2.530297286192076, "train_bpp_loss": 0.4171029411935263, "train_patch_loss": 0.9800362460766372, "train_token_loss": 0.7260628667832029, "train_fea_loss": 0.8241981637554703, "epoch": 46, "n_parameters": 144845568}
+{"train_lr": 9.969319231856176e-05, "train_loss": 2.6355131778874985, "train_task_loss": 2.5314376252464394, "train_bpp_loss": 0.4163022163889105, "train_patch_loss": 0.9805744725929426, "train_token_loss": 0.7263783447029029, "train_fea_loss": 0.8244847989500427, "epoch": 47, "n_parameters": 144845568}
+{"train_lr": 9.915609361765753e-05, "train_loss": 2.634658775285637, "train_task_loss": 2.5308349787099043, "train_bpp_loss": 0.4152951848266615, "train_patch_loss": 0.9807003051248029, "train_token_loss": 0.725708744122381, "train_fea_loss": 0.8244259209490473, "epoch": 48, "n_parameters": 144845568}
+{"train_lr": 9.860964215535301e-05, "train_loss": 2.6395780852765776, "train_task_loss": 2.536209069951761, "train_bpp_loss": 0.4134760623657071, "train_patch_loss": 0.9824451866852258, "train_token_loss": 0.7274219641725508, "train_fea_loss": 0.8263419094569177, "epoch": 49, "n_parameters": 144845568}
+{"train_lr": 9.805397276035986e-05, "train_loss": 2.639889271710988, "train_task_loss": 2.536885856259927, "train_bpp_loss": 0.4120136631007264, "train_patch_loss": 0.9825187112367768, "train_token_loss": 0.7275711355386949, "train_fea_loss": 0.8267959996776508, "epoch": 50, "n_parameters": 144845568}
+{"train_lr": 9.748922253581646e-05, "train_loss": 2.6434670704320893, "train_task_loss": 2.5408570495137064, "train_bpp_loss": 0.4104400824474023, "train_patch_loss": 0.9840436073498046, "train_token_loss": 0.7284569417749592, "train_fea_loss": 0.828356491024349, "epoch": 51, "n_parameters": 144845568}
+{"train_lr": 9.691553082535863e-05, "train_loss": 2.6544609911453954, "train_task_loss": 2.5523642709644005, "train_bpp_loss": 0.40838687800259577, "train_patch_loss": 0.9880639841150252, "train_token_loss": 0.7311584631057023, "train_fea_loss": 0.8331418140172708, "epoch": 52, "n_parameters": 144845568}
+{"train_lr": 9.633303917884302e-05, "train_loss": 2.6421383294395264, "train_task_loss": 2.5401510994175642, "train_bpp_loss": 0.40794892040498965, "train_patch_loss": 0.9832984244683199, "train_token_loss": 0.7280591241032671, "train_fea_loss": 0.8287935424283397, "epoch": 53, "n_parameters": 144845568}
+{"train_lr": 9.574189131737902e-05, "train_loss": 2.6519711823504175, "train_task_loss": 2.5503779566384477, "train_bpp_loss": 0.40637290150338085, "train_patch_loss": 0.987097349643207, "train_token_loss": 0.7309697274904814, "train_fea_loss": 0.832310870747647, "epoch": 54, "n_parameters": 144845568}
+{"train_lr": 9.514223309782753e-05, "train_loss": 2.649527451563939, "train_task_loss": 2.5482009406730852, "train_bpp_loss": 0.4053060460971932, "train_patch_loss": 0.9869010643251865, "train_token_loss": 0.7299437226093323, "train_fea_loss": 0.8313561448876521, "epoch": 55, "n_parameters": 144845568}
+{"train_lr": 9.453421247691757e-05, "train_loss": 2.643370286264508, "train_task_loss": 2.5421072299049485, "train_bpp_loss": 0.40505222469563784, "train_patch_loss": 0.9843411268666387, "train_token_loss": 0.7289866340465004, "train_fea_loss": 0.8287794603441331, "epoch": 56, "n_parameters": 144845568}
+{"train_lr": 9.391797947461475e-05, "train_loss": 2.6461283357577217, "train_task_loss": 2.5451179012316736, "train_bpp_loss": 0.40404173961842804, "train_patch_loss": 0.9857150221699111, "train_token_loss": 0.7291283701508523, "train_fea_loss": 0.8302744993274447, "epoch": 57, "n_parameters": 144845568}
+{"train_lr": 9.329368613720009e-05, "train_loss": 2.652468080438084, "train_task_loss": 2.551866788899513, "train_bpp_loss": 0.40240516668471465, "train_patch_loss": 0.9880323676700643, "train_token_loss": 0.7304665103925468, "train_fea_loss": 0.8333679016130112, "epoch": 58, "n_parameters": 144845568}
+{"train_lr": 9.266148649972007e-05, "train_loss": 2.650359462124767, "train_task_loss": 2.5499309687752376, "train_bpp_loss": 0.401713975702973, "train_patch_loss": 0.9875440163452991, "train_token_loss": 0.7306666403307581, "train_fea_loss": 0.8317203026117502, "epoch": 59, "n_parameters": 144845568}
+{"train_lr": 9.202153654795684e-05, "train_loss": 2.6472997942613326, "train_task_loss": 2.547006531638636, "train_bpp_loss": 0.4011730529006115, "train_patch_loss": 0.986042402963862, "train_token_loss": 0.7303420982616161, "train_fea_loss": 0.8306220213389046, "epoch": 60, "n_parameters": 144845568}
+{"train_lr": 9.137399417998249e-05, "train_loss": 2.635524819071273, "train_task_loss": 2.5351910238875615, "train_bpp_loss": 0.40133518058520784, "train_patch_loss": 0.9820189805460169, "train_token_loss": 0.7271724717727275, "train_fea_loss": 0.8259995626531345, "epoch": 61, "n_parameters": 144845568}
+{"train_lr": 9.071901916722404e-05, "train_loss": 2.648858120589019, "train_task_loss": 2.5489517275056395, "train_bpp_loss": 0.39962557505043467, "train_patch_loss": 0.986155892487803, "train_token_loss": 0.73087697630029, "train_fea_loss": 0.8319188496388262, "epoch": 62, "n_parameters": 144845568}
+{"train_lr": 9.071901916722404e-05, "train_loss": 2.7465927910497436, "train_task_loss": 2.5472986304449092, "train_bpp_loss": 0.3870172494111194, "train_patch_loss": 0.986047504940997, "train_token_loss": 0.7293615024804855, "train_fea_loss": 0.9150785957809261, "epoch": 61, "n_parameters": 144845568}
+{"train_lr": 9.071901916722404e-05, "train_loss": 2.732339255324156, "train_task_loss": 2.5342044824247454, "train_bpp_loss": 0.3851228334161518, "train_patch_loss": 0.9823006979486854, "train_token_loss": 0.725924804654839, "train_fea_loss": 0.9085768888921117, "epoch": 62, "n_parameters": 144845568}
+{"train_lr": 9.005677311491453e-05, "train_loss": 2.733937658449943, "train_task_loss": 2.5361717377456543, "train_bpp_loss": 0.38358666918550927, "train_patch_loss": 0.9829422572395391, "train_token_loss": 0.7263305272473741, "train_fea_loss": 0.9095888588916984, "epoch": 63, "n_parameters": 144845568}
+{"train_lr": 8.938741942239847e-05, "train_loss": 2.735222797715764, "train_task_loss": 2.5376820612332516, "train_bpp_loss": 0.382704222326924, "train_patch_loss": 0.9836816218920605, "train_token_loss": 0.7267059973671103, "train_fea_loss": 0.9100238969839877, "epoch": 64, "n_parameters": 144845568}
+{"train_lr": 8.871112324267081e-05, "train_loss": 2.7348346617742836, "train_task_loss": 2.537643769224413, "train_bpp_loss": 0.38169531316588, "train_patch_loss": 0.9843459360355096, "train_token_loss": 0.726475094608087, "train_fea_loss": 0.9095050229219724, "epoch": 65, "n_parameters": 144845568}
+{"train_lr": 8.733837255720078e-05, "train_loss": 2.7936204858570934, "train_task_loss": 2.558094645236179, "train_bpp_loss": 0.3368677387395941, "train_patch_loss": 0.9911075603882435, "train_token_loss": 0.7276336732755998, "train_fea_loss": 0.9232887631746755, "epoch": 66, "n_parameters": 144845568}
+{"train_lr": 8.733837255720078e-05, "train_loss": 2.7915395827209064, "train_task_loss": 2.558850450686914, "train_bpp_loss": 0.3302956995413565, "train_patch_loss": 0.9912216057375574, "train_token_loss": 0.7270683532455664, "train_fea_loss": 0.9246165518954896, "epoch": 67, "n_parameters": 144845568}
+{"train_lr": 8.66422567571558e-05, "train_loss": 2.8010428122443547, "train_task_loss": 2.569311464486791, "train_bpp_loss": 0.3271386409915394, "train_patch_loss": 0.9944994980447012, "train_token_loss": 0.729622550842484, "train_fea_loss": 0.929708367548615, "epoch": 68, "n_parameters": 144845568}
+{"train_lr": 8.59398757977085e-05, "train_loss": 2.8097731665634424, "train_task_loss": 2.5788058781241485, "train_bpp_loss": 0.3244854515335775, "train_patch_loss": 0.9977880177184117, "train_token_loss": 0.7315296879824367, "train_fea_loss": 0.9344370006996807, "epoch": 69, "n_parameters": 144845568}
+{"train_lr": 8.523140298084917e-05, "train_loss": 2.7927491063747905, "train_task_loss": 2.562695958050821, "train_bpp_loss": 0.3240329879190889, "train_patch_loss": 0.9920173354035945, "train_token_loss": 0.7282957452923345, "train_fea_loss": 0.9266211757105853, "epoch": 70, "n_parameters": 144845568}
+{"train_lr": 8.451701311164659e-05, "train_loss": 2.816440251421371, "train_task_loss": 2.5866508388297733, "train_bpp_loss": 0.32121099593403707, "train_patch_loss": 1.0007479091105667, "train_token_loss": 0.7334584623767282, "train_fea_loss": 0.9376889240237878, "epoch": 71, "n_parameters": 144845568}
+{"train_lr": 8.379688245511898e-05, "train_loss": 2.8120930993692768, "train_task_loss": 2.5828994919570514, "train_bpp_loss": 0.32026763344004894, "train_patch_loss": 0.9992939126554975, "train_token_loss": 0.732874036779989, "train_fea_loss": 0.9358047071388729, "epoch": 72, "n_parameters": 144845568}
+{"train_lr": 8.307118869271464e-05, "train_loss": 2.8027984519763818, "train_task_loss": 2.5742826347978567, "train_bpp_loss": 0.3194215351233272, "train_patch_loss": 0.9962847879741618, "train_token_loss": 0.7302367620156716, "train_fea_loss": 0.932537203840018, "epoch": 73, "n_parameters": 144845568}
+{"train_lr": 8.234011087850579e-05, "train_loss": 2.832480542442138, "train_task_loss": 2.6040796041131307, "train_bpp_loss": 0.3165612864526931, "train_patch_loss": 1.0063268801385015, "train_token_loss": 0.7382693186433589, "train_fea_loss": 0.945431755996383, "epoch": 74, "n_parameters": 144845568}
+{"train_lr": 8.160382939503717e-05, "train_loss": 2.799674530850826, "train_task_loss": 2.5721579685592824, "train_bpp_loss": 0.3175276949637674, "train_patch_loss": 0.9966744806246756, "train_token_loss": 0.7291926598819576, "train_fea_loss": 0.9309199213762757, "epoch": 75, "n_parameters": 144845568}
+{"train_lr": 8.011638332509435e-05, "train_loss": 2.8255829363078666, "train_task_loss": 2.578499776871799, "train_bpp_loss": 0.2999681402433315, "train_patch_loss": 0.9987926142361703, "train_token_loss": 0.7287038154274725, "train_fea_loss": 0.9361036925038381, "epoch": 76, "n_parameters": 144845568}
+{"train_lr": 8.011638332509435e-05, "train_loss": 2.840959037218591, "train_task_loss": 2.5953164593778926, "train_bpp_loss": 0.2960671754754919, "train_patch_loss": 1.0047289559068224, "train_token_loss": 0.7329247621774709, "train_fea_loss": 0.9434290263216666, "epoch": 77, "n_parameters": 144845568}
+{"train_lr": 7.93655857436786e-05, "train_loss": 2.8381004938922767, "train_task_loss": 2.5934427621946345, "train_bpp_loss": 0.29446334153194903, "train_patch_loss": 1.0050567829807242, "train_token_loss": 0.7319110037146999, "train_fea_loss": 0.9421224841419206, "epoch": 78, "n_parameters": 144845568}
+{"train_lr": 7.86103184125689e-05, "train_loss": 2.847826922665254, "train_task_loss": 2.603588223600273, "train_bpp_loss": 0.29271904649034286, "train_patch_loss": 1.0064198724385038, "train_token_loss": 0.7354645022689152, "train_fea_loss": 0.9478742439049682, "epoch": 79, "n_parameters": 144845568}
+{"train_lr": 7.785076768264985e-05, "train_loss": 2.8496559623369784, "train_task_loss": 2.6059850953447876, "train_bpp_loss": 0.29151453778183434, "train_patch_loss": 1.0084720284899147, "train_token_loss": 0.7349831929711772, "train_fea_loss": 0.9487828727950045, "epoch": 80, "n_parameters": 144845568}
+{"train_lr": 7.708712096171631e-05, "train_loss": 2.8463599768867023, "train_task_loss": 2.6032515673292913, "train_bpp_loss": 0.2907897324716712, "train_patch_loss": 1.0084952734437564, "train_token_loss": 0.7339370518864737, "train_fea_loss": 0.9469011765759554, "epoch": 81, "n_parameters": 144845568}
+{"train_lr": 7.631956666815207e-05, "train_loss": 2.8331575906015845, "train_task_loss": 2.5902766323418356, "train_bpp_loss": 0.29128668203445185, "train_patch_loss": 1.0040304742896442, "train_token_loss": 0.7303849485070764, "train_fea_loss": 0.9414473412786242, "epoch": 82, "n_parameters": 144845568}
+{"train_lr": 7.554829418450765e-05, "train_loss": 6.022797273306681, "train_task_loss": 5.747255473551776, "train_bpp_loss": 0.15595893754092843, "train_patch_loss": 1.9295167815905037, "train_token_loss": 1.9044995418676047, "train_fea_loss": 2.1045631034237196, "epoch": 83, "n_parameters": 144845568}
+{"train_lr": 7.477349381072652e-05, "train_loss": 6.33198429772751, "train_task_loss": 6.103147584757359, "train_bpp_loss": 0.04776455266578447, "train_patch_loss": 2.038426331773722, "train_token_loss": 2.034283296100134, "train_fea_loss": 2.2334817904058837, "epoch": 84, "n_parameters": 144845568}
+{"train_lr": 7.399535671720344e-05, "train_loss": 6.269092192288211, "train_task_loss": 6.053333911088874, "train_bpp_loss": 0.029455166824030238, "train_patch_loss": 2.0307816479676704, "train_token_loss": 2.024027929974081, "train_fea_loss": 2.1983768022049675, "epoch": 85, "n_parameters": 144845568}
+{"train_lr": 7.321407489761549e-05, "train_loss": 6.215953613303119, "train_task_loss": 6.003636568552442, "train_bpp_loss": 0.026147063460792316, "train_patch_loss": 2.018133198333194, "train_token_loss": 2.0035276831500677, "train_fea_loss": 2.1801732855288387, "epoch": 86, "n_parameters": 144845568}
+{"train_lr": 7.242984112156774e-05, "train_loss": 5.868365104446451, "train_task_loss": 5.527729460429088, "train_bpp_loss": 0.2684132926173316, "train_patch_loss": 1.9746971274469254, "train_token_loss": 1.5961082754723674, "train_fea_loss": 2.1526165047361197, "epoch": 87, "n_parameters": 144845568}
+{"train_lr": 7.16428488870196e-05, "train_loss": 5.4557995484958735, "train_task_loss": 5.110851676522685, "train_bpp_loss": 0.2943931522651305, "train_patch_loss": 1.8687771737611265, "train_token_loss": 1.3823193566252787, "train_fea_loss": 2.0457307090067105, "epoch": 88, "n_parameters": 144845568}
+{"train_lr": 7.085329237251759e-05, "train_loss": 6.162637532811513, "train_task_loss": 5.88701508848144, "train_bpp_loss": 0.13411895593832643, "train_patch_loss": 2.0334672068672286, "train_token_loss": 1.821566376444265, "train_fea_loss": 2.2351796914660316, "epoch": 89, "n_parameters": 144845568}
+{"train_lr": 7.006136638931818e-05, "train_loss": 5.024170764112215, "train_task_loss": 4.809058998057025, "train_bpp_loss": 0.05317469353166999, "train_patch_loss": 1.8792113221967393, "train_token_loss": 1.0658738444262235, "train_fea_loss": 2.0503712694118206, "epoch": 90, "n_parameters": 144845568}
+{"train_lr": 6.926726633331106e-05, "train_loss": 4.723379994860942, "train_task_loss": 4.515086256485763, "train_bpp_loss": 0.057305316362173765, "train_patch_loss": 1.798007144451999, "train_token_loss": 0.9435908788395264, "train_fea_loss": 1.9508371142764314, "epoch": 91, "n_parameters": 144845568}
+{"train_lr": 6.847118813679865e-05, "train_loss": 5.031990508435013, "train_task_loss": 4.765979826932759, "train_bpp_loss": 0.15900398099812293, "train_patch_loss": 1.824176159184828, "train_token_loss": 1.1403188319715987, "train_fea_loss": 1.981633366195025, "epoch": 92, "n_parameters": 144845568}
+{"train_lr": 7.631956666815207e-05, "train_loss": 2.814900835471259, "train_task_loss": 2.5911692696259463, "train_bpp_loss": 0.30722877928625336, "train_patch_loss": 1.003347651021247, "train_token_loss": 0.7330356562840674, "train_fea_loss": 0.854785952643364, "epoch": 81, "n_parameters": 144845568}
+{"train_lr": 7.631956666815207e-05, "train_loss": 2.8142806054126446, "train_task_loss": 2.5897073253131597, "train_bpp_loss": 0.30940049388993096, "train_patch_loss": 1.0041070785507453, "train_token_loss": 0.7321698584502263, "train_fea_loss": 0.8534303789900289, "epoch": 82, "n_parameters": 144845568}
+{"train_lr": 7.554829418450765e-05, "train_loss": 2.816245504384704, "train_task_loss": 2.591411675659301, "train_bpp_loss": 0.30987349456864044, "train_patch_loss": 1.003780739015634, "train_token_loss": 0.7337235686563545, "train_fea_loss": 0.8539073579683364, "epoch": 83, "n_parameters": 144845568}
+{"train_lr": 7.477349381072652e-05, "train_loss": 2.800685787649392, "train_task_loss": 2.5759294760688176, "train_bpp_loss": 0.3108195169511691, "train_patch_loss": 0.9979896100653376, "train_token_loss": 0.729064737578376, "train_fea_loss": 0.8488751188081374, "epoch": 84, "n_parameters": 144845568}
+{"train_lr": 7.399535671720344e-05, "train_loss": 2.78943671736357, "train_task_loss": 2.5648709468239788, "train_bpp_loss": 0.31156991790573624, "train_patch_loss": 0.9950137249611729, "train_token_loss": 0.7262643160526272, "train_fea_loss": 0.8435928968185608, "epoch": 85, "n_parameters": 144845568}
+{"train_lr": 7.321407489761549e-05, "train_loss": 2.844264631443244, "train_task_loss": 2.614422207854563, "train_bpp_loss": 0.319169871819516, "train_patch_loss": 1.0113446999082176, "train_token_loss": 0.7409178713242784, "train_fea_loss": 0.8621596260023096, "epoch": 86, "n_parameters": 144845568}
+{"train_lr": 7.242984112156774e-05, "train_loss": 2.851643653814312, "train_task_loss": 2.6122646205198707, "train_bpp_loss": 0.33907441596994153, "train_patch_loss": 1.01671234990651, "train_token_loss": 0.7275969981968545, "train_fea_loss": 0.8679552621183564, "epoch": 87, "n_parameters": 144845568}
+{"train_lr": 7.16428488870196e-05, "train_loss": 2.778331270660285, "train_task_loss": 2.552063302813674, "train_bpp_loss": 0.31613819805538945, "train_patch_loss": 0.9926303882571719, "train_token_loss": 0.7193752784768848, "train_fea_loss": 0.8400576262571793, "epoch": 88, "n_parameters": 144845568}
+{"train_lr": 7.085329237251759e-05, "train_loss": 2.7897735733261926, "train_task_loss": 2.565236364247845, "train_bpp_loss": 0.311233962220486, "train_patch_loss": 0.9957534326776434, "train_token_loss": 0.7246638578329262, "train_fea_loss": 0.8448190648729602, "epoch": 89, "n_parameters": 144845568}
+{"train_lr": 7.006136638931818e-05, "train_loss": 2.7982831528093173, "train_task_loss": 2.574218000189292, "train_bpp_loss": 0.3094736575059664, "train_patch_loss": 1.000583418184887, "train_token_loss": 0.7256146864831555, "train_fea_loss": 0.8480198857010447, "epoch": 90, "n_parameters": 144845568}
+{"train_lr": 6.926726633331106e-05, "train_loss": 3.415653905788843, "train_task_loss": 2.975828631783275, "train_bpp_loss": 0.7560260864588872, "train_patch_loss": 1.1288673198967278, "train_token_loss": 0.8508261374780814, "train_fea_loss": 0.9961351647445981, "epoch": 91, "n_parameters": 144845568}
+{"train_lr": 6.847118813679865e-05, "train_loss": 6.568326573541982, "train_task_loss": 6.1273969157779815, "train_bpp_loss": 0.5257196640345934, "train_patch_loss": 2.043614938980241, "train_token_loss": 2.040224435022302, "train_fea_loss": 2.04355752422548, "epoch": 92, "n_parameters": 144845568}
+{"train_lr": 6.767332822016792e-05, "train_loss": 6.867288129757062, "train_task_loss": 6.089932662566646, "train_bpp_loss": 1.2734335873903297, "train_patch_loss": 2.0432088341144063, "train_token_loss": 2.003620763126162, "train_fea_loss": 2.043103043592984, "epoch": 93, "n_parameters": 144845568}
+{"train_lr": 6.687388344341571e-05, "train_loss": 6.613793869366606, "train_task_loss": 4.8460818514299335, "train_bpp_loss": 3.475327093109524, "train_patch_loss": 2.043151048612859, "train_token_loss": 0.7647827833252167, "train_fea_loss": 2.038148040657671, "epoch": 94, "n_parameters": 144845568}
+{"train_lr": 6.607305105757049e-05, "train_loss": 6.583523838229174, "train_task_loss": 4.818476951540374, "train_bpp_loss": 3.4695032598624986, "train_patch_loss": 2.0428966481319004, "train_token_loss": 0.737876279511862, "train_fea_loss": 2.037704043197546, "epoch": 95, "n_parameters": 144845568}
+{"train_lr": 6.5271028656055e-05, "train_loss": 6.5769114312794, "train_task_loss": 4.8131763801979215, "train_bpp_loss": 3.46658337029586, "train_patch_loss": 2.0428622997046517, "train_token_loss": 0.7325888925904243, "train_fea_loss": 2.0377252054997057, "epoch": 96, "n_parameters": 144845568}
+{"train_lr": 6.446801412587525e-05, "train_loss": 6.572428462227329, "train_task_loss": 4.809816579738681, "train_bpp_loss": 3.4640789968754464, "train_patch_loss": 2.0429170189662087, "train_token_loss": 0.7291364202284806, "train_fea_loss": 2.0377631590699408, "epoch": 97, "n_parameters": 144845568}
+{"train_lr": 6.36642055988671e-05, "train_loss": 6.5666217358349614, "train_task_loss": 4.80531757448217, "train_bpp_loss": 3.461199431673443, "train_patch_loss": 2.0427514293746984, "train_token_loss": 0.7249221600507267, "train_fea_loss": 2.0376440027742078, "epoch": 98, "n_parameters": 144845568}
+{"train_lr": 6.285980140274965e-05, "train_loss": 6.492165406455668, "train_task_loss": 4.802894322652754, "train_bpp_loss": 3.3011300552377314, "train_patch_loss": 2.042857281175806, "train_token_loss": 0.72241166340549, "train_fea_loss": 2.0376253973210243, "epoch": 99, "n_parameters": 144845568}
+{"train_lr": 6.205500001222403e-05, "train_loss": 6.469163187473512, "train_task_loss": 4.799823627161751, "train_bpp_loss": 3.2568444883723338, "train_patch_loss": 2.042693032090255, "train_token_loss": 0.7195353948642953, "train_fea_loss": 2.0375952215226505, "epoch": 100, "n_parameters": 144845568}
+{"train_lr": 6.847118813679865e-05, "train_loss": 2.708930113305934, "train_task_loss": 2.5679492560668673, "train_bpp_loss": 0.3132908021231635, "train_patch_loss": 0.9976560541538062, "train_token_loss": 0.7208710700648723, "train_fea_loss": 0.8494221233278155, "epoch": 91, "n_parameters": 144845568}
+{"train_lr": 6.847118813679865e-05, "train_loss": 2.699149013628705, "train_task_loss": 2.5613451289723246, "train_bpp_loss": 0.3062308639035576, "train_patch_loss": 0.9944496202400978, "train_token_loss": 0.7207848698646724, "train_fea_loss": 0.846110629630264, "epoch": 92, "n_parameters": 144845568}
+{"train_lr": 6.767332822016792e-05, "train_loss": 2.695356560687867, "train_task_loss": 2.5580616601490433, "train_bpp_loss": 0.3050997874931805, "train_patch_loss": 0.9943495049304385, "train_token_loss": 0.7195412099754496, "train_fea_loss": 0.8441709351862113, "epoch": 93, "n_parameters": 144845568}
+{"train_lr": 6.687388344341571e-05, "train_loss": 2.709555460635921, "train_task_loss": 2.572864127852362, "train_bpp_loss": 0.3037585253364963, "train_patch_loss": 0.9997199533967306, "train_token_loss": 0.7228693755843835, "train_fea_loss": 0.850274788731669, "epoch": 94, "n_parameters": 144845568}
+{"train_lr": 6.607305105757049e-05, "train_loss": 2.7318896783841886, "train_task_loss": 2.59231706789965, "train_bpp_loss": 0.31016136522402615, "train_patch_loss": 1.0061367933327954, "train_token_loss": 0.7272278621984865, "train_fea_loss": 0.858952402501262, "epoch": 95, "n_parameters": 144845568}
+{"train_lr": 6.5271028656055e-05, "train_loss": 2.7111547499162545, "train_task_loss": 2.569625718514625, "train_bpp_loss": 0.31450896638912335, "train_patch_loss": 1.0005275200364543, "train_token_loss": 0.7153408098586207, "train_fea_loss": 0.8537573801527778, "epoch": 96, "n_parameters": 144845568}
+{"train_lr": 6.446801412587525e-05, "train_loss": 2.707958362782173, "train_task_loss": 2.570670375998, "train_bpp_loss": 0.30508442372374006, "train_patch_loss": 0.9985086321964752, "train_token_loss": 0.7216268923039809, "train_fea_loss": 0.8505348416952063, "epoch": 97, "n_parameters": 144845568}
+{"train_lr": 6.36642055988671e-05, "train_loss": 2.697063536604317, "train_task_loss": 2.560573679866265, "train_bpp_loss": 0.3033108016983014, "train_patch_loss": 0.9955314651368369, "train_token_loss": 0.7185008986127213, "train_fea_loss": 0.846541307080421, "epoch": 98, "n_parameters": 144845568}
+{"train_lr": 6.285980140274965e-05, "train_loss": 2.679979503681834, "train_task_loss": 2.5433403860768684, "train_bpp_loss": 0.30364249174190544, "train_patch_loss": 0.989279427558934, "train_token_loss": 0.7147660507581575, "train_fea_loss": 0.8392948986810568, "epoch": 99, "n_parameters": 144845568}
+{"train_lr": 6.205500001222403e-05, "train_loss": 2.818446820222145, "train_task_loss": 2.6755781511751584, "train_bpp_loss": 0.3174859403087635, "train_patch_loss": 1.0392651655052385, "train_token_loss": 0.7372288242098596, "train_fea_loss": 0.8990841494868699, "epoch": 100, "n_parameters": 144845568}
+{"train_lr": 6.12500000000064e-05, "train_loss": 2.7441475540310214, "train_task_loss": 2.597907278704629, "train_bpp_loss": 0.32497839667171025, "train_patch_loss": 1.0195179717119436, "train_token_loss": 0.7045413070298034, "train_fea_loss": 0.8738479904709853, "epoch": 101, "n_parameters": 144845568}
+{"train_lr": 6.044499998777186e-05, "train_loss": 2.7079060795299297, "train_task_loss": 2.565669994283137, "train_bpp_loss": 0.31608019693479905, "train_patch_loss": 1.0030313897252583, "train_token_loss": 0.7082743480091365, "train_fea_loss": 0.8543642482986089, "epoch": 102, "n_parameters": 144845568}
+{"train_lr": 5.964019859724661e-05, "train_loss": 2.696671325293519, "train_task_loss": 2.557040445006294, "train_bpp_loss": 0.3102908528876676, "train_patch_loss": 0.9976166626081157, "train_token_loss": 0.7102920439817922, "train_fea_loss": 0.8491317290227584, "epoch": 103, "n_parameters": 144845568}
+{"train_lr": 5.8835794401133974e-05, "train_loss": 2.691563926851578, "train_task_loss": 2.553079867954377, "train_bpp_loss": 0.3077423636526834, "train_patch_loss": 0.9958474041438468, "train_token_loss": 0.7099756244815689, "train_fea_loss": 0.8472568294439885, "epoch": 104, "n_parameters": 144845568}
+{"train_lr": 5.8031985874119795e-05, "train_loss": 2.692192362849232, "train_task_loss": 2.5543478446916565, "train_bpp_loss": 0.30632116043788316, "train_patch_loss": 0.9955702859291927, "train_token_loss": 0.7111749301689099, "train_fea_loss": 0.8476026195617352, "epoch": 105, "n_parameters": 144845568}
+{"train_lr": 5.722897134394433e-05, "train_loss": 2.6670049736075265, "train_task_loss": 2.5291183430889097, "train_bpp_loss": 0.30641474233207694, "train_patch_loss": 0.9873280670623378, "train_token_loss": 0.7049247939295942, "train_fea_loss": 0.8368654731232271, "epoch": 106, "n_parameters": 144845568}
+{"train_lr": 5.642694894242339e-05, "train_loss": 2.6757864850066264, "train_task_loss": 2.538502600463889, "train_bpp_loss": 0.30507530629348983, "train_patch_loss": 0.9907261180832124, "train_token_loss": 0.7074770695045233, "train_fea_loss": 0.8402994043602467, "epoch": 107, "n_parameters": 144845568}
+{"train_lr": 5.562611655657961e-05, "train_loss": 2.7075679923811977, "train_task_loss": 2.5688214136613645, "train_bpp_loss": 0.30832573917316947, "train_patch_loss": 1.00075649227545, "train_token_loss": 0.7133955942328385, "train_fea_loss": 0.8546693176053447, "epoch": 108, "n_parameters": 144845568}
+{"train_lr": 5.642694894242339e-05, "train_loss": 2.668979725284542, "train_task_loss": 2.5311407839669453, "train_bpp_loss": 0.30630876569577653, "train_patch_loss": 0.9885714473649502, "train_token_loss": 0.7049617424553676, "train_fea_loss": 0.8376075848758363, "epoch": 106, "n_parameters": 144845568}
+{"train_lr": 5.642694894242339e-05, "train_loss": 2.683824887423278, "train_task_loss": 2.5468173437535193, "train_bpp_loss": 0.3044612155992725, "train_patch_loss": 0.9947493373275661, "train_token_loss": 0.708695182786714, "train_fea_loss": 0.8433728142076438, "epoch": 107, "n_parameters": 144845568}
+{"train_lr": 5.562611655657961e-05, "train_loss": 2.6808553397548285, "train_task_loss": 2.544291126874568, "train_bpp_loss": 0.30347603688025465, "train_patch_loss": 0.9940348935472093, "train_token_loss": 0.7075042654525676, "train_fea_loss": 0.8427519599440322, "epoch": 108, "n_parameters": 144845568}
+{"train_lr": 5.482667177983261e-05, "train_loss": 4.911457611171962, "train_task_loss": 4.756159201309049, "train_bpp_loss": 0.3451075883260068, "train_patch_loss": 1.923462125296287, "train_token_loss": 0.9228969771633867, "train_fea_loss": 1.909800109163159, "epoch": 109, "n_parameters": 144845568}
+{"train_lr": 5.402881186319929e-05, "train_loss": 6.119308372142075, "train_task_loss": 6.05821056978451, "train_bpp_loss": 0.13577289702430786, "train_patch_loss": 2.0250163967821666, "train_token_loss": 2.0047141713507886, "train_fea_loss": 2.028479987103269, "epoch": 110, "n_parameters": 144845568}
+{"train_lr": 5.402881186319929e-05, "train_loss": 2.8206423869092974, "train_task_loss": 2.5848962855514146, "train_bpp_loss": 0.3167879025416105, "train_patch_loss": 1.0065730715067767, "train_token_loss": 0.721063517386929, "train_fea_loss": 0.8572596858927815, "epoch": 109, "n_parameters": 144845568}
+{"train_lr": 5.402881186319929e-05, "train_loss": 2.7694720208591264, "train_task_loss": 2.536599607177847, "train_bpp_loss": 0.31375666602561586, "train_patch_loss": 0.9914828701552263, "train_token_loss": 0.7029595081839595, "train_fea_loss": 0.8421572199877467, "epoch": 110, "n_parameters": 144845568}
+{"train_lr": 5.323273366669127e-05, "train_loss": 2.754181052810497, "train_task_loss": 2.52081877488098, "train_bpp_loss": 0.31649657639471607, "train_patch_loss": 0.9853969901527683, "train_token_loss": 0.7020405733832817, "train_fea_loss": 0.8333812024247803, "epoch": 111, "n_parameters": 144845568}
+{"train_lr": 5.24386336106797e-05, "train_loss": 2.778903913664089, "train_task_loss": 2.54480576113188, "train_bpp_loss": 0.31611214793115244, "train_patch_loss": 0.9951485451065201, "train_token_loss": 0.7078502580961235, "train_fea_loss": 0.8418069494334306, "epoch": 112, "n_parameters": 144845568}
+{"train_lr": 5.1646707627478925e-05, "train_loss": 2.8131009751854896, "train_task_loss": 2.5725743175803615, "train_bpp_loss": 0.32791142306922616, "train_patch_loss": 1.0041894356025567, "train_token_loss": 0.7132421619497793, "train_fea_loss": 0.8551427105003946, "epoch": 113, "n_parameters": 144845568}
+{"train_lr": 5.0857151112976574e-05, "train_loss": 2.7399135867147137, "train_task_loss": 2.5091776530072987, "train_bpp_loss": 0.31148358721875674, "train_patch_loss": 0.9819968594774175, "train_token_loss": 0.6978094259017913, "train_fea_loss": 0.8293713586163713, "epoch": 114, "n_parameters": 144845568}
+{"train_lr": 5.007015887842505e-05, "train_loss": 2.8684129846825015, "train_task_loss": 2.616686708519427, "train_bpp_loss": 0.3489265601872076, "train_patch_loss": 1.0203611283837783, "train_token_loss": 0.7224983579727063, "train_fea_loss": 0.8738272108821025, "epoch": 115, "n_parameters": 144845568}
+{"train_lr": 4.928592510238729e-05, "train_loss": 2.739907768231144, "train_task_loss": 2.50749061155698, "train_bpp_loss": 0.3151009082838857, "train_patch_loss": 0.9832527024260492, "train_token_loss": 0.695053851908649, "train_fea_loss": 0.8291840486706411, "epoch": 116, "n_parameters": 144845568}
+{"train_lr": 4.850464328279906e-05, "train_loss": 2.7357478904620494, "train_task_loss": 2.5043268277079798, "train_bpp_loss": 0.31352339563690285, "train_patch_loss": 0.9800204708680904, "train_token_loss": 0.6976143020144898, "train_fea_loss": 0.8266920464814639, "epoch": 117, "n_parameters": 144845568}
+{"train_lr": 4.7726506189276635e-05, "train_loss": 2.755742895097541, "train_task_loss": 2.5216859226211086, "train_bpp_loss": 0.31784185127531595, "train_patch_loss": 0.9866870453634815, "train_token_loss": 0.701121356496833, "train_fea_loss": 0.833877512173419, "epoch": 118, "n_parameters": 144845568}
+{"train_lr": 4.69517058154867e-05, "train_loss": 2.7318975441247155, "train_task_loss": 2.5014077417141527, "train_bpp_loss": 0.31166150058537045, "train_patch_loss": 0.9790000828715573, "train_token_loss": 0.6965634005313976, "train_fea_loss": 0.8258442498243256, "epoch": 119, "n_parameters": 144845568}
+{"train_lr": 4.6180433331847694e-05, "train_loss": 2.7518172350307877, "train_task_loss": 2.5213089466577383, "train_bpp_loss": 0.31003568373504375, "train_patch_loss": 0.9861942503458376, "train_token_loss": 0.7014625150290468, "train_fea_loss": 0.8336521727021793, "epoch": 120, "n_parameters": 144845568}
+{"train_lr": 4.541287903828179e-05, "train_loss": 2.7335522819390827, "train_task_loss": 2.50380109216598, "train_bpp_loss": 0.3096768988276289, "train_patch_loss": 0.9810024427442099, "train_token_loss": 0.6958675646743507, "train_fea_loss": 0.8269310759501063, "epoch": 121, "n_parameters": 144845568}
+{"train_lr": 4.4649232317341524e-05, "train_loss": 2.733630260037218, "train_task_loss": 2.503839423107229, "train_bpp_loss": 0.309786735956805, "train_patch_loss": 0.9804957953708278, "train_token_loss": 0.6961014977024256, "train_fea_loss": 0.8272421213170643, "epoch": 122, "n_parameters": 144845568}
+{"train_lr": 4.3889681587425266e-05, "train_loss": 2.8017713390469408, "train_task_loss": 2.557888786087362, "train_bpp_loss": 0.3367434704309995, "train_patch_loss": 0.9978989840482922, "train_token_loss": 0.7109271357421109, "train_fea_loss": 0.8490626564633539, "epoch": 123, "n_parameters": 144845568}
+{"train_lr": 4.313441425631543e-05, "train_loss": 2.7663599788803133, "train_task_loss": 2.515742145719931, "train_bpp_loss": 0.35449836285320296, "train_patch_loss": 0.9864850308973905, "train_token_loss": 0.6938689482427365, "train_fea_loss": 0.8353881579388281, "epoch": 124, "n_parameters": 144845568}
+{"train_lr": 4.238361667491207e-05, "train_loss": 2.7239683468153864, "train_task_loss": 2.4941051970068497, "train_bpp_loss": 0.31064632278029547, "train_patch_loss": 0.9776195450965092, "train_token_loss": 0.6926572750338155, "train_fea_loss": 0.8238283673957955, "epoch": 125, "n_parameters": 144845568}
+{"train_lr": 4.1637474091286196e-05, "train_loss": 2.731808961188193, "train_task_loss": 2.502355479927872, "train_bpp_loss": 0.30911144960618064, "train_patch_loss": 0.9799622440648129, "train_token_loss": 0.6952871139065253, "train_fea_loss": 0.827106113864971, "epoch": 126, "n_parameters": 144845568}
+{"train_lr": 4.089617060496659e-05, "train_loss": 2.7330640450530916, "train_task_loss": 2.5038258624519947, "train_bpp_loss": 0.3084725750156855, "train_patch_loss": 0.9800150552474195, "train_token_loss": 0.6953135876708644, "train_fea_loss": 0.8284972119714609, "epoch": 127, "n_parameters": 144845568}
+{"train_lr": 4.015988912148501e-05, "train_loss": 2.7349733328558417, "train_task_loss": 2.4990430673856814, "train_bpp_loss": 0.3236985370981322, "train_patch_loss": 0.9784446784811054, "train_token_loss": 0.6937227977542497, "train_fea_loss": 0.8268755828197911, "epoch": 128, "n_parameters": 144845568}
+{"train_lr": 3.942881130728865e-05, "train_loss": 2.7178904607856302, "train_task_loss": 2.4889944930085175, "train_bpp_loss": 0.3089114015997885, "train_patch_loss": 0.9757260797004834, "train_token_loss": 0.6912759416524491, "train_fea_loss": 0.821992463240181, "epoch": 129, "n_parameters": 144845568}
+{"train_lr": 3.870311754488397e-05, "train_loss": 2.7325405643301472, "train_task_loss": 2.5016696595584604, "train_bpp_loss": 0.31216120841294276, "train_patch_loss": 0.9799974317856722, "train_token_loss": 0.6937006032407034, "train_fea_loss": 0.8279716155806677, "epoch": 130, "n_parameters": 144845568}
+{"train_lr": 3.798298688834852e-05, "train_loss": 2.7105408391917494, "train_task_loss": 2.4821574514736233, "train_bpp_loss": 0.30818621284714776, "train_patch_loss": 0.9738334429783108, "train_token_loss": 0.6881637847457501, "train_fea_loss": 0.820160214387202, "epoch": 131, "n_parameters": 144845568}
+{"train_lr": 3.726859701914403e-05, "train_loss": 2.7591426904252967, "train_task_loss": 2.5228572249930683, "train_bpp_loss": 0.3226083974237833, "train_patch_loss": 0.9864406956994026, "train_token_loss": 0.7006216509741165, "train_fea_loss": 0.8357948688053184, "epoch": 132, "n_parameters": 144845568}
+{"train_lr": 3.656012420228689e-05, "train_loss": 2.68967245043003, "train_task_loss": 2.460287703357512, "train_bpp_loss": 0.3120911338152163, "train_patch_loss": 0.9669189435883249, "train_token_loss": 0.6814111765313278, "train_fea_loss": 0.81195757473982, "epoch": 133, "n_parameters": 144845568}
+{"train_lr": 3.5857743242838835e-05, "train_loss": 2.7014216272432883, "train_task_loss": 2.472743094181843, "train_bpp_loss": 0.30973817068163295, "train_patch_loss": 0.9706215003429414, "train_token_loss": 0.6868141930465468, "train_fea_loss": 0.8153073933484744, "epoch": 134, "n_parameters": 144845568}
+{"train_lr": 3.516162744279572e-05, "train_loss": 2.705487959069028, "train_task_loss": 2.4765327244067934, "train_bpp_loss": 0.3098553310503527, "train_patch_loss": 0.9728047358189269, "train_token_loss": 0.68612423896057, "train_fea_loss": 0.8176037415066998, "epoch": 135, "n_parameters": 144845568}
+{"train_lr": 3.447194855830639e-05, "train_loss": 2.7113154404383484, "train_task_loss": 2.478181616079321, "train_bpp_loss": 0.31905700233530443, "train_patch_loss": 0.9727772305422514, "train_token_loss": 0.68701637881234, "train_fea_loss": 0.818387999384702, "epoch": 136, "n_parameters": 144845568}
+{"train_lr": 3.378887675732868e-05, "train_loss": 2.6797968578620925, "train_task_loss": 2.451133315422409, "train_bpp_loss": 0.3113255005260612, "train_patch_loss": 0.9640113939207307, "train_token_loss": 0.6797902039285723, "train_fea_loss": 0.8073317096557477, "epoch": 137, "n_parameters": 144845568}
+{"train_lr": 3.311258057759679e-05, "train_loss": 2.694638561546731, "train_task_loss": 2.4661759902551164, "train_bpp_loss": 0.3096901442793062, "train_patch_loss": 0.9691699242545403, "train_token_loss": 0.6841340864242481, "train_fea_loss": 0.8128719716969368, "epoch": 138, "n_parameters": 144845568}
+{"train_lr": 3.244322688507758e-05, "train_loss": 2.697916217782586, "train_task_loss": 2.4694298465224764, "train_bpp_loss": 0.3092930535785854, "train_patch_loss": 0.9713080364482687, "train_token_loss": 0.6833381301698853, "train_fea_loss": 0.8147836721902021, "epoch": 139, "n_parameters": 144845568}
+{"train_lr": 3.1780980832784374e-05, "train_loss": 2.697745393452456, "train_task_loss": 2.465554346515835, "train_bpp_loss": 0.3177864467847994, "train_patch_loss": 0.9703194021450565, "train_token_loss": 0.6818096557480219, "train_fea_loss": 0.8134252810515732, "epoch": 140, "n_parameters": 144845568}
+{"train_lr": 3.112600582001298e-05, "train_loss": 2.692317468710512, "train_task_loss": 2.4639319612039365, "train_bpp_loss": 0.3095171678927448, "train_patch_loss": 0.9694184379415404, "train_token_loss": 0.6818745398862684, "train_fea_loss": 0.8126389763923251, "epoch": 141, "n_parameters": 144845568}
+{"train_lr": 3.047846345205177e-05, "train_loss": 2.7029235281175277, "train_task_loss": 2.47447449285135, "train_bpp_loss": 0.30879852916527206, "train_patch_loss": 0.9717401454551257, "train_token_loss": 0.6846787373957445, "train_fea_loss": 0.8180556024426965, "epoch": 142, "n_parameters": 144845568}
+{"train_lr": 2.9838513500286588e-05, "train_loss": 2.6954629459469723, "train_task_loss": 2.461703634662308, "train_bpp_loss": 0.3215753604463643, "train_patch_loss": 0.9685670451911019, "train_token_loss": 0.6806938354801432, "train_fea_loss": 0.8124427453947546, "epoch": 143, "n_parameters": 144845568}
+{"train_lr": 2.920631386279756e-05, "train_loss": 2.6789074894978846, "train_task_loss": 2.4506222840836296, "train_bpp_loss": 0.3103648301312249, "train_patch_loss": 0.9643291673049045, "train_token_loss": 0.6781998446358622, "train_fea_loss": 0.8080932640043987, "epoch": 144, "n_parameters": 144845568}
+{"train_lr": 2.8582020525382766e-05, "train_loss": 2.698681264338519, "train_task_loss": 2.465655054361057, "train_bpp_loss": 0.3195096456470321, "train_patch_loss": 0.9703498526188217, "train_token_loss": 0.6807158637626601, "train_fea_loss": 0.8145893300555164, "epoch": 145, "n_parameters": 144845568}
+{"train_lr": 2.7965787523079142e-05, "train_loss": 2.6876495937845832, "train_task_loss": 2.4591161769142538, "train_bpp_loss": 0.3100968778760974, "train_patch_loss": 0.9675739941743317, "train_token_loss": 0.6793179688975215, "train_fea_loss": 0.8122242059786435, "epoch": 146, "n_parameters": 144845568}
+{"train_lr": 2.7357766902161244e-05, "train_loss": 2.686950199314945, "train_task_loss": 2.4579590937520246, "train_bpp_loss": 0.31120623359166316, "train_patch_loss": 0.9676960334248788, "train_token_loss": 0.6789913053403227, "train_fea_loss": 0.8112717479337855, "epoch": 147, "n_parameters": 144845568}
+{"train_lr": 2.616696082115359e-05, "train_loss": 2.6700563189937627, "train_task_loss": 2.441784028437355, "train_bpp_loss": 0.31092876969329675, "train_patch_loss": 0.9618561120337541, "train_token_loss": 0.6746953771956604, "train_fea_loss": 0.8052325316769577, "epoch": 148, "n_parameters": 144845568}
+{"train_lr": 2.616696082115359e-05, "train_loss": 2.6674406088138225, "train_task_loss": 2.4389501352229424, "train_bpp_loss": 0.3116684112110459, "train_patch_loss": 0.9607490962326563, "train_token_loss": 0.6741545937120093, "train_fea_loss": 0.8040464378075955, "epoch": 149, "n_parameters": 144845568}
+{"train_lr": 2.558446917464184e-05, "train_loss": 2.6966678162129947, "train_task_loss": 2.4605731371191624, "train_bpp_loss": 0.32649256723287473, "train_patch_loss": 0.9711854177922439, "train_token_loss": 0.6771108717668792, "train_fea_loss": 0.81227684003129, "epoch": 150, "n_parameters": 144845568}
+{"train_lr": 2.5010777464192224e-05, "train_loss": 2.649356059051103, "train_task_loss": 2.4205873620649463, "train_bpp_loss": 0.3137229763348844, "train_patch_loss": 0.9557904277322925, "train_token_loss": 0.6687184504994885, "train_fea_loss": 0.7960784757974372, "epoch": 151, "n_parameters": 144845568}
+{"train_lr": 2.444602723963776e-05, "train_loss": 2.6504098884582663, "train_task_loss": 2.421797823491428, "train_bpp_loss": 0.3133131659475805, "train_patch_loss": 0.9554594567903191, "train_token_loss": 0.6693732499343743, "train_fea_loss": 0.7969651087689743, "epoch": 152, "n_parameters": 144845568}
+{"train_lr": 2.3343906382349e-05, "train_loss": 2.7114228718429447, "train_task_loss": 2.458482252813572, "train_bpp_loss": 0.34088637049106674, "train_patch_loss": 0.9697519682405843, "train_token_loss": 0.6721772563775523, "train_fea_loss": 0.8165530218369812, "epoch": 153, "n_parameters": 144845568}
+{"train_lr": 2.3343906382349e-05, "train_loss": 2.650369150729345, "train_task_loss": 2.4105861190197277, "train_bpp_loss": 0.31759558117231557, "train_patch_loss": 0.9528444103351671, "train_token_loss": 0.6638412714524896, "train_fea_loss": 0.7939004297111388, "epoch": 154, "n_parameters": 144845568}
+{"train_lr": 2.280680768143689e-05, "train_loss": 2.658987253216459, "train_task_loss": 2.421917999400009, "train_bpp_loss": 0.31114791267567116, "train_patch_loss": 0.9561528907575124, "train_token_loss": 0.6675511025901821, "train_fea_loss": 0.7982139991355135, "epoch": 155, "n_parameters": 144845568}
+{"train_lr": 2.2279194262997928e-05, "train_loss": 2.695716130978269, "train_task_loss": 2.4542629720031215, "train_bpp_loss": 0.31765079001362306, "train_patch_loss": 0.9665458119615055, "train_token_loss": 0.6746455496869428, "train_fea_loss": 0.8130716029219598, "epoch": 156, "n_parameters": 144845568}
+{"train_lr": 2.1761196307742086e-05, "train_loss": 2.6704102983202436, "train_task_loss": 2.4334238473442102, "train_bpp_loss": 0.30996573550349693, "train_patch_loss": 0.9596143975134769, "train_token_loss": 0.6693641086682963, "train_fea_loss": 0.8044453353511629, "epoch": 157, "n_parameters": 144845568}
+{"train_lr": 2.1252941623912577e-05, "train_loss": 2.6702361341735585, "train_task_loss": 2.4332374961917207, "train_bpp_loss": 0.3099473466777312, "train_patch_loss": 0.9602035106019043, "train_token_loss": 0.6687574936278003, "train_fea_loss": 0.8042764851122165, "epoch": 158, "n_parameters": 144845568}
+{"train_lr": 2.0754555615745688e-05, "train_loss": 2.6676239087480864, "train_task_loss": 2.430506248768571, "train_bpp_loss": 0.31043111976030635, "train_patch_loss": 0.9591814159645701, "train_token_loss": 0.6682900374808864, "train_fea_loss": 0.8030347887748223, "epoch": 159, "n_parameters": 144845568}
+{"train_lr": 2.0266161252534863e-05, "train_loss": 2.682328796143726, "train_task_loss": 2.4449838221484095, "train_bpp_loss": 0.3097276722284244, "train_patch_loss": 0.9639880869501858, "train_token_loss": 0.6714682123563487, "train_fea_loss": 0.8095275162444483, "epoch": 160, "n_parameters": 144845568}
+{"train_lr": 1.9787879038283694e-05, "train_loss": 2.794825274291799, "train_task_loss": 2.5297502170381643, "train_bpp_loss": 0.3605138300236859, "train_patch_loss": 0.9950330435751761, "train_token_loss": 0.6891800253216526, "train_fea_loss": 0.8455371403780808, "epoch": 161, "n_parameters": 144845568}
+{"train_lr": 1.9319826981968032e-05, "train_loss": 2.6933876661052234, "train_task_loss": 2.4523086957990836, "train_bpp_loss": 0.3166517836579995, "train_patch_loss": 0.9668755698480087, "train_token_loss": 0.6705846348107397, "train_fea_loss": 0.8148484852687596, "epoch": 162, "n_parameters": 144845568}
+{"train_lr": 1.8862120568428674e-05, "train_loss": 2.7029373263426537, "train_task_loss": 2.4646165441873547, "train_bpp_loss": 0.31019026768110175, "train_patch_loss": 0.9700850130145927, "train_token_loss": 0.6760256816487875, "train_fea_loss": 0.8185058429220812, "epoch": 163, "n_parameters": 144845568}
+{"train_lr": 1.8414872729877464e-05, "train_loss": 2.7035999098252192, "train_task_loss": 2.4655938773311012, "train_bpp_loss": 0.30946591779214444, "train_patch_loss": 0.9705398866317148, "train_token_loss": 0.6763441974645574, "train_fea_loss": 0.8187097842231107, "epoch": 164, "n_parameters": 144845568}
+{"train_lr": 1.9319826981970397e-05, "train_loss": 2.740814351822904, "train_task_loss": 2.492047573066801, "train_bpp_loss": 0.329818556624592, "train_patch_loss": 0.9823994228093744, "train_token_loss": 0.6829682969436836, "train_fea_loss": 0.8266798452512144, "epoch": 161, "n_parameters": 144845568}
+{"train_lr": 1.9319826981970397e-05, "train_loss": 2.7282523382946455, "train_task_loss": 2.48745193989943, "train_bpp_loss": 0.3139055231898773, "train_patch_loss": 0.9767762538854131, "train_token_loss": 0.6849351603363594, "train_fea_loss": 0.8257405170858156, "epoch": 162, "n_parameters": 144845568}
+{"train_lr": 1.8862120568426702e-05, "train_loss": 2.7373931265259674, "train_task_loss": 2.493901286015122, "train_bpp_loss": 0.3186548652218954, "train_patch_loss": 0.9806770237019773, "train_token_loss": 0.6831493455675437, "train_fea_loss": 0.8300749089220445, "epoch": 163, "n_parameters": 144845568}
+{"train_lr": 1.84148727298801e-05, "train_loss": 2.7362954941370505, "train_task_loss": 2.4902694111319184, "train_bpp_loss": 0.3243905476437395, "train_patch_loss": 0.9797143076258383, "train_token_loss": 0.6838951857773949, "train_fea_loss": 0.8266599099073622, "epoch": 164, "n_parameters": 144845568}

1_feature_extractor/log/DINOv2_training/log/20240725_001002.log ADDED Viewed