Spaces:

limingcv
/

AlignDet

Running

App Files Files Community

AlignDet / finetune /finetune_detr_100e_voc0712 /detr_mstrain_100e_voc0712.py

limingcv

Upload with huggingface_hub

e3962e4 over 1 year ago

raw

history blame contribute delete

8.18 kB

	model = dict(
	type='DETR',
	backbone=dict(
	type='ResNet',
	depth=50,
	num_stages=4,
	out_indices=(3, ),
	frozen_stages=1,
	norm_cfg=dict(type='SyncBN', requires_grad=True),
	norm_eval=True,
	style='pytorch',
	init_cfg=dict(type='Pretrained', checkpoint='torchvision://resnet50')),
	bbox_head=dict(
	type='DETRHead',
	num_classes=20,
	in_channels=2048,
	transformer=dict(
	type='Transformer',
	encoder=dict(
	type='DetrTransformerEncoder',
	num_layers=6,
	transformerlayers=dict(
	type='BaseTransformerLayer',
	attn_cfgs=[
	dict(
	type='MultiheadAttention',
	embed_dims=256,
	num_heads=8,
	dropout=0.1)
	],
	feedforward_channels=2048,
	ffn_dropout=0.1,
	operation_order=('self_attn', 'norm', 'ffn', 'norm'))),
	decoder=dict(
	type='DetrTransformerDecoder',
	return_intermediate=True,
	num_layers=6,
	transformerlayers=dict(
	type='DetrTransformerDecoderLayer',
	attn_cfgs=dict(
	type='MultiheadAttention',
	embed_dims=256,
	num_heads=8,
	dropout=0.1),
	feedforward_channels=2048,
	ffn_dropout=0.1,
	operation_order=('self_attn', 'norm', 'cross_attn', 'norm',
	'ffn', 'norm')))),
	positional_encoding=dict(
	type='SinePositionalEncoding', num_feats=128, normalize=True),
	loss_cls=dict(
	type='CrossEntropyLoss',
	bg_cls_weight=0.1,
	use_sigmoid=False,
	loss_weight=1.0,
	class_weight=1.0),
	loss_bbox=dict(type='L1Loss', loss_weight=5.0),
	loss_iou=dict(type='GIoULoss', loss_weight=2.0)),
	train_cfg=dict(
	assigner=dict(
	type='HungarianAssigner',
	cls_cost=dict(type='ClassificationCost', weight=1.0),
	reg_cost=dict(type='BBoxL1Cost', weight=5.0, box_format='xywh'),
	iou_cost=dict(type='IoUCost', iou_mode='giou', weight=2.0))),
	test_cfg=dict(max_per_img=100))
	dataset_type = 'VOCDataset'
	data_root = 'data/VOCdevkit/'
	img_norm_cfg = dict(
	mean=[123.675, 116.28, 103.53], std=[58.395, 57.12, 57.375], to_rgb=True)
	train_pipeline = [
	dict(type='LoadImageFromFile'),
	dict(type='LoadAnnotations', with_bbox=True),
	dict(
	type='Resize',
	img_scale=[(1333, 480), (1333, 512), (1333, 544), (1333, 576),
	(1333, 608), (1333, 640), (1333, 672), (1333, 704),
	(1333, 736), (1333, 768), (1333, 800)],
	multiscale_mode='value',
	keep_ratio=True),
	dict(type='RandomFlip', flip_ratio=0.5),
	dict(
	type='Normalize',
	mean=[123.675, 116.28, 103.53],
	std=[58.395, 57.12, 57.375],
	to_rgb=True),
	dict(type='Pad', size_divisor=32),
	dict(type='DefaultFormatBundle'),
	dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
	]
	test_pipeline = [
	dict(type='LoadImageFromFile'),
	dict(
	type='MultiScaleFlipAug',
	img_scale=(1333, 800),
	flip=False,
	transforms=[
	dict(type='Resize', keep_ratio=True),
	dict(type='RandomFlip'),
	dict(
	type='Normalize',
	mean=[123.675, 116.28, 103.53],
	std=[58.395, 57.12, 57.375],
	to_rgb=True),
	dict(type='Pad', size_divisor=32),
	dict(type='ImageToTensor', keys=['img']),
	dict(type='Collect', keys=['img'])
	])
	]
	data = dict(
	samples_per_gpu=2,
	workers_per_gpu=2,
	train=dict(
	type='VOCDataset',
	ann_file=[
	'data/VOCdevkit/VOC2007/ImageSets/Main/trainval.txt',
	'data/VOCdevkit/VOC2012/ImageSets/Main/trainval.txt'
	],
	img_prefix=['data/VOCdevkit/VOC2007/', 'data/VOCdevkit/VOC2012/'],
	pipeline=[
	dict(type='LoadImageFromFile'),
	dict(type='LoadAnnotations', with_bbox=True),
	dict(
	type='Resize',
	img_scale=[(1333, 480), (1333, 512), (1333, 544), (1333, 576),
	(1333, 608), (1333, 640), (1333, 672), (1333, 704),
	(1333, 736), (1333, 768), (1333, 800)],
	multiscale_mode='value',
	keep_ratio=True),
	dict(type='RandomFlip', flip_ratio=0.5),
	dict(
	type='Normalize',
	mean=[123.675, 116.28, 103.53],
	std=[58.395, 57.12, 57.375],
	to_rgb=True),
	dict(type='Pad', size_divisor=32),
	dict(type='DefaultFormatBundle'),
	dict(type='Collect', keys=['img', 'gt_bboxes', 'gt_labels'])
	]),
	val=dict(
	type='VOCDataset',
	ann_file='data/VOCdevkit/VOC2007/ImageSets/Main/test.txt',
	img_prefix='data/VOCdevkit/VOC2007/',
	pipeline=[
	dict(type='LoadImageFromFile'),
	dict(
	type='MultiScaleFlipAug',
	img_scale=(1333, 800),
	flip=False,
	transforms=[
	dict(type='Resize', keep_ratio=True),
	dict(type='RandomFlip'),
	dict(
	type='Normalize',
	mean=[123.675, 116.28, 103.53],
	std=[58.395, 57.12, 57.375],
	to_rgb=True),
	dict(type='Pad', size_divisor=32),
	dict(type='ImageToTensor', keys=['img']),
	dict(type='Collect', keys=['img'])
	])
	]),
	test=dict(
	type='VOCDataset',
	ann_file='data/VOCdevkit/VOC2007/ImageSets/Main/test.txt',
	img_prefix='data/VOCdevkit/VOC2007/',
	pipeline=[
	dict(type='LoadImageFromFile'),
	dict(
	type='MultiScaleFlipAug',
	img_scale=(1333, 800),
	flip=False,
	transforms=[
	dict(type='Resize', keep_ratio=True),
	dict(type='RandomFlip'),
	dict(
	type='Normalize',
	mean=[123.675, 116.28, 103.53],
	std=[58.395, 57.12, 57.375],
	to_rgb=True),
	dict(type='Pad', size_divisor=32),
	dict(type='ImageToTensor', keys=['img']),
	dict(type='Collect', keys=['img'])
	])
	]))
	evaluation = dict(interval=1, metric='mAP', save_best='auto')
	checkpoint_config = dict(interval=1)
	log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
	custom_hooks = [
	dict(type='NumClassCheckHook'),
	dict(
	type='MMDetWandbHook',
	init_kwargs=dict(project='I2B', group='finetune'),
	interval=50,
	num_eval_images=0,
	log_checkpoint=False)
	]
	dist_params = dict(backend='nccl')
	log_level = 'INFO'
	load_from = 'pretrain/selfsup_detr_clusters-as-classes_add-contrastive-temp0.5-weight1.0/final_model.pth'
	resume_from = None
	workflow = [('train', 1)]
	opencv_num_threads = 0
	mp_start_method = 'fork'
	auto_scale_lr = dict(enable=False, base_batch_size=16)
	custom_imports = None
	norm_cfg = dict(type='SyncBN', requires_grad=True)
	optimizer = dict(
	type='AdamW',
	lr=0.0001,
	weight_decay=0.0001,
	paramwise_cfg=dict(
	custom_keys=dict(backbone=dict(lr_mult=0.1, decay_mult=1.0))))
	optimizer_config = dict(grad_clip=None)
	lr_config = dict(policy='step', step=[70])
	runner = dict(type='EpochBasedRunner', max_epochs=100)
	work_dir = 'work_dirs/finetune_detr_100e_voc0712'
	auto_resume = False
	gpu_ids = range(0, 8)