sam-3d-objects / checkpoints /ss_generator.yaml

Upload folder using huggingface_hub

a3dc36e verified 4 months ago

5.08 kB

	module:
	condition_embedder:
	backbone:
	_target_: sam3d_objects.model.backbone.dit.embedder.embedder_fuser.EmbedderFuser
	drop_modalities_weight:
	- - - pointmap
	- rgb_pointmap
	- 1.0
	dropout_prob: 0.1
	embedder_list:
	- - _target_: sam3d_objects.model.backbone.dit.embedder.dino.Dino
	dino_model: dinov2_vitl14_reg
	input_size: 518
	normalize_images: true
	- - - image
	- cropped
	- - rgb_image
	- full
	- - _target_: sam3d_objects.model.backbone.dit.embedder.dino.Dino
	dino_model: dinov2_vitl14_reg
	input_size: 518
	normalize_images: true
	- - - mask
	- cropped
	- - rgb_image_mask
	- full
	- - _target_: sam3d_objects.model.backbone.dit.embedder.pointmap.PointPatchEmbed
	embed_dim: 512
	input_size: 256
	patch_size: 8
	remap_output: linear
	- - - pointmap
	- cropped
	- - rgb_pointmap
	- full
	force_drop_modalities: null
	freeze: true
	projection_net_hidden_dim_multiplier: 4.0
	use_pos_embedding: learned
	generator:
	backbone:
	_target_: sam3d_objects.model.backbone.generator.shortcut.model.ShortCut
	batch_mode: true
	cfg_modalities:
	- shape
	inference_steps: 2
	loss_weights:
	6drotation_normalized: 0.1
	_target_: sam3d_objects.config.utils.make_dict
	scale: 0.1
	shape: 0
	translation: 1.0
	translation_scale: 0.0
	ratio_cfg_samples_in_self_consistency_target: 0.25
	rescale_t: 1
	reverse_fn:
	_target_: sam3d_objects.model.backbone.generator.classifier_free_guidance.ClassifierFreeGuidanceWithExternalUnconditionalProbability
	backbone:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mot_sparse_structure_flow.SparseStructureFlowTdfyWrapper
	cond_channels: 1024
	condition_embedder: null
	force_zeros_cond: true
	freeze_d_time_embedder: true
	freeze_shared_parameters: true
	in_channels: 8
	is_shortcut_model: true
	latent_mapping:
	6drotation_normalized:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.Latent
	in_channels: 6
	model_channels: 1024
	pos_embedder:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.LearntPositionEmbedder
	model_channels: 1024
	token_len: 1
	scale:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.Latent
	in_channels: 3
	model_channels: 1024
	pos_embedder:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.LearntPositionEmbedder
	model_channels: 1024
	token_len: 1
	shape:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.Latent
	in_channels: 8
	model_channels: 1024
	pos_embedder:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.ShapePositionEmbedder
	model_channels: 1024
	patch_size: 1
	resolution: 16
	translation:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.Latent
	in_channels: 3
	model_channels: 1024
	pos_embedder:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.LearntPositionEmbedder
	model_channels: 1024
	token_len: 1
	translation_scale:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.Latent
	in_channels: 1
	model_channels: 1024
	pos_embedder:
	_target_: sam3d_objects.model.backbone.tdfy_dit.models.mm_latent.LearntPositionEmbedder
	model_channels: 1024
	token_len: 1
	latent_share_transformer:
	6drotation_normalized:
	- 6drotation_normalized
	- translation
	- scale
	- translation_scale
	mlp_ratio: 4
	model_channels: 1024
	num_blocks: 24
	num_heads: 16
	out_channels: 8
	patch_size: 1
	pe_mode: ape
	qk_rms_norm: true
	resolution: 16
	use_checkpoint: false
	use_fp16: false
	interval:
	- 0
	- 500
	p_unconditional: 0.1
	strength: 2.0
	unconditional_handling: add_flag
	self_consistency_cfg_strength: 2.0
	self_consistency_prob: 0.25
	shortcut_loss_weight: 1.0
	sigma_min: 0.0
	time_scale: 1000.0
	training_time_sampler_fn:
	_partial_: true
	_target_: sam3d_objects.model.backbone.generator.flow_matching.model.lognorm_sampler
	mean: -1.0
	std: 1.0