generate:
  model_path: "models/PIA/pia_new.ckpt"
  use_image: true
  use_video: false
  sample_width: 512
  sample_height: 512
  video_length: 16

validation_data:
  mask_sim_range: [0, 1]
  cond_frame: 0
  num_inference_steps: 25

  img_mask: ''

noise_scheduler_kwargs:
  num_train_timesteps: 1000
  beta_start:          0.00085
  beta_end:            0.012
  beta_schedule:       "linear"
  steps_offset:        1
  clip_sample:         false

pretrained_model_path: "models/StableDiffusion/"
unet_additional_kwargs:
  use_motion_module              : true
  motion_module_resolutions      : [ 1,2,4,8 ]
  unet_use_cross_frame_attention : false
  unet_use_temporal_attention    : false

  motion_module_type: Vanilla
  motion_module_kwargs:
    num_attention_heads                : 8
    num_transformer_block              : 1
    attention_block_types              : [ "Temporal_Self", "Temporal_Self" ]
    temporal_position_encoding         : true
    temporal_position_encoding_max_len : 32
    temporal_attention_dim_div         : 1
    zero_initialize                    : true