pretrained_model_path: "./checkpoints/stable-diffusion-v1-4"
output_dir: "./outputs/man-skiing"

train_data:
  video_path: "data/man-skiing.mp4"
  prompt: "a man is skiing"
  n_sample_frames: 8
  width: 512
  height: 512
  sample_start_idx: 0
  sample_frame_rate: 1

validation_data:
  prompts:
    - "a panda is skiing"
  video_length: 8
  width: 512
  height: 512
  num_inference_steps: 50
  guidance_scale: 12.5
  use_inv_latent: True
  num_inv_steps: 50

learning_rate: 3e-5
train_batch_size: 1
max_train_steps: 100
checkpointing_steps: 1000
validation_steps: 100
trainable_modules:
  - "attn1.to_q"
  - "attn2.to_q"
  - "attn_temp"

seed: 33
mixed_precision: fp16
use_8bit_adam: False
gradient_checkpointing: True
enable_xformers_memory_efficient_attention: True

prompts:
  - "a man is skiing"
  - "a Spider-Man is skiing"
blend_word:
  - 'man'
  - 'Spider-Man'
eq_params:
  words:
    - "Spider-Man"
  values:
    - 4
save_name: "spider"
is_word_swap: True