jbilcke-hf HF staff commited on
Commit
3f51080
1 Parent(s): 2dd9b9c

Update handler.py

Browse files
Files changed (1) hide show
  1. handler.py +25 -18
handler.py CHANGED
@@ -13,45 +13,52 @@ def get_default_args():
13
  parser = argparse.ArgumentParser()
14
 
15
  # Model configuration
16
- parser.add_argument("--model", type=str, default="HYVideo-T/2")
17
  parser.add_argument("--model-resolution", type=str, default="720p", choices=["540p", "720p"])
18
- parser.add_argument("--latent-channels", type=int, default=16) # Changed from 4 to match VAE
19
  parser.add_argument("--precision", type=str, default="bf16", choices=["bf16", "fp32", "fp16"])
20
- parser.add_argument("--rope-theta", type=int, default=256) # Changed to match original config
21
- parser.add_argument("--load-key", type=str, default="module", help="Key to load the model states. 'module' for the main model, 'ema' for the EMA model.")
22
 
23
  # VAE settings
24
  parser.add_argument("--vae", type=str, default="884-16c-hy")
25
- parser.add_argument("--vae-precision", type=str, default="fp16") # Changed to fp16 to match docs
26
- parser.add_argument("--vae-tiling", action="store_true", default=True) # Set default to True
27
 
28
  # Text encoder settings
29
- parser.add_argument("--text-encoder", type=str, default="llm") # Changed to llm
30
- parser.add_argument("--text-encoder-precision", type=str, default="fp16") # Changed to fp16
31
- parser.add_argument("--text-states-dim", type=int, default=4096) # Updated to match docs
32
- parser.add_argument("--text-len", type=int, default=256) # Updated to match docs
33
- parser.add_argument("--tokenizer", type=str, default="llm") # Changed to llm
34
 
35
  # Prompt template settings
36
  parser.add_argument("--prompt-template", type=str, default="dit-llm-encode")
37
  parser.add_argument("--prompt-template-video", type=str, default="dit-llm-encode-video")
38
 
39
  # Additional text encoder settings
40
- parser.add_argument("--hidden-state-skip-layer", type=int, default=2) # Updated to match docs
41
  parser.add_argument("--apply-final-norm", action="store_true")
42
  parser.add_argument("--text-encoder-2", type=str, default="clipL")
43
- parser.add_argument("--text-encoder-precision-2", type=str, default="fp16") # Changed to fp16
44
- parser.add_argument("--text-states-dim-2", type=int, default=768) # Updated to match docs
45
  parser.add_argument("--tokenizer-2", type=str, default="clipL")
46
- parser.add_argument("--text-len-2", type=int, default=77) # Updated to match docs
 
 
 
 
 
 
 
47
 
48
  # Inference settings
49
- parser.add_argument("--denoise-type", type=str, default="flow") # Changed to flow
50
  parser.add_argument("--flow-shift", type=float, default=7.0)
51
- parser.add_argument("--flow-reverse", action="store_true", default=False)
52
  parser.add_argument("--flow-solver", type=str, default="euler")
53
  parser.add_argument("--use-linear-quadratic-schedule", action="store_true")
54
- parser.add_argument("--linear-schedule-end", type=int, default=25) # Updated to match docs
55
 
56
  # Hardware settings
57
  parser.add_argument("--use-cpu-offload", action="store_true", default=False)
 
13
  parser = argparse.ArgumentParser()
14
 
15
  # Model configuration
16
+ parser.add_argument("--model", type=str, default="HYVideo-T/2-cfgdistill")
17
  parser.add_argument("--model-resolution", type=str, default="720p", choices=["540p", "720p"])
18
+ parser.add_argument("--latent-channels", type=int, default=16)
19
  parser.add_argument("--precision", type=str, default="bf16", choices=["bf16", "fp32", "fp16"])
20
+ parser.add_argument("--rope-theta", type=int, default=256)
21
+ parser.add_argument("--load-key", type=str, default="module")
22
 
23
  # VAE settings
24
  parser.add_argument("--vae", type=str, default="884-16c-hy")
25
+ parser.add_argument("--vae-precision", type=str, default="fp16")
26
+ parser.add_argument("--vae-tiling", action="store_true", default=True)
27
 
28
  # Text encoder settings
29
+ parser.add_argument("--text-encoder", type=str, default="llm")
30
+ parser.add_argument("--text-encoder-precision", type=str, default="fp16")
31
+ parser.add_argument("--text-states-dim", type=int, default=4096)
32
+ parser.add_argument("--text-len", type=int, default=256)
33
+ parser.add_argument("--tokenizer", type=str, default="llm")
34
 
35
  # Prompt template settings
36
  parser.add_argument("--prompt-template", type=str, default="dit-llm-encode")
37
  parser.add_argument("--prompt-template-video", type=str, default="dit-llm-encode-video")
38
 
39
  # Additional text encoder settings
40
+ parser.add_argument("--hidden-state-skip-layer", type=int, default=2)
41
  parser.add_argument("--apply-final-norm", action="store_true")
42
  parser.add_argument("--text-encoder-2", type=str, default="clipL")
43
+ parser.add_argument("--text-encoder-precision-2", type=str, default="fp16")
44
+ parser.add_argument("--text-states-dim-2", type=int, default=768)
45
  parser.add_argument("--tokenizer-2", type=str, default="clipL")
46
+ parser.add_argument("--text-len-2", type=int, default=77)
47
+
48
+ # Model architecture settings
49
+ parser.add_argument("--hidden-size", type=int, default=1024)
50
+ parser.add_argument("--heads-num", type=int, default=16)
51
+ parser.add_argument("--layers-num", type=int, default=24)
52
+ parser.add_argument("--mlp-ratio", type=float, default=4.0)
53
+ parser.add_argument("--use-guidance-net", action="store_true", default=True)
54
 
55
  # Inference settings
56
+ parser.add_argument("--denoise-type", type=str, default="flow")
57
  parser.add_argument("--flow-shift", type=float, default=7.0)
58
+ parser.add_argument("--flow-reverse", action="store_true", default=True)
59
  parser.add_argument("--flow-solver", type=str, default="euler")
60
  parser.add_argument("--use-linear-quadratic-schedule", action="store_true")
61
+ parser.add_argument("--linear-schedule-end", type=int, default=25)
62
 
63
  # Hardware settings
64
  parser.add_argument("--use-cpu-offload", action="store_true", default=False)