Spaces:

JackIsNotInTheBox
/

Generate_Audio_for_Video

Sleeping

BoxOfColors Claude Sonnet 4.6 commited on 26 days ago

Commit

1dcac2d

1 Parent(s): 04fdc6c

Fix HunyuanFoley: pre-download SigLIP2, use local_files_only=True

SigLIP2 (google/siglip2-base-patch16-512, ~1.5 GB) was being downloaded
from the HF network inside every ZeroGPU GPU worker call, consuming ~4s of
GPU budget and risking timeouts/rate-limits.

Fixes:
- Add _dl_siglip2() startup download alongside other model downloads
- Add to parallel download pool (max_workers 7→8)
- Add local_files_only=True to both from_pretrained call sites in
model_utils.py (class-based path and load_model function path)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (2) hide show

HunyuanVideo-Foley/hunyuanvideo_foley/utils/model_utils.py +4 -2
app.py +9 -2

HunyuanVideo-Foley/hunyuanvideo_foley/utils/model_utils.py CHANGED Viewed

@@ -69,7 +69,8 @@ class OffloadModelManager:
                 transforms.ToTensor(),
                 transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
             ])
-            self._siglip2_model = AutoModel.from_pretrained("google/siglip2-base-patch16-512").to(self.device).eval()
             logger.info("SigLIP2 model loaded")
         return self._siglip2_model, self._siglip2_preprocess
@@ -315,7 +316,8 @@ def load_model(model_path, config_path, device, enable_offload=False, model_size
                     transforms.ToTensor(),
                     transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
                 ])
-        siglip2_model = AutoModel.from_pretrained("google/siglip2-base-patch16-512").to(device).eval()
         logger.info("SigLIP2 model and preprocessing pipeline loaded successfully")
         # clap text-encoder

                 transforms.ToTensor(),
                 transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
             ])
+            self._siglip2_model = AutoModel.from_pretrained("google/siglip2-base-patch16-512",
+                                                             local_files_only=True).to(self.device).eval()
             logger.info("SigLIP2 model loaded")
         return self._siglip2_model, self._siglip2_preprocess
                     transforms.ToTensor(),
                     transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]),
                 ])
+        siglip2_model = AutoModel.from_pretrained("google/siglip2-base-patch16-512",
+                                                   local_files_only=True).to(device).eval()
         logger.info("SigLIP2 model and preprocessing pipeline loaded successfully")
         # clap text-encoder

app.py CHANGED Viewed

@@ -82,6 +82,11 @@ def _dl_hunyuan():
                     cache_dir=CACHE_DIR, local_dir=str(HUNYUAN_MODEL_DIR), local_dir_use_symlinks=False)
     print("HunyuanVideoFoley checkpoints downloaded.")
 def _dl_clap():
     """Pre-download CLAP so from_pretrained() hits local cache inside the ZeroGPU worker."""
     snapshot_download(repo_id="laion/larger_clap_general")
@@ -108,7 +113,7 @@ def _dl_bigvgan():
 print("[startup] Starting parallel checkpoint + model downloads…")
 _t_dl_start = time.perf_counter()
-with ThreadPoolExecutor(max_workers=7) as _pool:
     _fut_taro     = _pool.submit(_dl_taro)
     _fut_mmaudio  = _pool.submit(_dl_mmaudio)
     _fut_hunyuan  = _pool.submit(_dl_hunyuan)
@@ -116,9 +121,11 @@ with ThreadPoolExecutor(max_workers=7) as _pool:
     _fut_clip     = _pool.submit(_dl_clip)
     _fut_aldm2    = _pool.submit(_dl_audioldm2)
     _fut_bigvgan  = _pool.submit(_dl_bigvgan)
     # Raise any download exceptions immediately
     for _fut in as_completed([_fut_taro, _fut_mmaudio, _fut_hunyuan,
-                               _fut_clap, _fut_clip, _fut_aldm2, _fut_bigvgan]):
         _fut.result()
 cavp_ckpt_path, onset_ckpt_path, taro_ckpt_path = _fut_taro.result()

                     cache_dir=CACHE_DIR, local_dir=str(HUNYUAN_MODEL_DIR), local_dir_use_symlinks=False)
     print("HunyuanVideoFoley checkpoints downloaded.")
+def _dl_siglip2():
+    """Pre-download SigLIP2 (~1.5 GB) used by HunyuanFoley's visual encoder."""
+    snapshot_download(repo_id="google/siglip2-base-patch16-512")
+    print("SigLIP2 pre-downloaded.")
 def _dl_clap():
     """Pre-download CLAP so from_pretrained() hits local cache inside the ZeroGPU worker."""
     snapshot_download(repo_id="laion/larger_clap_general")
 print("[startup] Starting parallel checkpoint + model downloads…")
 _t_dl_start = time.perf_counter()
+with ThreadPoolExecutor(max_workers=8) as _pool:
     _fut_taro     = _pool.submit(_dl_taro)
     _fut_mmaudio  = _pool.submit(_dl_mmaudio)
     _fut_hunyuan  = _pool.submit(_dl_hunyuan)
     _fut_clip     = _pool.submit(_dl_clip)
     _fut_aldm2    = _pool.submit(_dl_audioldm2)
     _fut_bigvgan  = _pool.submit(_dl_bigvgan)
+    _fut_siglip2  = _pool.submit(_dl_siglip2)
     # Raise any download exceptions immediately
     for _fut in as_completed([_fut_taro, _fut_mmaudio, _fut_hunyuan,
+                               _fut_clap, _fut_clip, _fut_aldm2, _fut_bigvgan,
+                               _fut_siglip2]):
         _fut.result()
 cavp_ckpt_path, onset_ckpt_path, taro_ckpt_path = _fut_taro.result()