Spaces:

dagloop5
/

Testing2

Sleeping

App Files Files Community

dagloop5 commited on Mar 17

Commit

fb49839

verified ·

1 Parent(s): 14a0485

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -8

app.py CHANGED Viewed

@@ -47,6 +47,8 @@ from ltx_core.components.noisers import GaussianNoiser
 from ltx_core.model.audio_vae import encode_audio as vae_encode_audio
 from ltx_core.model.upsampler import upsample_video
 from ltx_core.model.video_vae import TilingConfig, get_video_chunks_number, decode_video as vae_decode_video
 from ltx_core.quantization import QuantizationPolicy
 from ltx_core.types import Audio, AudioLatentShape, VideoPixelShape
 from ltx_pipelines.distilled import DistilledPipeline
@@ -267,6 +269,15 @@ checkpoint_path = hf_hub_download(repo_id=LTX_MODEL_REPO, filename="ltx-2.3-22b-
 spatial_upsampler_path = hf_hub_download(repo_id=LTX_MODEL_REPO, filename="ltx-2.3-spatial-upscaler-x2-1.0.safetensors")
 gemma_root = snapshot_download(repo_id=GEMMA_REPO)
 print(f"Checkpoint: {checkpoint_path}")
 print(f"Spatial upsampler: {spatial_upsampler_path}")
 print(f"Gemma root: {gemma_root}")
@@ -276,14 +287,18 @@ pipeline = LTX23DistilledA2VPipeline(
     distilled_checkpoint_path=checkpoint_path,
     spatial_upsampler_path=spatial_upsampler_path,
     gemma_root=gemma_root,
-    loras=[],
     quantization=QuantizationPolicy.fp8_cast(),
 )
 # Preload all models for ZeroGPU tensor packing.
-print("Preloading all models (including Gemma and audio components)...")
 ledger = pipeline.model_ledger
-_transformer = ledger.transformer()
 _video_encoder = ledger.video_encoder()
 _video_decoder = ledger.video_decoder()
 _audio_encoder = ledger.audio_encoder()
@@ -293,7 +308,8 @@ _spatial_upsampler = ledger.spatial_upsampler()
 _text_encoder = ledger.text_encoder()
 _embeddings_processor = ledger.gemma_embeddings_processor()
-ledger.transformer = lambda: _transformer
 ledger.video_encoder = lambda: _video_encoder
 ledger.video_decoder = lambda: _video_decoder
 ledger.audio_encoder = lambda: _audio_encoder
@@ -302,7 +318,9 @@ ledger.vocoder = lambda: _vocoder
 ledger.spatial_upsampler = lambda: _spatial_upsampler
 ledger.text_encoder = lambda: _text_encoder
 ledger.gemma_embeddings_processor = lambda: _embeddings_processor
-print("All models preloaded (including Gemma text encoder and audio encoder)!")
 print("=" * 80)
 print("Pipeline ready!")
@@ -360,6 +378,7 @@ def generate_video(
     randomize_seed: bool = True,
     height: int = 1024,
     width: int = 1536,
     progress=gr.Progress(track_tqdm=True),
 ):
     try:
@@ -397,6 +416,15 @@ def generate_video(
         tiling_config = TilingConfig.default()
         video_chunks_number = get_video_chunks_number(num_frames, tiling_config)
         log_memory("before pipeline call")
         video, audio = pipeline(
@@ -464,9 +492,18 @@ with gr.Blocks(title="LTX-2.3 Heretic Distilled") as demo:
                 with gr.Row():
                     enhance_prompt = gr.Checkbox(label="Enhance Prompt", value=False)
                     high_res = gr.Checkbox(label="High Resolution", value=True)
         with gr.Column():
-            output_video = gr.Video(label="Generated Video", autoplay=True)
     gr.Examples(
         examples=[
@@ -486,11 +523,12 @@ with gr.Blocks(title="LTX-2.3 Heretic Distilled") as demo:
                 True,
                 1024,
                 1024,
             ],
         ],
         inputs=[
             first_image, last_image, input_audio, prompt, duration,
-            enhance_prompt, seed, randomize_seed, height, width,
         ],
     )
@@ -516,7 +554,7 @@ with gr.Blocks(title="LTX-2.3 Heretic Distilled") as demo:
         fn=generate_video,
         inputs=[
             first_image, last_image, input_audio, prompt, duration, enhance_prompt,
-            seed, randomize_seed, height, width,
         ],
         outputs=[output_video, seed],
     )

 from ltx_core.model.audio_vae import encode_audio as vae_encode_audio
 from ltx_core.model.upsampler import upsample_video
 from ltx_core.model.video_vae import TilingConfig, get_video_chunks_number, decode_video as vae_decode_video
+# >>> ADD these imports (place immediately after your video_vae import)
+from ltx_core.loader import LoraPathStrengthAndSDOps, LTXV_LORA_COMFY_RENAMING_MAP
 from ltx_core.quantization import QuantizationPolicy
 from ltx_core.types import Audio, AudioLatentShape, VideoPixelShape
 from ltx_pipelines.distilled import DistilledPipeline
 spatial_upsampler_path = hf_hub_download(repo_id=LTX_MODEL_REPO, filename="ltx-2.3-spatial-upscaler-x2-1.0.safetensors")
 gemma_root = snapshot_download(repo_id=GEMMA_REPO)
+# >>> ADD: download and prepare LoRA descriptor
+print("Downloading LoRA for this Space (dagloop5/LoRA:LoRA.safetensors)...")
+lora_path = hf_hub_download(repo_id="dagloop5/LoRA", filename="LoRA.safetensors")
+# Create a descriptor object that the LTX loader expects.
+# initial strength is set to 1.0; we'll mutate `.strength` at runtime from the UI slider.
+lora_descriptor = LoraPathStrengthAndSDOps(lora_path, 1.0, LTXV_LORA_COMFY_RENAMING_MAP)
+print(f"LoRA: {lora_path}")
 print(f"Checkpoint: {checkpoint_path}")
 print(f"Spatial upsampler: {spatial_upsampler_path}")
 print(f"Gemma root: {gemma_root}")
     distilled_checkpoint_path=checkpoint_path,
     spatial_upsampler_path=spatial_upsampler_path,
     gemma_root=gemma_root,
+    loras=[lora_descriptor],
     quantization=QuantizationPolicy.fp8_cast(),
 )
 # Preload all models for ZeroGPU tensor packing.
+# >>> REPLACE the "Preload all models" block with this one:
+print("Preloading models (pinning decoders/encoders but leaving transformer dynamic)...")
 ledger = pipeline.model_ledger
+# NOTE: do NOT call ledger.transformer() here. We keep the transformer's construction dynamic
+# so that changes to lora_descriptor.strength (made at runtime) are applied when the transformer
+# is built. We DO preload other components that are safe to pin.
 _video_encoder = ledger.video_encoder()
 _video_decoder = ledger.video_decoder()
 _audio_encoder = ledger.audio_encoder()
 _text_encoder = ledger.text_encoder()
 _embeddings_processor = ledger.gemma_embeddings_processor()
+# Replace ledger methods to return the pinned objects for those components.
+# Intentionally do NOT override ledger.transformer so transformer is built when needed.
 ledger.video_encoder = lambda: _video_encoder
 ledger.video_decoder = lambda: _video_decoder
 ledger.audio_encoder = lambda: _audio_encoder
 ledger.spatial_upsampler = lambda: _spatial_upsampler
 ledger.text_encoder = lambda: _text_encoder
 ledger.gemma_embeddings_processor = lambda: _embeddings_processor
+print("Selected models pinned. Transformer remains dynamic to reflect runtime LoRA strength.")
+print("Preload complete.")
 print("=" * 80)
 print("Pipeline ready!")
     randomize_seed: bool = True,
     height: int = 1024,
     width: int = 1536,
+    lora_strength: float = 1.0,
     progress=gr.Progress(track_tqdm=True),
 ):
     try:
         tiling_config = TilingConfig.default()
         video_chunks_number = get_video_chunks_number(num_frames, tiling_config)
+        # >>> SET the LoRA descriptor strength at runtime
+        try:
+            # lora_descriptor was created at module scope during init
+            lora_descriptor.strength = float(lora_strength)
+            print(f"[LoRA] set strength = {lora_descriptor.strength}")
+        except Exception as e:
+            # Defensive: if the descriptor isn't present, continue quietly
+            print(f"[LoRA] could not set strength: {e}")
         log_memory("before pipeline call")
         video, audio = pipeline(
                 with gr.Row():
                     enhance_prompt = gr.Checkbox(label="Enhance Prompt", value=False)
                     high_res = gr.Checkbox(label="High Resolution", value=True)
+                    # >>> ADD this line inside the Advanced Settings (e.g., after randomize_seed)
+                    lora_strength = gr.Slider(
+                        label="LoRA Strength",
+                        info="Scale for the LoRA weights (0.0 = off). Set near 1.0 for full effect.",
+                        minimum=0.0,
+                        maximum=1.5,
+                        value=1.0,
+                        step=0.01,
+                    )
         with gr.Column():
+            output_video = gr.Video(label="Generated Video", autoplay=False)
     gr.Examples(
         examples=[
                 True,
                 1024,
                 1024,
+                1,
             ],
         ],
         inputs=[
             first_image, last_image, input_audio, prompt, duration,
+            enhance_prompt, seed, randomize_seed, height, width, lora_strength
         ],
     )
         fn=generate_video,
         inputs=[
             first_image, last_image, input_audio, prompt, duration, enhance_prompt,
+            seed, randomize_seed, height, width, lora_strength
         ],
         outputs=[output_video, seed],
     )