Spaces:

Alpha-VLLM
/

Lumina-Next-T2I

Running on Zero

App Files Files Community

PommesPeter commited on May 14, 2024

Commit

556f26b

verified ·

1 Parent(s): e5e92a0

Update models/model.py

Browse files

Files changed (1) hide show

models/model.py +5 -25

models/model.py CHANGED Viewed

@@ -592,7 +592,7 @@ class ParallelFinalLayer(nn.Module):
         return x
-class DiT_Llama(nn.Module):
     """
     Diffusion model with a Transformer backbone.
     """
@@ -645,7 +645,7 @@ class DiT_Llama(nn.Module):
         assert (dim // n_heads) % 4 == 0, "2d rope needs head dim to be divisible by 4"
         self.dim = dim
         self.n_heads = n_heads
-        self.freqs_cis = DiT_Llama.precompute_freqs_cis(
             dim // n_heads, 384, rope_scaling_factor=rope_scaling_factor, ntk_factor=ntk_factor
         )
         self.rope_scaling_factor = rope_scaling_factor
@@ -781,7 +781,7 @@ class DiT_Llama(nn.Module):
             ntk_factor = ntk_factor if ntk_factor is not None else self.ntk_factor
             if rope_scaling_factor != self.rope_scaling_factor or ntk_factor != self.ntk_factor:
                 print(f"override freqs_cis, rope_scaling {rope_scaling_factor}, ntk {ntk_factor}", flush=True)
-                self.freqs_cis = DiT_Llama.precompute_freqs_cis(
                     self.dim // self.n_heads, 384,
                     rope_scaling_factor=rope_scaling_factor, ntk_factor=ntk_factor
                 )
@@ -882,27 +882,7 @@ class DiT_Llama(nn.Module):
 #############################################################################
 #                                 DiT Configs                               #
 #############################################################################
-def DiT_Llama_600M_patch2(**kwargs):
-    return DiT_Llama(
-        patch_size=2, dim=1536, n_layers=16, n_heads=32, **kwargs
-    )
-def DiT_Llama_2B_patch2(**kwargs):
-    return DiT_Llama(
         patch_size=2, dim=2304, n_layers=24, n_heads=32, **kwargs
     )
-def DiT_Llama_3B_patch2(**kwargs):
-    return DiT_Llama(
-        patch_size=2, dim=3072, n_layers=32, n_heads=32, **kwargs
-    )
-def DiT_Llama_7B_patch2(**kwargs):
-    return DiT_Llama(
-        patch_size=2, dim=4096, n_layers=32, n_heads=32, **kwargs
-    )

         return x
+class NextDiT(nn.Module):
     """
     Diffusion model with a Transformer backbone.
     """
         assert (dim // n_heads) % 4 == 0, "2d rope needs head dim to be divisible by 4"
         self.dim = dim
         self.n_heads = n_heads
+        self.freqs_cis = NextDiT.precompute_freqs_cis(
             dim // n_heads, 384, rope_scaling_factor=rope_scaling_factor, ntk_factor=ntk_factor
         )
         self.rope_scaling_factor = rope_scaling_factor
             ntk_factor = ntk_factor if ntk_factor is not None else self.ntk_factor
             if rope_scaling_factor != self.rope_scaling_factor or ntk_factor != self.ntk_factor:
                 print(f"override freqs_cis, rope_scaling {rope_scaling_factor}, ntk {ntk_factor}", flush=True)
+                self.freqs_cis = NextDiT.precompute_freqs_cis(
                     self.dim // self.n_heads, 384,
                     rope_scaling_factor=rope_scaling_factor, ntk_factor=ntk_factor
                 )
 #############################################################################
 #                                 DiT Configs                               #
 #############################################################################
+def NextDiT_2B_patch2(**kwargs):
+    return NextDiT(
         patch_size=2, dim=2304, n_layers=24, n_heads=32, **kwargs
     )