ltg
/

norbert4-base

@@ -284,7 +284,7 @@ class RotaryPositionalEmbeddings(nn.Module):
         head_size = config.query_key_head_size
         assert head_size % 2 == 0
-        max_seq_len = config.max_sequence_length
         inv_freq = 1.0 / (theta ** (torch.arange(0, head_size, 2, dtype=torch.float32) / head_size))
         pos = torch.arange(max_seq_len, dtype=torch.float32)
@@ -370,14 +370,14 @@ class SelfAttention(nn.Module):
         # Initialize rotary embeddings based on whether FlashAttention is available
         if flash_attn_varlen_qkvpacked_func is not None:
-            self.rope_embedding = UnpaddedRotaryEmbedding(dim=self.d_qk, base=theta, max_seqlen=config.max_sequence_length)
         else:
             self.rope_embedding = RotaryPositionalEmbeddings(config, theta)
         self.scale = 1.0 / math.sqrt(self.d_qk)
         self.lambdas = nn.Parameter(torch.tensor([0.5]))
-        self.sequence_length = config.max_sequence_length
         self.window_length = None
     def set_window_length(self, window_length: int):

         head_size = config.query_key_head_size
         assert head_size % 2 == 0
+        max_seq_len = config.max_position_embeddings
         inv_freq = 1.0 / (theta ** (torch.arange(0, head_size, 2, dtype=torch.float32) / head_size))
         pos = torch.arange(max_seq_len, dtype=torch.float32)
         # Initialize rotary embeddings based on whether FlashAttention is available
         if flash_attn_varlen_qkvpacked_func is not None:
+            self.rope_embedding = UnpaddedRotaryEmbedding(dim=self.d_qk, base=theta, max_seqlen=config.max_position_embeddings)
         else:
             self.rope_embedding = RotaryPositionalEmbeddings(config, theta)
         self.scale = 1.0 / math.sqrt(self.d_qk)
         self.lambdas = nn.Parameter(torch.tensor([0.5]))
+        self.sequence_length = config.max_position_embeddings
         self.window_length = None
     def set_window_length(self, window_length: int):