npvinHnivqn
/

stablelm_zephyr_3b_with_cross_attn

Text Generation

Model card Files Files and versions Community

npvinHnivqn commited on Jan 31

Commit

653b1fb

•

1 Parent(s): 18207f1

update bugs

Files changed (1) hide show

modeling_stablelm_epoch.py +16 -16

modeling_stablelm_epoch.py CHANGED Viewed

@@ -529,23 +529,23 @@ class DecoderLayer(nn.Module):
         )
         hidden_states = residual + hidden_states
-        # # Cross Attention
-        # residual = hidden_states
-        # bsz, q_len, _ = hidden_states.size()
-        # _, kv_len, _ = cross_states.size()
-        # cross_attn_mask = torch.zeros((bsz, 1, kv_len, q_len), device=hidden_states.device)
-        # hidden_states, cross_attn_weights, _ = self.cross_attn(
-        #     hidden_states=hidden_states,
-        #     cross_states=cross_states,
-        #     attention_mask=cross_attn_mask,
-        #     position_ids=position_ids,
-        #     past_key_value=past_key_value,
-        #     output_attentions=output_attentions,
-        #     use_cache=use_cache,
-        # )
-        # hidden_states = residual + hidden_states
         # Fully Connected
         residual = hidden_states

         )
         hidden_states = residual + hidden_states
+        # Cross Attention
+        residual = hidden_states
+        bsz, q_len, _ = hidden_states.size()
+        _, kv_len, _ = cross_states.size()
+        cross_attn_mask = torch.zeros((bsz, 1, kv_len, q_len), device=hidden_states.device)
+        hidden_states, cross_attn_weights, _ = self.cross_attn(
+            hidden_states=hidden_states,
+            cross_states=cross_states,
+            attention_mask=cross_attn_mask,
+            position_ids=position_ids,
+            past_key_value=past_key_value,
+            output_attentions=output_attentions,
+            use_cache=use_cache,
+        )
+        hidden_states = residual + hidden_states
         # Fully Connected
         residual = hidden_states