kz919
/

sliding_llama3_8b_instruct_no_finetune

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

kz919 commited on Jul 26

Commit

df270b8

•

1 Parent(s): da84cc6

Update modeling_sliding_llama.py

Files changed (1) hide show

modeling_sliding_llama.py +1 -3

modeling_sliding_llama.py CHANGED Viewed

@@ -438,9 +438,7 @@ class LlamaFlashAttention2(LlamaAttention):
             # key_seq_len += cache_position[0]
             key_seq_len += past_key_value.get_usable_length(key_seq_len, self.layer_idx)
-        rotary_seq_len = max(key_seq_len, position_ids[:, -1].max().item()) + 1
-        # cos, sin = self.rotary_emb(value_states, position_ids)
-        cos, sin = self.rotary_emb(value_states, seq_len=rotary_seq_len)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

             # key_seq_len += cache_position[0]
             key_seq_len += past_key_value.get_usable_length(key_seq_len, self.layer_idx)
+        cos, sin = self.rotary_emb(value_states, position_ids)
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)