Spaces:

DAMO-NLP-SG
/

CLEX-Chat

Runtime error

Guanzheng commited on Oct 26, 2023

Commit

9a3865f

•

1 Parent(s): e910345

Update modeling_llama.py

Files changed (1) hide show

modeling_llama.py CHANGED Viewed

@@ -294,7 +294,7 @@ class LlamaAttention(nn.Module):
             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)
-        past_key_value = (cache_key_states, value_states) if use_cache else None
         use_flashattn =  self.config.use_flashattn and is_flash_attn_available()

             key_states = torch.cat([past_key_value[0], key_states], dim=2)
             value_states = torch.cat([past_key_value[1], value_states], dim=2)
+        past_key_value = (key_states, value_states) if use_cache else None
         use_flashattn =  self.config.use_flashattn and is_flash_attn_available()