d-matrix
/

Llama-3.2-3B

Model card Files Files and versions

zifei9 commited on Jul 9

Commit

3f419d7

·

verified ·

1 Parent(s): f2dcb86

Update modeling_llama.py

for backward compatibility

Files changed (1) hide show

modeling_llama.py +2 -1

modeling_llama.py CHANGED Viewed

@@ -966,6 +966,7 @@ class LlamaModel(LlamaPreTrainedModel):
                 past_key_values, StaticCache
             ):
                 if not isinstance(past_key_values, DynamicCache):
                     past_key_values = DynamicCache.from_legacy_cache(past_key_values)
                 past_seen_tokens = past_key_values.get_seq_length()
@@ -1037,7 +1038,7 @@ class LlamaModel(LlamaPreTrainedModel):
         next_cache = None
         if use_cache:
-            next_cache = next_decoder_cache
         if not return_dict:
             return tuple(
                 v

                 past_key_values, StaticCache
             ):
                 if not isinstance(past_key_values, DynamicCache):
+                    used_legacy_cache=True
                     past_key_values = DynamicCache.from_legacy_cache(past_key_values)
                 past_seen_tokens = past_key_values.get_seq_length()
         next_cache = None
         if use_cache:
+            next_cache = next_decoder_cache.to_legacy_cache() if used_legacy_cache else next_decoder_cache
         if not return_dict:
             return tuple(
                 v