nvidia
/

Llama-3_1-Nemotron-51B-Instruct

@@ -1311,6 +1311,25 @@ class DeciLMForCausalLM(DeciLMPreTrainedModel, GenerationMixin):
         )
         return model_inputs
 @add_start_docstrings(
     """

         )
         return model_inputs
+    def _maybe_initialize_input_ids_for_generation(
+            self,
+            inputs: Optional[torch.Tensor] = None,
+            bos_token_id: Optional[torch.Tensor] = None,
+            model_kwargs: Optional[dict[str, torch.Tensor]] = None,
+    ) -> torch.LongTensor:
+        """
+        Patching hf bug that creates wrong cache length if only inputs_embeds are passed to the model
+        """
+        input_ids = super()._maybe_initialize_input_ids_for_generation(inputs, bos_token_id, model_kwargs)
+        if (
+                "inputs_embeds" in model_kwargs
+                and input_ids is not None
+                and input_ids.shape[1] == 0
+        ):
+            batch_size, input_sequence_length = model_kwargs["inputs_embeds"].shape[:2]
+            input_ids = torch.zeros((batch_size, input_sequence_length), dtype=torch.long, device=self.device)
+        return input_ids
 @add_start_docstrings(
     """