openbmb
/

cpm-bee-5b

@@ -1729,7 +1729,7 @@ class CpmBeeForCausalLM(CpmBeePreTrainedModel):
         eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
         bos_token_id = bos_token_id if bos_token_id is not None else self.generation_config.bos_token_id
         vocab_size = vocab_size if vocab_size is not None else self.generation_config.vocab_size
-        max_length = max_length if max_length is not None else self.generation_config.max_length
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_attentions = (
             output_attentions if output_attentions is not None else self.generation_config.output_attentions
@@ -2093,7 +2093,7 @@ class CpmBeeForCausalLM(CpmBeePreTrainedModel):
             length_penalty=generation_config.length_penalty,
             do_early_stopping=generation_config.early_stopping,
             num_beam_hyps_to_keep=generation_config.num_return_sequences,
-            max_length=generation_config.max_length,
             **kwargs,
         )
         # 9. interleave input_ids with `num_beams` additional sequences per batch
@@ -2109,6 +2109,7 @@ class CpmBeeForCausalLM(CpmBeePreTrainedModel):
             beam_scorer,
             repetition_penalty=repetition_penalty,
             logits_processor=logits_processor,
             pad_token_id=generation_config.pad_token_id,
             eos_token_id=generation_config.eos_token_id,
             vocab_size=kwargs.get("vocab_size", None),
@@ -2123,7 +2124,6 @@ class CpmBeeForCausalLM(CpmBeePreTrainedModel):
         self,
         data_list: Union[Dict, List[Dict]],
         tokenizer: CpmBeeTokenizer,
-        generation_config=None,
         **kwargs,
     ):
         """
@@ -2148,7 +2148,6 @@ class CpmBeeForCausalLM(CpmBeePreTrainedModel):
             data_list = [data_list]
         input_encoded = tokenizer(data_list, return_tensors="pt", padding=True, device=self.device)
         input_encoded.update(kwargs)
-        input_encoded["generation_config"] = generation_config
         input_encoded["vocab_size"] = tokenizer.vocab_size
         decode_res = self._generate(**input_encoded)

         eos_token_id = eos_token_id if eos_token_id is not None else self.generation_config.eos_token_id
         bos_token_id = bos_token_id if bos_token_id is not None else self.generation_config.bos_token_id
         vocab_size = vocab_size if vocab_size is not None else self.generation_config.vocab_size
+        max_length = max_length if max_length is not None else self.generation_config.max_new_tokens
         output_scores = output_scores if output_scores is not None else self.generation_config.output_scores
         output_attentions = (
             output_attentions if output_attentions is not None else self.generation_config.output_attentions
             length_penalty=generation_config.length_penalty,
             do_early_stopping=generation_config.early_stopping,
             num_beam_hyps_to_keep=generation_config.num_return_sequences,
+            max_length=generation_config.max_new_tokens,
             **kwargs,
         )
         # 9. interleave input_ids with `num_beams` additional sequences per batch
             beam_scorer,
             repetition_penalty=repetition_penalty,
             logits_processor=logits_processor,
+            max_length=generation_config.max_new_tokens,
             pad_token_id=generation_config.pad_token_id,
             eos_token_id=generation_config.eos_token_id,
             vocab_size=kwargs.get("vocab_size", None),
         self,
         data_list: Union[Dict, List[Dict]],
         tokenizer: CpmBeeTokenizer,
         **kwargs,
     ):
         """
             data_list = [data_list]
         input_encoded = tokenizer(data_list, return_tensors="pt", padding=True, device=self.device)
         input_encoded.update(kwargs)
         input_encoded["vocab_size"] = tokenizer.vocab_size
         decode_res = self._generate(**input_encoded)