stanrom
/

ShareCaptioner

stanrom commited on May 12

Commit

07679de

•

1 Parent(s): c3b6e57

Update tokenization_InternLM_XComposer.py

Files changed (1) hide show

tokenization_InternLM_XComposer.py CHANGED Viewed

@@ -63,6 +63,13 @@ class InternLMXComposerTokenizer(PreTrainedTokenizer):
         **kwargs,
     ):
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
         super().__init__(
             bos_token=bos_token,
             eos_token=eos_token,
@@ -70,15 +77,8 @@ class InternLMXComposerTokenizer(PreTrainedTokenizer):
             pad_token=pad_token,
             clean_up_tokenization_spaces=clean_up_tokenization_spaces,
             **kwargs,
-            self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs),
         )
-        self.vocab_file = vocab_file
-        self.add_bos_token = add_bos_token
-        self.add_eos_token = add_eos_token
-        self.decode_with_prefix_space = decode_with_prefix_space
-        self.sp_model.Load(vocab_file)
-        self._no_prefix_space_tokens = None
         """ Initialisation"""

         **kwargs,
     ):
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
+        self.vocab_file = vocab_file
+        self.add_bos_token = add_bos_token
+        self.add_eos_token = add_eos_token
+        self.decode_with_prefix_space = decode_with_prefix_space
+        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        self.sp_model.Load(vocab_file)
+        self._no_prefix_space_tokens = None
         super().__init__(
             bos_token=bos_token,
             eos_token=eos_token,
             pad_token=pad_token,
             clean_up_tokenization_spaces=clean_up_tokenization_spaces,
             **kwargs,
         )
         """ Initialisation"""