theislab
/

Nicheformer

@@ -33,11 +33,29 @@ class NicheformerTokenizer(PreTrainedTokenizer):
             max_seq_len: Maximum sequence length
             aux_tokens: Number of auxiliary tokens reserved
         """
         self.max_seq_len = max_seq_len
         self.aux_tokens = aux_tokens
         # Define token constants to match Nicheformer
-        self.pad_token_id = 0
         # Define special token mappings
         self.modality_dict = {
@@ -98,13 +116,6 @@ class NicheformerTokenizer(PreTrainedTokenizer):
         # Create reverse vocabulary (id to token)
         self.ids_to_tokens = {v: k for k, v in self.vocab.items()}
-        # Set special tokens for parent class
-        kwargs["pad_token"] = "<pad>"
-        kwargs["unk_token"] = "<unk>"
-        kwargs["mask_token"] = "<mask>"
-        super().__init__(**kwargs)
     @property
     def vocab_size(self):
@@ -226,7 +237,7 @@ class NicheformerTokenizer(PreTrainedTokenizer):
         tokens = self._sub_tokenize_data(X)
         # Create attention mask (1 for real tokens, 0 for padding)
-        attention_mask = (tokens != self.pad_token_id).astype(np.int32)
         # Extract metadata from obs
         result = {
@@ -335,7 +346,7 @@ class NicheformerTokenizer(PreTrainedTokenizer):
             tokens = self._sub_tokenize_data(expression_matrix)
             # Create attention mask (1 for real tokens, 0 for padding)
-            attention_mask = (tokens != self.pad_token_id).astype(np.int32)
             # Add metadata tokens if provided
             result = {

             max_seq_len: Maximum sequence length
             aux_tokens: Number of auxiliary tokens reserved
         """
+        # Initialize the parent class first
+        super().__init__(
+            pad_token="<pad>",
+            eos_token="<eos>",
+            unk_token="<unk>",
+            **kwargs
+        )
         self.max_seq_len = max_seq_len
         self.aux_tokens = aux_tokens
+        # Initialize vocabulary
+        self.vocab = {}
+        self.ids_to_tokens = {}
+        # Load vocabulary if provided
+        if vocab_file is not None:
+            with open(vocab_file, 'r', encoding='utf-8') as f:
+                self.vocab = json.load(f)
+                self.ids_to_tokens = {v: k for k, v in self.vocab.items()}
         # Define token constants to match Nicheformer
+        self._pad_token_id = 0
         # Define special token mappings
         self.modality_dict = {
         # Create reverse vocabulary (id to token)
         self.ids_to_tokens = {v: k for k, v in self.vocab.items()}
     @property
     def vocab_size(self):
         tokens = self._sub_tokenize_data(X)
         # Create attention mask (1 for real tokens, 0 for padding)
+        attention_mask = (tokens != self._pad_token_id).astype(np.int32)
         # Extract metadata from obs
         result = {
             tokens = self._sub_tokenize_data(expression_matrix)
             # Create attention mask (1 for real tokens, 0 for padding)
+            attention_mask = (tokens != self._pad_token_id).astype(np.int32)
             # Add metadata tokens if provided
             result = {