visheratin
/

nllb-siglip-mrl-base

Zero-Shot Image Classification

Model card Files Files and versions Community

visheratin commited on Mar 5

Commit

1fe0679

•

1 Parent(s): c63ab68

Update nllb_mrl.py

Files changed (1) hide show

nllb_mrl.py +10 -6

nllb_mrl.py CHANGED Viewed

@@ -4,7 +4,6 @@ import torch
 import torch.nn as nn
 import torch.nn.functional as F
 from open_clip import create_model, get_tokenizer
-from open_clip.pretrained import get_pretrained_cfg
 from open_clip.transform import PreprocessCfg, image_transform_v2
 from PIL import Image
 from transformers import PretrainedConfig, PreTrainedModel
@@ -16,7 +15,7 @@ class MatryoshkaNllbClipConfig(PretrainedConfig):
         clip_model_name: str = "",
         target_resolution: int = -1,
         mrl_resolutions: List[int] = [],
-        preprocess_cfg: Union[PreprocessCfg, None] = None,
         **kwargs,
     ):
         super().__init__(**kwargs)
@@ -53,11 +52,16 @@ class MatryoshkaNllbClip(PreTrainedModel):
         if isinstance(device, str):
             device = torch.device(device)
         self.config = config
-        self.model = create_model(
-            config.clip_model_name, output_dict=True
         )
         self.transform = image_transform_v2(
-            config.preprocess_cfg,
             is_train=False,
         )
         self._device = device
@@ -108,7 +112,7 @@ class MatryoshkaNllbClip(PreTrainedModel):
                     )
                 features = self.matryoshka_layer.layers[str(resolution)](features)
             return F.normalize(features, dim=-1) if normalize else features
     def encode_text(
         self,
         text,

 import torch.nn as nn
 import torch.nn.functional as F
 from open_clip import create_model, get_tokenizer
 from open_clip.transform import PreprocessCfg, image_transform_v2
 from PIL import Image
 from transformers import PretrainedConfig, PreTrainedModel
         clip_model_name: str = "",
         target_resolution: int = -1,
         mrl_resolutions: List[int] = [],
+        preprocess_cfg: Union[dict, None] = None,
         **kwargs,
     ):
         super().__init__(**kwargs)
         if isinstance(device, str):
             device = torch.device(device)
         self.config = config
+        self.model = create_model(config.clip_model_name, output_dict=True)
+        pp_cfg = PreprocessCfg(
+            size=config.preprocess_cfg["size"],
+            mean=config.preprocess_cfg["mean"],
+            std=config.preprocess_cfg["std"],
+            interpolation=config.preprocess_cfg["interpolation"],
+            resize_mode=config.preprocess_cfg["resize_mode"],
         )
         self.transform = image_transform_v2(
+            pp_cfg,
             is_train=False,
         )
         self._device = device
                     )
                 features = self.matryoshka_layer.layers[str(resolution)](features)
             return F.normalize(features, dim=-1) if normalize else features
     def encode_text(
         self,
         text,