flavour
/

clippy-dinov2-small-jina-embedding-t-en-v1

marcusinthesky commited on Sep 8, 2023

Commit

0f983db

1 Parent(s): b61121e

Upload model

Files changed (2) hide show

config.json CHANGED Viewed

@@ -1,12 +1,13 @@
 {
-  "_commit_hash": "092b10bbf4bc3d008a454897fba1141fb67c0b9e",
-  "_name_or_path": "flavour/vtde-dinov2-small-jina-embedding-t-en-v1",
   "architectures": [
     "VTDEModel"
   ],
   "auto_map": {
     "AutoConfig": "modelling.VTDEConfig",
-    "AutoModelForZeroShotImageClassification": "modelling.VTDEModel"
   },
   "logit_scale_init_value": 2.6592,
   "model_type": "vtde",

 {
+  "_commit_hash": "b61121e506fb7330d5fe093287b3ab12b3c8e564",
+  "_name_or_path": "flavour/clippy-dinov2-small-jina-embedding-t-en-v1",
   "architectures": [
     "VTDEModel"
   ],
   "auto_map": {
     "AutoConfig": "modelling.VTDEConfig",
+    "AutoModel": "modelling.VTDEModel",
+    "AutoModelForZeroShotImageClassification": "flavour/clippy-dinov2-small-jina-embedding-t-en-v1--modelling.VTDEModel"
   },
   "logit_scale_init_value": 2.6592,
   "model_type": "vtde",

modelling.py CHANGED Viewed

@@ -6,8 +6,9 @@ __all__ = ['VTDEConfig', 'VTDEModel']
 # %% ../notebooks/12_modelling.ipynb 1
 from transformers.models.clip.modeling_clip import CLIPOutput, clip_loss
 from typing import Optional, Tuple, Union
-from transformers import VisionTextDualEncoderConfig, AutoModel, PreTrainedModel, VisionTextDualEncoderModel
 import torch
 class VTDEConfig(VisionTextDualEncoderConfig):
     model_type = "vtde"
@@ -20,11 +21,16 @@ class VTDEConfig(VisionTextDualEncoderConfig):
         pooling_mode in ['mean', 'max', 'cls']
         https://arxiv.org/pdf/2210.09996.pdf
         https://github.com/kahnchana/clippy/blob/3c102c29c32f7c66c6e52e09b795fe9c061bbb03/src/open_clip/hf_model.py#L56
         """
         self.text_pooling_mode = text_pooling_mode
         self.vision_pooling_mode = vision_pooling_mode
         super().__init__(projection_dim, logit_scale_init_value, **kwargs)
 class VTDEModel(VisionTextDualEncoderModel):
     config_class = VTDEConfig
     base_model_prefix = "vtde"
@@ -170,5 +176,5 @@ class VTDEModel(VisionTextDualEncoderModel):
             vision_model_output=image_embeds,
         )
-VTDEConfig.register_for_auto_class()
 VTDEModel.register_for_auto_class("AutoModel")

 # %% ../notebooks/12_modelling.ipynb 1
 from transformers.models.clip.modeling_clip import CLIPOutput, clip_loss
 from typing import Optional, Tuple, Union
+from transformers import PreTrainedModel, VisionTextDualEncoderModel
 import torch
+from transformers import VisionTextDualEncoderConfig
 class VTDEConfig(VisionTextDualEncoderConfig):
     model_type = "vtde"
         pooling_mode in ['mean', 'max', 'cls']
         https://arxiv.org/pdf/2210.09996.pdf
         https://github.com/kahnchana/clippy/blob/3c102c29c32f7c66c6e52e09b795fe9c061bbb03/src/open_clip/hf_model.py#L56
+        also
+        https://arxiv.org/pdf/2301.07836.pdf
         """
         self.text_pooling_mode = text_pooling_mode
         self.vision_pooling_mode = vision_pooling_mode
         super().__init__(projection_dim, logit_scale_init_value, **kwargs)
+VTDEConfig.register_for_auto_class()
 class VTDEModel(VisionTextDualEncoderModel):
     config_class = VTDEConfig
     base_model_prefix = "vtde"
             vision_model_output=image_embeds,
         )
 VTDEModel.register_for_auto_class("AutoModel")