sentence-transformers
/

clip-ViT-B-32

Sentence Similarity sentence-transformers feature-extraction Inference Endpoints

Model card Files Files and versions Community

nreimers commited on Aug 5, 2021

Commit

3fa6f52

•

1 Parent(s): ab9209f

Update README.md

Browse files

Files changed (1) hide show

README.md +4 -319

README.md CHANGED Viewed

@@ -1,32 +1,16 @@
 ---
 pipeline_tag: sentence-similarity
 tags:
 - sentence-transformers
 - feature-extraction
 - sentence-similarity
 - transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
-- transformers
 ---
 # sentence-transformers/clip-ViT-B-32
-This is a [sentence-transformers](https://www.SBERT.net) model: It maps sentences & paragraphs to a None dimensional dense vector space and can be used for tasks like clustering or semantic search.
@@ -64,307 +48,8 @@ For an automated evaluation of this model, see the *Sentence Embeddings Benchmar
 SentenceTransformer(
   (0): CLIPModel(
     (model): CLIP(
-      (visual): VisualTransformer(
-        (conv1): Conv2d(3, 768, kernel_size=(32, 32), stride=(32, 32), bias=False)
-        (ln_pre): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-        (transformer): Transformer(
-          (resblocks): Sequential(
-            (0): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (1): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (2): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (3): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (4): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (5): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (6): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (7): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (8): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (9): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (10): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-            (11): ResidualAttentionBlock(
-              (attn): MultiheadAttention(
-                (out_proj): NonDynamicallyQuantizableLinear(in_features=768, out_features=768, bias=True)
-              )
-              (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-              (mlp): Sequential(
-                (c_fc): Linear(in_features=768, out_features=3072, bias=True)
-                (gelu): QuickGELU()
-                (c_proj): Linear(in_features=3072, out_features=768, bias=True)
-              )
-              (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-            )
-          )
-        )
-        (ln_post): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
-      )
-      (transformer): Transformer(
-        (resblocks): Sequential(
-          (0): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (1): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (2): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (3): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (4): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (5): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (6): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (7): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (8): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (9): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (10): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-          (11): ResidualAttentionBlock(
-            (attn): MultiheadAttention(
-              (out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True)
-            )
-            (ln_1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-            (mlp): Sequential(
-              (c_fc): Linear(in_features=512, out_features=2048, bias=True)
-              (gelu): QuickGELU()
-              (c_proj): Linear(in_features=2048, out_features=512, bias=True)
-            )
-            (ln_2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
-          )
-        )
-      )
       (token_embedding): Embedding(49408, 512)
       (ln_final): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
     )

 ---
 pipeline_tag: sentence-similarity
+license: apache-2.0
 tags:
 - sentence-transformers
 - feature-extraction
 - sentence-similarity
 - transformers
 ---
 # sentence-transformers/clip-ViT-B-32
+This the [OpenAI CLIP Model](https://github.com/openai/CLIP) ported to [sentence-transformers](https://www.SBERT.net) model: It maps images and text to a shared vector space.
 SentenceTransformer(
   (0): CLIPModel(
     (model): CLIP(
+      (visual): VisualTransformer()
+      (transformer): Transformer()
       (token_embedding): Embedding(49408, 512)
       (ln_final): LayerNorm((512,), eps=1e-05, elementwise_affine=True)
     )