jinaai
/

jina-clip-v1

@@ -50,20 +50,17 @@ This dual capability makes it an excellent tool for multimodal retrieval-augment
 ```python
 !pip install transformers einops timm pillow
 from transformers import AutoModel
-from numpy.linalg import norm
-cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
 # Initialize the model
 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 # New meaningful sentences
-sentences = ['Bridge close-shot', 'Bridge in far away']
 # Public image URLs
 image_urls = [
-    'https://fastly.picsum.photos/id/74/4288/2848.jpg?hmac=q02MzzHG23nkhJYRXR-_RgKTr6fpfwRgcXgE0EKvNB8',
-    'https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s'
 ]
 # Encode text and images
@@ -71,11 +68,11 @@ text_embeddings = model.encode_text(sentences)
 image_embeddings = model.encode_image(image_urls)  # also accepts PIL.image, local filenames, dataURI
 # Compute similarities
-print(cos_sim(text_embeddings[0], text_embeddings[1])) # text embedding similarity
-print(cos_sim(text_embeddings[0], image_embeddings[0])) # text-image cross-modal similarity
-print(cos_sim(text_embeddings[0], image_embeddings[1])) # text-image cross-modal similarity
-print(cos_sim(text_embeddings[1], image_embeddings[0])) # text-image cross-modal similarity
-print(cos_sim(text_embeddings[1], image_embeddings[1])) # text-image cross-modal similarity
 ```
 3. JavaScript developers can use Jina CLIP via the [Transformers.js](https://huggingface.co/docs/transformers.js) library. Note that to use this model, you need to install Transformers.js [v3](https://github.com/xenova/transformers.js/tree/v3) from source using `npm install xenova/transformers.js#v3`.
@@ -92,7 +89,7 @@ const processor = await AutoProcessor.from_pretrained('Xenova/clip-vit-base-patc
 const vision_model = await CLIPVisionModelWithProjection.from_pretrained('jinaai/jina-clip-v1');
 // Run tokenization
-const texts = ['Bridge close-shot', 'Bridge in far away'];
 const text_inputs = tokenizer(texts, { padding: true, truncation: true });
 // Compute text embeddings
@@ -100,8 +97,8 @@ const { text_embeds } = await text_model(text_inputs);
 // Read images and run processor
 const urls = [
-    'https://fastly.picsum.photos/id/74/4288/2848.jpg?hmac=q02MzzHG23nkhJYRXR-_RgKTr6fpfwRgcXgE0EKvNB8',
-    'https://fastly.picsum.photos/id/84/1280/848.jpg?hmac=YFRYDI4UsfbeTzI8ZakNOR98wVU7a-9a2tGF542539s',
 ];
 const image = await Promise.all(urls.map(url => RawImage.read(url)));
 const image_inputs = await processor(image);

 ```python
 !pip install transformers einops timm pillow
 from transformers import AutoModel
 # Initialize the model
 model = AutoModel.from_pretrained('jinaai/jina-clip-v1', trust_remote_code=True)
 # New meaningful sentences
+sentences = ['A blue cat', 'A red cat']
 # Public image URLs
 image_urls = [
+    'https://i.pinimg.com/600x315/21/48/7e/21487e8e0970dd366dafaed6ab25d8d8.jpg',
+    'https://i.pinimg.com/736x/c9/f2/3e/c9f23e212529f13f19bad5602d84b78b.jpg'
 ]
 # Encode text and images
 image_embeddings = model.encode_image(image_urls)  # also accepts PIL.image, local filenames, dataURI
 # Compute similarities
+print(text_embeddings[0] @ text_embeddings[1].T) # text embedding similarity
+print(text_embeddings[0] @ image_embeddings[0].T) # text-image cross-modal similarity
+print(text_embeddings[0] @ image_embeddings[1].T) # text-image cross-modal similarity
+print(text_embeddings[1] @ image_embeddings[0].T) # text-image cross-modal similarity
+print(text_embeddings[1] @ image_embeddings[1].T)# text-image cross-modal similarity
 ```
 3. JavaScript developers can use Jina CLIP via the [Transformers.js](https://huggingface.co/docs/transformers.js) library. Note that to use this model, you need to install Transformers.js [v3](https://github.com/xenova/transformers.js/tree/v3) from source using `npm install xenova/transformers.js#v3`.
 const vision_model = await CLIPVisionModelWithProjection.from_pretrained('jinaai/jina-clip-v1');
 // Run tokenization
+const texts = ['A blue cat', 'A red cat'];
 const text_inputs = tokenizer(texts, { padding: true, truncation: true });
 // Compute text embeddings
 // Read images and run processor
 const urls = [
+    'https://i.pinimg.com/600x315/21/48/7e/21487e8e0970dd366dafaed6ab25d8d8.jpg',
+    'https://i.pinimg.com/736x/c9/f2/3e/c9f23e212529f13f19bad5602d84b78b.jpg'
 ];
 const image = await Promise.all(urls.map(url => RawImage.read(url)));
 const image_inputs = await processor(image);