Spaces:

atticus
/

image-text-retrival-huster

Runtime error

App Files Files Community

atticus commited on Mar 10, 2022

Commit

dfbeba0

•

1 Parent(s): 32a8018

modify to cpu

Browse files

Files changed (3) hide show

app.py +6 -12
misc/evaluation.py +6 -7
requirements.txt +0 -2

app.py CHANGED Viewed

@@ -34,10 +34,9 @@ import requests
 import cv2
 from io import BytesIO
 from translate import Translator
-import cupy as cp
-device = torch.device("cuda")
 batch_size = 1
 topK = 5
@@ -46,10 +45,6 @@ I2I = "Image 2 Image"
 model_path =  "data/best_model.pth.tar"
 # model = SentenceTransformer("clip-ViT-B-32")
-img_folder = Path("./photos/")
-# start
 def download_url_img(url):
     try:
@@ -74,17 +69,17 @@ def search(mode, text):
     dataset_loader = DataLoader(dataset, batch_size=batch_size, num_workers=1, pin_memory=True, collate_fn=collate_fn_cap_padded)
     caps_enc = list()
-    for _, (caps, length) in enumerate(dataset_loader, 0):
         input_caps = caps.to(device)
         with torch.no_grad():
-            _, caps_emb = join_emb(None, input_caps, length)
-        caps_enc.append(caps_emb)
-    caps_stack = cp.vstack(caps_enc)
     imgs_url = [os.path.join("http://images.cocodataset.org/train2017", img_path.strip().split('_')[-1]) for img_path in imgs_path]
     recall_imgs = recallTopK(caps_stack, imgs_emb, imgs_url, ks=100)
     # Cat image downloaded from https://www.flickr.com/photos/blacktigersdream/23119711630
     # cat_image = "./cat_example.jpg"
     # Dog example downloaded from https://upload.wikimedia.org/wikipedia/commons/1/18/Dog_Breeds.jpg
@@ -115,7 +110,6 @@ if __name__ == "__main__":
     encoder = TextEncoder()
     imgs_emb_file_path = "./coco_img_emb"
     imgs_emb, imgs_path = load_obj(imgs_emb_file_path)
-    imgs_emb = cp.asarray(imgs_emb)
     print("prepare done!")
     iface = gr.Interface(
         fn=search,

 import cv2
 from io import BytesIO
 from translate import Translator
+device = torch.device("cpu")
 batch_size = 1
 topK = 5
 model_path =  "data/best_model.pth.tar"
 # model = SentenceTransformer("clip-ViT-B-32")
 def download_url_img(url):
     try:
     dataset_loader = DataLoader(dataset, batch_size=batch_size, num_workers=1, pin_memory=True, collate_fn=collate_fn_cap_padded)
     caps_enc = list()
+    for i, (caps, length) in enumerate(dataset_loader, 0):
         input_caps = caps.to(device)
         with torch.no_grad():
+            _, output_emb = join_emb(None, input_caps, length)
+        caps_enc.append(output_emb.cpu().data.numpy())
+    caps_stack = np.vstack(caps_enc)
     imgs_url = [os.path.join("http://images.cocodataset.org/train2017", img_path.strip().split('_')[-1]) for img_path in imgs_path]
     recall_imgs = recallTopK(caps_stack, imgs_emb, imgs_url, ks=100)
     # Cat image downloaded from https://www.flickr.com/photos/blacktigersdream/23119711630
     # cat_image = "./cat_example.jpg"
     # Dog example downloaded from https://upload.wikimedia.org/wikipedia/commons/1/18/Dog_Breeds.jpg
     encoder = TextEncoder()
     imgs_emb_file_path = "./coco_img_emb"
     imgs_emb, imgs_path = load_obj(imgs_emb_file_path)
     print("prepare done!")
     iface = gr.Interface(
         fn=search,

misc/evaluation.py CHANGED Viewed

@@ -23,16 +23,15 @@ Author: Martin Engilberge
 import numpy as np
 from misc.utils import flatten
-import cupy as cp
 def cosine_sim(A, B):
-    img_norm = cp.linalg.norm(A, axis=1)
-    caps_norm = cp.linalg.norm(B, axis=1)
-    scores = cp.dot(A, B.T)
-    norms = cp.dot(cp.expand_dims(img_norm, 1),
-                   cp.expand_dims(caps_norm.T, 1).T)
     scores = (scores / norms)
@@ -43,7 +42,7 @@ def recallTopK(cap_enc, imgs_enc, imgs_path, ks=10, scores=None):
     if scores is None:
         scores = cosine_sim(cap_enc, imgs_enc)
-    recall_imgs = [imgs_path[cp.asnumpy(i)] for i in cp.argsort(scores, axis=1)[0][::-1][:ks]]
     return recall_imgs

 import numpy as np
 from misc.utils import flatten
 def cosine_sim(A, B):
+    img_norm = np.linalg.norm(A, axis=1)
+    caps_norm = np.linalg.norm(B, axis=1)
+    scores = np.dot(A, B.T)
+    norms = np.dot(np.expand_dims(img_norm, 1),
+                   np.expand_dims(caps_norm.T, 1).T)
     scores = (scores / norms)
     if scores is None:
         scores = cosine_sim(cap_enc, imgs_enc)
+    recall_imgs = [imgs_path[i] for i in np.argsort(scores, axis=1)[0][::-1][:ks]]
     return recall_imgs

requirements.txt CHANGED Viewed

@@ -1,5 +1,3 @@
-cupy==10.2.0
-cupy_cuda101==9.6.0
 gradio==2.8.9
 matplotlib==2.2.2
 nltk==3.3

 gradio==2.8.9
 matplotlib==2.2.2
 nltk==3.3