Spaces:

mys
/

qdrant-cloud-demo

Running

App Files Files Community

mys commited on Mar 23, 2023

Commit

02f62c3

•

1 Parent(s): b45851d

Use conf values from `config.py`

Browse files

Files changed (3) hide show

README.md +1 -1
create_index.py +4 -18
requirements-indexing.txt +5 -0

README.md CHANGED Viewed

@@ -11,4 +11,4 @@ license: apache-2.0
 ---
 # hf-spaces-demo
-A semantic search demo on HuggingFace Spaces backed by Qdrant Cloud

 ---
 # hf-spaces-demo
+A semantic image search demo on HuggingFace Spaces backed by Qdrant Cloud

create_index.py CHANGED Viewed

@@ -13,16 +13,10 @@ from qdrant_client import QdrantClient
 from qdrant_client.models import Distance, Record, VectorParams, OptimizersConfigDiff, Payload
-LOGGER = logging.getLogger(__name__)
-def truncate(n, decimals=0):
-    try:
-        multiplier = 10 ** decimals
-        return int(n * multiplier) / multiplier
-    except:
-        LOGGER.warn(f"Cannot {n} as a number, returning 0.0")
-        return 0.0
 def get_vector_size_and_number(img_emb_files):
@@ -43,9 +37,7 @@ def get_embeddings_and_records(img_emb_files, txt_emb_files, metadata_files):
         payload_data.drop(columns=["image_path", "hash", "key", "status",
                                    "error_message", "width", "height", "exif", "sha256", "original_width", "original_height"], errors="ignore", inplace=True)
         payload_data = payload_data.to_dict(orient='records')
-        payload_data = [{k: truncate(v, 5) if not isinstance(
-            v, str) else v for k, v in p.items()} for p in payload_data]
         img_embeddings = np.load(img_file)
         txt_embeddings = np.load(txt_file)
@@ -57,12 +49,6 @@ def get_embeddings_and_records(img_emb_files, txt_emb_files, metadata_files):
 def clip_index(
     embeddings_folder,
-    collection_name,
-    host="localhost",
-    api_key=None,
-    port=6333,
-    grpc_port=6334,
-    prefer_grpc=True,
     batch_size=64,
     parallel=2,
     max_retries=5,
@@ -71,7 +57,7 @@ def clip_index(
 ):
     """indexes clip embeddings using Qdrant"""
     client = QdrantClient(
-        host=host, api_key=api_key, prefer_grpc=prefer_grpc, port=port, grpc_port=grpc_port)
     image_folder = f"{embeddings_folder}/{image_subfolder}"
     text_folder = f"{embeddings_folder}/{text_subfolder}"

 from qdrant_client.models import Distance, Record, VectorParams, OptimizersConfigDiff, Payload
+from config import api_key, collection_name, host_url
+LOGGER = logging.getLogger(__name__)
 def get_vector_size_and_number(img_emb_files):
         payload_data.drop(columns=["image_path", "hash", "key", "status",
                                    "error_message", "width", "height", "exif", "sha256", "original_width", "original_height"], errors="ignore", inplace=True)
         payload_data = payload_data.to_dict(orient='records')
         img_embeddings = np.load(img_file)
         txt_embeddings = np.load(txt_file)
 def clip_index(
     embeddings_folder,
     batch_size=64,
     parallel=2,
     max_retries=5,
 ):
     """indexes clip embeddings using Qdrant"""
     client = QdrantClient(
+        host=host_url, api_key=api_key, prefer_grpc=True)
     image_folder = f"{embeddings_folder}/{image_subfolder}"
     text_folder = f"{embeddings_folder}/{text_subfolder}"

requirements-indexing.txt CHANGED Viewed

	@@ -0,0 +1,5 @@

+torch
+tqdm
+qdrant-client
+fire
+pandas