idiom-finder

Running

Mel Seto commited on Sep 26

Commit

c443bc0

1 Parent(s): 456f698

update embedding model to multilinugal

Files changed (4) hide show

src/retrieval/__init__.py CHANGED Viewed

	@@ -1 +0,0 @@
1	- EMBEDDING_MODEL = "multilingual-e5-small"

src/retrieval/constants.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ EMBEDDING_MODEL = "intfloat/multilingual-e5-small"

src/retrieval/embed_corpus.py CHANGED Viewed

@@ -2,10 +2,13 @@ import json
 import numpy as np
 from sentence_transformers import SentenceTransformer
 INPUT_FILE = "data/idioms-and-definitions.json"
 EMBED_FILE = "data/idiom_embeddings.npy"
-embedder = SentenceTransformer("all-MiniLM-L6-v2")
 # Load idioms
 with open(INPUT_FILE, "r", encoding="utf-8") as f:

 import numpy as np
 from sentence_transformers import SentenceTransformer
+from .constants import EMBEDDING_MODEL
 INPUT_FILE = "data/idioms-and-definitions.json"
 EMBED_FILE = "data/idiom_embeddings.npy"
+embedder = SentenceTransformer(EMBEDDING_MODEL)
 # Load idioms
 with open(INPUT_FILE, "r", encoding="utf-8") as f:

src/retrieval/retriever.py CHANGED Viewed

@@ -4,7 +4,7 @@ import requests
 from sentence_transformers import SentenceTransformer
 import os
-from retrieval import EMBEDDING_MODEL
 # HF Dataset URL for the embeddings

 from sentence_transformers import SentenceTransformer
 import os
+from .constants import EMBEDDING_MODEL
 # HF Dataset URL for the embeddings