Spaces:

m-ric
/

Quotes

Sleeping

A-Roucher commited on Nov 8, 2023

Commit

0bff0fd

•

1 Parent(s): 63db6ac

feat: add requirements

Files changed (2) hide show

app.py CHANGED Viewed

@@ -7,14 +7,15 @@ st.write(x, 'squared is', x * x)
 st.sidebar.text_input("Type your quote here")
-dataset = datasets.load_dataset('A-Roucher/english_historical_quotes')['train']
 model_name = "sentence-transformers/all-MiniLM-L6-v2" # BAAI/bge-small-en-v1.5" # "Cohere/Cohere-embed-english-light-v3.0" # "sentence-transformers/all-MiniLM-L6-v2"
 encoder = SentenceTransformer(model_name)
 embeddings = encoder.encode(
     dataset["quote"],
-    batch_size=8,
     show_progress_bar=True,
     convert_to_numpy=True,
     normalize_embeddings=True,
@@ -38,9 +39,9 @@ sentence_embedding = encoder.encode([sentence])
 from sentence_transformers.util import semantic_search
 # hits = semantic_search(sentence_embedding, dataset_embeddings[:, :], top_k=5)
-author_indexes = range(1000)
 hits = semantic_search(sentence_embedding, dataset_embeddings[author_indexes, :], top_k=5)
 list_hits = [author_indexes[i['corpus_id']] for i in hits[0]]
 st.write(dataset_embeddings.select([12676, 4967, 2612, 8884, 4797]))

 st.sidebar.text_input("Type your quote here")
+dataset = datasets.load_dataset('A-Roucher/english_historical_quotes', download_mode="force_redownload")
+dataset = dataset['train']
 model_name = "sentence-transformers/all-MiniLM-L6-v2" # BAAI/bge-small-en-v1.5" # "Cohere/Cohere-embed-english-light-v3.0" # "sentence-transformers/all-MiniLM-L6-v2"
 encoder = SentenceTransformer(model_name)
 embeddings = encoder.encode(
     dataset["quote"],
+    batch_size=4,
     show_progress_bar=True,
     convert_to_numpy=True,
     normalize_embeddings=True,
 from sentence_transformers.util import semantic_search
 # hits = semantic_search(sentence_embedding, dataset_embeddings[:, :], top_k=5)
+author_indexes = list(range(1000))
 hits = semantic_search(sentence_embedding, dataset_embeddings[author_indexes, :], top_k=5)
+st.write(hits)
 list_hits = [author_indexes[i['corpus_id']] for i in hits[0]]
 st.write(dataset_embeddings.select([12676, 4967, 2612, 8884, 4797]))

requirements.txt ADDED Viewed

+datasets==2.5.2
+sentence_transformers==2.2.2
+streamlit==1.28.1