Spaces:

HonestAnnie
/

sorhwphuo

Sleeping

App Files Files Community

HonestAnnie commited on Jun 19

Commit

331b253

•

1 Parent(s): 92ed022

Jetzt läuft alles!!

Browse files

Files changed (1) hide show

app.py +42 -46

app.py CHANGED Viewed

@@ -4,6 +4,12 @@ import chromadb
 from sentence_transformers import SentenceTransformer
 import spaces
 @spaces.GPU
 def get_embeddings(queries, task):
     model = SentenceTransformer("Linq-AI-Research/Linq-Embed-Mistral", use_auth_token=os.getenv("HF_TOKEN"))
@@ -11,59 +17,45 @@ def get_embeddings(queries, task):
     query_embeddings = model.encode(prompts)
     return query_embeddings
-# Initialize a persistent Chroma client and retrieve collection
-client = chromadb.PersistentClient(path="./chroma")
-collection_de = client.get_collection(name="phil_de")
-collection_en = client.get_collection(name="phil_en")
-authors_list_de = ["Ludwig Wittgenstein", "Sigmund Freud", "Marcus Aurelius", "Friedrich Nietzsche", "Epiktet", "Ernst Jünger", "Georg Christoph Lichtenberg", "Balthasar Gracian", "Hannah Arendt", "Erich Fromm", "Albert Camus"]
-authors_list_en = ["Friedrich Nietzsche", "Joscha Bach"]
 def query_chroma(collection, embedding, authors):
-    try:
-        where_filter = {"author": {"$in": authors}} if authors else {}
-        # Directly use the embedding provided, already in list format suitable for the query
-        results = collection.query(
-            query_embeddings=[embedding.tolist()],  # Ensure embedding is properly formatted
-            n_results=10,
-            where=where_filter,
-            include=["documents", "metadatas", "distances"]
-        )
-        ids = results.get('ids', [[]])[0]
-        metadatas = results.get('metadatas', [[]])[0]
-        documents = results.get('documents', [[]])[0]
-        distances = results.get('distances', [[]])[0]
-        formatted_results = []
-        for id_, metadata, document_text, distance in zip(ids, metadatas, documents, distances):
-            result_dict = {
-                "id": id_,
-                "author": metadata.get('author', 'Unknown author'),
-                "book": metadata.get('book', 'Unknown book'),
-                "section": metadata.get('section', 'Unknown section'),
-                "title": metadata.get('title', 'Untitled'),
-                "text": document_text,
-                "distance": distance
-            }
-            formatted_results.append(result_dict)
-        return formatted_results
-    except Exception as e:
-        return [{"error": str(e)}]
-def update_authors(database):
-    return gr.update(choices=authors_list_de if database == "German" else authors_list_en)
 with gr.Blocks(css=".custom-markdown { border: 1px solid #ccc; padding: 10px; border-radius: 5px; }")  as demo:
-    gr.Markdown("Enter your query, filter authors (default is all), click **Search** to search.")
-    database_inp = gr.Dropdown(label="Database", choices=["English", "German"], value="German")
     author_inp = gr.Dropdown(label="Authors", choices=authors_list_de, multiselect=True)
-    inp = gr.Textbox(label="Query", placeholder="Enter questions separated by semicolons...")
     btn = gr.Button("Search")
     results = gr.State()
     database_inp.change(
         fn=lambda database: update_authors(database),
         inputs=[database_inp],
@@ -91,8 +83,12 @@ with gr.Blocks(css=".custom-markdown { border: 1px solid #ccc; padding: 10px; bo
     def display_accordion(data):
         for query, res in data:
             with gr.Accordion(query, open=False) as acc:
-                markdown_contents = "\n".join(f"**{r['author']}, {r['book']}**\n\n{r['text']}" for r in res)
-                with gr.Column():
-                    gr.Markdown(value=markdown_contents, elem_classes="custom-markdown")
 demo.launch()

 from sentence_transformers import SentenceTransformer
 import spaces
+client = chromadb.PersistentClient(path="./chroma")
+collection_de = client.get_collection(name="phil_de")
+collection_en = client.get_collection(name="phil_en")
+authors_list_de = ["Ludwig Wittgenstein", "Sigmund Freud", "Marcus Aurelius", "Friedrich Nietzsche", "Epiktet", "Ernst Jünger", "Georg Christoph Lichtenberg", "Balthasar Gracian", "Hannah Arendt", "Erich Fromm", "Albert Camus"]
+authors_list_en = ["Friedrich Nietzsche", "Joscha Bach"]
 @spaces.GPU
 def get_embeddings(queries, task):
     model = SentenceTransformer("Linq-AI-Research/Linq-Embed-Mistral", use_auth_token=os.getenv("HF_TOKEN"))
     query_embeddings = model.encode(prompts)
     return query_embeddings
 def query_chroma(collection, embedding, authors):
+    results = collection.query(
+        query_embeddings=[embedding.tolist()],
+        n_results=10,
+        where={"author": {"$in": authors}} if authors else {},
+        include=["documents", "metadatas", "distances"]
+    )
+    ids = results.get('ids', [[]])[0]
+    metadatas = results.get('metadatas', [[]])[0]
+    documents = results.get('documents', [[]])[0]
+    distances = results.get('distances', [[]])[0]
+    formatted_results = []
+    for id_, metadata, document_text, distance in zip(ids, metadatas, documents, distances):
+        result_dict = {
+            "id": id_,
+            "author": metadata.get('author', 'Unknown author'),
+            "book": metadata.get('book', 'Unknown book'),
+            "section": metadata.get('section', 'Unknown section'),
+            "title": metadata.get('title', 'Untitled'),
+            "text": document_text,
+            "distance": distance
+        }
+        formatted_results.append(result_dict)
+    return formatted_results
 with gr.Blocks(css=".custom-markdown { border: 1px solid #ccc; padding: 10px; border-radius: 5px; }")  as demo:
+    gr.Markdown("Enter your query, filter authors (default is all), click **Search** to search. Delimit multiple queries with semicola; since there is a search-quota for each user (based on IP) it makes sense to query in batches (if you enjoy querying that is).")
+    database_inp = gr.Dropdown(label="Database", choices=["German", "English"], value="German")
     author_inp = gr.Dropdown(label="Authors", choices=authors_list_de, multiselect=True)
+    inp = gr.Textbox(label="Query", placeholder="Wie kann ich gesund leben und bedeutet Gesundheit für jeden das gleiche?; Why is life so difficult and aren't there any shortcuts?")
     btn = gr.Button("Search")
     results = gr.State()
+    def update_authors(database):
+        return gr.update(choices=authors_list_de if database == "German" else authors_list_en)
     database_inp.change(
         fn=lambda database: update_authors(database),
         inputs=[database_inp],
     def display_accordion(data):
         for query, res in data:
             with gr.Accordion(query, open=False) as acc:
+                for result in res:
+                    with gr.Column():
+                        author = result.get('author', 'Unknown author')
+                        book = result.get('book', 'Unknown book')
+                        text = result.get('text')
+                        markdown_contents = f"**{author}, {book}**\n\n{text}"
+                        gr.Markdown(value=markdown_contents, elem_classes="custom-markdown")
 demo.launch()