Spaces:

HonestAnnie
/

sorhwphuo

Running on Zero

App Files Files Community

sorhwphuo / app.py

HonestAnnie

jetzt aber

2e8a9c7 3 months ago

raw

history blame

4.39 kB

	import os
	import gradio as gr
	import chromadb
	from sentence_transformers import SentenceTransformer
	import spaces

	@spaces.GPU
	def get_embeddings(query, task):
	model = SentenceTransformer("Linq-AI-Research/Linq-Embed-Mistral", use_auth_token=os.getenv("HF_TOKEN"))
	prompt = f"Instruct: {task}\nQuery: {query}"
	query_embeddings = model.encode([prompt])
	return query_embeddings

	# Initialize a persistent Chroma client and retrieve collection
	client = chromadb.PersistentClient(path="./chroma")
	collection_de = client.get_collection(name="phil_de")
	collection_en = client.get_collection(name="phil_en")
	authors_list_de = ["Ludwig Wittgenstein", "Sigmund Freud", "Marcus Aurelius", "Friedrich Nietzsche", "Epiktet", "Ernst Jünger", "Georg Christoph Lichtenberg", "Balthasar Gracian", "Hannah Arendt", "Erich Fromm", "Albert Camus"]
	authors_list_en = ["Friedrich Nietzsche", "Joscha Bach"]

	def query_chroma(collection, embeddings, authors, num_results=10):
	try:
	where_filter = {"author": {"$in": authors}} if authors else {}

	embeddings_list = embeddings[0].tolist()

	results = collection.query(
	query_embeddings=[embeddings_list],
	n_results=num_results,
	where=where_filter,
	include=["documents", "metadatas", "distances"]
	)

	ids = results.get('ids', [[]])[0]
	metadatas = results.get('metadatas', [[]])[0]
	documents = results.get('documents', [[]])[0]
	distances = results.get('distances', [[]])[0]

	formatted_results = []
	for id_, metadata, document_text, distance in zip(ids, metadatas, documents, distances):
	result_dict = {
	"id": id_,
	"author": metadata.get('author', 'Unknown author'),
	"book": metadata.get('book', 'Unknown book'),
	"section": metadata.get('section', 'Unknown section'),
	"title": metadata.get('title', 'Untitled'),
	"text": document_text,
	"distance": distance
	}
	formatted_results.append(result_dict)

	return formatted_results
	except Exception as e:
	return {"error": str(e)}


	# Main function
	def perform_query(query, authors, num_results, database):
	task = "Given a question, retrieve passages that answer the question"
	embeddings = get_embeddings(query, task)
	collection = collection_de if database == "German" else collection_en
	results = query_chroma(collection, embeddings, authors, num_results)

	if "error" in results:
	return [gr.update(visible=True, value=f"Error: {results['error']}") for _ in range(max_textboxes * 2)]

	updates = []
	for res in results:
	markdown_content = f"{res['author']}, {res['book']}\n\n{res['text']}"
	updates.append(gr.update(visible=True, value=markdown_content))

	updates += [gr.update(visible=False)] * (max_textboxes - len(results))

	return updates

	def update_authors(database):
	return gr.update(choices=authors_list_de if database == "German" else authors_list_en)

	# Gradio interface
	max_textboxes = 30

	with gr.Blocks(css=".custom-markdown { border: 1px solid #ccc; padding: 10px; border-radius: 5px; }") as demo:
	gr.Markdown("Enter your query, filter authors (default is all), click Search to search. Click Flag if a result is relevant to the query and interesting to you.")
	with gr.Row():
	with gr.Column():
	database_inp = gr.Dropdown(label="Database", choices=["English", "German"], value="German")
	inp = gr.Textbox(label="query", placeholder="Enter question...")
	author_inp = gr.Dropdown(label="authors", choices=authors_list_de, multiselect=True)
	num_results_inp = gr.Number(label="number of results", value=10, step=1, minimum=1, maximum=max_textboxes)
	btn = gr.Button("Search")

	components = []

	for _ in range(max_textboxes):
	with gr.Column() as col:
	text_out = gr.Markdown(visible=False, elem_classes="custom-markdown")
	components.append(text_out)

	btn.click(
	fn=perform_query,
	inputs=[inp, author_inp, num_results_inp, database_inp],
	outputs=components
	)

	database_inp.change(
	fn=update_authors,
	inputs=database_inp,
	outputs=author_inp
	)

	demo.launch()