Spaces:

NurseCitizenDeveloper
/

NurseLex-Match

Sleeping

App Files Files Community

NurseLex-Match / app.py

NurseCitizenDeveloper

Upload app.py with huggingface_hub

c70a242 verified 2 months ago

raw

history blame contribute delete

10.5 kB

	import os
	import base64
	import pickle
	import numpy as np
	import gradio as gr
	from perplexity import Perplexity
	import json

	# ─── Configuration ───────────────────────────────────────────────
	MODEL_NAME = "pplx-embed-v1-0.6b"
	DB_FILE = "case_embeddings.pkl"

	# ─── Load Vector Database ────────────────────────────────────────
	print(f"Loading vector database from {DB_FILE}...")
	if not os.path.exists(DB_FILE):
	raise FileNotFoundError(
	f"{DB_FILE} not found. Please run create_case_db.py first! "
	"(Note: This takes ~12 hours for the full dataset)."
	)

	with open(DB_FILE, 'rb') as f:
	database = pickle.load(f)

	cases = database["cases"]
	legislation = database["legislation"]
	mapping = database["mapping"]
	corpus_embeddings = database["embeddings"]

	# Normalize corpus embeddings for cosine similarity
	corpus_norms = np.linalg.norm(corpus_embeddings, axis=1, keepdims=True)
	corpus_embeddings_normalized = corpus_embeddings / np.maximum(corpus_norms, 1e-8)

	# Pre-calculate indices for each type for faster filtering
	case_indices = [i for i, m in enumerate(mapping) if m["type"] == "case"]
	leg_indices = [i for i, m in enumerate(mapping) if m["type"] == "legislation"]

	case_embeddings = corpus_embeddings_normalized[case_indices]
	leg_embeddings = corpus_embeddings_normalized[leg_indices]

	print(f"✅ Loaded {len(cases)} clinical cases and {len(legislation)} legislation sections.")


	def decode_embedding(b64_string):
	"""Decode a base64-encoded int8 embedding to float32."""
	return np.frombuffer(base64.b64decode(b64_string), dtype=np.int8).astype(np.float32)


	def format_nursing_reasoning(reasoning):
	"""Format the nursing_reasoning dictionary into readable markdown."""
	if not isinstance(reasoning, dict):
	return str(reasoning)

	output = ""
	if "Differential Diagnosis" in reasoning:
	output += f"Differential Diagnosis:\n{reasoning['Differential Diagnosis']}\n\n"
	if "Diagnostic Tests" in reasoning:
	output += f"Diagnostic Tests:\n{reasoning['Diagnostic Tests']}\n\n"
	if "Management Plan" in reasoning:
	output += f"Management Plan:\n{reasoning['Management Plan']}\n\n"
	if "Underlying Mechanism" in reasoning:
	output += f"Underlying Mechanism:\n{reasoning['Underlying Mechanism']}\n\n"
	if "Relevant Medications" in reasoning:
	output += f"Relevant Medications:\n{reasoning['Relevant Medications']}\n\n"
	return output


	def perform_search(api_key, query, top_k, search_type):
	"""Perform actual semantic search using the Perplexity API."""
	if not api_key or not api_key.strip():
	return "⚠️ Please enter your Perplexity API Key above.", ""

	if not query or not query.strip():
	return "Please enter a clinical presentation or legal query.", ""

	try:
	# Embed the query
	client = Perplexity(api_key=api_key.strip())
	response = client.embeddings.create(
	input=[query],
	model=MODEL_NAME
	)
	query_embedding = decode_embedding(response.data[0].embedding)

	# Normalize query
	query_norm = np.linalg.norm(query_embedding)
	query_embedding_normalized = query_embedding / max(query_norm, 1e-8)

	output = f"### 🔍 Results for: \"{query}\"\n\n---\n"
	cost_str = ""

	if hasattr(response, 'usage') and response.usage:
	cost_str = f"API Cost: ${response.usage.cost.total_cost:.6f}"

	if search_type == "case":
	# Match against Clinical Cases
	similarities = np.dot(case_embeddings, query_embedding_normalized)
	top_k_indices = np.argsort(similarities)[-top_k:][::-1]

	for i, local_idx in enumerate(top_k_indices):
	score = similarities[local_idx]
	global_idx = case_indices[local_idx]
	case_item = cases[mapping[global_idx]["source_idx"]]

	vignette = case_item.get("original_vignette", "")
	reasoning = case_item.get("nursing_reasoning", {})
	case_id = case_item.get("id", "Unknown")

	output += f"#### Result {i+1} — Relevance: {score:.3f} (Case #{case_id})\n"
	output += f"Patient Presentation:\n> {vignette}\n\n"
	output += f"<details><summary><b>View Nursing Reasoning</b></summary>\n\n"
	output += f"{format_nursing_reasoning(reasoning)}\n</details>\n\n---\n"

	else:
	# Match against Legislation
	similarities = np.dot(leg_embeddings, query_embedding_normalized)
	top_k_indices = np.argsort(similarities)[-top_k:][::-1]

	for i, local_idx in enumerate(top_k_indices):
	score = similarities[local_idx]
	global_idx = leg_indices[local_idx]
	leg_item = legislation[mapping[global_idx]["source_idx"]]

	title = leg_item.get("title", "")
	leg_id = leg_item.get("legislation_id", "")
	text = leg_item.get("text", "")

	output += f"#### Result {i+1} — Relevance: {score:.3f} (Act: {leg_id})\n"
	output += f"⚖️ {title}\n\n"
	output += f"{text}\n\n---\n"

	return output, cost_str

	except Exception as e:
	error_msg = str(e)
	if "401" in error_msg or "auth" in error_msg.lower():
	return "❌ Invalid API Key. Check your key and try again.", ""
	return f"❌ Error: {error_msg}", ""


	def search_cases(api_key, query, top_k):
	return perform_search(api_key, query, top_k, search_type="case")

	def search_legislation(api_key, query, top_k):
	return perform_search(api_key, query, top_k, search_type="legislation")


	# ─── Gradio UI ───────────────────────────────────────────────────
	with gr.Blocks(title="NurseLex-Match") as app:
	gr.Markdown(
	"""
	# 🩺 NurseLex-Match
	### Clinical Case Similarity & Legal Lookup
	Powered by Perplexity Embeddings (`pplx-embed-v1-0.6b`)

	Retrieve similar historical cases from the NurseReason-Dataset or search UK nursing law in NurseLex.
	"""
	)

	with gr.Accordion("🔑 API Key (BYOK — Bring Your Own Key)", open=True):
	gr.Markdown(
	"Your key is never stored — it is used only for this session to query the embeddings API. "
	)
	api_key_input = gr.Textbox(
	label="Perplexity API Key",
	placeholder="pplx-...",
	type="password",
	lines=1
	)
	api_cost = gr.Markdown("API Cost: $0.000000")

	with gr.Tabs():
	# TAB 1: Clinical Cases
	with gr.TabItem("🏥 Clinical Case Matcher"):
	with gr.Row():
	with gr.Column(scale=3):
	case_search_input = gr.Textbox(
	label="Describe the patient presentation:",
	placeholder="e.g., 72-year-old presenting with acute confusion and suspected UTI...",
	lines=3
	)
	with gr.Column(scale=1):
	case_top_k = gr.Slider(minimum=1, maximum=10, step=1, value=3, label="Results")
	case_search_btn = gr.Button("🔍 Find Similar Cases", variant="primary")

	gr.Examples(
	examples=[
	"Patient is a 45-year-old female complaining of sharp left lower quadrant abdominal pain radiating to the back.",
	"Elderly patient with a history of heart failure presenting with increased shortness of breath and pitting edema.",
	"Post-operative patient day 2 showing signs of infection at the wound site with low-grade fever."
	],
	inputs=case_search_input
	)
	case_results = gr.Markdown("Similar cases will appear here...")

	# TAB 2: Nursing Legislation
	with gr.TabItem("⚖️ Legal Lookup"):
	with gr.Row():
	with gr.Column(scale=3):
	leg_search_input = gr.Textbox(
	label="Describe the legal context or policy question:",
	placeholder="e.g., What are the rules regarding compulsory admission under the Mental Health Act?",
	lines=3
	)
	with gr.Column(scale=1):
	leg_top_k = gr.Slider(minimum=1, maximum=10, step=1, value=3, label="Results")
	leg_search_btn = gr.Button("🔍 Search Legislation", variant="primary")

	gr.Examples(
	examples=[
	"When can a nurse legally refuse to participate in a procedure?",
	"What is the required staffing ratio for an intensive care unit?",
	"Regulations regarding the administration of controlled drugs."
	],
	inputs=leg_search_input
	)
	leg_results = gr.Markdown("Relevant legislation will appear here...")

	# Wire up search events
	case_search_btn.click(
	fn=search_cases,
	inputs=[api_key_input, case_search_input, case_top_k],
	outputs=[case_results, api_cost]
	)
	case_search_input.submit(
	fn=search_cases,
	inputs=[api_key_input, case_search_input, case_top_k],
	outputs=[case_results, api_cost]
	)

	leg_search_btn.click(
	fn=search_legislation,
	inputs=[api_key_input, leg_search_input, leg_top_k],
	outputs=[leg_results, api_cost]
	)
	leg_search_input.submit(
	fn=search_legislation,
	inputs=[api_key_input, leg_search_input, leg_top_k],
	outputs=[leg_results, api_cost]
	)

	if __name__ == "__main__":
	print("Starting NurseLex-Match...")
	app.launch(server_name="0.0.0.0", server_port=7860, ssr_mode=False)