Spaces:

NurseCitizenDeveloper
/

nursing-knowledge-base

Running

App Files Files Community

NurseCitizenDeveloper commited on 23 days ago

Commit

2bd80fd

verified ·

1 Parent(s): 5e159ec

Upload streamlit_app.py with huggingface_hub

Browse files

Files changed (1) hide show

streamlit_app.py +48 -4

streamlit_app.py CHANGED Viewed

@@ -20,6 +20,8 @@ try:
 except ImportError:
     _PDF_AVAILABLE = False
 sys.path.insert(0, os.path.dirname(__file__))
 from wiki.starter import get_starter_wiki
 from core.compiler import compile_source, rebuild_index
@@ -143,6 +145,14 @@ def add_or_update_article(article: dict):
     wiki["metadata"]["article_count"] = len(wiki["articles"])
 def extract_pdf_text(file_bytes: bytes) -> tuple[str, int]:
     """Extract all text from a PDF. Returns (text, page_count)."""
     reader = PdfReader(io.BytesIO(file_bytes))
@@ -416,20 +426,51 @@ Large PDFs (100+ pages) are supported; text is extracted from every page automat
         src_title = st.text_input("Source title", placeholder="e.g. NICE NG51 — Sepsis (2016)")
         src_type = st.selectbox("Type", ["Clinical Guideline", "Research Paper", "NMC Document", "NHS Protocol", "Textbook", "Other"])
-        input_method = st.radio("Input method", ["Upload PDF", "Paste text"], horizontal=True)
         src_content = ""
         pdf_meta = None
-        if input_method == "Upload PDF":
             if not _PDF_AVAILABLE:
                 st.error("pypdf not installed — PDF upload unavailable.")
             else:
                 uploaded_pdf = st.file_uploader(
-                    "Upload PDF (up to 500 MB)",
                     type=["pdf"],
                     key="pdf_upload",
-                    help="Text is extracted from every page. Large documents are fully supported.",
                 )
                 if uploaded_pdf is not None:
                     with st.spinner(f"Extracting text from {uploaded_pdf.name}..."):
@@ -445,6 +486,7 @@ Large PDFs (100+ pages) are supported; text is extracted from every page automat
                             st.error(f"PDF extraction failed: {e}")
                     if not src_title and uploaded_pdf:
                         src_title = uploaded_pdf.name.replace(".pdf", "").replace("_", " ")
         else:
             src_content = st.text_area(
                 "Paste text here",
@@ -468,6 +510,8 @@ Large PDFs (100+ pages) are supported; text is extracted from every page automat
                 entry["pdf_size_kb"] = pdf_meta["size_kb"]
             wiki["sources"][src_id] = entry
             log(f"ingest | Added source: {src_title} ({len(src_content):,} chars)")
             st.success(f"Source added: **{src_title}**")
             st.rerun()

 except ImportError:
     _PDF_AVAILABLE = False
+import requests as _requests
 sys.path.insert(0, os.path.dirname(__file__))
 from wiki.starter import get_starter_wiki
 from core.compiler import compile_source, rebuild_index
     wiki["metadata"]["article_count"] = len(wiki["articles"])
+def fetch_pdf_from_url(url: str, timeout: int = 60) -> bytes:
+    """Fetch a PDF from a URL server-side (bypasses HF proxy upload limits)."""
+    headers = {"User-Agent": "NursingKnowledgeBase/1.0 (nursing education tool)"}
+    resp = _requests.get(url, headers=headers, timeout=timeout, stream=True)
+    resp.raise_for_status()
+    return resp.content
 def extract_pdf_text(file_bytes: bytes) -> tuple[str, int]:
     """Extract all text from a PDF. Returns (text, page_count)."""
     reader = PdfReader(io.BytesIO(file_bytes))
         src_title = st.text_input("Source title", placeholder="e.g. NICE NG51 — Sepsis (2016)")
         src_type = st.selectbox("Type", ["Clinical Guideline", "Research Paper", "NMC Document", "NHS Protocol", "Textbook", "Other"])
+        input_method = st.radio(
+            "Input method",
+            ["PDF from URL", "Upload PDF", "Paste text"],
+            horizontal=True,
+            help="Use 'PDF from URL' for large files — the server fetches it directly.",
+        )
         src_content = ""
         pdf_meta = None
+        if input_method == "PDF from URL":
+            st.caption("Paste a direct link to any PDF — NICE guidelines, NMC documents, research papers, etc. The server fetches it, so there is no size limit.")
+            pdf_url = st.text_input(
+                "PDF URL",
+                placeholder="https://www.nice.org.uk/guidance/ng51/resources/sepsis-pdf-...",
+                key="pdf_url",
+            )
+            if pdf_url and st.button("Fetch & Extract", key="fetch_pdf"):
+                with st.spinner("Fetching PDF from URL..."):
+                    try:
+                        raw_bytes = fetch_pdf_from_url(pdf_url)
+                        extracted, page_count = extract_pdf_text(raw_bytes)
+                        src_content = extracted
+                        pdf_meta = {"pages": page_count, "size_kb": len(raw_bytes) // 1024}
+                        st.session_state["fetched_pdf_content"] = extracted
+                        st.session_state["fetched_pdf_meta"] = pdf_meta
+                        st.success(f"Fetched {page_count} pages / {len(extracted):,} characters")
+                        with st.expander("Preview extracted text"):
+                            st.text(extracted[:1500] + ("..." if len(extracted) > 1500 else ""))
+                    except Exception as e:
+                        st.error(f"Fetch failed: {e}")
+            # Persist fetched content across reruns
+            if not src_content and st.session_state.get("fetched_pdf_content"):
+                src_content = st.session_state["fetched_pdf_content"]
+                pdf_meta = st.session_state.get("fetched_pdf_meta")
+        elif input_method == "Upload PDF":
             if not _PDF_AVAILABLE:
                 st.error("pypdf not installed — PDF upload unavailable.")
             else:
+                st.caption("For large PDFs (>50 MB) use 'PDF from URL' instead — HF Spaces limits browser uploads.")
                 uploaded_pdf = st.file_uploader(
+                    "Upload PDF",
                     type=["pdf"],
                     key="pdf_upload",
                 )
                 if uploaded_pdf is not None:
                     with st.spinner(f"Extracting text from {uploaded_pdf.name}..."):
                             st.error(f"PDF extraction failed: {e}")
                     if not src_title and uploaded_pdf:
                         src_title = uploaded_pdf.name.replace(".pdf", "").replace("_", " ")
         else:
             src_content = st.text_area(
                 "Paste text here",
                 entry["pdf_size_kb"] = pdf_meta["size_kb"]
             wiki["sources"][src_id] = entry
             log(f"ingest | Added source: {src_title} ({len(src_content):,} chars)")
+            st.session_state.pop("fetched_pdf_content", None)
+            st.session_state.pop("fetched_pdf_meta", None)
             st.success(f"Source added: **{src_title}**")
             st.rerun()