Spaces:

OnlyTheTruth03
/

OTT_Bot

Sleeping

App Files Files Community

OnlyTheTruth03 commited on Dec 23, 2025

Commit

0b4e744

1 Parent(s): f6e6c81

ingest fix

Browse files

Files changed (1) hide show

src/ingest.py +49 -23

src/ingest.py CHANGED Viewed

@@ -1,50 +1,76 @@
 # src/ingest.py
 import pickle
-from io import BytesIO
 from pathlib import Path
 import faiss
 from datasets import load_dataset
-from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
-from config import INDEX_DIR, FAISS_INDEX_PATH, DOCS_PATH, DATASET_NAME
-def build_index():
-    INDEX_DIR.mkdir(parents=True, exist_ok=True)
     dataset = load_dataset(DATASET_NAME, split="train")
-    texts = []
-    for row in dataset:
-        pdf_obj = row["pdf"]   # HF auto column name
-        # HF PDF object → bytes
-        pdf_bytes = pdf_obj["bytes"]
-        reader = PdfReader(BytesIO(pdf_bytes))
-        for page in reader.pages:
-            text = page.extract_text()
-            if text:
-                texts.append(text.strip())
-    if not texts:
         raise RuntimeError("❌ No text extracted from PDFs")
-    # Embeddings
-    model = SentenceTransformer("all-MiniLM-L6-v2")
-    embeddings = model.encode(texts, show_progress_bar=True)
-    # FAISS
-    dim = embeddings.shape[1]
     index = faiss.IndexFlatL2(dim)
     index.add(embeddings)
     faiss.write_index(index, str(FAISS_INDEX_PATH))
     with open(DOCS_PATH, "wb") as f:
-        pickle.dump(texts, f)
-    return index, texts

 # src/ingest.py
 import pickle
 from pathlib import Path
 import faiss
+import pdfplumber
 from datasets import load_dataset
 from sentence_transformers import SentenceTransformer
+from config import (
+    DATASET_NAME,
+    FAISS_INDEX_PATH,
+    DOCS_PATH,
+    CHUNK_SIZE,
+    CHUNK_OVERLAP,
+)
+def chunk_text(text: str):
+    chunks = []
+    start = 0
+    while start < len(text):
+        end = start + CHUNK_SIZE
+        chunks.append(text[start:end])
+        start = end - CHUNK_OVERLAP
+    return chunks
+def build_index():
+    print("📥 Loading HF dataset...")
     dataset = load_dataset(DATASET_NAME, split="train")
+    embedder = SentenceTransformer("all-MiniLM-L6-v2")
+    documents = []
+    embeddings = []
+    print(f"📄 Dataset rows: {len(dataset)}")
+    for row_idx, row in enumerate(dataset):
+        pdf_obj = row["pdf"]
+        # ✅ THIS IS THE KEY
+        pdf_path = pdf_obj.path
+        print(f"➡️ Processing PDF {row_idx + 1}: {pdf_path}")
+        with pdfplumber.open(pdf_path) as pdf:
+            for page in pdf.pages:
+                text = page.extract_text()
+                if not text:
+                    continue
+                for chunk in chunk_text(text):
+                    documents.append(chunk)
+                    embeddings.append(embedder.encode(chunk))
+    if not documents:
         raise RuntimeError("❌ No text extracted from PDFs")
+    print(f"🧠 Creating FAISS index with {len(documents)} chunks")
+    dim = len(embeddings[0])
     index = faiss.IndexFlatL2(dim)
     index.add(embeddings)
+    FAISS_INDEX_PATH.parent.mkdir(parents=True, exist_ok=True)
     faiss.write_index(index, str(FAISS_INDEX_PATH))
     with open(DOCS_PATH, "wb") as f:
+        pickle.dump(documents, f)
+    print("✅ FAISS index built successfully")