Spaces:

rikki809
/

hackerex

No application file

rikki809 commited on Aug 4

Commit

b7ffe78

1 Parent(s): f5c63d8

first commit

Files changed (8) hide show

Dockerfile ADDED Viewed

+FROM python:3.10-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    build-essential \
+    libglib2.0-0 \
+    libsm6 \
+    libxrender1 \
+    libxext6 \
+    poppler-utils \
+    && rm -rf /var/lib/apt/lists/*
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY . .
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "7860"]

app/core/config.py ADDED Viewed

	@@ -0,0 +1 @@


1	+ URL = "*"

app/main.py ADDED Viewed

+from fastapi import FastAPI
+from fastapi.middleware.cors import CORSMiddleware
+from app.routes.qa import router as qa_router
+from dotenv import load_dotenv
+from app.core.config import URL
+load_dotenv()
+app = FastAPI()
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=[URL],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+app.include_router(qa_router, prefix="/api")

app/models/embeddings.py ADDED Viewed

+from sentence_transformers import SentenceTransformer
+import faiss
+model = SentenceTransformer('all-MiniLM-L6-v2')
+def embed_and_index_chunks(chunks):
+    embeddings = model.encode(chunks, convert_to_numpy=True)
+    index = faiss.IndexFlatL2(embeddings.shape[1])
+    index.add(embeddings)
+    return index, embeddings

app/routes/qa.py ADDED Viewed

+from fastapi import APIRouter, UploadFile, File, Form
+import tempfile
+import shutil
+from app.models.embeddings import embed_and_index_chunks, model
+from app.utils.file_parser import extract_text
+from app.utils.chunking import chunk_text
+import numpy as np
+import os
+import google.generativeai as genai
+from dotenv import load_dotenv
+load_dotenv()
+router = APIRouter()
+genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
+gemini = genai.GenerativeModel("gemini-2.5-pro")
+@router.post("/ask")
+async def ask_doc(file: UploadFile = File(...), query: str = Form(...)):
+    with tempfile.NamedTemporaryFile(delete=False, suffix=f".{file.filename.split('.')[-1]}") as tmp:
+        shutil.copyfileobj(file.file, tmp)
+        tmp_path = tmp.name
+    text = extract_text(tmp_path)
+    chunks = chunk_text(text)
+    index, _ = embed_and_index_chunks(chunks)
+    query_embedding = model.encode([query], convert_to_numpy=True)
+    D, I = index.search(query_embedding, k=3)
+    retrieved_chunks = [chunks[i] for i in I[0]]
+    context = "\n\n".join(retrieved_chunks)
+    prompt = f"""
+    User Query: {query}
+    Relevant Clauses from Document:
+    {context}
+    Based on the above, return a JSON with:
+    - decision (approved/rejected)
+    - amount (if applicable)
+    - justification with referenced clauses
+    """
+    response = gemini.generate_content(prompt)
+    return {"result": response.text}

app/utils/chunking.py ADDED Viewed

+def chunk_text(text, chunk_size=300):
+    sentences = text.split(".")
+    chunks, current = [], ""
+    for s in sentences:
+        if len(current) + len(s) < chunk_size:
+            current += s + "."
+        else:
+            chunks.append(current.strip())
+            current = s + "."
+    if current:
+        chunks.append(current.strip())
+    return chunks

app/utils/file_parser.py ADDED Viewed

+import fitz  # PyMuPDF
+from docx import Document
+def extract_text(file_path: str) -> str:
+    if file_path.endswith(".pdf"):
+        doc = fitz.open(file_path)
+        return "\n".join(page.get_text() for page in doc)
+    elif file_path.endswith(".docx"):
+        doc = Document(file_path)
+        return "\n".join(p.text for p in doc.paragraphs)
+    else:
+        raise ValueError("Unsupported file type")

requirements.txt ADDED Viewed

+fastapi
+uvicorn
+python-multipart
+sentence-transformers==2.2.2
+faiss-cpu
+PyMuPDF
+python-docx
+python-dotenv
+google-generativeai==0.8.5