Spaces:

TharaKavin
/

Web-Rag

Running

TharaKavin commited on 6 days ago

Commit

4a8b2d1

verified ·

1 Parent(s): d7430ac

Upload 6 files

Files changed (6) hide show

embedder.py ADDED Viewed

+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
+class VectorStore:
+    def __init__(self):
+        self.index = None
+        self.chunks = []
+        self.model = None  # lazy load
+    def load_model(self):
+        if self.model is None:
+            print("Loading model...")
+            self.model = SentenceTransformer("all-MiniLM-L6-v2")
+    def create_index(self, chunks):
+        self.load_model()
+        self.chunks = chunks
+        embeddings = self.model.encode(chunks)
+        if len(embeddings.shape) == 1:
+            embeddings = np.array([embeddings])
+        else:
+            embeddings = np.array(embeddings)
+        dim = embeddings.shape[1]
+        self.index = faiss.IndexFlatL2(dim)
+        self.index.add(embeddings)
+    def retrieve(self, query, k=3):
+        self.load_model()
+        query_embedding = self.model.encode([query])
+        if len(query_embedding.shape) == 1:
+            query_embedding = np.array([query_embedding])
+        distances, indices = self.index.search(query_embedding, k)
+        return [self.chunks[i] for i in indices[0]]

gradioui.py ADDED Viewed

+import gradio as gr
+from scraper import scrape_url
+from utils import chunk_text
+from embedder import VectorStore
+from llm import generate_answer
+def rag_pipeline(url, question):
+    try:
+        # 1. Scrape
+        text = scrape_url(url)
+        if not text.strip():
+            return "❌ Failed to extract content. Try another site."
+        # 2. Chunk
+        chunks = chunk_text(text)
+        if len(chunks) == 0:
+            return "❌ No usable content found."
+        # 3. Embed
+        vector_store = VectorStore()
+        vector_store.create_index(chunks)
+        # 4. Retrieve
+        context_chunks = vector_store.retrieve(question)
+        context = "\n".join(context_chunks)
+        # 5. Generate
+        answer = generate_answer(context, question)
+        return answer
+    except Exception as e:
+        return f"❌ Error: {str(e)}"
+iface = gr.Interface(
+    fn=rag_pipeline,
+    inputs=[
+        gr.Textbox(label="🌐 Website URL"),
+        gr.Textbox(label="❓ Ask a Question")
+    ],
+    outputs=gr.Textbox(label="🤖 Answer"),
+    title="🌐 Web RAG Chatbot",
+    description="Ask questions about any website using AI"
+)
+if __name__ == "__main__":
+    iface.launch()

llm.py ADDED Viewed

+from groq import Groq
+import os
+from dotenv import load_dotenv
+load_dotenv()
+client = Groq(api_key=os.getenv("GROQ_API_KEY"))
+def generate_answer(context, question):
+    prompt = f"""
+You are an AI assistant. Answer ONLY from the given context.
+Context:
+{context}
+Question:
+{question}
+"""
+    response = client.chat.completions.create(
+        model="openai/gpt-oss-20b",
+        messages=[{"role": "user", "content": prompt}],
+        temperature=0.3
+    )
+    return response.choices[0].message.content

requirements.txt ADDED Viewed

+gradio
+fastapi
+uvicorn
+scrapling[all]
+sentence-transformers
+faiss-cpu
+groq
+python-multipart
+curl_cffi
+python-dotenv

scraper.py ADDED Viewed

+from scrapling.fetchers import Fetcher
+def scrape_url(url: str) -> str:
+    try:
+        page = Fetcher.get(url)
+        # ✅ Extract text properly
+        texts = page.css("body *::text").getall()
+        # Clean text
+        cleaned = [t.strip() for t in texts if t.strip()]
+        return " ".join(cleaned)
+    except Exception as e:
+        print("SCRAPING ERROR:", e)
+        return ""

utils.py ADDED Viewed

+def chunk_text(text, chunk_size=200):  # smaller chunk
+    words = text.split()
+    if len(words) == 0:
+        return []
+    chunks = []
+    for i in range(0, len(words), chunk_size):
+        chunks.append(" ".join(words[i:i + chunk_size]))
+    return chunks