Spaces:

DataEyond
/

Agentic-Service-Data-Eyond

Sleeping

Rifqi Hafizuddin commited on 20 days ago

Commit

8218650

1 Parent(s): ac6b78d

[KM-507] add changes to methods

Files changed (3) hide show

src/db/postgres/init_db.py CHANGED Viewed

@@ -29,6 +29,26 @@ async def init_db():
             "ALTER TABLE rooms ADD COLUMN IF NOT EXISTS status VARCHAR NOT NULL DEFAULT 'active'"
         ))
         # GIN index for FTS on schema chunks — only created if table exists
         # (langchain_pg_embedding is created by PGVector on first use, not by create_all)
         await conn.execute(text("""

             "ALTER TABLE rooms ADD COLUMN IF NOT EXISTS status VARCHAR NOT NULL DEFAULT 'active'"
         ))
+        # HNSW index for fast approximate vector similarity search
+        # Only created when the embedding column has explicit dimensions (HNSW requirement).
+        # atttypmod > 0 means the vector column was created with a dimension (e.g. vector(1536));
+        # atttypmod = -1 means dimensionless — HNSW would fail with "column does not have dimensions".
+        await conn.execute(text("""
+            DO $$
+            BEGIN
+                IF EXISTS (
+                    SELECT FROM pg_attribute a
+                    JOIN pg_class c ON c.oid = a.attrelid
+                    WHERE c.relname = 'langchain_pg_embedding'
+                      AND a.attname = 'embedding'
+                      AND a.atttypmod > 0
+                ) THEN
+                    CREATE INDEX IF NOT EXISTS idx_langchain_pg_embedding_hnsw
+                    ON langchain_pg_embedding USING hnsw (embedding vector_cosine_ops);
+                END IF;
+            END $$
+        """))
         # GIN index for FTS on schema chunks — only created if table exists
         # (langchain_pg_embedding is created by PGVector on first use, not by create_all)
         await conn.execute(text("""

src/rag/retrievers/schema.py CHANGED Viewed

@@ -19,11 +19,11 @@ from src.rag.base import BaseRetriever, RetrievalResult
 logger = get_logger("schema_retriever")
-_SCORE_THRESHOLD = 0.60  # cosine distance — discard above this value (score < 0.40)
 _TABULAR_FILE_TYPES = ("csv", "xlsx")
 Strategy = Literal["dense", "dense_no_threshold", "mmr", "hybrid", "hybrid_bm25"]
-ACTIVE_STRATEGY: Strategy = "hybrid_bm25"
 class SchemaRetriever(BaseRetriever):
@@ -171,11 +171,18 @@ class SchemaRetriever(BaseRetriever):
         for ranked in ranked_lists:
             for rank, result in enumerate(ranked):
-                key = result.content[:120]
                 scores[key] = scores.get(key, 0.0) + 1.0 / (k_rrf + rank + 1)
-                index[key] = result
-        merged = sorted(index.values(), key=lambda r: scores[r.content[:120]], reverse=True)
         return merged[:top_k]
     def _dedup(self, results: list[RetrievalResult]) -> list[RetrievalResult]:

 logger = get_logger("schema_retriever")
+_SCORE_THRESHOLD = 0.75  # cosine distance — discard above this value (score < 0.25)
 _TABULAR_FILE_TYPES = ("csv", "xlsx")
 Strategy = Literal["dense", "dense_no_threshold", "mmr", "hybrid", "hybrid_bm25"]
+ACTIVE_STRATEGY: Strategy = "dense_no_threshold"
 class SchemaRetriever(BaseRetriever):
         for ranked in ranked_lists:
             for rank, result in enumerate(ranked):
+                data = result.metadata.get("data", {})
+                key = (data.get("table_name"), data.get("column_name") or data.get("filename"))
                 scores[key] = scores.get(key, 0.0) + 1.0 / (k_rrf + rank + 1)
+                # prefer the result with a real cosine score (dense leg) over ts_rank (FTS leg)
+                if key not in index or result.score > index[key].score:
+                    index[key] = result
+        def _key(r: RetrievalResult) -> tuple:
+            d = r.metadata.get("data", {})
+            return (d.get("table_name"), d.get("column_name") or d.get("filename"))
+        merged = sorted(index.values(), key=lambda r: scores[_key(r)], reverse=True)
         return merged[:top_k]
     def _dedup(self, results: list[RetrievalResult]) -> list[RetrievalResult]:

src/rag/router.py CHANGED Viewed

@@ -38,7 +38,7 @@ class RetrievalRouter:
         query: str,
         user_id: str,
         source_hint: SourceHint = "both",
-        k: int = 5,
     ) -> list[RetrievalResult]:
         redis = await get_redis()
         query_hash = hashlib.md5(query.encode()).hexdigest()

         query: str,
         user_id: str,
         source_hint: SourceHint = "both",
+        k: int = 10,
     ) -> list[RetrievalResult]:
         redis = await get_redis()
         query_hash = hashlib.md5(query.encode()).hexdigest()