Spaces:

Legislation
/

RAG

Runtime error

App Files Files Community

tjl8 commited on Jul 8, 2025

Commit

60bbe7d

verified ·

1 Parent(s): c134681

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -23

app.py CHANGED Viewed

@@ -87,14 +87,14 @@
 #     df2 = df.copy()
 #     if cat:
 #         df2 = df2[df2['category_&_subcategory_standardized'] == cat]
-#         st.info(f"🔎 Filtering by category: **{cat}**")
 #     if yr:
 #         df2 = df2[df2['status_date'].dt.year == yr]
 #         if mon:
 #             df2 = df2[df2['status_date'].dt.month == mon]
-#             st.info(f"🔎 Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
 #         else:
-#             st.info(f"🔎 Filtering by year: **{yr}**")
 #     if df2.empty:
 #         st.warning("No matching records found.")
@@ -139,7 +139,7 @@ from sklearn.metrics.pairwise import cosine_similarity
 from sklearn.feature_extraction.text import TfidfVectorizer
 from datetime import datetime
-# ------------------ Load Data ------------------ #
 @st.cache_data
 def load_data():
     df = pd.read_csv("Illinois_Entire_Data_Insights_Final_v2.csv")
@@ -150,25 +150,22 @@ def load_data():
     df["summary_insight"] = df["llama_trend_summary"] + "\n" + df["llama_insight"]
     return df
-# ------------------ Load Models ------------------ #
 @st.cache_resource
 def load_models():
     embed_model = SentenceTransformer('all-MiniLM-L6-v2')
     summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
     return embed_model, summarizer
-# ------------------ Compute Embeddings ------------------ #
 @st.cache_data
 def compute_embeddings(texts, _model):
     return _model.encode(texts, show_progress_bar=True)
-# ------------------ Semantic Search ------------------ #
-def semantic_search(query, embeddings, model, threshold=0.5):  # Increased threshold to 0.7
     query_embedding = model.encode([query])
     sims = cosine_similarity(query_embedding, embeddings)[0]
     return [(i, s) for i, s in enumerate(sims) if s > threshold]
-# ------------------ RAG Summarizer ------------------ #
 def rag_summarize(texts, summarizer, top_k=5):
     if not texts:
         return "No relevant content to summarize."
@@ -182,7 +179,6 @@ def rag_summarize(texts, summarizer, top_k=5):
     out = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return out[0]['summary_text']
-# ------------------ Extract Month/Year from Query ------------------ #
 def extract_month_year(q):
     month_map = {m: i for i, m in enumerate(
         ["january", "february", "march", "april", "may", "june",
@@ -193,7 +189,6 @@ def extract_month_year(q):
     yr = int(ym.group()) if ym else None
     return mon, yr
-# ------------------ Topic-Based Matching ------------------ #
 def extract_topic_match(query, df):
     query_lower = query.lower()
     matched_rows = df[
@@ -204,33 +199,29 @@ def extract_topic_match(query, df):
     ]
     return matched_rows
-# ------------------ Streamlit UI ------------------ #
 st.set_page_config(page_title="IL Trends Q&A", layout="wide")
 st.title("Illinois Legislative Trends Q&A")
-st.markdown("Ask about **topics** like education, housing, mental health, higher education, etc.\nAlso supports filtering by **month/year**!")
 df = load_data()
 embed_model, summarizer = load_models()
-query = st.text_input("🔍 Ask a question (e.g., ‘Higher education in 2024’):")
 if query:
-    # Extract filters
     mon, yr = extract_month_year(query)
     df2 = extract_topic_match(query, df)
-    # Fallback to full dataset if nothing found on topic
     if df2.empty:
         df2 = df
-    # Apply year/month filters
     if yr:
         df2 = df2[df2['status_date'].dt.year == yr]
         if mon:
             df2 = df2[df2['status_date'].dt.month == mon]
-            st.info(f"🔎 Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
         else:
-            st.info(f"🔎 Filtering by year: **{yr}**")
     if df2.empty:
         st.warning("No matching records found.")
@@ -254,15 +245,14 @@ if query:
                 stance = row['stance_standardized']
                 trend_summary = row['llama_trend_summary'].strip()
-                st.markdown(f"- ** Date:** {date} | **🔗 Score:** {score:.2f}")
                 st.markdown(f"  - ** Category:** {cat_std}")
                 st.markdown(f"  - ** Goal:** {goal}")
-                st.markdown(f"  - ** Intent:** {intent} | **⚖️ Stance:** {stance}")
                 st.markdown(f"  > ** Trend Summary:** {trend_summary}")
                 collected.append(row['summary_insight'])
-            # RAG Summary
             st.subheader(" RAG-Generated Summary")
             summary = rag_summarize(collected, summarizer)
             st.success(summary)

 #     df2 = df.copy()
 #     if cat:
 #         df2 = df2[df2['category_&_subcategory_standardized'] == cat]
+#         st.info(f"Filtering by category: **{cat}**")
 #     if yr:
 #         df2 = df2[df2['status_date'].dt.year == yr]
 #         if mon:
 #             df2 = df2[df2['status_date'].dt.month == mon]
+#             st.info(f"Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
 #         else:
+#             st.info(f" Filtering by year: **{yr}**")
 #     if df2.empty:
 #         st.warning("No matching records found.")
 from sklearn.feature_extraction.text import TfidfVectorizer
 from datetime import datetime
+# loading data
 @st.cache_data
 def load_data():
     df = pd.read_csv("Illinois_Entire_Data_Insights_Final_v2.csv")
     df["summary_insight"] = df["llama_trend_summary"] + "\n" + df["llama_insight"]
     return df
 @st.cache_resource
 def load_models():
     embed_model = SentenceTransformer('all-MiniLM-L6-v2')
     summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
     return embed_model, summarizer
 @st.cache_data
 def compute_embeddings(texts, _model):
     return _model.encode(texts, show_progress_bar=True)
+def semantic_search(query, embeddings, model, threshold=0.5):
     query_embedding = model.encode([query])
     sims = cosine_similarity(query_embedding, embeddings)[0]
     return [(i, s) for i, s in enumerate(sims) if s > threshold]
 def rag_summarize(texts, summarizer, top_k=5):
     if not texts:
         return "No relevant content to summarize."
     out = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return out[0]['summary_text']
 def extract_month_year(q):
     month_map = {m: i for i, m in enumerate(
         ["january", "february", "march", "april", "may", "june",
     yr = int(ym.group()) if ym else None
     return mon, yr
 def extract_topic_match(query, df):
     query_lower = query.lower()
     matched_rows = df[
     ]
     return matched_rows
 st.set_page_config(page_title="IL Trends Q&A", layout="wide")
 st.title("Illinois Legislative Trends Q&A")
+st.markdown("Ask about trends in **topics** like education, higher education, etc!")
 df = load_data()
 embed_model, summarizer = load_models()
+query = st.text_input(" Ask a question (e.g., ‘trends in Higher education in 2024’):")
 if query:
     mon, yr = extract_month_year(query)
     df2 = extract_topic_match(query, df)
     if df2.empty:
         df2 = df
     if yr:
         df2 = df2[df2['status_date'].dt.year == yr]
         if mon:
             df2 = df2[df2['status_date'].dt.month == mon]
+            st.info(f"Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
         else:
+            st.info(f"Filtering by year: **{yr}**")
     if df2.empty:
         st.warning("No matching records found.")
                 stance = row['stance_standardized']
                 trend_summary = row['llama_trend_summary'].strip()
+                st.markdown(f"- ** Date:** {date} | ** Score:** {score:.2f}")
                 st.markdown(f"  - ** Category:** {cat_std}")
                 st.markdown(f"  - ** Goal:** {goal}")
+                st.markdown(f"  - ** Intent:** {intent} | ** Stance:** {stance}")
                 st.markdown(f"  > ** Trend Summary:** {trend_summary}")
                 collected.append(row['summary_insight'])
             st.subheader(" RAG-Generated Summary")
             summary = rag_summarize(collected, summarizer)
             st.success(summary)