Spaces:

Abhishek-D7
/

Voice_Assistant-Real_Estate

Runtime error

App Files Files Community

Abhishek-D7 commited on Jun 17

Commit

6fd5732

verified ·

1 Parent(s): 836c1ba

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -27

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
-# Voice-Based Real Estate Assistant - Enhanced Version
-# Requirements: faster-whisper, openai, gradio, transformers, torchaudio, langdetect, langchain, langchain-community, langchain-openai, faiss-cpu, datasets
 import gradio as gr
 import torch
@@ -8,17 +10,17 @@ from langdetect import detect
 from transformers import pipeline
 import os
 import traceback
 from langchain.chains import ConversationalRetrievalChain
 from langchain_community.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain_community.vectorstores import FAISS
 from langchain_openai.embeddings import OpenAIEmbeddings
-from langchain_community.document_loaders import TextLoader
 from langchain.text_splitter import CharacterTextSplitter
-from datasets import load_dataset
 import numpy as np
-# SETUP
 openai_api_key = os.getenv("OPENAI_API_KEY")
 # STT model
@@ -34,29 +36,28 @@ tts_models = {
 llm = ChatOpenAI(api_key=openai_api_key, model="gpt-3.5-turbo")
 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
-# Load small FAQ dataset for RAG
-faq_text = """
-Q: What is the average price of a 2BHK in Delhi?
-A: The average price is around ₹60–80 lakhs depending on the location.
-Q: Do builders offer possession-linked plans?
-A: Yes, many real estate projects offer possession-linked payment plans.
-Q: Are Noida Extension flats RERA approved?
-A: Most ongoing projects are RERA approved but always verify on the RERA website.
-"""
-loader = TextLoader("faq.txt")
-with open("faq.txt", "w") as f:
-    f.write(faq_text)
-documents = loader.load()
-text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=0)
-docs = text_splitter.split_documents(documents)
-embeddings = OpenAIEmbeddings(api_key=openai_api_key)
-vectorstore = FAISS.from_documents(docs, embeddings)
 retriever = vectorstore.as_retriever()
 qa_chain = ConversationalRetrievalChain.from_llm(llm, retriever, memory=memory)
-#FUNCTIONS
 def transcribe_audio(audio_path):
     try:
         segments, _ = asr_model.transcribe(audio_path, beam_size=5)
@@ -107,7 +108,7 @@ def full_pipeline(audio):
         return transcription, reply, None
     return transcription, reply, tts_audio
-# GRADIO UI
 with gr.Blocks() as demo:
     gr.Markdown("# 🏠 Voice-Based Real Estate Assistant (Hindi + English)")
@@ -115,7 +116,7 @@ with gr.Blocks() as demo:
         audio_input = gr.Audio(type="filepath", label="🎤 Speak your real estate question")
     with gr.Row():
-        transcribed_text = gr.Textbox(label="📝 Transcription")
         llm_reply = gr.Textbox(label="🤖 Assistant's Reply")
     audio_output = gr.Audio(label="🔊 Assistant's Voice")
@@ -125,3 +126,4 @@ with gr.Blocks() as demo:
 if __name__ == "__main__":
     demo.launch()

+# Voice-Based Real Estate Assistant with Kaggle Dataset Integration
+# Requirements: faster-whisper, openai, gradio, transformers, torchaudio, langdetect,
+# langchain, langchain-community, langchain-openai, faiss-cpu, datasets, pandas
 import gradio as gr
 import torch
 from transformers import pipeline
 import os
 import traceback
+import pandas as pd
 from langchain.chains import ConversationalRetrievalChain
 from langchain_community.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain_community.vectorstores import FAISS
 from langchain_openai.embeddings import OpenAIEmbeddings
+from langchain.docstore.document import Document
 from langchain.text_splitter import CharacterTextSplitter
 import numpy as np
+# ---- SETUP ----
 openai_api_key = os.getenv("OPENAI_API_KEY")
 # STT model
 llm = ChatOpenAI(api_key=openai_api_key, model="gpt-3.5-turbo")
 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
+# ---- LOAD OR BUILD VECTORSTORE ----
+INDEX_PATH = "db/real_estate_index"
+if os.path.exists(INDEX_PATH):
+    vectorstore = FAISS.load_local(INDEX_PATH, OpenAIEmbeddings(api_key=openai_api_key))
+else:
+    df = pd.read_csv("real_estate_data.csv")
+    df.dropna(subset=["Property Title", "Description"], inplace=True)
+    docs = []
+    for _, row in df.iterrows():
+        content = f"Title: {row['Property Title']}\nPrice: {row['Price']}\nLocation: {row['Location']}\nArea: {row['Total Area']}\nDescription: {row['Description']}"
+        docs.append(Document(page_content=content))
+    text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    chunks = text_splitter.split_documents(docs)
+    embeddings = OpenAIEmbeddings(api_key=openai_api_key)
+    vectorstore = FAISS.from_documents(chunks, embeddings)
+    vectorstore.save_local(INDEX_PATH)
 retriever = vectorstore.as_retriever()
 qa_chain = ConversationalRetrievalChain.from_llm(llm, retriever, memory=memory)
+# ---- FUNCTIONS ----
 def transcribe_audio(audio_path):
     try:
         segments, _ = asr_model.transcribe(audio_path, beam_size=5)
         return transcription, reply, None
     return transcription, reply, tts_audio
+# ---- GRADIO UI ----
 with gr.Blocks() as demo:
     gr.Markdown("# 🏠 Voice-Based Real Estate Assistant (Hindi + English)")
         audio_input = gr.Audio(type="filepath", label="🎤 Speak your real estate question")
     with gr.Row():
+        transcribed_text = gr.Textbox(label="📜 Transcription")
         llm_reply = gr.Textbox(label="🤖 Assistant's Reply")
     audio_output = gr.Audio(label="🔊 Assistant's Voice")
 if __name__ == "__main__":
     demo.launch()
+Update app.py