Spaces:

Eurico149
/

LangChain-POC

Paused

VIRTUS commited on 16 days ago

Commit

030d3cf

1 Parent(s): d45fd05

feat: chaging router model, create s3 access file

Files changed (9) hide show

.gitignore CHANGED Viewed

@@ -2,4 +2,5 @@
 .idea/
 data/
 vector_stores/
-*/__pycache__/

 .idea/
 data/
 vector_stores/
+*/__pycache__/
+.env

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import gradio as gr
 from langchain.agents import create_agent
 from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
 from langgraph.checkpoint.memory import InMemorySaver
 class GradioAgent:
@@ -17,15 +18,13 @@ class GradioAgent:
         )
         with gr.Blocks() as demo:
-            with gr.Sidebar():
-                gr.LoginButton()
             chatbot.render()
         demo.launch()
     def __create_agent(self):
         hf_model = HuggingFaceEndpoint(
-            repo_id="meta-llama/Llama-3.1-8B-Instruct",
             task="text-generation",
             provider="auto",
             huggingfacehub_api_token=os.getenv("HF_TOKEN")
@@ -35,7 +34,8 @@ class GradioAgent:
         return create_agent(
             tools=[],
             model=llm,
-            checkpointer=InMemorySaver()
         )
     def _respond(
@@ -53,5 +53,6 @@ class GradioAgent:
 if __name__ == "__main__":
     gradio = GradioAgent()
     gradio.inicialize()

 from langchain.agents import create_agent
 from langchain_huggingface import HuggingFaceEndpoint, ChatHuggingFace
 from langgraph.checkpoint.memory import InMemorySaver
+from dotenv import load_dotenv
 class GradioAgent:
         )
         with gr.Blocks() as demo:
             chatbot.render()
         demo.launch()
     def __create_agent(self):
         hf_model = HuggingFaceEndpoint(
+            repo_id="Qwen/Qwen3-30B-A3B-Instruct-2507",
             task="text-generation",
             provider="auto",
             huggingfacehub_api_token=os.getenv("HF_TOKEN")
         return create_agent(
             tools=[],
             model=llm,
+            checkpointer=InMemorySaver(),
+            system_prompt="You are a helpful and usefull assistant."
         )
     def _respond(
 if __name__ == "__main__":
+    load_dotenv()
     gradio = GradioAgent()
     gradio.inicialize()

rag/BooksRag.py ADDED Viewed

	@@ -0,0 +1 @@


1	+

rag/PDFRag.py DELETED Viewed

@@ -1,40 +0,0 @@
-from langchain_community.document_loaders import PyPDFLoader
-from langchain_huggingface import HuggingFaceEmbeddings
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-from langchain_chroma import Chroma
-class PDFRag:
-    def __init__(self, vs_path: str, embedding_model: str):
-        self.embedding = HuggingFaceEmbeddings(
-            model_name=embedding_model
-        )
-        self.vector_store = Chroma(
-            collection_name="pdf",
-            embedding_function=self.embedding,
-            persist_directory=vs_path,
-        )
-    def add(self, pdf_path: str):
-        loader = PyPDFLoader(pdf_path)
-        docs = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=1000,
-            chunk_overlap=200,
-            add_start_index=True
-        )
-        all_splits = text_splitter.split_documents(docs)
-        return self.vector_store.add_documents(documents=all_splits)
-if __name__ == "__main__":
-    pdf_rag = PDFRag(
-        "../vector_stores/",
-        "sentence-transformers/all-mpnet-base-v2"
-    )
-    aux = pdf_rag.add("../data/Designing_Data-Intensive_Applications.pdf")
-    print(aux)

rag/__init__.py CHANGED Viewed

	@@ -1 +1 @@
1	- from .~~PDFRag~~ import ~~PDFRag~~


1	+ from .BooksRag import *

requirements.txt CHANGED Viewed

@@ -8,6 +8,8 @@ attrs==25.4.0
 Authlib==1.6.5
 backoff==2.2.1
 bcrypt==5.0.0
 Brotli==1.1.0
 build==1.3.0
 cachetools==6.2.1
@@ -47,6 +49,7 @@ importlib_metadata==8.7.0
 importlib_resources==6.5.2
 itsdangerous==2.2.0
 Jinja2==3.1.6
 joblib==1.5.2
 jsonpatch==1.33
 jsonpointer==3.0.0
@@ -130,6 +133,7 @@ rich==14.2.0
 rpds-py==0.27.1
 rsa==4.9.1
 ruff==0.14.0
 safehttpx==0.1.6
 safetensors==0.6.2
 scikit-learn==1.7.2

 Authlib==1.6.5
 backoff==2.2.1
 bcrypt==5.0.0
+boto3==1.40.57
+botocore==1.40.57
 Brotli==1.1.0
 build==1.3.0
 cachetools==6.2.1
 importlib_resources==6.5.2
 itsdangerous==2.2.0
 Jinja2==3.1.6
+jmespath==1.0.1
 joblib==1.5.2
 jsonpatch==1.33
 jsonpointer==3.0.0
 rpds-py==0.27.1
 rsa==4.9.1
 ruff==0.14.0
+s3transfer==0.14.0
 safehttpx==0.1.6
 safetensors==0.6.2
 scikit-learn==1.7.2

tools/CCBooksToolAgent.py DELETED Viewed

@@ -1,31 +0,0 @@
-from langchain.chains.retrieval_qa.base import RetrievalQA
-from langchain_huggingface import HuggingFaceEndpoint
-from langchain_core.tools import Tool
-from rag import PDFRag
-def CC_books_rag(hf_token) -> Tool:
-    vector_store = PDFRag(
-        "./vector_stores/",
-        "sentence-transformers/all-mpnet-base-v2"
-    ).vector_store
-    retriever = vector_store.as_retriever(search_kwargs={"k": 3})
-    llm = HuggingFaceEndpoint(
-        repo_id="Qwen/Qwen3-4B-Instruct-2507",
-        task="text-generation",
-        provider="hf-inference",
-        huggingfacehub_api_token=hf_token
-    )
-    retrieval_qa = RetrievalQA.from_chain_type(
-        llm=llm,
-        chain_type="stuff",
-        retriever=retriever,
-        return_source_documents=True
-    )
-    return Tool(
-        name="Computer Science Books KnowledgeBaseSearch",
-        func=lambda q: retrieval_qa.run(q),
-        description="Use this tool when asked about computer science knowledge"
-    )

tools/__init__.py CHANGED Viewed

	@@ -1 +0,0 @@
1	- from .CCBooksToolAgent import CC_books_rag

util/aws/S3Access.py ADDED Viewed

+import boto3
+def retrieve_s3_data(
+        bucket_name: str,
+        prefix: str,
+        access_key: str,
+        secret_key: str,
+        region: str
+):
+    s3 = boto3.client(
+        's3',
+        aws_access_key_id=access_key,
+        aws_secret_access_key=secret_key,
+        region_name=region
+    )
+    objects = s3.list_objects_v2(Bucket=bucket_name, Prefix=prefix)
+    data = []
+    for obj in objects['Contents']:
+        key = obj['Key']
+        if key.endswith('/'):
+            continue
+        content = s3.get_object(Bucket=bucket_name, Key=key)['Body'].read()
+        data.append({
+            "name": key,
+            "content": content
+        })
+    return data