Spaces:

laiaaron
/

WEHI_Student_Organiser_RAG_LLM

Sleeping

aklai commited on 17 days ago

Commit

29616b4

1 Parent(s): 4629373

Update space

Files changed (2) hide show

app.py CHANGED Viewed

@@ -5,23 +5,29 @@ from datasets import load_dataset
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_ollama.llms import OllamaLLM
-from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
-#from langchain import hub
 from langchain_core.runnables import RunnableParallel
 from langchain_core.runnables import RunnablePassthrough
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_chroma import Chroma
-"""
-For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
-"""
-llm = HuggingFacePipeline.from_model_id(
-    model_id="meta-llama/Llama-3.2-3B",
-    task="text-generation",
-    pipeline_kwargs={"max_new_tokens": 10},
 )
@@ -55,10 +61,10 @@ qa_chain_with_sources = (
 # Function to call a RAG LLM query
 def rag_query(query, history):
     # Invoke the chain
-    r = qa_chain_with_sources.invoke(query)
-    answer = r["answer"]
-    unique_sources = list(set(r["sources"]))
     # Print answers + sources
     output = f"Answer: {answer}\n\nSources:\n" + "\n".join(unique_sources)

 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_ollama.llms import OllamaLLM
 from langchain_core.runnables import RunnableParallel
 from langchain_core.runnables import RunnablePassthrough
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_chroma import Chroma
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
+# Load the model and tokenizer
+MODEL = "llmware/bling-phi-3-gguf"
+tokenizer = AutoTokenizer.from_pretrained(MODEL)
+model = AutoModelForCausalLM.from_pretrained(MODEL)
+# Create a pipeline
+from transformers import pipeline
+pipe = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    torch_dtype=torch.float16,
+    device_map="auto",
 )
 # Function to call a RAG LLM query
 def rag_query(query, history):
     # Invoke the chain
+    response = qa_chain_with_sources.invoke(query)
+    answer = response["answer"]
+    unique_sources = list(set(response["sources"]))
     # Print answers + sources
     output = f"Answer: {answer}\n\nSources:\n" + "\n".join(unique_sources)

requirements.txt CHANGED Viewed

@@ -7,8 +7,7 @@ chromadb
 ollama
 sentence-transformers
 langchain-huggingface
-langchain-ollama
 chromadb
-pypdf
-bs4
 langchain-chroma

 ollama
 sentence-transformers
 langchain-huggingface
 chromadb
 langchain-chroma
+torch
+transformers