Spaces:

ramortegui
/

shakespeare_qa

Paused

ramortegui commited on May 28, 2023

Commit

59277db

•

1 Parent(s): 82468e8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,15 +8,24 @@ from transformers import AutoTokenizer
 bshtml_dir_loader = DirectoryLoader('./data/', loader_cls=BSHTMLLoader)
 data = bshtml_dir_loader.load()
 bloomz_tokenizer = AutoTokenizer.from_pretrained("bigscience/bloomz-1b7")
 text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(bloomz_tokenizer,
                                                    chunk_size=100,
                                                    chunk_overlap=0,
                                                    separator="\n")
 documents = text_splitter.split_documents(data)
 embeddings = HuggingFaceEmbeddings()
 llm = HuggingFacePipeline.from_model_id(
@@ -24,12 +33,24 @@ llm = HuggingFacePipeline.from_model_id(
         task="text-generation",
         model_kwargs={"temperature" : 0, "max_length" : 500})
 vectordb = Chroma.from_documents(documents=documents, embedding=embeddings)
 doc_retriever = vectordb.as_retriever()
 shakespeare_qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=doc_retriever)
 def query(query):
     shakespeare_qa.run(query)
 iface = gr.Interface(fn=query, inputs="text", outputs="text")
 iface.launch()

 bshtml_dir_loader = DirectoryLoader('./data/', loader_cls=BSHTMLLoader)
 data = bshtml_dir_loader.load()
+print("loading documents")
 bloomz_tokenizer = AutoTokenizer.from_pretrained("bigscience/bloomz-1b7")
+print("add tokenizer")
 text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(bloomz_tokenizer,
                                                    chunk_size=100,
                                                    chunk_overlap=0,
                                                    separator="\n")
+print("Add text spliters")
 documents = text_splitter.split_documents(data)
+print("Getting HF embeddings")
 embeddings = HuggingFaceEmbeddings()
 llm = HuggingFacePipeline.from_model_id(
         task="text-generation",
         model_kwargs={"temperature" : 0, "max_length" : 500})
+print("Adding LLM hugginFacePipeline with bigscience bloomz")
 vectordb = Chroma.from_documents(documents=documents, embedding=embeddings)
+print("Getting vectors")
 doc_retriever = vectordb.as_retriever()
+print("Creating Retreiver")
 shakespeare_qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=doc_retriever)
+print("Add shakespeare qa")
 def query(query):
     shakespeare_qa.run(query)
 iface = gr.Interface(fn=query, inputs="text", outputs="text")
 iface.launch()