Spaces:

fracapuano
/

AISandbox

Runtime error

fracapuano commited on Aug 31, 2023

Commit

a96d162

•

1 Parent(s): 11ce856

fix: now also storing the name of the file

Files changed (1) hide show

qa/utils.py CHANGED Viewed

@@ -95,7 +95,7 @@ def get_text_splitter(
     return text_splitter
 @st.cache_data
-def text_to_docs(text: Union[Text, Tuple[Text]]) -> List[Document]:
     """
     Converts a string or frozenset of strings to a list of Documents
     with metadata.
@@ -112,6 +112,8 @@ def text_to_docs(text: Union[Text, Tuple[Text]]) -> List[Document]:
         # Add page numbers as metadata
         for i, doc in enumerate(page_docs):
             doc.metadata["page"] = i + 1
         # Split pages into chunks
         doc_chunks = []
         # Get the text splitter
@@ -122,15 +124,17 @@ def text_to_docs(text: Union[Text, Tuple[Text]]) -> List[Document]:
             chunks = text_splitter.split_text(doc.page_content)
             for i, chunk in enumerate(chunks):
                 # Create a new document for each individual chunk
-                doc = HashDocument(
-                    page_content=chunk, metadata={"page": doc.metadata["page"], "chunk": i}
                 )
                 # Add sources to metadata for retrieval later on
-                doc.metadata["source"] = f"{doc.metadata['page']}-{doc.metadata['chunk']}"
-                doc_chunks.append(doc)
         return doc_chunks
 @st.cache_data
 def embed_docs(_docs: Tuple[Document]) -> VectorStore:

     return text_splitter
 @st.cache_data
+def text_to_docs(text: Union[Text, Tuple[Text]], **kwargs) -> List[Document]:
     """
     Converts a string or frozenset of strings to a list of Documents
     with metadata.
         # Add page numbers as metadata
         for i, doc in enumerate(page_docs):
             doc.metadata["page"] = i + 1
+            doc.metadata["file_name"] = kwargs.get("file_name", "")
         # Split pages into chunks
         doc_chunks = []
         # Get the text splitter
             chunks = text_splitter.split_text(doc.page_content)
             for i, chunk in enumerate(chunks):
                 # Create a new document for each individual chunk
+                new_doc = HashDocument(
+                    page_content=chunk,
+                    metadata={"file_name": doc.metadata["file_name"], "page": doc.metadata["page"], "chunk": i}
                 )
                 # Add sources to metadata for retrieval later on
+                new_doc.metadata["source"] = \
+                    f"{new_doc.metadata['file_name']}/Page-{new_doc.metadata['page']}/Chunk-{new_doc.metadata['chunk']}"
+                doc_chunks.append(new_doc)
         return doc_chunks
 @st.cache_data
 def embed_docs(_docs: Tuple[Document]) -> VectorStore: