Spaces:

adowu
/

prawnikai

Sleeping

App Files Files Community

adowu commited on 9 days ago

Commit

03c773c

•

1 Parent(s): 4cf9a02

Update database.py

Browse files

Files changed (1) hide show

database.py +26 -24

database.py CHANGED Viewed

@@ -118,44 +118,46 @@ class KodeksProcessor:
         return chunks
     def process_file(self, filepath: str) -> None:
-        logger.info(f"Przetwarzanie pliku: {filepath}")
         try:
             with open(filepath, 'r', encoding='utf-8') as file:
                 content = file.read()
-        except Exception as e:
-            logger.error(f"Błąd podczas odczytu pliku {filepath}: {e}")
-            return
-        header, main_content = self.split_header_and_content(content)
-        metadata = self.extract_metadata(main_content)
-        metadata['filename'] = os.path.basename(filepath)
-        chunks = self.split_into_chunks(main_content, metadata)
-        if chunks:
-            try:
-                logger.debug(f"Próba dodania {len(chunks)} chunków do kolekcji")
                 self.collection.add(
                     documents=[chunk["text"] for chunk in chunks],
                     metadatas=[chunk["metadata"] for chunk in chunks],
                     ids=[f"{metadata['filename']}_{chunk['metadata']['article']}_{i}" for i, chunk in enumerate(chunks)]
                 )
-                logger.debug("Chunki dodane pomyślnie")
-                logger.info(f"Dodano {len(chunks)} chunków z pliku {metadata['filename']}")
-            except Exception as e:
-                logger.error(f"Błąd podczas dodawania chunków do kolekcji: {e}")
-        else:
-            logger.warning(f"Brak chunków do dodania z pliku: {filepath}")
     def process_all_files(self, directory: str) -> None:
         logger.info(f"Rozpoczęcie przetwarzania wszystkich plików w katalogu: {directory}")
-        files = [f for f in os.listdir(directory) if f.endswith('.txt')]
-        logger.info(f"Znaleziono {len(files)} plików .txt")
-        for filename in files:
-            filepath = os.path.join(directory, filename)
-            self.process_file(filepath)
-        logger.info("Zakończono przetwarzanie plików.")
     def verify_data_loading(self):
         count = self.collection.count()

         return chunks
     def process_file(self, filepath: str) -> None:
+        logger.info(f"Rozpoczęcie przetwarzania pliku: {filepath}")
         try:
             with open(filepath, 'r', encoding='utf-8') as file:
                 content = file.read()
+            logger.info(f"Odczytano zawartość pliku: {filepath}")
+            header, main_content = self.split_header_and_content(content)
+            metadata = self.extract_metadata(main_content)
+            metadata['filename'] = os.path.basename(filepath)
+            chunks = self.split_into_chunks(main_content, metadata)
+            logger.info(f"Podzielono plik na {len(chunks)} chunków")
+            if chunks:
                 self.collection.add(
                     documents=[chunk["text"] for chunk in chunks],
                     metadatas=[chunk["metadata"] for chunk in chunks],
                     ids=[f"{metadata['filename']}_{chunk['metadata']['article']}_{i}" for i, chunk in enumerate(chunks)]
                 )
+                logger.info(f"Dodano {len(chunks)} chunków do kolekcji z pliku {metadata['filename']}")
+            else:
+                logger.warning(f"Brak chunków do dodania z pliku: {filepath}")
+        except Exception as e:
+            logger.error(f"Błąd podczas przetwarzania pliku {filepath}: {e}")
     def process_all_files(self, directory: str) -> None:
         logger.info(f"Rozpoczęcie przetwarzania wszystkich plików w katalogu: {directory}")
+        if not os.path.exists(directory):
+            logger.error(f"Katalog {directory} nie istnieje!")
+            return
+        try:
+            files = [f for f in os.listdir(directory) if f.endswith('.txt')]
+            logger.info(f"Znaleziono {len(files)} plików .txt")
+            for filename in files:
+                filepath = os.path.join(directory, filename)
+                logger.info(f"Przetwarzanie pliku: {filepath}")
+                self.process_file(filepath)
+            logger.info("Zakończono przetwarzanie plików.")
+        except Exception as e:
+            logger.error(f"Błąd podczas przetwarzania plików: {e}")
     def verify_data_loading(self):
         count = self.collection.count()