Restodecoca commited on
Commit
976a01e
·
verified ·
1 Parent(s): cce84dc

Add the num_workers parameter to the load_data function to enable multiprocessing when loading documents.

Browse files

Adicionado o parâmetro num_workers à função load_data para permitir o uso de multiprocessamento no carregamento de documentos. Isso também ajudará a acelerar o processamento quando um pipeline for adicionado posteriormente para validação de dados com o Pydantic. Foi observado que o tempo de carregamento dos documentos foi até 20 segundos mais rápido ao utilizar 6 'workers' (cores).

Files changed (1) hide show
  1. app.py +2 -1
app.py CHANGED
@@ -383,13 +383,14 @@ else:
383
  # Caso contrário, apenas reutilizamos o que já existe.
384
  if "docstore" not in st.session_state:
385
  # Carregar documentos do diretório local
 
386
  file_extractor = {".csv": CustomPandasCSVReader()}
387
  documents = SimpleDirectoryReader(
388
  input_dir=documents_path,
389
  file_extractor=file_extractor,
390
  filename_as_id=True,
391
  recursive=True
392
- ).load_data()
393
 
394
  documents = clean_documents(documents)
395
 
 
383
  # Caso contrário, apenas reutilizamos o que já existe.
384
  if "docstore" not in st.session_state:
385
  # Carregar documentos do diretório local
386
+ count_cores = os.cpu_count()
387
  file_extractor = {".csv": CustomPandasCSVReader()}
388
  documents = SimpleDirectoryReader(
389
  input_dir=documents_path,
390
  file_extractor=file_extractor,
391
  filename_as_id=True,
392
  recursive=True
393
+ ).load_data(num_workers=count_cores)
394
 
395
  documents = clean_documents(documents)
396