dauid64's picture
adicionando arquivos completos para funcionar o agente
d5116f8

Descrição

Este diretório inclui scripts para a limpeza de conteúdo HTML, extração de informações e conversão para formato JSON. Os scripts são organizados da seguinte forma:

  • clean_data.py: Processa arquivos em um diretório chamado downloaded_files (adicionado ao .gitignore por ser muito grande).
  • data2json.py: Contém funções para extração e conversão de HTML para JSON.
  • html_extraction.py: Contém funções para limpeza de HTML.

html_extraction.py

Este script abre um arquivo HTML e o limpa seguindo a lógica de tags implementada em todos os sites pertencentes ao domínio Gov.Br: mantém a tag principal id='main' e remove tags internas a este que não contribuem com informações. Ao fim, salva outro arquivo HTML com o conteúdo limpo.

data2json.py

Abre um arquivo HTML e faz busca por imagens, vídeos e arquivos para download ('.pdf', '.docx', '.xlsx', '.pptx'), agrega toda informação em um dicionário e salva em um json. As informações salvas de cada arquivo são as seguintes: nome do arquivo, url do arquivo (relativo ou absoluto), hiperlink (no caso de imagens e textos clicáveis) e alt (texto alternativo).

clean_data.py

Este script caminha recursivamente ao longo do diretório downloaded_files (adicionado ao .gitignore). Para cada arquivo, executa as funções de limpeza e extração de informações.

Estrutura do json
{
  "name": "Example Media Website",
  "url": "https://www.examplemedia.com",
  "hyperrefs": [
    "https://www.examplemedia.com/about",
    "https://www.examplemedia.com/contact"
  ],
  "images": [
    {
      "name": "Sunset",
      "url": "https://www.examplemedia.com/images/sunset.jpg",
      "hyperlink": "https://www.examplemedia.com/images/sunset",
      "alt": "A beautiful sunset over the ocean"
    },
    {
      "name": "Cityscape",
      "url": "https://www.examplemedia.com/images/cityscape.jpg",
      "hyperlink": "https://www.examplemedia.com/images/cityscape",
      "alt": "Night view of a bustling city from above"
    }
  ],
  "videos": [
    {
      "name": "Mountain Hiking",
      "url": "https://www.examplemedia.com/videos/mountain_hiking.mp4",
      "hyperlink": "https://www.examplemedia.com/videos/mountain_hiking",
      "alt": "A group of hikers climbing a mountain"
    },
    {
      "name": "Underwater Exploration",
      "url": "https://www.examplemedia.com/videos/underwater_exploration.mp4",
      "hyperlink": "https://www.examplemedia.com/videos/underwater_exploration",
      "alt": "Divers exploring a coral reef"
    }
  ],
  "text": {
    "titles": [
      "Welcome to Example Media",
      "Latest News"
    ],
    "narrative_texts": [
      "Explore the world through our curated content of photos and videos.",
      "Stay up-to-date with the latest developments in global news."
    ]
  }
}