## Descrição Este diretório inclui scripts para a limpeza de conteúdo HTML, extração de informações e conversão para formato JSON. Os scripts são organizados da seguinte forma: - `clean_data.py`: Processa arquivos em um diretório chamado `downloaded_files` (adicionado ao `.gitignore` por ser muito grande). - `data2json.py`: Contém funções para extração e conversão de HTML para JSON. - `html_extraction.py`: Contém funções para limpeza de HTML. ### html_extraction.py Este script abre um arquivo HTML e o limpa seguindo a lógica de tags implementada em todos os sites pertencentes ao domínio Gov.Br: mantém a tag principal id='main' e remove tags internas a este que não contribuem com informações. Ao fim, salva outro arquivo HTML com o conteúdo limpo. ### data2json.py Abre um arquivo HTML e faz busca por imagens, vídeos e arquivos para download ('.pdf', '.docx', '.xlsx', '.pptx'), agrega toda informação em um dicionário e salva em um json. As informações salvas de cada arquivo são as seguintes: nome do arquivo, url do arquivo (relativo ou absoluto), hiperlink (no caso de imagens e textos clicáveis) e alt (texto alternativo). ### clean_data.py Este script caminha recursivamente ao longo do diretório `downloaded_files` (adicionado ao `.gitignore`). Para cada arquivo, executa as funções de limpeza e extração de informações. ##### Estrutura do json ```json { "name": "Example Media Website", "url": "https://www.examplemedia.com", "hyperrefs": [ "https://www.examplemedia.com/about", "https://www.examplemedia.com/contact" ], "images": [ { "name": "Sunset", "url": "https://www.examplemedia.com/images/sunset.jpg", "hyperlink": "https://www.examplemedia.com/images/sunset", "alt": "A beautiful sunset over the ocean" }, { "name": "Cityscape", "url": "https://www.examplemedia.com/images/cityscape.jpg", "hyperlink": "https://www.examplemedia.com/images/cityscape", "alt": "Night view of a bustling city from above" } ], "videos": [ { "name": "Mountain Hiking", "url": "https://www.examplemedia.com/videos/mountain_hiking.mp4", "hyperlink": "https://www.examplemedia.com/videos/mountain_hiking", "alt": "A group of hikers climbing a mountain" }, { "name": "Underwater Exploration", "url": "https://www.examplemedia.com/videos/underwater_exploration.mp4", "hyperlink": "https://www.examplemedia.com/videos/underwater_exploration", "alt": "Divers exploring a coral reef" } ], "text": { "titles": [ "Welcome to Example Media", "Latest News" ], "narrative_texts": [ "Explore the world through our curated content of photos and videos.", "Stay up-to-date with the latest developments in global news." ] } } ```