Spaces:
Sleeping
Descrição
Este diretório inclui scripts para a limpeza de conteúdo HTML, extração de informações e conversão para formato JSON. Os scripts são organizados da seguinte forma:
clean_data.py
: Processa arquivos em um diretório chamadodownloaded_files
(adicionado ao.gitignore
por ser muito grande).data2json.py
: Contém funções para extração e conversão de HTML para JSON.html_extraction.py
: Contém funções para limpeza de HTML.
html_extraction.py
Este script abre um arquivo HTML e o limpa seguindo a lógica de tags implementada em todos os sites pertencentes ao domínio Gov.Br: mantém a tag principal id='main' e remove tags internas a este que não contribuem com informações. Ao fim, salva outro arquivo HTML com o conteúdo limpo.
data2json.py
Abre um arquivo HTML e faz busca por imagens, vídeos e arquivos para download ('.pdf', '.docx', '.xlsx', '.pptx'), agrega toda informação em um dicionário e salva em um json. As informações salvas de cada arquivo são as seguintes: nome do arquivo, url do arquivo (relativo ou absoluto), hiperlink (no caso de imagens e textos clicáveis) e alt (texto alternativo).
clean_data.py
Este script caminha recursivamente ao longo do diretório downloaded_files
(adicionado ao .gitignore
). Para cada arquivo, executa as funções de limpeza e extração de informações.
Estrutura do json
{
"name": "Example Media Website",
"url": "https://www.examplemedia.com",
"hyperrefs": [
"https://www.examplemedia.com/about",
"https://www.examplemedia.com/contact"
],
"images": [
{
"name": "Sunset",
"url": "https://www.examplemedia.com/images/sunset.jpg",
"hyperlink": "https://www.examplemedia.com/images/sunset",
"alt": "A beautiful sunset over the ocean"
},
{
"name": "Cityscape",
"url": "https://www.examplemedia.com/images/cityscape.jpg",
"hyperlink": "https://www.examplemedia.com/images/cityscape",
"alt": "Night view of a bustling city from above"
}
],
"videos": [
{
"name": "Mountain Hiking",
"url": "https://www.examplemedia.com/videos/mountain_hiking.mp4",
"hyperlink": "https://www.examplemedia.com/videos/mountain_hiking",
"alt": "A group of hikers climbing a mountain"
},
{
"name": "Underwater Exploration",
"url": "https://www.examplemedia.com/videos/underwater_exploration.mp4",
"hyperlink": "https://www.examplemedia.com/videos/underwater_exploration",
"alt": "Divers exploring a coral reef"
}
],
"text": {
"titles": [
"Welcome to Example Media",
"Latest News"
],
"narrative_texts": [
"Explore the world through our curated content of photos and videos.",
"Stay up-to-date with the latest developments in global news."
]
}
}