bsenst's picture
add colab badges to ipynb, fix typos and minor bugs
e392f4c
---
title: "Webspider"
description: "Eine private Webanwendung zur Extraktion strukturierter Daten von Webseiten mithilfe von Streamlit und Scrapy, einschließlich benutzerdefinierter Scraping-Parameter und Datenexport."
image: _24e522b8-a6d0-4212-a02e-7738b3098105.jpeg
---
## Anleitung
1. **Anwendung aufrufen**:
- Gehen Sie zur [Webspider-Anwendung](https://huggingface.co/spaces/datenwerkzeuge/webspider) auf Hugging Face.
2. **Benutzerdefinierte Scraping-Parameter**:
- Einstellung der maximalen **Tiefe** für die Navigation durch Seiten (Depth Limit).
- Festlegen der **Seitenanzahl**, die maximal durchsucht werden soll (Page Count Limit).
3. **URL-Eingabe**:
- Benutzer können die Start-URL angeben, von der aus das Scraping beginnen soll.
4. **Statusüberprüfung**:
- Informiert, ob der Scraping-Vorgang noch läuft oder abgeschlossen ist.
5. **Datenanzeige und -export**:
- Nach Abschluss des Scraping-Prozesses werden die gesammelten Daten (z. B. URLs, Seitentitel und Inhalte) angezeigt.
- Daten können im JSON-Format heruntergeladen werden.
6. **Scrapy Spider-Integration**:
- Der integrierte Spider navigiert durch die Webseiten, extrahiert Inhalte und folgt internen Links innerhalb derselben Domain.
- Enthält eine Funktion zur Bereinigung von Text (Entfernung von HTML-Tags, Skripten und Stilen).
**Einsatzmöglichkeiten**:
Die Anwendung eignet sich für die Datenerfassung aus öffentlich zugänglichen Webseiten, sei es zur Inhaltsanalyse, Datenaggregation oder weiteren Recherchezwecken.
**Hinweis**: Sie sollte verantwortungsvoll und im Einklang mit den geltenden Nutzungsbedingungen der Zielseiten verwendet werden.
## Fazit
Die Webspider-Anwendung bietet eine praktische Einführung in die Welt des Webscrapings, indem sie Nutzern die Möglichkeit gibt, Daten von Webseiten zu extrahieren, zu analysieren und zu exportieren. Sie vermittelt wesentliche Kenntnisse in der Handhabung von Scraping-Parametern.