--- | |
title: "PDF-Link-Extractor" | |
description: "Eine Anwendung zur Extraktion und Organisation von PDF-Links von Webseiten oder hochgeladenen HTML-Dateien, einschließlich Download und Komprimierung." | |
image: _30a8d023-6f69-46e3-8ae1-1d7555d04902.jpeg | |
--- | |
## Funktionen | |
- **Eingabeoptionen**: | |
- URL der Webseite | |
- Hochladen einer HTML-Datei | |
- **PDF-Suche**: Extraktion aller PDF-Links auf der Seite. | |
- **Download & Komprimierung**: Herunterladen der PDFs und Bereitstellung in einem ZIP-Archiv. | |
- **Übersicht der gefundenen PDFs**: Anzeige der Dateigrößen und Namen. | |
## Anleitung | |
### 1. Google-Suche durchführen: | |
- Öffnen Sie Ihren Webbrowser und gehen Sie zu [Google](https://www.google.com). | |
- Geben Sie in die Suchleiste den folgenden Suchbegriff ein, um nach PDF-Dateien zu suchen, die zivilgesellschaftliche Themen behandeln: | |
``` | |
Digitale Gesellschaft filetype:pdf | |
``` | |
- Drücken Sie die Eingabetaste, um die Suche zu starten. | |
### 2. Suchergebnisse speichern: | |
- Nachdem die Suchergebnisse angezeigt werden, speichern Sie die HTML-Seite der Suchergebnisse. | |
- Klicken Sie mit der rechten Maustaste auf die Seite und wählen Sie "Seite speichern unter..." oder eine ähnliche Option, je nach Browser. | |
- Speichern Sie die HTML-Datei auf Ihrem Computer. | |
### 3. PDF-Links extrahieren und herunterladen: | |
- Verwenden Sie die Anwendung **PDF-Link-Extractor**, um die gespeicherte HTML-Datei hochzuladen und die PDF-Links zu extrahieren. | |
- Gehen Sie zur Anwendung [PDF-Link-Extractor](https://huggingface.co/spaces/datenwerkzeuge/pdfs-sammeln). | |
- Laden Sie die gespeicherte HTML-Datei hoch. | |
- Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit. | |
- Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten. | |
### 4. Auswertung der PDFs: | |
- Nutzen Sie kostenlose Werkzeuge wie NotebookLM, ChatGPT oder Bing Chat, um die Texte in den PDFs zu analysieren. | |
- Weitere Details zur Auswertung finden Sie in [Aufbereitung](../../01_setup/aufbereitung.qmd). | |
## Fazit | |
Einfacher Webscrapingprozess mit Suche und Sammlung von PDF-Dateien durch die Extraktion von PDF-Links aus Webseiten oder HTML-Dateien, gefolgt von einem praktischen Download und der Bereitstellung in einem komprimierten ZIP-Archiv. | |