Spaces:

datenwerkzeuge
/

CDL-Webscraping-Workshop-2025

Running

App Files Files Community

CDL-Webscraping-Workshop-2025 / src /02_basics /pdf /pdf-link-extractor.qmd

bsenst

add colab badges to ipynb, fix typos and minor bugs

e392f4c 12 days ago

raw

history blame contribute delete

2.37 kB

	---
	title: "PDF-Link-Extractor"
	description: "Eine Anwendung zur Extraktion und Organisation von PDF-Links von Webseiten oder hochgeladenen HTML-Dateien, einschließlich Download und Komprimierung."
	image: _30a8d023-6f69-46e3-8ae1-1d7555d04902.jpeg
	---

	## Funktionen
	- Eingabeoptionen:
	- URL der Webseite
	- Hochladen einer HTML-Datei
	- PDF-Suche: Extraktion aller PDF-Links auf der Seite.
	- Download & Komprimierung: Herunterladen der PDFs und Bereitstellung in einem ZIP-Archiv.
	- Übersicht der gefundenen PDFs: Anzeige der Dateigrößen und Namen.

	## Anleitung

	### 1. Google-Suche durchführen:
	- Öffnen Sie Ihren Webbrowser und gehen Sie zu [Google](https://www.google.com).
	- Geben Sie in die Suchleiste den folgenden Suchbegriff ein, um nach PDF-Dateien zu suchen, die zivilgesellschaftliche Themen behandeln:
	```
	Digitale Gesellschaft filetype:pdf
	```
	- Drücken Sie die Eingabetaste, um die Suche zu starten.

	### 2. Suchergebnisse speichern:
	- Nachdem die Suchergebnisse angezeigt werden, speichern Sie die HTML-Seite der Suchergebnisse.
	- Klicken Sie mit der rechten Maustaste auf die Seite und wählen Sie "Seite speichern unter..." oder eine ähnliche Option, je nach Browser.
	- Speichern Sie die HTML-Datei auf Ihrem Computer.

	### 3. PDF-Links extrahieren und herunterladen:
	- Verwenden Sie die Anwendung PDF-Link-Extractor, um die gespeicherte HTML-Datei hochzuladen und die PDF-Links zu extrahieren.
	- Gehen Sie zur Anwendung [PDF-Link-Extractor](https://huggingface.co/spaces/datenwerkzeuge/pdfs-sammeln).
	- Laden Sie die gespeicherte HTML-Datei hoch.
	- Die Anwendung durchsucht die HTML-Datei nach PDF-Links, lädt die gefundenen PDFs herunter und stellt sie in einem ZIP-Archiv bereit.
	- Laden Sie das ZIP-Archiv herunter, um die gesammelten PDF-Dateien zu erhalten.

	### 4. Auswertung der PDFs:
	- Nutzen Sie kostenlose Werkzeuge wie NotebookLM, ChatGPT oder Bing Chat, um die Texte in den PDFs zu analysieren.
	- Weitere Details zur Auswertung finden Sie in [Aufbereitung](../../01_setup/aufbereitung.qmd).


	## Fazit

	Einfacher Webscrapingprozess mit Suche und Sammlung von PDF-Dateien durch die Extraktion von PDF-Links aus Webseiten oder HTML-Dateien, gefolgt von einem praktischen Download und der Bereitstellung in einem komprimierten ZIP-Archiv.