LINUXMAKER, OpenSource, Tutorials

Webseiten-Downloads mittels wget

Mit wget kann man einen vollständigen, statischen Klon einer Webseite erstellen. Auf diese Weise ist es zum Beispiel möglich eine Webseite für die Nutzung offline bereitzustellen.

Voraussetzung ist die Verwendung des Kommandozeilen-Tools "wget", das Bestandteil jeder Linux Distribution sowie von MacOS ist. Mit folgender Eingabe lässt sich eine komplette Webseite herunterladen:

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains www.example.com https://www.example.com/

Optionen

--recursive
Lädt Seiten rekursiv herunter und folgt somit allen Links.

--no-clobber
Falls der Download unterbrochen wurde, werden bereits heruntergeladene Seiten nicht erneut heruntergeladen.

--page-requisites
Lädt auch die für die Anzeige der Seite benötigten Inhalte (Bilder, Scripte) herunter.

--html-extension
Speichert alle Seiten als HTML-Dateien.

--convert-links
Konvertiert die Links so, dass die heruntergeladenen Dateien sich untereinander verlinken (statt die original Quelle im Internet).

--domains example.com
Lädt ausschließlich Seiten der hier spezifizierten Domains herunter

Vorgehensweise bei umfangreichen Webseiten

Bei besonders großen Webseiten kann das Herunterladen aller Seiten lange dauern und vor allen Dingen den Webserver belasten oder dafür sorgen, dass der crawlende Rechner geblacklistet wird. Um dies zu vermeiden können folgende beiden Optionen verwendet werden:

--wait=20
Wartet zwischen den Seitenaufrufen 20 Sekunden (kann natürlich auch geringer gesetzt werden).

--limit-rate=20k
Begrenzt die Downloadgeschwindigkeit auf 20K (was sehr defensiv wäre).