Internet Archive Bot von der Webseite aussperren

Ihr habt es sicherlich schon mitbekommen: Das Internet Archive will künftig die Einträge in der robots.txt ignorieren. Wenn jemand seine Seite nicht archiviert haben wollte, hat ein Eintrag in der robots.txt genügt:

User-agent: ia_archiver
Disallow: /

In Zukunft muss man wohl zu User-Agent oder IP-Sperren greifen. In den Log-Files hinterlässt der Archive Bot folgenden Eintrag:

www.kuketz-blog.de 207.241.226.219 - - [25/Apr/2017:12:19:18 +0200] "GET /robots.txt HTTP/1.1" 200 166 "-" "Mozilla/5.0 (compatible; archive.org_bot; Wayback Machine Live Record; +http://archive.org/details/archive.org_bot)"

Wenn ihr also den User-Agent »archive.org_bot« blockiert bzw. diesem einen 403 HTTP-Statuscode übersendet, sollte das genügen. Wer auf Nummer sicher gehen möchte, der erweitert seine Firewall Regeln um den Adressbereich des Internet Archives. Bei iptables sieht das dann so aus:

$IPTABLES -A INPUT -s 207.241.224.0/20 -j DROP
$IPTABLES -A INPUT -s 208.70.24.0/21 -j DROP
Hilf mit die Spendenziele zu erreichen! Mitmachen ➡