Wiki/Bottrap

Werkzeuge

LANGUAGES

Bottrap

Neben "guten" Robots von seriösen Suchmaschinen (sog. Spidern), die Seiteninhalte indizieren, sind im Internet leider auch viele unseriöse Robots unterwegs - meist auf der Suche nach frischen EMail-Adressen, denen mal wieder etwas Spam geschickt werden möchte... Diese Robots bezeichnet man als Spambots oder Harvester.

Dieser Artikel beschreibt Methoden, mit denen man diesen Harvestern das Leben schwer machen kann.

Das Problem

Harvester tarnen sich nun meist recht umfangreich: sie geben sich als Internet Explorer aus oder ganz dreist als Googlebot - erst der Vergleich der IP lässt die Tarnung auffliegen. Stellen wir doch diesen Spambots eine kleine Falle: eine Bottrap (trap = engl.: Falle).

Voraussetzungen

Dazu müssen wir die Vorgehensweise seriöser Robots kennen: Beginnt der Besuch eines Robots auf einer Website, so sucht er zunächst nach einer Textdatei mit dem Namen robots.txt. Darin findet er eine Bitte der Betreiber, bestimmte Bereiche der Homepage nicht zu besuchen, an die sich seriöse Robots der Suchmaschinen auch schon aus Eigeninteresse halten. Der Name robots.txt ist einheitlich vorgegeben, Inhalt und Funktion werden auf der Seite robotstxt.org im Detail beschrieben.

Die robots.txt

In unsere robots.txt fügen wir folgende Zeilen ein (bzw. ergänzen vorhandene entsprechend):

User-agent: *
Disallow: /honigtopf/

Damit weisen wir alle (user-agent: *) Robots an, das Verzeichnis /honigtopf zu meiden (disallow = engl: missbilligen).

Natürlich müssen wir dieses Verzeichnis /honigtopf auf unserer Webseite noch erstellen. Dort legen wir anschließend lediglich eine index.php (oder entsprechendes) ab, die alle Zugriffe protokolliert und vielleicht noch den Bot mit vielen schönen (zufällig erzeugten) EMail-Adressen füttern, welche natürlich nicht existieren dürfen! Wie das funktioniert, steht im Artikel Spam-Bots mit Müll füttern.

Anmerkung: natürlich ist der in unserem Beispiel gewählte Name "honigtopf" beliebig austauschbar!

Die Falle öffnen

Nun müssen wir dem Bot noch den Weg in die Falle weisen: am Besten in der Startseite unseres Webs müssen wir einen Link auf unseren Honigtopf verstecken - natürlich nur für Robots erkennbar und nicht für Menschen! Ideal dazu ist ein 1x1 Pixel großes und transparentes Bild, dem wir zusätzlich den Stylesheet "unsichtbar" geben.

<a style="visibility:hidden;" href="/honigtopf/">
 <img src="/pfad-zu-bildern/1px.gif" width="1" height="1" border="0" alt="" />
</a>

Nun können wir uns zurücklehnen und abwarten. Die Falle schnappt ganz bestimmt zu! Und ich versichere: der echte Googlebot ist bei mir noch nie hineingetappt....

Zusätzlich zu den Daten, die man mit der oben beschriebenen index.php gewinnen kann, hinterlassen die "gefangenen" Robots ihre Spuren auch als Timestamp in den Serverlogs der Internetseite, denn sie sind die einzigen, die sich einen Dreck um die Einträge in der robts.txt kümmern. Sie sind aber auch die einzigen, die den Link hinter dem einem Pixel großen Bild als solchen erkennen und ihm folgen.

Was tun mit den enttarnten Bots?

Entweder weiter füttern oder gänzlich aussperren. In jedem Fall kommt auf Apache- und kompatiblen Systemen die .htaccess zum Einsatz:

weiter füttern:

RewriteEngine on
RewriteBase /
# IP-Adresse 192.168.0.1 (nur eine Beispieladresse! die echte Adresse kann man aus dem Timestamp entnehmen) 
RewriteCond %{REMOTE_ADDR} ^192\.168\.0\.1
# ab ins Töpfchen:
RewriteRule ^.*$ /honigtopf/index.php [L]

oder ganz aussperren:

Order Allow,Deny
Deny from 192.168.0.1	# Beispieladresse!
Allow from all 

Der Bot bekommt ab dann einen 403-Error: "Forbidden" ....




Benutzeroptionen:
 Anmelden 

 Spezialseiten 
Diese Seite wurde zuletzt am 18. September 2009 um 21:50 Uhr geändert. Diese Seite wurde bisher 20.634-mal abgerufen.
   © 1999 - 2024 Antispam e. V.
Kontakt | Impressum | Datenschutz

Partnerlink: REDDOXX Anti-Spam