Wiki/Harvester

Werkzeuge

LANGUAGES

Harvester

Ein Harvester (engl. "Erntemaschine") ist ein Programm, das systematisch eine große Anzahl von Internet-Seiten nach E-Mail-Adressen durchsucht. Es macht sich zunutze, dass die meisten Internet-Sites ein Impressum mit einer E-Mail-Adresse aufweisen müssen, sowie die Tatsache, dass viele Leute unvorsichtig Ihre Mailadresse in Foren oder Gästebüchern veröffentlichen.

Inhaltsverzeichnis

Wie funktioniert ein Harvester?

Die Funktionsweise der "Harvester" ist in etwa zu vergleichen mit Suchrobotern, wie sie auch von den bekannten Suchmaschinen (google, bing, altavista, yahoo...) eingesetzt werden. Es handelt sich um automatisch arbeitende Suchprogramme, die gezielt das Internet abgrasen, auf jede Webseite gehen und dort nach Stichwörtern suchen. Während allerdings die seriösen Suchmaschinen dort nach brauchbaren Inhalten fahnden, suchen die Harvester nur nach Mailadressen. Technisch wird das einfach dadurch realisiert, dass der "Roboter" (oder auch: "Bot") nach dem Sonderzeichen "@" sucht, was bekannterweise in jeder Mailadresse vorkommt, weil damit der local-part und der global-part einer Mailadresse getrennt werden. Sobald der Bot dieses Zeichen findet, ergänzt er es um die Zeichen, die dort drumherum stehen, bis zum nächstgelegenen Leerzeichen. Er erkennt auf diese Weise den passenden global-part und local-part und trägt die gefundene Adresse in eine Datenbank ein.

Wozu gibt es solche Harvester?

Die Adressen, die der Harvester wie eine fleißige Arbeitsbiene in eine Datenbank einträgt, sind Honig für Spammer. Denn der Spammer hat damit massenweise Adressen, an die er seinen unlauteren, unverlangten Werbemüll zustellen kann. So eine Adressdatenbank ist immer der Grundstock für die Arbeit jedes Spammers und Internetbetrügers.

Wer betreibt Harvester?

Es gibt Spammerbanden, die eigene Harvester unterhalten. Es gibt aber auch sogenannte Adressbroker, die ebenfalls solche "Crawler" einsetzen, und die den Spammern zuarbeiten, indem sie ihnen dann die Adressdatenbanken verkaufen. Man bekommt solche Datenbanken z.T. sogar bei ebay angeboten, eine CD mit einer Datenbank mit Millionen Mailadressen gibt es z.T. für wenige Euro.

Was kann man gegen Harvester tun?

Zunächst einmal sollte man aufgrund des Wissens, dass es solche Harvester gibt, seine Mailadresse nur dann im öffentlich zugänglichen Internet hinterlassen, wenn dies gar nicht anders möglich ist. In aller Regel kann und sollte man auf das öffentlich zugängliche Einstellen einer Mailadresse in Foren, Gästebüchern, Blogs, sozialen Netzwerken etc. verzichten. Es gibt i.d.R. andere Möglichkeiten der Kontaktaufnahme. Eine e-Mail-Adresse gehört zu Ihren persönlichen Daten und sollte daher vertraulich gehandhabt werden. Dies ist bereits der wichtigste Schutz vor Harvestern.

Wenn man selbst eine Webseite betreibt und daher im Impressum die Mailadresse des Betreibers angeben muss, sollte man sich natürlich mit technischen Abwehrmöglichkeiten befassen. Wenn man Zugriff auf die .htaccess-Datei des Webservers hat, kann man die bekannten IP-Adressen vieler bekannter Harvest-Bots blocken.

Man kann aber auch die Webseite selbst so erstellen, dass der Harvester die Mailadressen nicht mehr findet.

Viele Harvester ließen sich früher durch eine codierte Darstellung jedes einzelnen Buchstabens der E-Mail-Adresse überlisten:

"&#<ASCII-Nr.>; &#<ASCII-Nr.>; ... "

Diese Zeiten sind allerdings heute vorbei, die allermeisten Harvest-Bots erkennen diese einfache Art der Codierung.

Oft sieht man auch, dass auf Webseiten e-Mailaddressen verfälscht dargestellt werden. Dabei wird versucht, die Harvester auszutricksen, indem das Zeichen "@" durch die Zeichenfolge "[at]" oder "[nospam]" ersetzt wird, um zu verhindern, dass der Harvester die Mailaddresse findet. Man findet dann eine Mailaddresse z.B. in der Form: "meine.add[at]meinprovider.de".

Inzwischen ist jedoch eine Schutzwirkung dadurch praktisch nicht mehr gegeben. Denn natürlich haben die Spammer ihre Harvest-Software entsprechend verfeinert, die Harvester kennen inzwischen fast alle diese einschlägigen Zeichenfolgen und ersetzen sie einfach wieder durch das "@"-Symbol.

Daher gehen viele Betreiber von Webseiten inzwischen dazu über, die Mailaddressen in einer Bilddatei (z.B. ein kleines gif-Bildchen mit Schrifttext) auf der Webseite einzustellen. Obwohl einige Harvester bereits Routinen zum Entschlüsseln von Schrift in Bildern enthalten, ist dies immer noch ein probates Mittel - wenn die Bilddatei mit einem unverfänglichen Dateinamen benannt wird (also nicht ausgerechnet: "email-Add.gif" o.ä.!) und darüberhinaus der Bildhintergrund nicht monochrom ist, sondern z.B. mit körnigem Rauschen hinterlegt wurde.

Dazu ist allerdings anzumerken, dass damit blinden Internetnutzern, die mit Sprachausgabe in Webseiten surfen, der Zugang zu der Mailaddresse unmöglich gemacht wird.

Es ist daher als rechtlich umstritten anzusehen, ob eine solche Angabe der Mailadresse den Anforderungen des Telemediengesetzes genügt. Bisher gibt es zu dieser speziellen Frage noch kein Gerichtsurteil. Sollte es in dieser Frage zu einem Rechtsstreit kommen, werden die Chancen für den Webmaster von vielen Juristen skeptisch beurteilt.

Neben der Ablage in einer Bilddatei gibt es noch die Möglichkeit der UNICODE-Verschlüsselung von Mailaddressen. Nähere Details dazu:

http://rumkin.com/tools/mailto_encoder/
http://www.metaprog.com/samples/encoder.htm

Auch hier gibt es jedoch Hinweise, dass zunehmend von den Harvestern erfolgreich versucht wird, Unicode- oder Javascript- codierte Mailaddressen zu entschlüsseln.

Derzeit scheinen die gängigen Harvester jedoch an CSS-verschlüsselte Mailadressen nicht heranzugehen. Wie man eine Mailadresse mit einer kleinen CSS-Zeile im html-Code verschlüsselt, lesen Sie bei Wikipedia.

Ein Mittel, was sich ebenfalls bewährt hat, ist das Einstellen der Mailadresse in die dritte Linkebene der Webseite. Dann ist z.B. das Impressum als zweite Ebene aus der Homepage verlinkt, im Impressum selbst steht dann nicht die Mailadresse direkt, sondern es wird dort noch einmal auf eine separate Seite verlinkt, wo dann die Mailadresse in codierter Form steht. Das hat einen ganz praktischen Hintergrund: wegen des hohen Rechenaufwands und auch Datentransfers beim Abgrasen unzähliger Webseiten im Internet sind die meisten Harvest-Crawler anscheinend so eingestellt, dass sie primär nur die Homepage sowie alle dort verlinkten Seiten abgrasen, dass aber weitere Link-Ebenen nicht mehr besucht werden. Wenn nun die Mailadresse nicht mehr in der zweiten Linkebene, sondern in der dritten steht, werden die meisten Harvester die Adresse nicht mehr finden. Die css-Codierung bietet dann noch eine zusätzliche Sicherheit.

Ein 100%-iges Mittel gegen Harvester gibt es allerdings nicht.

I.d.R. darf man auf die Angabe der Mailaddresse auf der eigenen Webseite nicht verzichten, um eine Kontaktaufnahme zu ermöglichen. Die medienrechtlichen Bestimmungen in Deutschland schreiben darüberhinaus zumindest bei gewerblich genutzten Webseiten die Angabe einer Mailaddresse des Betreibers zwingend vor. Der Verzicht auf die Mailaddresse kann eine kostenpflichtige Abmahnung seitens oft darauf regelrecht spezialisierter Anwaltskanzleien nach sich ziehen.

Daher gilt es als probates Mittel, eine solche Mailaddresse bei einem Freemail-Provider anzumelden (web.de, gmx.de, hotmail.com, google.de, ...) und nicht die Webmaster-Addresse, sondern nur diese Freemailaddresse zur Kontaktaufnahme möglichst verschlüsselt auf die Webseite einzustellen.

Ist dann einmal doch die Mailaddresse täglich überflutet von Spam, kann sie problemlos "verbrannt" werden. Dann wird man eben eine neue Addresse einrichten und auf die Seite einstellen.

Eine andere Möglichkeit wäre das Einbinden eines cgi-Webformulars, sofern der betreffende Webhoster die Möglichkeit dazu gewährt.
Eine Mail kann dann nur mit Direkteingabe über dieses Webformular verschickt werden. Ohne dass die Empfangsaddresse, die sicher im Skript auf dem Server verpackt liegt, aus der Hand gegeben wird.

Allerdings genügt gemäß einem Urteil des LG Essen ein Webformular nicht den Anforderungen des TMG zur elektronischen Kontaktaufnahme.

Wie vergiftet man die Adressdatenbanken von Spammern mit Müll?

Man kann die Harvest-Bots überlisten, indem man ihnen Müll zum Fraß vorwirft. Dabei werden auf einer Webseite z.B. in einer für den Betrachter unlesbaren Form oder an uninteressanter Stelle willkürlich Sammlungen von nichtexistierenden, falschen Mailadressen eingestellt.

Ebenso sind Links auf Seiten möglich, die per Zufallsgenerator nicht existente E-Mail-Adressen erzeugen und somit die Datenausbeute des Harvesters weitgehend unbrauchbar machen. Dies wird als "Vergiften" bezeichnet. Hier nachzulesen:

http://www.the-daniel-net.de/harvester.html oder
http://www.daniel-rehbein.de/spamgift.html

Inzwischen sind allerdings viele Harvester von ihrer Programmiertechnik ausgefuchst und erkennen solche Manipulationen, indem sie z.B. überprüfen, ob die eingestellten Mailadressen sich nach kurzer zeit dynamisch ändern. Außerdem werden meistens "Waschprogramme" betrieben, die dann die vorgefundenen Mailadressen anhand einer schnellen DNS-Abfrage überprüfen, ob die Domains der angebotenen global-parts überhaupt existieren. Findet das Filterprogramm z.B. die Adresse "[irgendwas]@shcrmxiesdfosd.de", dann wird überprüft, ob es die Domain "shcrmxiesdfosd.de" überhaupt gibt. Da es die Domain natürlich nicht gibt, wird die Adresse automatisch verworfen und nicht erst in die Spammerdatenbank eingetragen.

Verwendet man dagegen existierende Domains als global Parts (etwa "t-online.de") und erfindet mit Zufallsgenerator dazu irgendwelche local-Parts, so kann es sehr gut sein, dass es diese Adressen dann tatsächlich gibt. Das ist natürlich dann auch nicht im Sinne des Erfinders.

Das "Poisoning" (Vergiften) macht also eigentlich keinen rechten Sinn mehr - außer man verwendet seine eigene Domain und erfindet dazu nicht genutzte local-parts. Damit baut man eine "Spamtrap". Wenn Sie Zugriff auf einen php-fähigen Webserver haben, können Sie auf Ihrer Spamtrap auch Skripte einsetzen, mit denen die Datenbanken der Harvester mit Müll vergiftet werden. Lesen Sie dazu:
Spam-Bots mit Müll füttern

Spamtrap

Eine solche Harvester-Falle, wo man dem Bot nicht genutzte local-parts zur eigenen Domain zum Fraß vorwirft, dient dazu, zu beweisen, dass der Versender einer bestimmten Spam-Mail die Adresse von der eigenen Webseite "geharvested" haben muss. Mails, die auf diese Accounts auflaufen, können mit absoluter Sicherheit als Spam betrachtet werden. Dies kann man z.B. zur Analyse von Spamfiltern verwenden und testen, ob der Spamfilter richtig arbeitet. Wenn man selbst einen Mailserver für ein Unternehmen zu betreuen hat, kann man die hier gewonnenen Informationen und Daten auch verwenden, um den eigenen Spamfilter des Mailservers mit speziellen Filterregeln zu füttern. Man kann dann z.B. Skripte schreiben, mit denen die IP-Adressen, die Mails auf diese unbenutzten Accounts einliefern, direkt in die Blacklist des Mailservers übernommen werden. Dann werden Zustellversuche dieser IPs direkt mit "Error 550" auf Eingangsebene abgewehrt, ohne dass das System mit dem Traffic belastet wird.




Benutzeroptionen:
 Anmelden 

 Spezialseiten 
Diese Seite wurde zuletzt am 21. Oktober 2009 um 14:28 Uhr geändert. Diese Seite wurde bisher 60.803-mal abgerufen.
   © 1999 - 2024 Antispam e. V.
Kontakt | Impressum | Datenschutz

Partnerlink: REDDOXX Anti-Spam