Dieser Artikel befasst sich mit Spamfiltern: wozu sie gut sind, und wie man sie einsetzt. |
Ein frisch eingerichtetes Mailkonto ist zunächst noch unbelastet durch Spam. Mit zunehmender Nutzung der Mailaddressse werden dann die ersten Spams eintreffen, zunächst vereinzelt. Dabei ist es zunächst noch nicht schwer, die Übersicht über den Maileingang zu behalten, und bei vielleicht 5 Spams pro Tag die wichtigen Mails sofort zu erkennen.
Im weiteren Verlauf wird dann die Spambelastung zunehmen. Im Artikel E-Mail-Spam vermeiden wird bereits beschrieben, wie man eine zunehmende Spambelastung vermeidet. Haben jedoch die dort beschriebenen Maßnahmen nicht gefruchtet, muss der Maileingang gefiltert werden, um überhaupt noch die Übersicht zu behalten. Ohne Spamfilter ist das Führen eines Accounts, der im Durchschnitt inzwischen mit 20 Spams und mehr pro Tag belegt wird, kaum noch praktikabel.
Spamfilterung wird von vielen Mail- und Internetprovidern inzwischen angeboten. Man sollte bei der Auswahl seines Mailproviders daher inzwischen auch darauf achten, ob ein solcher Service angeboten wird.
Im Artikel über Mailprovider beschreiben wir die Erfahrungen mit verschiedenen Anbietern.
Die Spamfilter der Mailprovider sind i.d.R. so gut, dass für einen Privat-Account, der nicht überdurchschnittlich mit Spam belegt wird, ein eigenes, auf dem PC laufendes Client-Filterprogramm nicht unbedingt nötig ist. Ein Privat-Account, der mit 100 Spams und mehr täglich belastet ist, kann ohnehin als "verbrannt" gelten und sollte vielleicht sowieso besser aufgegeben werden.
Meistens werden sogenannte "selbstlernende" Filter eingesetzt. Diese Filter passen sich der individuellen Spamsituation des Benutzers an. Man sollte dabei folgendes während der ersten Zeit der "Trainingsphase" beachten:
Im Webhosting-Bereich ist die Spamfilterung der Webmaster-Mailaccounts oft nicht gut. In so einem Fall wird empfohlen, eine automatische Weiterleitung auf einen Freemailer-Account einzurichten, wo dann alle eingehenden Mails auf Spam und Viren gefiltert werden können. Anschließend kann erneut eine Weiterleitung auf den echten, aber öffentlich nicht sichtbaren Webmaster-Account erfolgen. Dieses Weiterleitungs-Schema wird hier beschrieben:
http://www.netzfx.de/index.php/archives/gmail-als-spam-filter-verwenden/
Für einen geschäftlich genutzten Mailaccount, wo mit Sicherheit die Mailaddresse an vielen Stellen kursiert und nicht einfach aufgegeben werden kann, dürfte die Spambelastung inzwischen bei mindestens durchschnittlich 50 pro Tag liegen. Dort kann dann die Anschaffung und Pflege eines client-basierten Filters sinnvoll sein.
Bekannte Spamfilterprogramme:
|
Es gibt jedoch auch Mailprogramme, die selbst schon einen recht guten Spamfilter eingebaut haben. Ein Beispiel ist Thunderbird, angeboten als Freeware, und eine gute Alternative zu MS-Outlook. Dieser Mailclient verfügt über einen automatisiert lernfähigen Spamfilter, der nach einer gewissen Einarbeitungsphase recht gut funktioniert.
Spamfilter haben eine lange Entwicklungsgeschichte hinter sich. Die ersten Filter waren reine Schlüsselwortfilter, die den Mailtext auf sogenannte "bad-words" getestet haben. Eins der bekanntesten Wörter ist natürlich das "Viagra". Enthält die Betreffzeile oder der Mailtext das Wort "Viagra", schlägt der Filter Alarm und sortiert die Mail in einen separaten, als "Spam"- oder "Junk"-Folder bezeichneten Ordner um.
Andere bekannte, spamtypische Schlüsselwörter sind z.B.: "günstig", "Sex", "geil", "slut", "pills", "porn", "credit", "cheap", "mortgage", "casino", "get rich" u.s.w.
Die meisten Spamfilter führen eine bad-word-Liste aus hunderten solcher Schlüsselwörter. Diese bad-word-Liste war dann auch die erste, bekannte Filterregel, nach denen die Spamfilter eine Mail klassifiziert haben.
Einige Zeit hat das auch ganz gut funktioniert. Natürlich haben die Spammer sehr schnell dazugelernt.
Sie haben Methoden entwickelt, diese bad-word-Filter zu umgehen. Dazu gehört z.B. die bekannte Marotte, das Wort "Viagra" durch Sonderzeichen zu entstellen: es wird dann "V!@gra" daraus, oder "\/i@gra", oder "V | a & r a", oder eine andere von hunderten Varianten. Aus "porn" wird "pr0n", aus "Sex" wird "S3xxx" u.s.w.
Ein anderer Spammer-Trick ist das Verzerren durch Einfügen von Leerzeichen, oder Sonderzeichen, oder das Senkrechtschreiben. Damit ergeben sich wieder neue Varianten zum Austricksen der Filter:
V i a g r a V*i*a*g*r*a V |
Es ist damit nicht mehr praktikabel, diese bad-word-Listen auf einem 100%-perfekten Stand zu halten. Man beschränkt sich dabei eher auf das Testen anderer spammertypische Marotten, etwa die Verwendung mehrerer Ausrufezeichen im Betreff ("Get Rich Now!!!!!!!!").
Im Laufe der Zeit wurden dann die Filterprogramme verfeinert. Man filtert jetzt nicht mehr nur nach bad-words, sondern man untersucht z.B., ob im Mailtext ein Link steht. Die dort auftauchende Domain wird dann mit RBL-Blacklisten bekannter Spammerdomains abgeglichen. Handelt es sich um eine bekannte Spammerdomain bzw. um einen Spammer-DNS-Server, wird die Klassifizierung als Spam eingeleitet.
Frühere Spamfilter kannten dabei nur zwei Entscheidungen: entweder Spam, oder kein Spam. Aktuelle Spamfilter berechnen jedoch einen sogenannten "Score", d.h. die Wahrscheinlichkeit, ob Spam vorliegt, oder nicht. Das hat den Vorteil, dass jetzt viele verschiedene Kriterien zusammengenommen in die Entscheidung einfliessen können. Der Spamfilter ist jetzt nicht mehr darauf angewiesen, aus einem Kriterium allein die Entscheidung zu fällen. Es werden viele unterschiedliche Einzelkriterien in eine statistische Wahrscheinlichkeitsrechnug mit aufgenommen. Die einzelnen Kriterien können dabei jeweils mit abgestuften Wahrscheinlichkeiten zwischen 0 und 100% fein definiert werden. Auf diese Weise ist es möglich, Kriterien zu definieren, die für sich genommen eine Restunsicherheit haben, in der Summe mit anderen zutreffenden Kriterien jedoch den Spam einwandfrei und sicher kennzeichnen.
Hierbei kommen unterschiedliche statistische Berechnungsmethoden zur Anwendung. Die bekannteste ist der sogenannte "Bayes-Filter", entwickelt aus dem Bayes-Theorem, für Mathematiker hier erklärt:
http://de.wikipedia.org/wiki/Bayes-Theorem
Wenn also ein einzelnes Kriterium möglicherweise für Spam sprechen könnte, dann wird für dieses Kriterium ein bestimmter Einzel-Score definiert. Man kann z.B. eine Filterregel definieren, dass eine Spam-Wahrscheinlichkeit von 50% vorliegt, wenn im Mailtext eine URL unter Verwendung einer spammertypischen .biz-, .info-, .hk-, .org- TL-Domain gefunden wird. Diese Filterregel allein wird jetzt noch nicht die Mail als 100% Spam klassifizieren. Im Zusammenhang mit einer weiteren Filterregel, deren Kriterium dann vielleicht zutrifft, kann es dann schon für die Klassifizierung als Spam reichen. Stehen z.B. 3 Ausrufezeichen im Betreff ("Get pillz now!!!"), spricht eine weitere Filterregel an, und in der Bayes-Rechnung fließen beide Wahrscheinlichkeiten ein.
Eine bekannte Spammermarotte ist z.B. das Einfügen des Mail-Alias in die Betreffzeile. Ist z.B. die Mailaddresse: "Fritz.Meier@Mein-Provider.de", dann liest man oft solche Spambetreffzeilen:
"Get rich now, Fritz.Meier!"
Da normalerweise kein vernünftiger Mensch so einen dussligen Betreff mit Alias als Pseudo-Anrede in eine e-Mail schreibt, sollte man eine Filterregel definieren, die den eigenen Address-Alias als bad-word enthält und ruhig mit einem hohen score von 80% belegt. Anschließend braucht es dann nicht mehr viele positiv erfüllte Kriterien, bis dass der Filter zubeißt und die Mail dahin entsorgt, wohin sie gehört: in die Junk-"Ablage-Rund".
Diese Spamfilter auf statistischer Basis bereiten in der Tat den Spammern bis heute erhebliches Kopfzerbrechen. Oberstes Ziel des Spammers ist es, zu erreichen, dass die Mail gelesen wird. Der Spammer weiß genau, das dies auch bei unbedarften, labilen Netzteilnehmern nur noch selten erfolgt, wenn die Mail einmal im Junk-Ordner gelandet ist.
Die Profis unter den Spammern testen daher selbst von Zeit zu Zeit die "Delivery" ihres Mülls, sie machen Testkonten bei Freemail-Providern auf und unternehmen Testläufe, solange, bis sie einen neuen Weg durch den Filter gefunden haben. Ebenfalls werden neue Versionen der clientbasierten Spamfilter von den ROKSO-Profis regelmässig auf Herz und Nieren getestet.
Sie haben jedoch mit den aktuellen Spamfiltern die allergrößten Probleme, denn es wird ja nicht nur nach bad-words gefiltert, sondern der Header analysiert:
Allein die Tatsache, dass eine html im Anhang steht, bestrafen viele Spamfilter bereits mit einem leicht angehobenen Score. Ist dort eine URL zu finden, wird ebenfalls der Score wieder leicht angehoben und die beworbene Domain auch noch anhand der RBL-Blacklisten auf bekannte Spammerdomains überprüft. Viele Mailprovider arbeiten auch mit serverseitigen Eingangsfiltern, wo z.B. überprüft wird, ob von einem bestimmten Versender gerade unzählige Mails hereinkommen.
Aufgrund der Vielzahl der unterschiedlichen Filterregeln tun sich die Spammer derzeit schwer, ihre Mails durch die Spamfilter zu bringen.
Wie verzweifelt diese Versuche derzeit sind, erkannt man an der Marotte mit dem zunehmenden Image-Spam und an der Spam-Prosa.
Als "Spam-Prosa" wird die Einfügung sinnloser und unzusammenhängender Wörter und Textfragmente in den Spamtext bzw. in die html bezeichnet. Man liest dann z.B. Texte wie diesen hier:
"Us uk, spanish french german chinese fonts especially reading. Getheader getsize ismimetype, setcontent. Becomes reliable sites indicate last. Valla vender venta viajar vodafone." |
Diese Spamprosa wird vermutlich von den spammereigenen Ratware-Programmen aus Textauszügen aus dem Web wahllos mit einem Zufallsgenerator fragmentiert und zusammengestellt. Sinn und Zweck soll sein, die Spamfilter zu verwirren. Manche lernfähigen Spamfilter verwenden nicht nur eine bad-word-Liste, sondern führen Listen von "positiven", in erwünschten Mails des Anwenders häufig auftretenden Wörtern. Diese positiven Wörter hofft der Spammer, durch sein Kauderwelsch zu treffen, wodurch dann der Score herabgesetzt werden soll. Was jedoch in den meisten Fällen nicht eintritt. Gute Spamfilter lassen sich durch Prosa nicht aus dem Konzept bringen. Jedoch tun sich die Spammer schwer, diese dusslige Marotte, auf die sie doch so schwören, aufzugeben.
Ein Großteil der aktuell eintreffenden Spams kommt mit kleinen gif-Bildchen im Anhang daher. In dieses Bildchen verpackt dann der Spammer die eigentliche Müllbotschaft. Er schreibt nicht mehr in den Text: "Get Viagra now!!!", sondern er erstellt ein Bild (Image), wo dann der Text als Grafik eingefügt wird. In der Hoffnung, dass dann die bad-word-Filter nicht mehr ansprechen. Das hat jedoch nur kurze Zeit funktioniert. Auch diesen inzwischen häufigen "Image-Spam" können die Spamfilter herausfischen. Gute Spamfilter sind in der Lage, Text in Bildern zu lesen, und finden dann eben doch eine URL mit Spammerdomain oder die bad-words.
Als Teil des gegenseitigen Wettrüstens zwischen Spammern und Filterprogrammierern versuchen die Spammer momentan, durch Zufügen von körnigem Bildrauschen und durch perspektivisches Verzerren des Texts die Image-Analyse der Spamfilter auszutricksen. Aber auch hier haben sie es schwer. Denn oft genügt schon die Header-Analyse oder ein anderes Kriterium, um die Mail doch als Spam zu klassifizieren. Zum anderen kann die Bildanalyse der Spamfilter eben dieses Rauschen selbst z.T. wiederum als spamtypisches Bildmerkmal erkennen. Im übrigen wirkt allein der Zwang, keinen Link im Text mehr anbieten zu können, und so ein merkwürdiges rauschiges Bildchen mit verzerrter Schrift dem "Kunden" zumuten zu müssen, sicherlich bereits abschreckend und kontraproduktiv gegen das Spammerinteresse.
Eine der aktuellen Verzweiflungsmarotten russischer Spammerbanden liegt in dem Versuch, das Bildchen nunmehr nicht in der Mailanlage einzustellen, sondern bei einem freien Bild-Hoster wie z.B. imageshack.us einzustellen und den Link auf das Bild dann in die Spam-Mail einzufügen. Auch das allerdings bei einem guten Spamfilter erfolglos.
Man erkennt anhand dieses Wettrüstens jedoch, dass die Mittel, die beide Parteien aufwenden müssen, zunehmend komplizierter werden.
Vom Ausgang dieses Wettrennens wird es abhängen, ob das Medium e-Mail dauerhaft praktikabel und offen bleiben wird.
Suchbegriffe: Spam Filter Programme Mail Internet