PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Gewichtung der "Spam-Wörter"



PHS2
27.04.2004, 11:52
Moin Community,
ich bin gerade dabei eine Email-Anwendung zu entwickeln. Ich mache mir gerade Gedanken darüber wie ich Wörter in einer Mail gewichte, sodaß man genauer sagen kann, dass es sich um eine Spam-Nachricht handelt.
Also hat einer ne Plan welche Wörter in einer Spam-Nachricht mehr vorkommen als Andere ?
z.B. 1x Viagra und 1x XXX ----> garantiert Spam
Und das ganze mit einer Gewichtung für bestimmte Wörter und deren Vorkommen in Spam-Nachrichten.
Danke an alle die Antwort und diesen Beitrag lesen.

mindphlux
27.04.2004, 11:54
Warum alles neu erfinden, wenn es Bayes-Filter gibt?
Guckst du hier (ist open source): http://spampalbayes.sourceforge.net/

Spammer, go to http://www.arghcor.de/

PHS2
27.04.2004, 11:58
Du hast bestimmt recht das es schon Programme gibt die das können !
Aber wie gesagt ... ich möchte mich selber mit dem Thema beschäftigen/auseinandersetzen und ne Anwendung selber entwickeln.

DocSnyder
27.04.2004, 12:00
"Spam-Wörter" haben inzwischen eine relativ geringe Bedeutung bei der Spam-Erkennung. Zum einen kommen diese auch in legitimen Mails vor, zum anderen geben sich Spammer große Mühe, diese so zu schreiben, dass sie von Spam-Filtern nicht erkannt werden.
Als prinzipielles Kochrezept für Spamfilter-Einstellungen gilt der Grundgedanke, dass sich Spammer verstecken, ihre WWW-Angebote bei spamfreundlichen ISPs hosten und ihre Mails so gestalten, dass sie durch Filter schlüpfen. Diese Waffen muss man nun gegen die Spammer richten, indem man diese Merkmale erkennt und die Filter darauf ansetzt.
/.
DocSnyder.
--
Friss, Spammer, friss: http://docsnyder.de/spl/forum/

mindphlux
27.04.2004, 12:02
Das sowieso... bereits RegEx-Filter filtern nicht mehr so sonderlich sicher, und die sind nicht einmal immer auf exakte Schreibweise des Wortes angewiesen.

Spammer, go to http://www.arghcor.de/

PHS2
27.04.2004, 12:07
Ich wollte die "Spam-Wort-Erkennung" nur als zusätzlichen Filter einbauen. Ich hab mir auch schon ne menge Wörter raus gesucht die eine Spam "EVTL." identifizieren.
Ich meine das durch eine gute Gewichtung gewisser Spam-Wörter sich Spam-Mail gut identifizieren lassen (Als zusätzliche Filter-Funktion) und man so eine bessere Erkennung der Spam-Mail erreicht.

DarkX2
27.04.2004, 19:49
Nunja, ich rate dir einfach dazu, einen Bayesian Filter einzubauen - das wird denke ich sogar einfacher, als eine eigene Liste anzulegen, und vor allem effektiver, da für jeden Benutzer eine individuelle Liste angelegt werden kann.
Sieh dir mal http://www.paulgraham.com/spam.html an, dort wird das Grundprinzip des Bayesiansystems erklärt.
Wenn du es schafst, einen solchen Filter in dein E-Mailprogramm einzubauen, und dann och andere, vernünftige Funktionen bitten kannst, wechsle ich sofort das Mailprogramm ;)
--------------------------------------------------
Hartmunt Nessler, Chef des Zolls am Frankfurter Flughafen, sinngemäß am 20.4.04:
"Keine Kontrolle ist auch eine Art der Kontrolle"

Archmage
27.04.2004, 21:53
Dem kann ich nur zustimmen. Man kann sich zwar hübsch Wörter ausdenken, aber die gehen alle ziemlich schnell an die Realität vorbei. Ist es, weil z.B. Ärzte auch in ihren normalen Briefen über Viagra reden, jemand Cockburn heisst, jemand dir einen Viagra-Witz schickt oder weil die Spammer schon längst V1agra oder ähnlich schreiben. Da kommt man als normaler Mensch nicht mehr hinterher.
Deswegen lässt man so etwas automatisch machen und korregiert die Zahl nach jeder Mail.
Das ist sozusagen genau das, was du machen willst, ABER es geschiet automatisch. Und du wirst wohl kaum jeden Tag die 500 Mails (wenigstens bekomme ich jeden Tag soviel) durchackern, Wörter zählen und dannach Gewichten was auf Spam hindeutet und was nicht.
Wenn du dich mit der Materie vertraut machen willst, dann installiere so einen Filter und schaue nach 5.000 Spam und 5.000 Ham (und soviel braucht man schon, damit es representativ ist) mal nach, welche Wörter nun einen hohen Spamwert haben und welchen nicht. Du wirst ziemlich überrascht sein...

PHS2
28.04.2004, 12:16
Das Hört sich sehr gut alles an !
Ich werde mich mal mit den Tips auseinandersetzen und gegebenfalls hier nochmal Posten, falls ich noch Fragen habe !
Danke an Alle !
Falls jemand ne weitere Tipps hat ... bitte Posten http://img.homepagemodules.de/smile.gif