PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Stopwortliste für die Forensuche



Nebelwolf †
04.11.2007, 13:05
Hallo zusammen!

Die Forensuche kennt bisher nur Worte, die aus vier und mehr Buchstaben bestehen. Da viele unserer Stammkunden Firmennamen aus drei Buchstaben haben, hat die Suche nichts gefunden. Technischer Hintergrund dieser Einstellung in der Forensoftware ist der, daß der Suchindex sonst sehr groß und langsam wird.

Managor würde die Grenze auf drei Zeichen herabsetzen, dazu benötigen wir aber eine Stopwortliste. Das ist eine Liste mit häufig im Forum vorkommenden Worten, die nicht indiziert werden sollen. Also z.B. Worte wie Spam, Mail, 419, Mugu, Spammer, Spammail, ...

Über allgemeine Stopwortlisten mit Worten wie "und", "aber" etc. verfügt Managor.

Also legt los!

Nebelwolf

Goofy
04.11.2007, 13:38
der
die
das
dem
wem
ihn
was
wie
wer
wir
des
sie
zum
und
ist
nur
ihr
ein
bei
bis
für
mir
bzw
etc
als
aus
mit
etc
tut
sei
zur
auf
nie
oft
vor
von
man
AGB
rot
hat
FAQ

mareike26
04.11.2007, 14:16
Über allgemeine Stopwortlisten mit Worten wie "und", "aber" etc. verfügt Managor.

*grins*
Ich schlage noch "wiki" vor.

x3y
08.11.2007, 08:25
Ich würde noch "Hilfe" bzw seine häufigsten Schreibvariationen vorschlagen.

Gruß Jan

Goofy
27.07.2009, 18:58
Offensichtlich ist die Suche nach Begriffen mit 3 Buchstaben immer noch nicht möglich.
Vgl. dazu die Diskussion:
http://www.antispam-ev.de/forum/showthread.php?t=25389

ghost0815
27.07.2009, 19:35
Wäre es hier nicht einfacher / sinnvoller eine Positivliste zu erstellen?
Mir fallen nicht viele Begriffe ein, die ich in den Index laufen lassen würde.

Arthur
27.07.2009, 19:47
Wäre es hier nicht einfacher / sinnvoller eine Positivliste zu erstellen?
Korrekt. Computerbetrug.de arbeitet seit langem damit sehr effizient

TillP
27.07.2009, 20:47
Ich wuerde so eine Liste einfach aus den bestehenden Beitraegen generieren. Also einfach eine Liste aller kurzen Worte erstellen und dazu, in wie vielen Beitraegen die Worte enthalten sind. Alles groesser 100 Beitraege wird als irrelevant betrachtet und landet auf der Blacklist. (Jetzt nur mal ein geschaetzter Wert, wenn man einmal die Liste mit der Anzahl hat, ist der Rest ja schnell gemacht).

Eine Blacklist hat den Vorteil, dass diese Liste recht bald nicht mehr gepflegt werden muss, so viele kurze neue Worte gibt es nicht. Jede neue Firma mit irgend welchen komischen Abkuerzungen muesste aber manuell in eine Whitelist eingepflegt werden.

Solch eine Blacklist liesse sich ja relativ einfach automatisiert erzeugen ueber ein kleines Skript.

Wenn man es genauer haben will: tf-idf, oder term frequency - inverse document frequency beschreibt eine Menge von Dichtefunktionen, die die Wichtigkeit von Woertern in Texten bewerten koennen, ist recht gut auf der englischen Wikipedia beschrieben.

Gaston
29.07.2009, 18:21
Was hier passiert: https://www.antispam-ev.de/forum/showthread.php?t=25424
würde ich mit äußerster Vorsicht umsetzen, bzw. ganz dringend nochmals überdenken.
Wenn die Werbung nach "Kann als "XY" noch "AB" empfehlen" zusammen gestellt wird, kann dies evtl. teuer werden, da dies unter Umständen als Wettbewerbsverzerrung gesehen werden kann.
Ich würde mich zum Beispiel als sehr behindert sehen, wenn ich für Werbung zahle und ausgeschlossen werde, weil mich niemand empfiehlt oder erst meine Stellung auf dem Markt erreichen will und deswegen unbekannt bin und so ohne inhaltliche Begründung benachteiligt werde.
Ich würde mich da wohl bei Google beschweren.

Gut, ich werde nie in Versuchung geraten bei Google Werbung zu schalten, da ich diese Art der Werbung ablehne. Aber dies trifft ja eindeutig auf die dort erscheinenden Firmen nicht zu.

Goofy
29.07.2009, 18:32
Ich sehe nicht, dass dadurch etwa bestimmte Wettbewerber "ausgeschlossen" würden.
Nach wie vor werden wir immer noch Ads von Webseiten haben, die in der Linkliste nicht verzeichnet sind.

Ob wir jemanden empfehlen oder nicht, das bleibt letzten Endes unsere Sache. Dadurch, dass wir jemanden empfehlen, sind jedoch andere nicht ausgeschlossen.

Gaston
29.07.2009, 18:54
Hab zu spät gesehen, dass hier eigentlich ein anderes Thema behandelt Wird,. Notfalls verschieben.

Hier starten wir einen Thread, wo wir erwünschte Webseiten benennen wollen, die in unserer Google-Adsense-Werbung bevorzugt auftauchen können.
Das hört sich für mich schon nach einer Einflussnahme an.
Ob dies mit dem Vertrag konform geht weiß ich nicht, ist auch für mich von geringerem Interesse. Meiner bescheidenen Meinung nach ist neben der Frage, ob dies nicht evtl. eine Wettbewerbsverzerrung ist, auch die Frage, ob es für einen "gemeinnützigen Verein", der im Verbraucherschutz tätig ist, gut ansteht, wenn dieser bestimmte Werbung bevorzugt, sei es durch eine solche Liste oder durch Einflussnahme bei der Werbungsschaltung.
Was die Liste soll, bzw. bewirkt, kann ich nicht sagen, da ich mich mit dem ganzen Google-Scheiß nicht beschäftigt habe und diese mit dem AddOn "NoScript" ausblende und nicht auf meinen Rechner lasse.
Nur wenn man eine Firma, sei es aus fehlender Kenntnis derselben oder sonst wie unbegründet ausgrenzt, dann denke ich das dies nicht unbedingt "unsere Sache". Der Staat gewährt den Verein gewisse Vorteile, indem er diesen als gemeinnützig anerkennt. Dafür hat der Verein eine Verpflichtung.
Was dem Verein am besten anstehen würde, ist ja eigentlich allgemein bekannt und ich werde nicht wieder in dieser Wunde rumrühren.

Goofy
29.07.2009, 19:23
Wenn Du so willst, ist alles, was im Forum geschrieben wird, eine Beeinflussung der Google-Ads. Das Teil sucht nach bestimmten Stichwörtern und berechnet daraus die mehr oder weniger geeigneten Ads.

Unter dem Aspekt wäre es mir persönlich lieber, wenn da Werbung für Buchshops läuft, anstelle für schufa-freie Kredite.

Google-Ad-Partners räumt einem auch ausdrücklich das Recht ein, bestimmte Webseitenbereiche von der Stichwortsuche auszugrenzen (über die robots.txt).

Auch als gemeinnütziger Verein haben wir das Recht auf Werbeeinnahmen. Nichts anderes machen ja z.B. Sportvereine auch, die z.B. bei Sportveranstaltungen Werbung treiben bzw. Werbung auf Trikots haben. Auch der Sportverein hat das Recht, sich seine Werbepartner gezielt auszusuchen.

Solange die Werbetätigkeit nicht in den Vordergrund tritt (und das tut sie mit den paar Links und mit den paar ads eindeutig nicht), ist m.M.n. die Gefährdung der Gemeinnützigkeit kein Thema. Aber die Bedenken sind nicht unberechtigt, wir werden das intern diskutieren.

exe
06.08.2009, 14:06
Wäre es hier nicht einfacher / sinnvoller eine Positivliste zu erstellen?

Macht doch bitte weitere Vorschläge für Suchwörter die wir noch einbinden sollen. Drin sind momentan:

000 040 058 069 1&1 abo agb aka all aol aps ard ats bbc bgb bgh bka bmi bna box bsi cbc cia com dll dos dsl dvd evn evü exe faq fax faz fon fst ftc gbr gez gfv gif gmx gvu has hr ibc ina inc jpg KDG ksp lab lan lgt log ltd mcm mcn mp3 new nub old olg orf ovg p2p pay pda pdf php q__ rar rdf rss rtl spa sat see sky sms sql sta taz tdg tcp tkg tkv tsw ube uce url usb uwg vat vb vbb vpn wdr web win wmf xxx zdf zip zpo zug T5F BGH OLG ssh 419 1&1 AGB DoS TKG IRC RBL Sms SKL NKL SOS

Eniac
06.08.2009, 14:16
Wichtig für Kaffeefahrten:

FFO BSM BTI WTI QVC Q10 BDV SLK DVK ITC RSC SCB CLP MRC CVG AFG HFD



Eniac