heinerle
22.12.2006, 08:21
Gehört vielleicht nicht direkt zum Thema Spam, allerdings trifft dies auch auf Foren etc. zu:
Bei der Durchsicht diverser Website-Logfiles habe ich bemerkt, daß Google offenbar aus fremden IP-Bereichen mit unterschiedlichen User-Agent-Kennungen auf Webseiten unterwegs ist. Dabei handelt es sich um IPs aus dem Netz von Colt Telecom. Als User-Agent werden auch die Kennungen fremder Crawler verwendet:
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.27 (h-217.111.100.27.host.de.colt.net)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 217.111.100.31 (h-217.111.100.31.host.de.colt.net)
Exabot/3.0 217.111.100.32 (h-217.111.100.32.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.36 (h-217.111.100.36.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.47 (h-217.111.100.47.host.de.colt.net)
Wenn man z.B. danach googelt (http://www.google.de/search?hl=de&q=217.111.100.47&btnG=Suche&meta=) dann finden sich Seiten, die diese IPs protokollieren, im Cache von Google, d.h. die Seite wurde vom Googlebot besucht.
Interessanterweise scheint sich der Bot in diesem Tarnmodus auch nicht an die robots.txt zu halten, denn genau diese Adressen finden sich auch regelmäßig in den Logs meiner Spamtrap, dort allerdings immer entweder ohne User-Agent oder mit dem von Browsern (Mozilla/compatible...), aber nicht dem anderer Bots. Man findet bei der Suche danach auch einzelne Seiten, die die betreffenden IPs deswegen gesperrt haben.
Bei der Durchsicht diverser Website-Logfiles habe ich bemerkt, daß Google offenbar aus fremden IP-Bereichen mit unterschiedlichen User-Agent-Kennungen auf Webseiten unterwegs ist. Dabei handelt es sich um IPs aus dem Netz von Colt Telecom. Als User-Agent werden auch die Kennungen fremder Crawler verwendet:
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.27 (h-217.111.100.27.host.de.colt.net)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 217.111.100.31 (h-217.111.100.31.host.de.colt.net)
Exabot/3.0 217.111.100.32 (h-217.111.100.32.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.36 (h-217.111.100.36.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.47 (h-217.111.100.47.host.de.colt.net)
Wenn man z.B. danach googelt (http://www.google.de/search?hl=de&q=217.111.100.47&btnG=Suche&meta=) dann finden sich Seiten, die diese IPs protokollieren, im Cache von Google, d.h. die Seite wurde vom Googlebot besucht.
Interessanterweise scheint sich der Bot in diesem Tarnmodus auch nicht an die robots.txt zu halten, denn genau diese Adressen finden sich auch regelmäßig in den Logs meiner Spamtrap, dort allerdings immer entweder ohne User-Agent oder mit dem von Browsern (Mozilla/compatible...), aber nicht dem anderer Bots. Man findet bei der Suche danach auch einzelne Seiten, die die betreffenden IPs deswegen gesperrt haben.