PDA

Archiv verlassen und diese Seite im Standarddesign anzeigen : Google tarnt seinen Bot



heinerle
22.12.2006, 09:21
Gehört vielleicht nicht direkt zum Thema Spam, allerdings trifft dies auch auf Foren etc. zu:

Bei der Durchsicht diverser Website-Logfiles habe ich bemerkt, daß Google offenbar aus fremden IP-Bereichen mit unterschiedlichen User-Agent-Kennungen auf Webseiten unterwegs ist. Dabei handelt es sich um IPs aus dem Netz von Colt Telecom. Als User-Agent werden auch die Kennungen fremder Crawler verwendet:


msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.27 (h-217.111.100.27.host.de.colt.net)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 217.111.100.31 (h-217.111.100.31.host.de.colt.net)
Exabot/3.0 217.111.100.32 (h-217.111.100.32.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.36 (h-217.111.100.36.host.de.colt.net)
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.47 (h-217.111.100.47.host.de.colt.net)

Wenn man z.B. danach googelt (http://www.google.de/search?hl=de&q=217.111.100.47&btnG=Suche&meta=) dann finden sich Seiten, die diese IPs protokollieren, im Cache von Google, d.h. die Seite wurde vom Googlebot besucht.

Interessanterweise scheint sich der Bot in diesem Tarnmodus auch nicht an die robots.txt zu halten, denn genau diese Adressen finden sich auch regelmäßig in den Logs meiner Spamtrap, dort allerdings immer entweder ohne User-Agent oder mit dem von Browsern (Mozilla/compatible...), aber nicht dem anderer Bots. Man findet bei der Suche danach auch einzelne Seiten, die die betreffenden IPs deswegen gesperrt haben.

Sirius
22.12.2006, 12:42
Ich glaube nicht, dass es Google war, denn wenn du hier (http://www.strimmerlab.org/software/stats/html/ts.html) auf die Seite gehts, dann hast du diese IP. Und hier (http://www.jvp.eu/systeminfo/index.htm) auch.
Damit ist bewiesen, dass du Google bist. :clown:

Hier ist die IP 217.111.100.36 bei Yahoo im Cache: http://72.30.186.56/search/cache?p=%22217.111.100.36&prssweb=Suche&ei=UTF-8&x=wrt&meta=0&u=www.dsc-esport.de/votes/index.php%3Faction%3Dshow%26id%3D1&w=%22217+111+100+36%22&d=ACPSx0VuN8At&icp=1&.intl=de

Und hier hat sich Google gleich mehrfach in diesem Gästebuch eingetragen: http://www.feareffect-clan.de/?gbook :lil:
217.111.100.25
217.111.100.26
217.111.100.32
217.111.100.36

Des Rätsels Lösung

Die IPs gehören zu einem Proxy-System. Dieser IP-Block gehört der United-Domains AG und die bieten eine "versteckte Weiterleitung" an, die sich URL-Hiding nennt: http://www.united-domains.de/domain/info/info.html?type=url

Die IP wird hierbei nicht wie bei einem Frameset gecloakt, sondern der UDAG-Server holt die Webseite ab und liefert sie an den Aufrufer zurück. Weblogger halten dann die IP des UDAG-Servers fest.

Hier der HTTP-Header von dsc-sports.de (s.o.):
HTTP/1.1 302 Found
Date: Fri, 22 Dec 2006 xx:xx:xx GMT
Server: Apache
X-Powered-By: PHP/5.2.0
X-UD-Host: webspace.udag.de
X-UD-Method: urlhiding
X-UD-Target: http://dsc-esports.pytalhost.de/new
X-UD-Loopcounter: 1
X-UD-REMOTE_ADDR: 70.84.211.98
Expires: Thu, 19 Nov 1981 xx:xx:xx GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Set-Cookie: PHPSESSID=bf817e7da6ea52c395b0fd2167b48c44; path=/
Location: news/index.php
Connection: close
Content-Type: text/html; charset=ISO-8859-1

heinerle
22.12.2006, 14:10
Stimmt. Die Seite, deren Logs ich beschrieben habe, ist auch eine .eu-Domain, die via United Domains auf eine bestehende Domain umgelenkt ist. Danke für die Erklärung. Ich hatte mir schon Gedanken gemacht, ob man den IP-Bereich wegen der Einträge in der Spamtrap blocken sollte, aber dann wäre ja die .eu-Domain nicht mehr ereichbar :lil: