Ergebnis 1 bis 3 von 3

Thema: Google tarnt seinen Bot

  1. #1
    Mitglied Avatar von heinerle
    Registriert seit
    07.09.2005
    Beiträge
    776

    Standard Google tarnt seinen Bot

    Gehört vielleicht nicht direkt zum Thema Spam, allerdings trifft dies auch auf Foren etc. zu:

    Bei der Durchsicht diverser Website-Logfiles habe ich bemerkt, daß Google offenbar aus fremden IP-Bereichen mit unterschiedlichen User-Agent-Kennungen auf Webseiten unterwegs ist. Dabei handelt es sich um IPs aus dem Netz von Colt Telecom. Als User-Agent werden auch die Kennungen fremder Crawler verwendet:
    Code:
    msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.27 (h-217.111.100.27.host.de.colt.net)
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 217.111.100.31 (h-217.111.100.31.host.de.colt.net)
    Exabot/3.0 217.111.100.32 (h-217.111.100.32.host.de.colt.net)
    msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.36 (h-217.111.100.36.host.de.colt.net)
    msnbot/1.0 (+http://search.msn.com/msnbot.htm) 217.111.100.47 (h-217.111.100.47.host.de.colt.net)
    Wenn man z.B. danach [Link nur für registrierte Mitglieder sichtbar. ] dann finden sich Seiten, die diese IPs protokollieren, im Cache von Google, d.h. die Seite wurde vom Googlebot besucht.

    Interessanterweise scheint sich der Bot in diesem Tarnmodus auch nicht an die robots.txt zu halten, denn genau diese Adressen finden sich auch regelmäßig in den Logs meiner Spamtrap, dort allerdings immer entweder ohne User-Agent oder mit dem von Browsern (Mozilla/compatible...), aber nicht dem anderer Bots. Man findet bei der Suche danach auch einzelne Seiten, die die betreffenden IPs deswegen gesperrt haben.

  2. #2
    Senior Mitglied Avatar von Sirius
    Registriert seit
    20.07.2005
    Ort
    Im Ausland
    Beiträge
    4.274

    Standard

    Ich glaube nicht, dass es Google war, denn wenn du [Link nur für registrierte Mitglieder sichtbar. ] auf die Seite gehts, dann hast du diese IP. Und [Link nur für registrierte Mitglieder sichtbar. ] auch.
    Damit ist bewiesen, dass du Google bist.

    Hier ist die IP 217.111.100.36 bei Yahoo im Cache: [Link nur für registrierte Mitglieder sichtbar. ]

    Und hier hat sich Google gleich mehrfach in diesem Gästebuch eingetragen: [Link nur für registrierte Mitglieder sichtbar. ]
    217.111.100.25
    217.111.100.26
    217.111.100.32
    217.111.100.36

    Des Rätsels Lösung

    Die IPs gehören zu einem Proxy-System. Dieser IP-Block gehört der United-Domains AG und die bieten eine "versteckte Weiterleitung" an, die sich URL-Hiding nennt: [Link nur für registrierte Mitglieder sichtbar. ]

    Die IP wird hierbei nicht wie bei einem Frameset gecloakt, sondern der UDAG-Server holt die Webseite ab und liefert sie an den Aufrufer zurück. Weblogger halten dann die IP des UDAG-Servers fest.

    Hier der HTTP-Header von dsc-sports.de (s.o.):
    Code:
    HTTP/1.1 302 Found
    Date: Fri, 22 Dec 2006 11:04:03 GMT
    Server: Apache
    X-Powered-By: PHP/5.2.0
    X-UD-Host: webspace.udag.de
    X-UD-Method: urlhiding
    X-UD-Target: http://dsc-esports.pytalhost.de/new
    X-UD-Loopcounter: 1
    X-UD-REMOTE_ADDR: 70.84.211.98
    Expires: Thu, 19 Nov 1981 08:52:00 GMT
    Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
    Pragma: no-cache
    Set-Cookie: PHPSESSID=bf817e7da6ea52c395b0fd2167b48c44; path=/
    Location: news/index.php
    Connection: close
    Content-Type: text/html; charset=ISO-8859-1
    Irren ist menschlich - aber für richtig dumme Sachen braucht man einen Computer.

  3. #3
    Mitglied Avatar von heinerle
    Registriert seit
    07.09.2005
    Beiträge
    776

    Standard

    Stimmt. Die Seite, deren Logs ich beschrieben habe, ist auch eine .eu-Domain, die via United Domains auf eine bestehende Domain umgelenkt ist. Danke für die Erklärung. Ich hatte mir schon Gedanken gemacht, ob man den IP-Bereich wegen der Einträge in der Spamtrap blocken sollte, aber dann wäre ja die .eu-Domain nicht mehr ereichbar

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •  
Partnerlink:
REDDOXX Anti-Spam Lösungen