RSS | Impressum | Sitemap |
Profi-Ranking Suchmaschinenoptimierung

SEO Marketing Blog

.... googeln bis der Arzt kommt

Google macht mal wieder was völlig Sinnfreies – meine robots.txt wird ignoriert & meine deutsche Seite wird von deutsch auf deutsch übersetzt, dabei aber als englisch interpretiert …

Google ignoriert robots.txt & spielt Sprachwirrwarr

Nichts Weltbewegendes, aber durchaus auch nicht normal – Google ignoriert auf einer meiner Baustellen-Domains die dort vom ersten Tag an angelegte robots.txt & übersetzt Inhalte von englisch auf deutsch, wo es nix zu übersetzen gibt …

Ich nutze bei vielen Projekten eine robots.txt Datei, um einzelne Verzeichnisse oder Seiten für Suchmaschinenbots im Allgemeinen oder für Google, Yahoo oder MSN gezielt zu sperren.

Bin allerdings eher lethargisch was das Überprüfen der gewünschten Effekte angeht, da es einfach zu viele Seiten sind – nach meinen bisher lückenhaften Beobachtungen hatte die robots.txt, zumindest die letzten Jahre, für Google bei mir immer funktioniert.

Eben stelle ich fest, dass die Baustellen-Domain www.asienreisen.in, die gerade erst seit kurzem Texte & ein endgültiges Layout enthält (aber schon etwa 4 Monate vorhanden ist), trotz robots.txt ab Erstinstallation des Joomla durch meinen Progi, mit Ergebnissen ohne Snippet & Cache in Google erfasst ist.

Vor etwa 3-4 Wochen war schon die Startseite ohne www erfasst (hab damals nen 301 auf “mit www” machen lassen – daher bin ich sicher, dass zu dem Zeitpunkt auch nur die Startseite erfasst war), seither sind 5 Unterseiten dazu gekommen.
Falls Google es sich anders übelegt, hier der Screenshot:

Google Site Abfrage zu asienreisen.in - Treffer trotz robots.txt Sperrung der Inhalte

Irgendwie noch viel mehr Banane – Google ist anscheinend der Meinung, dass die ausschließlich deutsche Seite über Asienreisen englische Inhalte enthält & bietet eine eine Übersetzung aus dem englischen an, die dann wiederum das deutsche Original zeigt.
Als angebliche englische Originaltexte werden beim hovern dann nochmal die deutschen Originaltexte angezeigt. Verstehst Du so nicht – macht nix ;-) Guckstu länger hier drauf, um das Absurde an der Übersetzung zu verstehen, falls Google es sich doch mal wieder anders überlegt, auch hierzu der Screenshot:

Hier übersetzt Google angeblich von englisch auf deutsch, obwohl im Original nur deutsch vorhanden & auch von Google deutsch angezeigt ist ;-)

Wie planlos geht´s denn eigentlich noch? Irgendwie läuft da was ziemlich schief … ob´s wohl am PageRank Update Maitanz liegt ;-)

Mir ist ja bekannt, dass der Effekt passieren kann, wenn ein Anteil X ausländischer Backlinks, der die Schmerzgrenze gegenüber deutschen Backlinks aus Google-Sicht übersteigt, auf eine Domain verweist. Gibt da auch ein bekanntes deutsches Foren-Beispiel, welches genau den ungeliebten Effekt, aufgrund zu vieler amerikanischer Linkvault-Links, im Google Index vor wenigen Jahren (obwohl Linkvault da schon auf dem absteigenden Ast war ;-)) incl. deutlicher Positionsverluste recht peinlich vorgemacht hatte …

Was bei der bisher per robots.txt gesperrten Domain asienreisen.in (Hosting DE) mit Backlinks von 3, in Deutschland gehosteten deutschsprachigen, Domains Google zu der Annahme kommen lässt, dass es da was zu übersetzen gäbe, ist mir momentan noch schleierhaft … bei anderen .in Projekten habe ich das Problem zumindest nicht.

Spekulation bleibt, ob die zumindest halbherzige Google Erfassung trotz robots.txt Sperrung für alle Bots nun aus den vereinzelten Backlinks resultiert, oder mit der Nutzung der Google Maps API Weltkarte auf der Startseite zusammen hängt? Woher das babylonische Sprachwirrwarr herrührt, würde mich auch mal interessieren …
Hat jemand Ideen oder Erfahrungen dazu?


Andere Beiträge mit ähnlichen Inhalten, die Dich evtl. auch interessieren könnten:


Der Artikel " Google ignoriert robots.txt & spielt Sprachwirrwarr " enthält 459 Wörter.

Artikel mit verwandten Tags (Keywords, Suchbegriffe)
Tags: , , , , , , , , ,


Am 30.04.08, 19:13 in Google SEO und Googlevil
von Frank veröffentlicht. RSS Feed für Kommentare.
Du kannst hier kommentieren oder hier per Trackback
von Deinem Blog aus "verewigen".
· Gelesen: 14617 · heute: 2


19 Kommentare zu "Google ignoriert robots.txt & spielt Sprachwirrwarr"

  • Das mit der robots.txt kenne ich. Bei mir lag es daran, dass jemand anders einen Link gesetzt hatte bevor ich das Verzeichnis dicht gemacht hatte. War ein echter Zufall, die Seite mit dem VZ war höchstens 10 Minuten im Netz. Und nachdem der Link gesetzt war hatte die robots.txt keine Wirkung mehr. Erst nach Auslagerung der Files in ein neues, auch geschütztes VZ ohne externen Link, war Ruhe.

  • Das ist schon länger bzw. immer so. Wenn ich bei einigen meiner Domains den Filter ausschalte und mir alle Ergebnisse anzeigen lasse kommen da auch Ergebnisse für Seiten die ich mit der robots.txt ausgeschlossen habe.
    Das mag ja bei Seiten in Ordnung sein auf die verlinkt wird. Ich habe aber eine andere Seite bei der ich aus bestimmten Gründen das crawlen komplett untersagt habe. Auf diese Seite gibt es auch keine Backlinks. Das interessante ist nun, dass diese Seite sogar für ein Keyword auf der Seite rankt.

  • 3. Johannes

    Würde so spontan auch erstmal darauf tippen, dass externe Links auf die Seiten zeigen. Google hat ja nur die URL im Index, nicht aber den Title oder ein Snippet. Kommt in der Form eigentlich recht oft vor.

    Wenn Google jetzt den Content der Seite selber nicht auswerten darf, so wird es natürlich etwas knifflig, die richtige Sprache zu erkennen. Die Domain aus Indien, die Nameserver sind .com-Domains, …

  • Aber wie erklärst du dir dann, dass die Seite, obwohl sie komplett aus dem Index ausgeschlossen ist und keine Backlinks hat, trotzdem für einen Begriff auf der Seite rankt? Ich meine wenn ich nicht möchte, dass die Seite nicht gefunden wird, dann meine ich das auch so ;)

  • 5. Johannes

    Konrad, Google ranked seit jeher auch Seiten, die per robots.txt ausgeschlossen sind, wenn Google meint, dass die Seite relevant genug für das Query sei (Backlinks). Dabei wird lediglich die URL und kein Snippet oder kein Title angezeigt, soforn die Seite nicht in DMoz eingetragen ist.

  • Achso danke für die Info ;) Finde ich aber eigentlich total sinnbefreit.

  • 7. Johannes

    Konrad, ich finde es eigentlich sinnvoll. Wieso sollte Google eine tolle Seite, die massiv verlinkt ist den Suchenden vorenthalten, nur weil der Betreiber der Seite keine Suchmaschinenrobots auf seiner Seite haben will? Gerade, wenn man bedenkt, dass die robots.txt häufig falsch eingesetzt wird und Fehler gemacht werden.

  • Weil ich eine Möglichkeit haben möchte, Google zu sachen wo die nix zu suchen haben. Klar wäre auch ein Passwortschutz möglich, aber ich möchte zum Beispiel auch eine Möglichkeit haben meinen Namen aus Google rauszuhalten. Wo ist denn der Unterschied darin, ob Google nur den Link anzeigt oder auch den Title und das Snippet? Gerankt wird es ja anscheinend gleich.

  • 9. Johannes

    Konrad, richtig erkannt, wenn man Inhalte komplett ‘geheim’ halten will, bleibt nichts anderes übrig, als ein Passwort davor zu hängen. Robots.txt oder ein ‘ich hab den Link auch nicht weiter’ funktioniert nunmal einfach nicht.

  • Sorry bin etwas übermüdet, meinte natürlich: “zu sagen”. Und was noch hinzukommt: Die Seite war ja nicht besonders toll verlinkt, sondern hatte nur einen internen Link.
    Bedeutet: die robots.txt sperrte die gesamte Domain domain.tld. Auf der Startseite befindet sich natürlich eine Navigation und die einzelnen Seiten waren trotz Ausschluss gerankt. Von extern gab es keinen Link. Ich habe die Seite lediglich in die Webmaster Tools eingetragen. Klar das Google die Daten auch verwendet, dennoch finde ich die robots.txt dann etwas sinnbefreit, wenn Google dennoch alle Seiten auswertet. Ok man kann verhindern das Suchergebnisse komplett indexiert werden, aber das geht auch ohne.

  • […] Gefunden beim Seo-Marketing-Blog. Dazu habe ich auch eine kurze, aber knackige Geschichte: Ich habe auf einem meiner neuen Projekte WP Affiliate installiert. Es macht aus partners.webmaster…-Links schöne Links wie domain.de/produkte/bestimmtes-produkt/. Man muss aber unbedingt dann das /produkte/ Verzeichnis per robots.txt ausschließen, weil Google sonst die URLs, die ja nur aus Weiterleitung + Cookie bestehen in den Index nimmt. Das habe ich auch brav gemacht und trotzdem wurden die URLs in den Index geschaufelt. Der Title war mit dem des Originalshops genau gleich und ich habe vor ihm gerankt. Wer nun auf die URL von mir in den Serps geklickt hat, der kam direkt auf den Shop des Partnerprogramms – hat aber praktischerweise gleich mein Cookie mit eingesteckt. Ein bisschen black sozusagen… und mein Advertiser hat mich viel geschimpft. Mittlerweile funktioniert die robots.txt aber super und die bösen URLs werden nicht mehr indexiert. […]

  • 12. Xel

    Ich denke das ist einfach die konsequente Forführung dieses Themas

    Fragt sich nur: Hält sich Google noch an nofollow oder wird das jetzt wenigstens auch ignoriert?

  • 13. Frank

    Hmm, also hilft bei der großen Datenkrake wie immer nur eine .htaccess . Gut, das sich Google nicht immer an die Regeln hält ist allgemein bekannt, aber manchmal treibt es schon recht bizzare Stilblüten. Es wird der Tag kommen, wo das Ranking so umgekrempelt wird, dass keiner mehr weiß, wo vorn und hinten ist, ich bin gespannt :-).

  • 14. Xel

    Tja – für Google zählen halt nur die User, also die Suchenden. Da ist es denen halt egal, dass sie all ihre Kohle eigentlich nur mit dem Content von anderen, welchen die genommen haben ohne zu fragen, verdient haben…

    Anfangs waren sie ja noch so “freundlich” nur den Content zu klauen, bei dem kein noindex in irgendeiner Form vorhanden war – inzwischen “klauen” sie dann halt wenigstens die URL…

    Genau wie sie sich früher noch daran gehalten haben, dass Formulare nix für Suchmaschinen sind…

  • 15. Jens

    Hi! Ich habe bei einigen meiner Seiten das gleiche fest gestellt, was du mit Sprachen-Wirrwarr bezeichnest. Das lustige ist. Im englischen Index erscheinen die Seiten ohne den Vorschlag “Translate this page”, was wohl dafür spricht, dass er meint, die Sprachen seien schliesslich schon auf englisch. Hast du etwas neues dazu rausbekommen? Ich würde gerne wissen, wie man die Seiten aus dem englischen Index wieder in den deutschen “befördert”, da sie im deutschen gerade recht bescheiden im Ranking sind. :-(
    Viele Grüße!

  • 16. Frank

    @ Jens

    mmmhhh, komisch – bei mir hatte sich das Thema erledigt, nachdem erste Seiten online kamen, welche deutsche Inhalte hatten.
    Interessant dabei ist allerdings, dass jeweils die per robots.txt gesperrten Seiten (u.A. auch die index.php) immer noch mit dem Zusatz “translate this page” im Index sind. Als mögliche Ursache dafür habe ich gerade spontan Folgendes identifiziert.
    1. Google hält sich nur sehr bedingt an die robots.txt – es werden also Seiten erfasst, bzw. ohne Darstellung Snippet auch im Index behalten (der Artikel oben ist 14 Monate alt – die index.php ist immer noch drin!), welche nicht erfasst werden sollen
    2. In dem leeren Konstrukt (Joomla) war in dem gekauften Theme (Rocketthemes) in der Fusszeile englischer Text, d.h. die Template Standardbuttons waren mit Alt-Tags & Linktitel “Decrease font size”, “Default size” & “Increase font size” versehen.
    3. Es war/ist keine Sprachdefinition im Head vorhanden

    Evtl. hat Google daraus geschlossen, dass die Inhalte komplett englisch seien? Webspace ist bei mir all-incl.de, d.h. deutsch – dat fällt also schon mal als denkbare Ursache weg.

    Eigentlich ne blöde Frage, manchmal übersieht man es aber ja einfach, wenn man viele Projekte hat: hast Du bei Dir ne Sprachdefinition
    META NAME=”Content-Language” CONTENT=”de” drin?

    Ansonsten wäre noch Ansatz zu schauen, ob Dein Template auch englische Alt-Texte oder evtl. englische Quelltext Kommentare hat?

    … und noch ne etwas abstrakte Theorie – vlt. biste vom “Rumpelstilzchen Update” betroffen? Dort traten/treten zumindest auch derartige Phänomene auf (sprich englische Serps mit australischen & kanadischen Treffern – besonders hilfreich bei der Suche nach KFZ Versicherungen ;-)) … findest unter Punkt 6 im verlinkten Rumpelstilzchen-Artikel nen Link auf das englische Problemchen … ich glaube dabei an unerwünschte Nebeneffekte von den Spielereien mit dem neuen www2.sandbox.google.com Index, der vlt. in Teilbereichen auch in die Live-Serps rüberschwappt …

    Lass mal hören was Du davon hältst, oder ob Alt-Text oder language Metatag zutreffen …

  • 17. Steffen D.

    Weiß zufällig jemand, warum bei Google immer nur die englische Meta-Description angezeigt wird, wenn die Domain zwar .com ist aber die Standartsprache Deutsch und Englisch nur Zweitsprache ist?

  • 18. Frank

    @ Steffen D.

    … das wird Dir ohne konkretes Suchbeispiel & Domain keiner wirklich sagen können. Wenn eine deutsche Inhaltsseite ne deutsche description hat, wird diese auch (meist – ansonsten ein Auszug/Snippet aus dem Text) angezeigt. Ergo kann im Umkehrschluss auch nur eine englische description angezeigt werden, wenn eine vorhanden ist … die TLD ist dabei egal … Google kann letztlich nur die Inhalte anzeigen, die auch auf der jeweiligen deutschen oder englischen Seite vorhanden sind …

  • 19. Poster

    Hallo Zusammen,

    ich habe ein ähnliches Problem, ich weiß nur leider nicht wie ich es lösen soll… Hat jemand eine Idee wie man die “totale” Sperre für manche .php Seiten einrichten kann?
    Google scheint komplett am Rad zu drehen. Schaut euch mal an was an meiner Seite gelistet wird. Sämtliche Unterseiten (fast alle) aber die Startseite nicht. Und TROTZ robots.txt werden so sinnvolle Seiten wie “Passwort vergessen” geindext. Das kann doch wohl echt net angehen :/


Deine Ideen zum Artikel: Google ignoriert robots.txt & spielt Sprachwirrwarr

Kommerzielle Werbung in Kommentaren ist diesem SEO Blog nicht erwünscht!


Entspannen Sie ... wir kümmern uns darum!
Profitieren auch Sie von unserem Google Ranking Know-How!
» Profi Ranking - Suchmaschinenoptimierung «



Suche

  • SEO & SEM Tool Tipps:

      SEO Spyglass zur professionellen Linkanalyse von Mitbewerber-Linkaufbau ...
    • Profi Linkanalyse mit SEO-Spyglass

      zur Webseite von AWR - Advanced Web Ranking, professionelles Google Ranking Tracking mit Kunden Reports  - SEO Tool Tipp
    • Automatisches Tracking & Reporting von Google Positionen!

About us

SEO Angebote
by Profi-Ranking.de Frank Schräpler aka Goatix

SEO Angebote
by seo-analyse.com Manuel Fuchs aka manuelfu

  • Web Tipps