| M | D | M | D | F | S | S |
|---|---|---|---|---|---|---|
| « Jan | ||||||
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 | |||
Google macht mal wieder was völlig Sinnfreies – meine robots.txt wird ignoriert & meine deutsche Seite wird von deutsch auf deutsch übersetzt, dabei aber als englisch interpretiert …
Google ignoriert robots.txt & spielt Sprachwirrwarr
Nichts Weltbewegendes, aber durchaus auch nicht normal – Google ignoriert auf einer meiner Baustellen-Domains die dort vom ersten Tag an angelegte robots.txt & übersetzt Inhalte von englisch auf deutsch, wo es nix zu übersetzen gibt …
Ich nutze bei vielen Projekten eine robots.txt Datei, um einzelne Verzeichnisse oder Seiten für Suchmaschinenbots im Allgemeinen oder für Google, Yahoo oder MSN gezielt zu sperren.
Bin allerdings eher lethargisch was das Überprüfen der gewünschten Effekte angeht, da es einfach zu viele Seiten sind – nach meinen bisher lückenhaften Beobachtungen hatte die robots.txt, zumindest die letzten Jahre, für Google bei mir immer funktioniert.
Eben stelle ich fest, dass die Baustellen-Domain www.asienreisen.in, die gerade erst seit kurzem Texte & ein endgültiges Layout enthält (aber schon etwa 4 Monate vorhanden ist), trotz robots.txt ab Erstinstallation des Joomla durch meinen Progi, mit Ergebnissen ohne Snippet & Cache in Google erfasst ist.
Vor etwa 3-4 Wochen war schon die Startseite ohne www erfasst (hab damals nen 301 auf “mit www” machen lassen – daher bin ich sicher, dass zu dem Zeitpunkt auch nur die Startseite erfasst war), seither sind 5 Unterseiten dazu gekommen.
Falls Google es sich anders übelegt, hier der Screenshot:

Irgendwie noch viel mehr Banane – Google ist anscheinend der Meinung, dass die ausschließlich deutsche Seite über Asienreisen englische Inhalte enthält & bietet eine eine Übersetzung aus dem englischen an, die dann wiederum das deutsche Original zeigt.
Als angebliche englische Originaltexte werden beim hovern dann nochmal die deutschen Originaltexte angezeigt. Verstehst Du so nicht – macht nix ;-) Guckstu länger hier drauf, um das Absurde an der Übersetzung zu verstehen, falls Google es sich doch mal wieder anders überlegt, auch hierzu der Screenshot:

Wie planlos geht´s denn eigentlich noch? Irgendwie läuft da was ziemlich schief … ob´s wohl am PageRank Update Maitanz liegt ;-)
Mir ist ja bekannt, dass der Effekt passieren kann, wenn ein Anteil X ausländischer Backlinks, der die Schmerzgrenze gegenüber deutschen Backlinks aus Google-Sicht übersteigt, auf eine Domain verweist. Gibt da auch ein bekanntes deutsches Foren-Beispiel, welches genau den ungeliebten Effekt, aufgrund zu vieler amerikanischer Linkvault-Links, im Google Index vor wenigen Jahren (obwohl Linkvault da schon auf dem absteigenden Ast war ;-)) incl. deutlicher Positionsverluste recht peinlich vorgemacht hatte …
Was bei der bisher per robots.txt gesperrten Domain asienreisen.in (Hosting DE) mit Backlinks von 3, in Deutschland gehosteten deutschsprachigen, Domains Google zu der Annahme kommen lässt, dass es da was zu übersetzen gäbe, ist mir momentan noch schleierhaft … bei anderen .in Projekten habe ich das Problem zumindest nicht.
Spekulation bleibt, ob die zumindest halbherzige Google Erfassung trotz robots.txt Sperrung für alle Bots nun aus den vereinzelten Backlinks resultiert, oder mit der Nutzung der Google Maps API Weltkarte auf der Startseite zusammen hängt? Woher das babylonische Sprachwirrwarr herrührt, würde mich auch mal interessieren …
Hat jemand Ideen oder Erfahrungen dazu?
Andere Beiträge mit ähnlichen Inhalten, die Dich evtl. auch interessieren könnten:
- Google & die robots.txt confusion
- neue Google Sitemaps Funktion, robots.txt Tool imitiert Googlebot
- Google Index = Schrottabladestelle oder Panda Update?
- robots.txt Spam Emails
- Google 24h Startseiten-Schock im Gooing Look
- witzige SEO Shortcuts
- Bug oder feature? Startseiten vs Unterseiten bei Google & Linkaufbau
Den Artikel " Google ignoriert robots.txt & spielt Sprachwirrwarr " bei SEOigg eintragen:
Der Artikel " Google ignoriert robots.txt & spielt Sprachwirrwarr " enthält 459 Wörter.
Artikel mit verwandten Tags (Keywords, Suchbegriffe)
Tags: backlinks, cache, erfassung, google, in, linkvault, robots.txt, snippet, sperrung, übersetzung
Am 30.04.08, 19:13 in Google SEOund Googlevil by Frank veröffentlicht.
RSS Feed für Kommentare.
Du kannst hier kommentieren oder hier per Trackback von Deinem Blog aus "verewigen".
· Gelesen: 8995 · heute: 4
19 Kommentare zu "Google ignoriert robots.txt & spielt Sprachwirrwarr"
-
30.04.08 um 19:32:411. agentur
Das mit der robots.txt kenne ich. Bei mir lag es daran, dass jemand anders einen Link gesetzt hatte bevor ich das Verzeichnis dicht gemacht hatte. War ein echter Zufall, die Seite mit dem VZ war höchstens 10 Minuten im Netz. Und nachdem der Link gesetzt war hatte die robots.txt keine Wirkung mehr. Erst nach Auslagerung der Files in ein neues, auch geschütztes VZ ohne externen Link, war Ruhe.
-
2. Konrad H.
Das ist schon länger bzw. immer so. Wenn ich bei einigen meiner Domains den Filter ausschalte und mir alle Ergebnisse anzeigen lasse kommen da auch Ergebnisse für Seiten die ich mit der robots.txt ausgeschlossen habe.
Das mag ja bei Seiten in Ordnung sein auf die verlinkt wird. Ich habe aber eine andere Seite bei der ich aus bestimmten Gründen das crawlen komplett untersagt habe. Auf diese Seite gibt es auch keine Backlinks. Das interessante ist nun, dass diese Seite sogar für ein Keyword auf der Seite rankt.
-
3. Johannes
Würde so spontan auch erstmal darauf tippen, dass externe Links auf die Seiten zeigen. Google hat ja nur die URL im Index, nicht aber den Title oder ein Snippet. Kommt in der Form eigentlich recht oft vor.
Wenn Google jetzt den Content der Seite selber nicht auswerten darf, so wird es natürlich etwas knifflig, die richtige Sprache zu erkennen. Die Domain aus Indien, die Nameserver sind .com-Domains, …
-
4. Konrad H.
Aber wie erklärst du dir dann, dass die Seite, obwohl sie komplett aus dem Index ausgeschlossen ist und keine Backlinks hat, trotzdem für einen Begriff auf der Seite rankt? Ich meine wenn ich nicht möchte, dass die Seite nicht gefunden wird, dann meine ich das auch so ;)
-
5. Johannes
Konrad, Google ranked seit jeher auch Seiten, die per robots.txt ausgeschlossen sind, wenn Google meint, dass die Seite relevant genug für das Query sei (Backlinks). Dabei wird lediglich die URL und kein Snippet oder kein Title angezeigt, soforn die Seite nicht in DMoz eingetragen ist.
-
6. Konrad H.
Achso danke für die Info ;) Finde ich aber eigentlich total sinnbefreit.
-
7. Johannes
Konrad, ich finde es eigentlich sinnvoll. Wieso sollte Google eine tolle Seite, die massiv verlinkt ist den Suchenden vorenthalten, nur weil der Betreiber der Seite keine Suchmaschinenrobots auf seiner Seite haben will? Gerade, wenn man bedenkt, dass die robots.txt häufig falsch eingesetzt wird und Fehler gemacht werden.
-
8. Konrad H.
Weil ich eine Möglichkeit haben möchte, Google zu sachen wo die nix zu suchen haben. Klar wäre auch ein Passwortschutz möglich, aber ich möchte zum Beispiel auch eine Möglichkeit haben meinen Namen aus Google rauszuhalten. Wo ist denn der Unterschied darin, ob Google nur den Link anzeigt oder auch den Title und das Snippet? Gerankt wird es ja anscheinend gleich.
-
9. Johannes
Konrad, richtig erkannt, wenn man Inhalte komplett ‘geheim’ halten will, bleibt nichts anderes übrig, als ein Passwort davor zu hängen. Robots.txt oder ein ‘ich hab den Link auch nicht weiter’ funktioniert nunmal einfach nicht.
-
10. Konrad H.
Sorry bin etwas übermüdet, meinte natürlich: “zu sagen”. Und was noch hinzukommt: Die Seite war ja nicht besonders toll verlinkt, sondern hatte nur einen internen Link.
Bedeutet: die robots.txt sperrte die gesamte Domain domain.tld. Auf der Startseite befindet sich natürlich eine Navigation und die einzelnen Seiten waren trotz Ausschluss gerankt. Von extern gab es keinen Link. Ich habe die Seite lediglich in die Webmaster Tools eingetragen. Klar das Google die Daten auch verwendet, dennoch finde ich die robots.txt dann etwas sinnbefreit, wenn Google dennoch alle Seiten auswertet. Ok man kann verhindern das Suchergebnisse komplett indexiert werden, aber das geht auch ohne.
-
[ ] Gefunden beim Seo-Marketing-Blog. Dazu habe ich auch eine kurze, aber knackige Geschichte: Ich habe auf einem meiner neuen Projekte WP Affiliate installiert. Es macht aus partners.webmaster…-Links schöne Links wie domain.de/produkte/bestimmtes-produkt/. Man muss aber unbedingt dann das /produkte/ Verzeichnis per robots.txt ausschließen, weil Google sonst die URLs, die ja nur aus Weiterleitung + Cookie bestehen in den Index nimmt. Das habe ich auch brav gemacht und trotzdem wurden die URLs in den Index geschaufelt. Der Title war mit dem des Originalshops genau gleich und ich habe vor ihm gerankt. Wer nun auf die URL von mir in den Serps geklickt hat, der kam direkt auf den Shop des Partnerprogramms – hat aber praktischerweise gleich mein Cookie mit eingesteckt. Ein bisschen black sozusagen… und mein Advertiser hat mich viel geschimpft. Mittlerweile funktioniert die robots.txt aber super und die bösen URLs werden nicht mehr indexiert. [ ]
-
12. Xel
Ich denke das ist einfach die konsequente Forführung dieses Themas
Fragt sich nur: Hält sich Google noch an nofollow oder wird das jetzt wenigstens auch ignoriert?
-
13. Frank
Hmm, also hilft bei der großen Datenkrake wie immer nur eine .htaccess . Gut, das sich Google nicht immer an die Regeln hält ist allgemein bekannt, aber manchmal treibt es schon recht bizzare Stilblüten. Es wird der Tag kommen, wo das Ranking so umgekrempelt wird, dass keiner mehr weiß, wo vorn und hinten ist, ich bin gespannt :-).
-
14. Xel
Tja – für Google zählen halt nur die User, also die Suchenden. Da ist es denen halt egal, dass sie all ihre Kohle eigentlich nur mit dem Content von anderen, welchen die genommen haben ohne zu fragen, verdient haben…
Anfangs waren sie ja noch so “freundlich” nur den Content zu klauen, bei dem kein noindex in irgendeiner Form vorhanden war – inzwischen “klauen” sie dann halt wenigstens die URL…
Genau wie sie sich früher noch daran gehalten haben, dass Formulare nix für Suchmaschinen sind…
-
15. Jens
Hi! Ich habe bei einigen meiner Seiten das gleiche fest gestellt, was du mit Sprachen-Wirrwarr bezeichnest. Das lustige ist. Im englischen Index erscheinen die Seiten ohne den Vorschlag “Translate this page”, was wohl dafür spricht, dass er meint, die Sprachen seien schliesslich schon auf englisch. Hast du etwas neues dazu rausbekommen? Ich würde gerne wissen, wie man die Seiten aus dem englischen Index wieder in den deutschen “befördert”, da sie im deutschen gerade recht bescheiden im Ranking sind. :-(
Viele Grüße!
-
17. Steffen D.
Weiß zufällig jemand, warum bei Google immer nur die englische Meta-Description angezeigt wird, wenn die Domain zwar .com ist aber die Standartsprache Deutsch und Englisch nur Zweitsprache ist?
-
19. Poster
Hallo Zusammen,
ich habe ein ähnliches Problem, ich weiß nur leider nicht wie ich es lösen soll… Hat jemand eine Idee wie man die “totale” Sperre für manche .php Seiten einrichten kann?
Google scheint komplett am Rad zu drehen. Schaut euch mal an was an meiner Seite gelistet wird. Sämtliche Unterseiten (fast alle) aber die Startseite nicht. Und TROTZ robots.txt werden so sinnvolle Seiten wie “Passwort vergessen” geindext. Das kann doch wohl echt net angehen :/




