| M | D | M | D | F | S | S |
|---|---|---|---|---|---|---|
| « Jan | ||||||
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 | |||
Google’s Ausflüge in’s Deep Web Crawling und die unerfreulichen SEO-Nebeneffekte :-(
Google Chaos & Deepweb/Ajax Exkursionen
Google scheint immer stärker zu versuchen das Deep Web & Ajax zu crawlen & geht mir mit den Effekten immer mehr auf den Senkel ;-)
Google macht immer seltsamere Sachen – ich möchte euch mal an ein paar Dingen teilhaben lassen, welche ich in den letzten Monaten bei Kundenprojekten zu Gesicht bekam …
- 1. 301er haben “Aussetzer” – mehrfach selbst bei verschiedenen Kundendomains beobachtet aber auch von Kollegen gehört: teils werden seit einigen Wochen, bereits seit Monaten/Jahren, per 301 weiter geleitete alte URL’s wieder im Google Index als Suchtreffer angezeigt. Zum Glück bisher anscheinend immer wieder mal nur temporär – oder hat das jemand dauerhaft bei sich?
- 2. noindex,follow – bis irgendwann November 2011 war noch alles gut. Mit dem Metatag robots=”noindex,follow” versehene Shop-URL’s waren quasi als Einzeiler ohne Snippet erfasst (muss ja, sonst könnte Google den follow Part nicht abarbeiten). Seit irgendwann Anfang Dezember wurden diese URL’s dann plötzlich mit Snippet bei der Site-Abfrage gelistet. Seit Ende Dezember habe ich einzelne Fälle, wo diese auf noindex stehenden Pfade (meist gepagte Kategorieseiten) sogar die bisherigen Treffer ersetzt haben. Google scheint Anweisungen immer weniger zu folgen – bleibt wohl irgendwann nur noch das von mir etwas ungeliebte Canonical URL-Handling. Ungeliebt, weil ich schon öfter Shops erlebt habe, die durch Bedien- oder Shopfehler mit Canonical relevante Seiten/Kategorien aus dem Index gekegelt haben …
- 3. noindex,nofollow (teils älter als 2 Jahre & lange weg gewesen) Pfade mit noindex,nofollow (die zusätzlich über die Webmastertools manuell entfernt wurden), waren sehr lange gar nicht mehr im Index. Seit etwa Mitte Dezember werden diese auch wieder als Einzeiler angezeigt. Interessanterweise scheint dies nur URL’s zu betreffen, welche schon mal im Index waren – Seiten, welche neu mit noindex,nofollow online gestellt werden, kommen bisher auch nicht in den Index.
- 4. Erfassung von PHP-Myadmin Verzeichnissen – ganz glorreich werden auch derartige Pfade erfasst. Da freut sich jeder Hacker bei den entsprechenden Google Abfragen …
- 5. Google sendet nun auch Post-Abfragen mit Parametern – guckstu hier – und rupft sich sinnlose Teil-Pfade (die dann 404er ergeben) aus per Ajax nachgeladenen Dateien. Sprich Google führt “ohne Sinn & Verstand” immer mehr Javascript aus …
- 6. Klartext-URLs, d.h. nicht verlinkte URLs, welche nur als Plaintext angegeben werden, werden im Google Index erfasst – siehe auch der Forenbeitrag oben …
- 7. in XTC Shops werden seit Kurzem language_IDs an Produktpfade angehängt, obwohl gar kein Language-Modul installiert ist. Anscheinend probiert Google einfach denkbare Varianten aus, wenn sie das jeweilige (Shop- oder CM System) erkannt haben. Danke an an Sandra vom XT-Commerce Service für die entsprechende Info & das Beispiel ;-)
- 8. Google holt Pfade pauschal auch “klein geschrieben” in den Index, obwohl die Pfade im betrachteten Shop alle mit Großbuchstaben geschrieben werden (natürlich auch erfasst) & produziert dadurch seitenweit duplicate content.
Keine Ahnung was das Ganze soll – entweder sind die Google Progis alle im Dauerkoma, oder das ganze Panda & Freshness Marketing-Theater hat reihenweise unerwünschte Nebeneffekte? Ick weiss es nicht – befürchte aber Letzteres …
Könnt ihr einzelne oder alle der obigen bisher nur vereinzelt beobachteten Effekte bestätigen?
Andere Beiträge mit ähnlichen Inhalten, die Dich evtl. auch interessieren könnten:
- DMOZ Open Directory Project
- Zwischen-Fazit zu Noindex, Follow für Tag-Seiten
- Google Universal Search Parameter im Ajax Index
- Wordpress Suchergebnisse im Google Index = duplicate content
- Matt Cutts Video Transskripte about Google
- … das Deep Web – ja wo isses denn?
- String als SEO wieder wech …
Den Artikel " Google Chaos & Deepweb/Ajax Exkursionen " bei SEOigg eintragen:
Der Artikel " Google Chaos & Deepweb/Ajax Exkursionen " enthält 494 Wörter.
Artikel mit verwandten Tags (Keywords, Suchbegriffe)
Tags: canonical, deep web, duplicate content, follow, google, nofollow, noindex
Am 17.01.12, 14:05 in Google SEOund Traurig, aber wahr ... by Frank veröffentlicht.
RSS Feed für Kommentare.
Du kannst hier kommentieren oder hier per Trackback von Deinem Blog aus "verewigen".
· Gelesen: 5829 · heute: 20
9 Kommentare zu "Google Chaos & Deepweb/Ajax Exkursionen"
-
17.01.12 um 20:02:061. Sabine aus Österreich
Ein sehr informativer Bericht. Seit es das Internet gibt, bekommt man jede Menge guter Informationen gratis. Super.
-
2. shk
Tja, was Google da entgegen ihrer Guidelines “leistet” ist alles andere als schön.
Für mich sieht es wie ein großer Haufen Bugs aus, denn es greift momentan nichts sicher:
parameter handling in den GWMT, robots.txt, canonical, noindex.All das, was von Google in den Webmasterguidelines zur exlusion angepriesen wird funktioniert derzeit nicht richtig.
Das beste aber ist, dass im Index längst durch 301 redirecteter, extrem alter content wieder in die SERP gespült wird und man dem machtlos gegenüber steht.
Alles in allem – mit dem tollen parsing der Javascripte, Post- und sogar Get-requests, u.s.w. – sieht das alles eher nicht wie gewollt und gekonnt aus.
P.s.: Ich kann die meisten o.g. Punkte bestätigen
-
3. Sanni
Mich erinnert das Spektakel grad eher an ein überfülltes Zelt auf dem Oktoberfest: nix geht rein, nix raus und keiner versteht annähernd was drin grad passiert.
Einträge aus der robots werden ignoriert und landen im index und in Einzelfällen auch als “Doppelzeiler”.
Einträge (Subindex) werden teilweise zweimal gelistet.
Ich kann die meisten o.g. Punkte ebenso bestätigen.
Intern nennen wir das hier nur noch “googonie”… wobei wir noch darüber sinnieren, ob der letzte Wortteil aus Ironie oder Phobie hergeleitet werden soll :(
-
5. Sanni
*schmunzel*…auch eine Überlegung wert ;-)
Im Übrigen gerade sehr beliebt bei Google in Sachen XTc´s : die verhasste SessionId taucht wieder verstärkt auf. In einem Shop-Beispiel ganz hübsch mit Description aufgepeppt. (Zugegebener Maßen kenn ich die Vorgeschichte bei dem Shop nicht, kann mich aber wage daran erinnern, dass das “abgestellt” war)
-
6. Dan from How to Build a Website
wahrscheinlich ist der Algo inzwischen so kompliziert, dass Google jetzt auch in dieser Hinsicht Microsoft ähnelt…
also sozusagen Google Vista …
;)
Dan
-
Genau dieses Verhalten beobachten wir beim Google-Bot ebenfalls. Google experimentiert offensichtlich und versucht herauszufinden, was AJAX auf den Seiten veranstaltet.
Eigentlich ist es kein schlechter Ansatz, denn Google möchte die Relevanz dessen bewerten, was geboten wird.
Dabei stößt Google aber an die Grenzen der AI (Artificial Intelligence), denn Interaktionen, Bilder und Semantik zu verarbeiten verlangt wohl mehr Intelligenz als die Google-Bots eingehaucht bekommen haben. Der IQ einer programmierten Brotdose wird nicht reichen für die ambitionierten Ziele des Google-Management.
Michael
-
8. Marce
Hallo (wichtige Frage)in den nächsten Tagen/ Wochen werde ich eine (meine erste) Website (Wordpress) erstellen die auch ein gutes ranking erzielen soll. Seit ungefähr zwei Wochen habe ich mich über optimierung und rechtliches Informiert, sehr genau.
Natürlich ist in den letzten Tagen auch der Duplicate content für mich immer wichtiger geworden ich habe viel recherchiert und habe mir Lösungen zusammengeklaubt.
Für die Erreichbarkeit unter mehreren URL’s habe ich mir einer deiner Lösung zurechtgelegt,
seo-marketing-blog.de/goatix/301-htaccess-gegen-duplicate-content-durch-mehrere-domains-must-have/
und für die Vermeidung Doppelten Contents auf grund von verzeichnes und kalendaren folgende signalsmedia.de/wordpress/duplicate-content-verhindern/
Erste Frage: Kann ich mich mit diesen beiden Methoden vollständig vor duplicate content schützen?
Zweite Frage: Sollte ich diese Schritte troz entstandener Probleme bei Google vornehmen?
Ich hoffe es kann mir geholfen werden.
(Sehr gut gelungener Blog ;-) )
-
9. Mike
Tja wo gehoblet wird, da fallen Link-Späne. Und Google gibt ja nun wohl auch selbst zu, dass man gerade momentan sehr viel am ändern ist. Ich hoffe dennoch, dass sich dort mal grundlegend was ändert, diese Suchmaschinenmurkserei geht mir schon lange auf den Senkel. Für die 404er hab ich auch noch etwas Verständnis, man kann den Traffic ja noch auf der Startseite bündeln, aber ein noindex z.B. darf einfach nicht umgangen werden. Dass Klein- und Großschreibung zu DC führt, ist aber auch kein Wunder, das muss man genauso sehen wie IDN im Verzeichnisnamen, das geht ja auch nicht so “richtig”.




