Google und der Duplicate Content: Hilft nur noch Canonical?

17. März 2011 | 23 Kommentare

In letzter Zeit fallen mir zwei Sachen auf, die sich eigentlich völlig widersprechen. Zum einen crawlt Google so viel wie niemals zuvor und der Bot indexiert einfach alles, was er in die Finger bekommen kann. Zum anderen wird interner Duplicate Content so hart bestraft wie noch nie zuvor.

googlebot

 

Robots.txt ignoriert

Eigentlich kann man sich mittlerweile sparen die robots.txt zu editieren. Google indexiert die Inhalte trotzdem. Sehen kann man das an der “site:domain.de” Abfrage, wenn man sich die letzten Ergebnisse ansieht. Das sind meist Seiten mit doppelten Inhalten, die ja bekanntlich schlechter ranken – so auch bei der site:Abfrage. Einzige Erkennungsmerkmal bei Seiten, die in der Robots.txt gesperrt wurden: Die Description fehlt. Aber ansonsten sind viele Seiten im Index, obwohl sie in der robots.txt gesperrt sind! Früher half es, wenn man den Googlebot direkt ansprach, also statt “User-agent: *” einfach noch zusätzlich (vor dem allgemeinen User-Agent) “User-agent: Googlebot” in die robots.txt einfügte. Heute funktioniert auch das nicht mehr.

Noindex

Die robots.txt wurde früher schon manchmal von Google ignoriert. Sicher gehen konnte man nur mit der Anweisung “meta name=”robots” content=”noindex, follow” . Übrigens schreibt man besser “follow”, weil dann die Seite zwar nicht indexiert wird, den Links dort allerdings gefolgt wird. So hilft sogar eine nicht-indexierte Seite für die interne Verlinkung, etwa wenn auf diese Seite Links zeigen.

Aber auch die Noindex-Anweisung wird mittlerweile von Google oft ignoriert. Warum? Ich weiß es nicht.

Tüchtiger Crawler

Google ignoriert also diese beiden Anweisungen neuerdings teilweise. Warum? Gibt es technische Probleme oder ist Google der Meinung, dass man nichts verstecken sollte? Was aber passiert mit Webseiten, die gar nicht in den Index wollen? Auch rechtlich ist dieses Vorgehen für Google problematisch: Wer etwa Bilder nicht indexieren möchte, der kann auf diese Nichtindexierung bestehen und Google muss sich daran halten.

Zudem ist der Crawler wirklich zu lebhaft geworden: So habe ich in einem Online Shop erlebt, dass eine Produktkategorie bis zur Seite 9 indexiert wurde, also /kategorie/ , dann /kategorie/1/ , /kategorie/2/ usw. bis /kategorie/9/ . Das Problem: Es gibt nur zwei Produktkategorieseiten, also nur bis /2/ und es gibt auch keine internen oder externen Links, die auf die anderen Seiten verweisen. Ich denke, dass der Googlebot die Seite /2/ angeklickt hat und danach probiert hat ob es noch eine /3/ gibt. Daraufhin fand er zwar eine leere Kategorieseite, jedoch keinen 404er – und schob die Seiten in den Index.

Ab Seite /10/ gab es einen 404-Fehler: Diese Seite kam dann auch nicht mehr in den Index. Natürlich auch ein Fehler des Shopsystems, aber als Programmierer (und auch als SEO) wäre ich nie auf die Idee gekommen, dass Google so etwas machen würde, zumal weder interne noch externe Links auf die Seiten verweisen.

Als kleiner Beweis: http://www.seokratie.de/tag/seo-nows/ ist indexiert (mit vielen anderen Tag-Seiten) obwohl seit Ewigkeiten per robots.txt ausgeschlossen und gleichzeitig noch auf  “Noindex” gestellt.

Warum ist das schlecht?

Je mehr Seiten ohne großen Inhalt im Google-Index sind, desto schlechter ist das für das Ranking einer Domain. Das ist Fakt. Vielleicht ignoriert Google diese Seiten ja trotzdem und behandelt sie intern als wären sie nicht im Index. Ich habe rankingtechnisch aber andere Erfahrungen gemacht. Außerdem frage ich mich, ob man derzeit wirklich zu viele Ressourcen hat? So ein Vorgehen muss doch wirklich unglaublich Ressourcen fressen?

Rel=canonical wird beachtet

Seltsamerweise achtet Google sehr auf die Canonical-Anweisung. Man will ja keine doppelten Inhalte im Index und hat extra dafür noch eine neue Methode zur Vermeidung eingeführt! Jetzt frage ich mich natürlich schon, warum man plötzlich die althergedienten Methoden ignoriert? Das ist mit Sicherheit nicht gewollt, oder doch? Vielleicht will ja jemand von der Search Quality dazu Stellung nehmen, würde mich freuen.

Rel=canonical ist ja für meinen Fall (Tag-Seiten nicht indexieren) nicht geeignet, denn das würde ja der Logik  von rel=canonical widersprechen. Gerade bei sehr großen Domains (Wikipedia, Youtube etc.) hat man zwar seit Ende Februar insgesamt weniger Seiten im Index, aber gerade bei kleineren Webseiten ist das nicht der Fall. Was also tun? Alles auf rel=canonical umstellen, auch wenn das ein falsches Anwendungsgebiet wäre? Im Beispiel mit den Shopkategorien haben wir es so gemacht, aber in anderen Fällen?

Eure Erfahrungen zum Thema?

Bild: Der Googlebot © Google Inc. aus dem SEO-Guide von Google

 

VN:F [1.9.22_1171]
Bewertung: 0.0/5 (0 Bewertungen)

Beitrag teilen:

Veröffentlicht unter: Onpage

Über den Autor

Julian Dziki ist SEO, Online Marketer und Affilate seit 2007.
Suchmaschinenoptimierung München

Kommentare (23)

Reaktionen auf diesen Beitrag

  1. Vom Spider in den Index – Aufbau des Google-Bot | 7. Juni 2011
  1. Kann ich bestätigen. 6412 URLs in den WMT durch robots.txt gesperrt. Dennoch sind einige davon im Google-Index. Das nervt gewaltig, wenn die dann von Hand entfernt werden muss. Vor allem müssen die nicht mal verlinkt sein. Sogar wenn PHP-Dateien per Ajax aufgerufen werden, landen die im Index. Da kommt es mir eher so vor, als wenn Google die robots.txt dafür nutzt Seiten zu finden^^.

  2. Moin Julian,

    joa das “mehr”-Indexieren kann ich bestätigen. Ich hatte schon vor einigen Wochen das Problem das Google wahllos ausgeschlossene Seiten in den Index gespült worden sind, aber nach ein/zwei Wochen waren diese auch wieder aus dem Index verschwunden^^

    Bei anderen Seiten sind die gesperrten wiederum im Index, aber einen Nachteil konnte ich derzeit noch nicht entdecken^^ und da der Traffic weiterhin steigt, mache ich mir darum im Moment nicht wirklich Gedanken drum, sondern behandle die Vorkommen eher latent im Hinterkopf …

    Btw.: Deine Categorys und Pages sind auch im Index … scheint als würde der GoogleBot momentan keine Lust auf Beschränkungen seitens der robots.txt haben

  3. Marc

    ist das nicht schon lange so?

    When a user does a navigational query and we don’t return the right link because of a NOINDEX tag, it hurts the user experience (plus it looks like a Google issue). If a webmaster really wants to be out of Google without even a single trace, they can use Google’s url removal tool.

    http://www.mattcutts.com/blog/google-noindex-behavior/

    vielleicht hilft das. :-)

  4. Ja, das erleb ich leider auch immer wieder. Keine Ahnung warum Google sich nicht einfach an die vom Webmaster gemachten Vorgaben hält.

  5. Dirk

    Soweit ich weiß, wird die Sperrung der Unterseiten durch die robots.txt umgangen bzw. übergangen, sobald Deeplinks auf die Unterseiten zeigen, worüber dann der Google-Bot auf die Unterseite kommt. Da hilft dann nur das noindex-Attribut.

  6. Und was kann man dagegen machen – ist man ‘wirklich’ komplett machtlos? Ich möchte zum Beispiel nicht das meine ‘About’ Seite indexiert wird (oder andere themen-unrelevanten Seiten). Also weiterhin per meta und robots ausschließen, und dann hoffen das es i-wann aus dem Index fliegt?

  7. Seit gut einer Woche hat auch der Google-Imagebot wieder richtig Fahrt aufgenommen. Bislang hält er sich aber an meine robots.txt.

    Normale Seiten schließe ich per meta-noindex aus, auch damit gibt es bis jetzt keine Probleme.

  8. Das ist nichts neues, bereits seit grob einem Jahr so.
    Daher sollte man die robots auch nur nutzen um andere Bots auszusperren oder um die eigene Sitemap da aufzunehmen.

    Das Google sich nicht an die Sperrungen hält hat Matt Cutts vor langer Zeit in einem Video einmal gesagt. Der Wortlaut war in etwa: wenn wir eine Seite finden die per robots gesperrt ist, aber auf die Links zeigen oder wir denken sie wäre interessant, dann kommt die auch in den Index
    Lustig dass die dann den Zeitungen empfohlen haben die robots zu nutzen.

    Deine Tag-Seiten werden auf diese Art nie verschwinden. Entfern den robots Eintrag, dann versteht Google auch endlich den noindex.

    Wie gesagt, ist seit knapp einem Jahr so, früher konnte man locker robots, noindex & canonical nutzen und die Seiten waren weg.

  9. Anmerkung zu:
    “Als kleiner Beweis: http://www.seokratie.de/tag/seo-nows/ ist indexiert … obwohl … per robots.txt ausgeschlossen und …. auf “Noindex” gestellt.”

    Das ist irgendwie auch logisch…. denn Du verbietest dem Crawler in der robots.txt mit “disallow” das Verzeichnis zu besuchen.

    Das macht er auch nicht (mehr), darum kommt er nie auf die Seiten, um dort das zu sehen.

    Wenn Du also in der robots.txt das disallow für dieses Verzeichnis rausnimmst, findet der Crawler das “noindex” wieder und nimmt die Seiten aus dem Index.

    Das habe ich schon mehrfach getestet…. (bzw. testen müssen, weil bei einem Kunden 400.000 falsche interne Suche indexiert waren… die waren nach Monaten mit robots-disallow immer noch im Index…)

  10. Der Metatag wurde rausgeparst…

    –> Das macht er auch nicht (mehr), darum kommt er nie auf die Seiten, um dort das (meta name=”robots” content=”noindex, follow, noodp”) zu sehen….

  11. Julian

    Hi David,

    Ach was? Wirklich? Klingt logisch. Trotzdem: Wenn ich dem Bot verbiete die Seite zu besuchen, warum indexieren sie es dann?

  12. Julian

    Und “früher” war das nicht so. ;-)

  13. Die Sache mit der robots.txt kann ich bestätigen. Habe das vor kurzem erst bei kubaseotraeume.biz ausprobiert. Die komplette Domains war mittels Disallow: / gesperrt, aber sämtliche Seiten kamen in den Index. Allerdings ohne Snippet.

    Interessant war dabei, dass anscheinend wirklich nur externe Signale benutzt wurden, denn der Titel in den SERPs hat “KubaSeoTräume SEO” gelautet, obwohl der eigentliche Seitentitel “KubaSeoTräume” heißt. Der SERP Titel stimmt aber grob mit den Ankertexten der Backlinks überein.

    Die Seite ist seit ein paar Tagen nicht mehr blockiert und inzwischen haben alle Seiten den richtigen Titel + Description -> hier war Google also sehr schnell beim aufräumen/updaten.

  14. Google indiziert keine Seiten, sondern URLs. Und die Anweisungen in der robots.txt sagen nichts darüber, ob eine Seite indiziert werden soll oder nicht, sondern alleine, ob der Crawler sie abrufen soll.

    Wenn eine URL per robots.txt gesperrt ist, würde das bedeuten, dass der Crawler die Seite zwar nicht aufruft, die URL aber trotzdem indiziert, wenn er irgendwo auf einen Link mit der URL stößt. Das würde auch zu der Beobachtung passen, dass die “noindex”-Angabe ignoriert und kein Snippet angelegt wird. Für beides müsste ein Crawler die Seite ja erst einmal aufrufen. Insofern finde ich das ganze Verhalten eigentlich nicht besonders überraschend.

    Es wäre allerdings interessant, mal in den log-Files des Servers nachzuschauen, ob man dort Zugriffe des Crawlers auf per robots.txt gesperrte Seiten findet. Das stände dann tatsächlich im Widerspruch zu den Aussagen Googles über die robots.txt.

  15. @Julian: bei meinem Beispiel war es so, dass die Seiten zuerst (aus Versehen) indiziert waren, und dann erst haben wir disallow in die robots und noindex auf die Seite gesetzt.

    Nach entfernen des disallow waren die Seiten dann nach ein paar Wochen deindiziert.

  16. Hallo Julian, das Problem ist mir auch bekannt.

    Was mich aber am meisten stört, ist Folgendes:

    Ich hab auf 3 verschiedenen Subdomains denselben Artikel eingestellt. Bei zwei Subdomains hab ich die Artikel mit der robots.txt ausgeschlossen und das schon seit ca. 9 Monaten. Gut, das ist double content, was mir persönlich gar nicht gefällt, aber was solls…

    Aber jetzt kommts:
    Ich lass mich über die RSS-Funktionalität der Google-Blogsuche über bestimmte Keywords am laufen halten und lese die Feeds derzeit mit Thunderbird. Und da kommt jetzt was, was mich echt tierisch nervt, da werde ich mal schauen was ich ändern kann:

    Nahezu JEDEN TAG bekomme ich in den News dort immer wieder erneut diese durch robots.txt auf den Subdomains gesperrten Artikel angezeigt. Jeden Tag aufs Neue zwei Klicks, um die Einträge als gelesen zu markieren – ich könnte echt aus der Haut fahren. Also das finde ich echt ärgerlich.

    Ich denk, ich werde mir für die News ein Yahoo-Pipe basteln und dann über die Filterfunktion meine eigenen (eigentlich gesperrten) Artikel da ausfiltern.

  17. Die robots.txt verbietet der Suchmaschine die URL zu crawlen. Die Suchmaschine kennt also keine Inhalte der Seite, wohl aber, dass die Seite existiert (Links die darauf verweisen). Im Zweifelsfall werden bei Google also Seiten indexiert, dessen Inhalt unbekannt ist.
    Wie David sagt bringt noindex und die robots Exclusion nichts. Wenn du nicht willst, dass die Seite im Index landet, dann nutze nur noindex.

    @Nikolas: Könnte mir vorstellen, dass zumin. eine HEAD Anfrage gestartet wird um zu schauen, ob die Seite existiert.

    cheerio,

  18. Julian

    Tja da merkt man mal wieder, dass ich kein Techie bin. Früher ging meine Methode auch, aber heute anscheinend nicht mehr. Trotzdem: Die Seiten sind nicht intern oder extern verlinkt und gesperrt – der Googlebot bleibt ein Crawl-Süchtiger. :-)

  19. Julian

    Danke für eure Hilfe!

  20. Mit der Canonical-URL gibts zur Zeit wirklich keine Probs mit DC. Noindex war mir jetzt auch neu. Das hatte Google bisher eigentlich noch brav befolgt. Aber vllt. schreiben wir auch für Google alle die robots.txt falsch. die müsste bestimmt google.txt jetzt heissen ohne bing und yahoo (eigentlich ja jetzt der gleiche Verein).

  21. Wenn ich das richtig verstehe geht es hier u.a. um die Frage wieso Google Seiten indiziert die nicht gecrawled werden dürfen. Dazu gibt es von Matt Cutts ein Video in dem er das erklärt: http://www.youtube.com/watch?v=KBdEwpRQRD0

    Es kommt wohl vor das es gute Seiten gibt die oft verlinkt werden die aber nicht gekrawled werden wollen. Durch die Links weiß aber Google, dass die Seiten gute Infos haben müssen und nehmen diese Seiten also ohne sie vorher zu crawlen in den Index auf.

    Wenn man Seiten per robots.txt vom crawlen ausschließt, und Google dementsprechend die Seiten nicht crawled, kann Google also auch das “noindex” im Meta-Tag nicht lesen. Man verbietet quasi Google die Anweisungen zu lesen und wundert sich dann wieso Goole nicht das tut was man möchte. :-)

  22. Mizuno

    @Adrian

    Das Video von Matt Cutts fand ich ziemlich aufschlussreich. Ich wusste nicht, dass robots.txt so funktioniert. Die Art, wie es funktioniert, scheint doch ziemlich logisch zu sein.

Kommentieren

Trackback URL | RSS Feed für diesen Beitrag