Crawlingsteuerung bei Online Shops: Aber wie(so)?

8. Juni 2016  |     |  21 Kommentare
Ein Beitrag von Felix

Besonders bei großen Online Shops mit vielen Tausenden bis hin zu Millionen URLs wird ein SEO-Thema besonders spannend: Crawlingsteuerung. Bei großen Seiten darf das Crawling nicht einfach sich selbst überlassen werden. Kleine technische Details können hier große Auswirkungen haben. Wie solltet ihr also das Crawling steuern? Und warum überhaupt? Wir haben die wichtigsten Punkte zusammengestellt.

crawlingsteuerung

Wisst ihr eigentlich, wie es auf eurer Website kreucht und fleucht?

Versteht Euer Crawlbudget

Bei wirklich großen Seiten – wie es die meisten Shops sind – ist es wichtig zu verstehen, dass es ein sogenanntes Crawling Budget gibt. Suchmaschinen stehen nicht unbegrenzt Ressourcen zur Verfügung, um alle URLs der Welt regelmäßig zu crawlen. Euer Ziel muss daher sein, Suchmaschinen nur oder zumindest vornehmlich die URLs crawlen zu lassen, die wirklich wichtig sind. Wie häufig Google Eure Seite crawlt, seht Ihr in Eurer Search Console im Bericht Crawling-Statistiken.

crawling statistiken der google search console

Noch detailliertere Infos bekommt Ihr übrigens, wenn Ihr einzelne Verzeichnisse in der Search Console einreicht, um Unterschiede und Unregelmäßigkeiten zu finden. (Richtigstellung: Genau die Crawling-Statistiken funktionieren da nicht, aber alle anderen Crawling-Reports) Unregelmäßigkeiten können unter anderem folgende Ausschläge sein:

crawling statistik fehler

Über eine Analyse der Logfiles haben wir in diesem Fall festgestellt, dass sich der Bot der Google Bildersuche in Unmengen von unnötigen Bilder-URLs verlaufen hat. Das soll so natürlich nicht sein, Daher galt es, dort anzusetzen und die Bilder-URLs zu reduzieren.

Wenn es um Crawlingsteuerung geht, ist eine solche Logfile-Analyse enorm wichtig. Nur so könnt Ihr die Aktivitäten der Crawler wirklich nachvollziehen, überwachen – und steuern.

Aber wie steuert Ihr jetzt genau das Crawling? Ärmel hochkrempeln, jetzt geht’s los!

Plant Eure Seitenarchitektur logisch

Die Grundlage für einen gut optimierten und crawlbaren Shop ist eine saubere und logische Seitenarchitektur. Dazu gehören viele Faktoren. Besonders wichtig ist eine sinnvolle URL-Struktur, die über sprechende Verzeichnisse die Struktur der Seite widerspiegelt. Hier gilt es abzuwägen, wie tief diese Verzeichnisstruktur wirklich sein muss – schließlich sollen es weiterhin möglichst kurze und handliche URLs sein. Ergänzend empfiehlt es sich, über eine Breadcrumb-Navigation sämtliche Eltern der verschiedenen URLs für Crawler und User nachvollziehbar zu verlinken.

Etwas praxisnaher kann ich das an einem Beispiel erklären:

Wenn die Breadcrumb Navigation so aussieht:

Herren » Bekleidung » Hemden » Businesshemden

Dann ist es nicht sinnvoll, allen Ebenen ein eigenes Verzeichnis zu geben, auch wenn es logisch wäre:

example.com/herren/bekleidung/hemden/business-hemden/

Sondern stattdessen das Verzeichnis „Bekleidung“ zu vernachlässigen, weil es sich aus dem Kontext erklärt:

example.com/herren/hemden/business-hemden/

Seitenarchitektur ist natürlich ein Thema für sich – ich behandle es hier nur oberflächlich . Dennoch solltet Ihr hier die Weichen wichtig stellen, bevor Ihr mit irgendwelchen wilden Korrekturen anfangt.

Verlinkt Eure internen Links korrekt

Je größer Eure Seite ist, desto dringlicher werden die Fehler, die Tools wie OnPage.org, DeepCrawl, Audisto & Co. aufzeigen. Zum Beispiel solltet Ihr interne Links auf Weiterleitungen und vor allem daraus resultierende Weiterleitungsketten vermeiden. Auch Links auf Fehlerseiten dürfen Euch nicht passieren, genauso wie Eure Canonicals ohne Umwege auf die korrekten Seiten verweisen sollten. Internen Links solltet Ihr nicht das Attribut rel=nofollow geben.

Eine paar sinnvolle Reports aus OnPage.org sind zum Beispiel diese hier:

onpage org crawling reports

All diese Reports mit Hinweisen auf Crawling-Fehler findet ihr in OnPage.org Zoom

Bei Paginierungsseiten solltet ihr außerdem, wie von meiner Kollegin Katha ausführlich beschrieben, rel=“prev“ und rel=“next“ verwenden.

Beachtet Eure Klickpfadlänge

Wenn Ihr eine große Seite habt, solltet Ihr auch darauf achten, dass Eure URLs nicht zu weit von der Startseite entfernt sind. Bei OnPage.org heißt dieser Report „Links » Klickpfad“ und sieht zum Beispiel so aus:

klickpfadlänge onpage.org

Die roten Balken sagen: Liebe Kinder, bitte nicht nachmachen!

Ab einer gewissen Seitengröße kann es durchaus natürlich und im Sinne der Seitenhierarchie sein, dass nicht alle URLs drei Klicks von der Startseite entfernt sind. Daher arbeitet OnPage.org auch mit gelben Balken. Muss der User jedoch siebenmal und öfter klicken, um von der Startseite bis zur endgültigen URL zu kommen, ist das deutlich zu viel. Dann solltet Ihr Euch fragen, ob diese Seiten wichtig sind und ob Ihrsie nicht besser in die Seite integriert (nochmal Stichwort Seitenarchitektur). Sind sie nicht wichtig, dann solltet Ihr Euch überlegen, wieso sie überhaupt noch existieren.

Verwendet eine Sitemap

Bei großen Seiten ist es für Suchmaschinen eine große Hilfe, eine Sitemap zur Orientierung zu haben. 50.000 URLs bzw. 10MB dürfen in eine Sitemap. Wenn Ihr mehr URLs habt, solltet Ihr eine Sitemap-Indexdatei verwenden. Eine solche Sitemap muss allerdings auch gepflegt werden. Wenn reihenweise veraltete URLs in der Sitemap stehen, ist das kontraproduktiv.

Benutzt Parameter

Bei Shopsystemen ist die Verwendung von Parametern zu empfehlen (z.B. example.com/damen-sneaker-beispielmodell?farbe=blau&groesse=38). Durch Parameter können Crawler schon vor dem Crawl interpretieren, welche URLs voneinander abhängig sind, was deren Inhalte sind und wie wichtig sie sind.

Für wichtige Seiten sind aber meistens URLs ohne Parameter die bessere Wahl. In der Search Console (Crawling » URL-Parameter) könnt Ihr Google mitteilen, wofür diese Parameter gedacht sind, wie sich diese auf den Inhalt auswirken und ob sie gecrawlt werden sollten:

parameter konfiguration search console

Die Anweisungen, welche URLs Google crawlen soll, sind allerdings irreführend. Eine Analyse der Logfiles zeigt, dass sich darüber nicht das Crawling verbieten lässt. Als Empfehlung an Google ist es trotzdem sinnvoll, die Parameter zu konfigurieren.

Setzt Filter richtig um

Bei Shopsystemen ist die größte Herausforderung meistens der Umgang mit der Filterung. Jeder neue Filter lässt die Anzahl der Shop-URLs exponentiell steigen, wodurch sich der Crawler verrennen kann. Viele Filtermöglichkeiten mit teilbaren URLs sind aber dringend im Sinne des Nutzers und somit auch im Sinne von SEO.

Die falsche Lösung wäre es, die Crawler von diesen Seiteninhalten per robots.txt auszuschließen: Das verstecken von JavaScripts widerspricht inzwischen Googles Richtlinien, und das Verbieten von bestimmten URLs macht diese zu „Schwarzen Löchern“, die eingehende Links wertlos machen.

Stattdessen empfiehlt es sich, mit PRG-Patterns zu arbeiten. Vereinfacht gesagt wird durch den Klick auf die Filterung nur der Inhalt verändert, nicht aber die URL. Danach wird eine URL-Änderung erzwungen, die der Crawler nicht beachtet. Wenn Ihr genauer wissen wollt, wie das funktioniert, empfehle ich Euch die sehr gute Erklärung von Mario Schwertfeger . Der große Vorteil dieser Methode ist, dass die URLs weiterhin existieren, sie werden aber nicht immer und in allen Variationen intern verlinkt.

Verbessert Eure Ladezeiten

Direkt in Zusammenhang mit dem Crawlbudget steht auch die Größe der Seite. Schnell ladende Seiten können auch vom Crawler schneller erfasst werden. Die Ladezeit ist daher besonders für sehr große Seiten ein wichtiger SEO-Hebel. Und mit schicken Seiten wie testmysite.thinkwithgoogle.com macht das sogar noch Spaß! Sehr lohnenswert ist auch ein Blick auf die Dateigrößen und die Wasserfalldiagramme von gtmetrix.com. Für Letzteres könnt Ihr aber auch die Entwicklertools aus Chrome oder Firefox verwenden.

testmysite gtmetrix

Links seht ihr testmysite, rechts das Wasserfalldiagramm von gtmetrix.com.

Behaltet das ganze Bild im Blick

Letztendlich ist es wichtig, dass Ihr Eure Seite so schlank wie möglich haltet. Die meisten Aufgaben sind schlicht Handwerk, bei denen es kein „vielleicht“, sondern nur „richtig“ und „falsch“ gibt. Natürlich müsst Ihr bei der Umsetzung abwägen, wie viele Ressourcen Ihr dafür verwendet. Aber das Schöne ist: Wenn die Punkte erledigt sind, dann habt Ihr Eure Seite besser gemacht. Google ist glücklich, Ihr seid glücklich – und wenn euch der Artikel geholfen hat, bin auch ich glücklich!

Fehlen wichtige Maßnahmen? Dann lasst es mich in einem Kommentar wissen!

Ihr habt Fragen, die Euch unter den Fingernägeln brennen? Stellt sie über Seokratie hilft! Euch ist das alles zu technisch und Ihr braucht jemanden, der Eure Seite komplett unter die Lupe nimmt und Euch anschließend durch die erforderlichen Maßnahmen führt? Dann stellt Eure SEO-Anfrage.

Bilder: Ameise im Teaserbild © ookawa / istockphoto.com

Jetzt teilen: Share on Facebook0Tweet about this on TwitterShare on Google+0Email this to someone

E-Book: Der Weg zum erfolgreichen Online Shop

  • Das 47-seitige E-Book mit 72 konkreten Tipps für Deinen Online Shop
  • Einmal wöchentlich exklusiver Content für das Marketing Deines Shops
  • Unser Newsletter (1-2x pro Woche)
E-Book kostenlos downloaden

21 Kommentare

Reaktionen auf diesen Beitrag

    • Servus,

      sämtliche Seiten die nur zum „ausdrucken“ vom Shop erstellt werden auf „noindex nofollow“ setzen oder ganz aus dem Shop nehmen! Begründung: Die Seiten haben einen kleinen Quellcode, damit mehr Text / Content / schnellere Ladezeit und werden oft von Google indexiert und tauchen vor der eigentlichen Produktseite im Index auf – obwohl ohne Kauffunktion und Canonical schützt nicht immer und wird trotzdem gecrawlt.

      Parameter einstellen – nur für absolute Profis geeignet, weil da kannst den ganzen Shop abschiessen!

      Grüßle Alex

    • Felix

      Stimmt, Druckseiten können ziemlich ärgerlich sein. Trotzdem würde ich diese nicht auf nofollow stellen. Ich würde hier nur mit einem Canonical arbeiten (und demnach auch nicht mit noindex). Das löst aber leider noch nicht das Crawlingproblem, sondern nur die Indexierung. Je nach Größe der Seite würde ich entweder mit dem Problem leben oder dafür einstehen diese Druckversionen ganz abzuschaffen und mit Druck-Stylesheets zu arbeiten. (Ohne es ganz gelesen zu haben, wirkt das dazu sehr aufschlussreich: http://www.peter-rozek.de/publikationen/css-design-grundlage-druckversion.php)

    • Benjamin

      Hallo Felix,

      vielen Dank für einen mal wieder sehr interessanten Seokratie-Post. Sich die Crawl-Statistiken auf Verzeichnisebene anzuschauen – daran hatte ich noch nicht gedacht, gute Idee!

      Eine Sache ist mir nicht ganz verständlich geworden: Was hat die URL-Struktur, bezogen auf die Nutzung von Verzeichnissen, mit Crawlersteuerung zu tun? Weil ich die Verzeichnisse in der SC als Property freischalten kann um mir die Crawl-Statistiken auf Verzeichnisebene anschauen zu können? Quasi URLs in Verzeichnissen bündeln für eine bessere Crawl-auswertung? Im Artikel wird die Nutzung von Verzeichnissen sehr betont, daher frage ich mich ob da noch mehr dahinter steckt. Ist nicht die Verlinkungsstruktur alleine für den Pfad des Crawlers ausschlaggebend?

      Viele Grüße
      Benjamin

    • Stimmt, nofollow noindex wird ja trotzdem mal gecrawlt, ist also auch keine Lösung.

      Eben, es geht um das Crawlingproblem und deswegen wäre es besser solche „unnötige Seiten“ zu löschen. Direkt beim erstellen des Shops und noch bevor man unzählige Produkte in den Shop einfügt. Warum? Weil die URL´s über Jahre von Google gecrawlt werden, auch wenn sie schon längst nicht mehr existieren.

      Hab das mal vor einiger Zeit in meinem Blog behandelt und da sieht man an zwei Beispielen wunderbar, wie lange Google an URL´s herum knabbert, obwohl die URL´s seit Jahren nicht mehr existieren und trotzdem noch gecrawlt werden. http://felodeseo.com/wie-aktuell-ist-google-wirklich/

    • Roland

      Danke für den interessanten Artikel.
      Mich würde noch interessieren, wie man das Thema Siloing im Online-Shop am besten angeht.
      Jeder Shop hat ja in der Regel ein oder mehrere Menüs (im Header und oder Sidebar), die Produkt-Kategorien beinhalten und auf allen Seiten zu finden sind, also auch auf Produktdetail-Seiten. Die zerschießen strenggenommen da dann wieder das Konzept des Siloing, weil ich dann ja von z.B. einer Produktdetail-Seite zum Thema „Hundefutter“ über das Menü auf die Kategorie „Babynahrung“ verlinke. Also auf eine Kategorie, die thematisch nicht zur Produktdetail-Seite „Hundefutter“ passt.

      Sollte mann dann die Menüs auf Produktdetail-Seiten auf „nofollow“ setzen? Technisch eine Herausforderung, gerade wenn sich das Menü im Header befindet und auf der Startseite ja gerade nicht auf „nofollow“ stehen sollte.

    • Was meinst du mit „einzelne Verzeichnisse in der Search Console einreichen“? Dass man sie als eigene Property anlegen soll?

      LG, Karo

    • Felix

      Hallo Benjamin,
      sehr gute und richtige Anmerkung. Die Verzeichnisstruktur hat nicht direkt etwas mit dem Crawling zu tun, darüber entscheiden die Links, da hast du recht. Mein Ansatz ist aber: Wenn der Cralwer über die URL (und somit über Verzeichnisse und Parameter) schon die Hierarchie der Seite verstehen kann, dann kann er auch die Zusammenhänge und die Wichtigkeit besser interpretieren. Eigentlich möchte ich damit sagen: Schaut erstmal, ob der Seitenaufbau als solcher stimmig ist, bevor ihr das „Micromanagen“ anfangt.
      Viele Grüße
      Felix

    • Felix

      Hi Karo,
      ja, genau das meinte ich damit. Aber ich muss das richtigstellen: Genau diesen Report zu Crawlingstatistiken gibt es bei Propertys für Verzeichnisse nicht. Dafür aber die anderen Reports wie Crawlingfehler und Parameter-Übersicht. Habe das jetzt oben entsprechend klargestellt.
      Viele Grüße
      Felix

    • Felix

      Hallo Roland,
      danke für deine gute Nachfrage! Siloing ist tatsächlich auch wichtiges Thema beim Crawling. Das führt allerdings sehr weit. Ich bleibe dabei: Ich würde bei internen Links in 99,99% der Fälle kein nofollow verwenden. Solange nur die Überkategorien der jeweiligen anderen Silos verlinkt werden, finde ich das richtig und auch im Sinne der Klickpfadlänge. Die große Frage dabei ist nur: Wie viele Überkategorien gibt es und was ist überhaupt eine Überkategorie? Hier würde ich die erste Hierarchieebene möglichst schmal halten.

    • Florian

      Hallo Felix,

      aus meiner Sicht macht es dennoch Sinn Seiten mit Such- und Filterergebnissen komplett zu sperren. Allerdings nicht über die Robots.txt sondern über die .htaccess. Grund für dieses stringente Vorgehen, waren die sich systembedingt bei jeder Eingabe des Users ändernden URL-Parameter, hat zu jeder Menge Verwirrung bei Google geführt und 404er in der SC ausgespuckt, deren URLs physisch zu keinem Zeitpunkt existiert haben.
      Jetzt haben wir Ruhe 😉

      Viele Grüße
      Florian

    • Roland

      @Florian
      Interessant, das gleiche Problem hatten bzw. haben wir auch.
      Aber warum über die .htaccess und nicht über die .robots.text?

    • Felix

      Florian, klingt sehr interessant, danke! Wie genau du das per .htaccess machst würde mich auch interessieren. 🙂

    • Sepp

      Ab welcher Größe/ durchschnittlichen Besucherzahl bzw. Konkurrenz sollte man sich diesem Thema verstärkt zuwenden?

      Wie immer ein sehr interessanter Artikel! Keep up the good work!

    • Florian

      Hallo Roland, hallo Felix,
      wir sperren mittels RewriteEngine On das komplette Verzeichnis über den User-Agent, in diesem Fall den Google und den Bing Bot. Im Prinzip also wie man es mit Referrer-Spam macht nur halt eben für einen bestimmten Bereich und nicht die komplette Seite. Das ist zwar nicht sonderlich charmant, aber nicht anders zu handeln. Die robots.txt verwenden wir in diesem Fall nicht, da diese ja nur das indizieren verhindert, aber dennoch Crawl-Budget verbraten wird. So schützen wir btw. auch unsere Login-Bereiche vor einschlägig bekannten schwarzen Schafen. Schließlich hält sich nicht jeder Bot an die robots.txt 😉
      Beste Grüße
      Florian

    • Felix

      Servus Sepp und danke! Ich sag jetzt mal aus dem Bauch heraus ins Blaue hinein 5.000 Seiten.

    • Felix

      Danke fürs Teilen, Florian! Hat das auch fürs Ranking was gebracht?
      Das mit der robots.txt verhindert allerdings durchaus das Crawling, aber eben das Indexieren nicht. Nur killt das auch sämtliche „Linkstärke“ die dort landet. Wohingegen bei deiner Lösung zumindest die Seite „angecrawlt“ werden muss, damit der Crawler den Redirect sieht. Besser als dass er alles crawlt auf jeden Fall. „Nicht sonderlich charmant“ triffts aber ganz gut. 😀

    • Florian

      Gern geschehen, ich lerne soviel von Blogs wie diesen, da kann man auch etwas zurückgeben 😉

      Durchbrüche zu speziellen Keywords habe ich bislang noch nicht feststellen können. Die Zahl der 404 ist allerdings deutlich zurück gegangen. Wir haben leider auch eine historisch gewachsene, sehr tiefe Linkstruktur (wird beim nächsten Relaunch behoben). Hier kann man schon sagen, dass mittlerweile auch URLs auf sehr tiefer Ebene zumindest mal auf den Plätzen 11-30 ranken, wo man durch etwas pushen vielleicht noch was reißen kann. Ich habe schon den Eindruck, dass wir dadurch den Bot in die richtige Richtung schubsen konnten.

      Sollte man natürlich nicht übertreiben natürlich, aber für ein, zwei Bereiche klappt das ganz gut. 😉

    • Vielen Dank für den Artikel.
      Meine Frage. Wann fällt Crawl Budget an. Wird bereits 1 Crawl Budget abgezogen, wenn Google den http Header eins Dokuments (Bspw. einer simplen HTML Datei) abruft? Oder erst wenn ein 200er zurück kommt und Google den HTML Head liest?
      Vielen Dank und Gruß

    • Felix

      Hi Marcel,
      gute Frage. Ohne es genau zu wissen, gehe ich nicht davon aus, dass es einfach „1 Crawl Budget“ pro URL gibt. Wenn du bspw. mit Screaming Frog eine Seite crawlst, schaffst du mit dem gleichen Speicher ja auch mehr URLs, wenn viele 301 oder 404 dabei sind. Noch dazu werden die URLs schneller übersprungen, weil ja kaum etwas geladen wird. Ich denke es ist ein Mix aus Zeit und Kilobyte. Wenn es jemand genauer weiß, freue ich mich aber über eine Richtigstellung! 🙂

    • Hallo Felix,
      cooler Post.Ist PRG keine Thema für Dich. Ich setzte das ja schon sehr lange Zeit ein und hatte auf mal WIKI Eintrag dazu gemacht https://www.advertising.de/seo/wiki/prg-pattern.html
      Denke schon, das es noch eine hoche Relevanz bei der Crawlingsteuerung hat. Was denkst Du?

      Gruß
      Christian

    • Felix

      Hi Christian, danke! Doch, durchaus. Im vor-vorletzten Absatz steht mein Senf dazu. 🙂

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

    Willst Du fit in SEO werden?

    Abonniere unseren Newsletter und bleibe in Sachen SEO, Inbound- & Online-Marketing auf dem Laufenden.

    Du kannst den Newsletter jederzeit wieder abbestellen.