SEO

Crawlingsteuerung bei Online Shops: Aber wie(so)?

Felix MeyerSEO-Experte

8. Jun 2023 23 Kommentare

Besonders bei großen Online Shops mit vielen Tausenden bis hin zu Millionen URLs wird ein SEO-Thema besonders spannend: Crawlingsteuerung. Bei großen Seiten darf das Crawling nicht einfach sich selbst überlassen werden. Kleine technische Details können hier große Auswirkungen haben. Wie solltet ihr also das Crawling steuern? Und warum überhaupt? Wir haben die wichtigsten Punkte zusammengestellt.

Wisst ihr eigentlich, wie es auf eurer Website kreucht und fleucht?

Versteht Euer Crawlbudget

Bei wirklich großen Seiten – wie es die meisten Shops sind – ist es wichtig zu verstehen, dass es ein sogenanntes Crawling Budget gibt. Suchmaschinen stehen nicht unbegrenzt Ressourcen zur Verfügung, um alle URLs der Welt regelmäßig zu crawlen. Euer Ziel muss daher sein, Suchmaschinen nur oder zumindest vornehmlich die URLs crawlen zu lassen, die wirklich wichtig sind. Wie häufig Google Eure Seite crawlt, seht Ihr in Eurer Search Console im Bericht Crawling-Statistiken.

Noch detailliertere Infos bekommt Ihr übrigens, wenn Ihr einzelne Verzeichnisse in der Search Console einreicht, um Unterschiede und Unregelmäßigkeiten zu finden. (Richtigstellung: Genau die Crawling-Statistiken funktionieren da nicht, aber alle anderen Crawling-Reports) Unregelmäßigkeiten können unter anderem folgende Ausschläge sein:

Über eine Analyse der Logfiles haben wir in diesem Fall festgestellt, dass sich der Bot der Google Bildersuche in Unmengen von unnötigen Bilder-URLs verlaufen hat. Das soll so natürlich nicht sein, Daher galt es, dort anzusetzen und die Bilder-URLs zu reduzieren.

Wenn es um Crawlingsteuerung geht, ist eine solche Logfile-Analyse enorm wichtig. Nur so könnt Ihr die Aktivitäten der Crawler wirklich nachvollziehen, überwachen – und steuern.

Aber wie steuert Ihr jetzt genau das Crawling? Ärmel hochkrempeln, jetzt geht’s los!

Plant Eure Seitenarchitektur logisch

Die Grundlage für einen gut optimierten und crawlbaren Shop ist eine saubere und logische Seitenarchitektur. Dazu gehören viele Faktoren. Besonders wichtig ist eine sinnvolle URL-Struktur, die über sprechende Verzeichnisse die Struktur der Seite widerspiegelt. Hier gilt es abzuwägen, wie tief diese Verzeichnisstruktur wirklich sein muss – schließlich sollen es weiterhin möglichst kurze und handliche URLs sein. Ergänzend empfiehlt es sich, über eine Breadcrumb-Navigation sämtliche Eltern der verschiedenen URLs für Crawler und User nachvollziehbar zu verlinken.

Etwas praxisnaher kann ich das an einem Beispiel erklären:

Wenn die Breadcrumb Navigation so aussieht:

Herren » Bekleidung » Hemden » Businesshemden

Dann ist es nicht sinnvoll, allen Ebenen ein eigenes Verzeichnis zu geben, auch wenn es logisch wäre:

example.com/herren/bekleidung/hemden/business-hemden/

Sondern stattdessen das Verzeichnis „Bekleidung“ zu vernachlässigen, weil es sich aus dem Kontext erklärt:

example.com/herren/hemden/business-hemden/

Seitenarchitektur ist natürlich ein Thema für sich – ich behandle es hier nur oberflächlich . Dennoch solltet Ihr hier die Weichen wichtig stellen, bevor Ihr mit irgendwelchen wilden Korrekturen anfangt.

Verlinkt Eure internen Links korrekt

Je größer Eure Seite ist, desto dringlicher werden die Fehler, die Tools wie OnPage.org, DeepCrawl, Audisto & Co. aufzeigen. Zum Beispiel solltet Ihr interne Links auf Weiterleitungen und vor allem daraus resultierende Weiterleitungsketten vermeiden. Auch Links auf Fehlerseiten dürfen Euch nicht passieren, genauso wie Eure Canonicals ohne Umwege auf die korrekten Seiten verweisen sollten. Internen Links solltet Ihr nicht das Attribut rel=nofollow geben.

Eine paar sinnvolle Reports aus OnPage.org sind zum Beispiel diese hier:

All diese Reports mit Hinweisen auf Crawling-Fehler findet ihr in OnPage.org Zoom

Beachtet Eure Klickpfadlänge

Wenn Ihr eine große Seite habt, solltet Ihr auch darauf achten, dass Eure URLs nicht zu weit von der Startseite entfernt sind. Bei OnPage.org heißt dieser Report „Links » Klickpfad“ und sieht zum Beispiel so aus:

Die roten Balken sagen: Liebe Kinder, bitte nicht nachmachen!

Ab einer gewissen Seitengröße kann es durchaus natürlich und im Sinne der Seitenhierarchie sein, dass nicht alle URLs drei Klicks von der Startseite entfernt sind. Daher arbeitet OnPage.org auch mit gelben Balken. Muss der User jedoch siebenmal und öfter klicken, um von der Startseite bis zur endgültigen URL zu kommen, ist das deutlich zu viel. Dann solltet Ihr Euch fragen, ob diese Seiten wichtig sind und ob Ihrsie nicht besser in die Seite integriert (nochmal Stichwort Seitenarchitektur). Sind sie nicht wichtig, dann solltet Ihr Euch überlegen, wieso sie überhaupt noch existieren.

Verwendet eine Sitemap

Bei großen Seiten ist es für Suchmaschinen eine große Hilfe, eine Sitemap zur Orientierung zu haben. 50.000 URLs bzw. 10MB dürfen in eine Sitemap. Wenn Ihr mehr URLs habt, solltet Ihr eine Sitemap-Indexdatei verwenden. Eine solche Sitemap muss allerdings auch gepflegt werden. Wenn reihenweise veraltete URLs in der Sitemap stehen, ist das kontraproduktiv.

Crawling von Filtern und Parametern steuern

Die Funktion von Parametern in Onlineshops hängt mit der Filterung der Produkte nach ihren Eigenschaften und mit dem Begriff Facettennavigation zusammen. Einen ausführlichen Beitrag dazu findest Du unter Facettensuche und SEO.

Filter in Online-Shops

Online-Shops nutzen Filter, damit Kund:innen die Produktauswahl nach Ihren Wünschen verkleinern können. Will eine Person beispielsweise in einem Online-Schuhgeschäft blaue Sneaker in Größe 38 kaufen, so kann sie die Kategorie „Damensneaker“ nach der Farbe blau und zusätzlich nach der Größe 38 filtern.

Dadurch findet sie ausschließlich für Ihre Kaufabsicht passende Sneaker mit diesen Merkmalen und muss sich nicht mühsam durch das gesamte Sortiment wühlen. Filter für Produkt-Listings sind für Personen einfach anzuwenden und zielführend für die Kaufabsicht und damit eine wichtige Funktion in Shops.

Filterungen übertragen sich üblicherweise durch Get-Parameter auf die URL und erzeugen so neue URLs mit dem gefilterten Ergebnis.

Im Beispiel könnte die Ergebnis-URL so aussehen: example.com/damen-sneaker-beispielmodell?farbe=blau&groesse=38.

Ein Fragezeichen (?) kündigt die Parametervariable an, z.B. „farbe“. Dahinter steht das „Ist-gleich-Zeichen“ (=) und darauf folgt der Wert der Variable, in diesem Fall also „blau“. Ein kaufmännisches „und“ (&) verknüpft zwei Parameter.

Für einen Suchmaschinenbot sind Parameter-URLs eigene URLs. Falls der Bot sie findet, so versucht er sie zu crawlen.

Damit kommen wir zum kritischen Aspekt. Abhängig von der Anzahl an Variablen und Werten ergeben sich rechnerisch irrwitzig viele Filterkombinationsseiten.

Aus SEO-Sicht sollten aber nur ganz wenige davon gecrawlt und indexiert werden:

Wichtige Kategorie- oder Produktseiten müssen regelmäßig gecrawlt und indexiert werden. SEOs versuchen deshalb entsprechende Relevanzsignale für diese Seiten zu setzen und gleichzeitig zu verhindern, dass Bots das Crawlbudget für irrelevante Filterseite verbrauchen.
Filterseiten enthalten oft (Near-) Duplicate Content oder Thin-Content, und Google will solche Inhalte nicht im Index haben.
Das Thema „laufen zu lassen“ nach dem Motto „Google sucht sich schon die richtigen Seiten!“ ist eine schlechte Idee. Ein „Index Bloat“ – also den Suchmaschinen-Index mit unbrauchbaren Seiten zu fluten – widerspricht Googles Richtlinien.

Für Deinen Shop musst Du deshalb eine Auswertung durchführen, welche Filter-URLs Du indexieren willst und welche nicht. Hier findest Du meine Tipps dazu.

Einzigartige Shop-Filterseiten sind indexierenswert

Nicht einzigartige Seiten sind Duplicate Content: Wenn die Filterreihenfolge tauschbar ist, also z.B. der Farbfilter sowohl an erster als auch an zweiter Stelle stehen könnte, ebenso wie der Größenfilter – dann listen beide URLs die gleichen Produkte auf. Das gilt auch, wenn sich lediglich die Reihenfolge der Produkte ändert, etwa bei der Anordnung „nach Beliebtheit“ oder „nach Preis aufsteigend“.

Indexierbare Seiten müssen genug Produkte enthalten

Nur Filterseiten, die eine ausreichende Auswahl an Produkten bieten, sind für den Google-Algorithmus sinnvoll.

Wenn ich viele Filter kombiniere, kann dies zu wenigen oder null Produkten führen. Damensneaker in pink, in Größe 42, aus dem Material Segeltuchstoff, für die Saison Winter? Es ist unwahrscheinlich, dass ich für diese Kombination viele Ergebnisse erhalte.

Willst Du fit in Online Marketing werden?

Mit unserem Newsletter bekommst Du automatisch die neuesten Seokratie-Beiträge direkt in Dein Postfach!

Jetzt abonnieren

Nur Filterseiten mit genug Suchvolumen in den Index.

Für die Entscheidung für oder gegen die Indexierung einer Filterseite ist auch essenziell, dass die Keywords genug Interesse an der Seite versprechen. Die Filter-Seite example.com/damen-sneaker?farbe=blau&groesse=38 beinhaltet blaue Damensneaker in Größe 38.

Prüfen wir die Suchvolumen für Farbe und Größe einzeln und kombiniert im Google Keyword Planner:

Je mehr Filter Du kombinierst, desto kleiner wird üblicherweise das Suchvolumen.

Ausgehend vom Suchvolumen ist eine indexierbare Seite mit blauen Damensneakern (grün umrandet) eine gute Idee.
Eventuell und je nach Angebot macht auch eine indexierbare Seite mit Sneakern in Größe 38 (gelb umrandet) Sinn. Aber die Kombination der Größe 38 und der Farbe blau (rot umrandet: Suchvolumen 0) macht zwar für Personen im Shop Sinn, gehört aber nicht in den Google-Index.

SEO-Maßnahmen bezüglich der Facettennavigation

Über den Daumen gepeilt gehören einerseits Sortierungen und andererseits Kombination von mehreren Filtern meist nicht in den Index. Sie sollten weder intern verlinkt sein, noch gecrawlt und schon gar nicht indexiert werden.

Für Filter im eCommerce gilt darüber hinaus:

Biete nur für Kund:innen sinnvolle Filter im Shop an.
Lege für die Parameter eine feste Reihenfolge in der URL fest – so eliminierst Du unsinnige Dopplungen.
Die Indexierung von Filterseiten kannst Du mit dem noindex-tag verhindern. Dies setzt auch das Crawling langfristig etwas herab.
Das Crawling bestimmter Filter-URLs kannst Du über die robots.txt mit dem Disallow-Befehl verbieten. Beachte, dass bei einer Kombination aus „Crawling verbieten“ und „Noindex“ oder einem Canonical. Google das noindex tag nicht finden und die URL (wenn sie etwa Backlinks hat) trotzdem in den Index gelangen kann.
Bots sollten hinter der Filteroption am besten keine internen Links finden, die auf irrelevante Parameterseiten zeigen, denn dadurch verlierst Du Linkjuice. Ob interne Links bestehen, kannst Du mit einem Crawling Tool wie dem Screaming Frog überprüfen. Aktiviere dabei das Java Script Rendering. Da die Googlebots Buttons und Formulare nicht crawlen, könnte Deine IT die Filter zum Beispiel mit der sogenannten Post-Redirect-Get-Technologie (PRG) umsetzen.
Verlinke die Filterseiten, welche Du indexieren möchtest intern und über Deine Sitemap und erlaube das Crawling sowie die Indexierung.

Verbessert Eure Ladezeiten

Direkt in Zusammenhang mit dem Crawlbudget steht auch die Größe der Seite. Schnell ladende Seiten können auch vom Crawler schneller erfasst werden. Die Ladezeit ist daher besonders für sehr große Seiten ein wichtiger SEO-Hebel. Und mit schicken Seiten wie testmysite.thinkwithgoogle.com macht das sogar noch Spaß! Sehr lohnenswert ist auch ein Blick auf die Dateigrößen und die Wasserfalldiagramme von gtmetrix.com. Für Letzteres könnt Ihr aber auch die Entwicklertools aus Chrome oder Firefox verwenden.

Links seht ihr testmysite, rechts das Wasserfalldiagramm von gtmetrix.com.

Behaltet das ganze Bild im Blick

Letztendlich ist es wichtig, dass Ihr Eure Seite so schlank wie möglich haltet. Die meisten Aufgaben sind schlicht Handwerk, bei denen es kein „vielleicht“, sondern nur „richtig“ und „falsch“ gibt. Natürlich müsst Ihr bei der Umsetzung abwägen, wie viele Ressourcen Ihr dafür verwendet. Aber das Schöne ist: Wenn die Punkte erledigt sind, dann habt Ihr Eure Seite besser gemacht. Google ist glücklich, Ihr seid glücklich – und wenn euch der Artikel geholfen hat, bin auch ich glücklich!

Fehlen wichtige Maßnahmen? Dann lasst es mich in einem Kommentar wissen!

Euch ist das alles zu technisch und Ihr braucht jemanden, der Eure Seite komplett unter die Lupe nimmt und Euch anschließend durch die erforderlichen Maßnahmen führt? Dann stellt Eure SEO-Anfrage.

Über Felix Meyer

Felix Meyer ist 2009 als erster Mitarbeiter zu Seokratie gekommen und war von 2017 bis 2023 einer der Geschäftsführer von Seokratie. Hier findest Du alle Beiträge von Felix Meyer.

Kontakt

Wie können wir Dir helfen?

Dein Erfolg ist nur einen Klick entfernt. Verbinde Dich jetzt mit unseren Experten und lass uns gemeinsam Deine Ziele erreichen. Wir sind bereit, auf Deine individuellen Bedürfnisse einzugehen.

Lass uns miteinander sprechen - kostenlos & unverbindlich

Dein Ansprechpartner:
Julian Dziki

Erstberatung

Kontaktformular für Landingpages FW