Indexbereinigung im SEO
Entdeckst Du Seiten von Deiner Domain im Index, die keinen Sinn machen oder veraltet sind? Im besten Fall sind das nur Einzelfälle und Du überlegst, ob sie Deiner SEO-Performanz schaden. Im schlechtesten Fall entdeckst Du massenweise unbekannte URLs im Index und kannst nicht nachvollziehen, wo die überhaupt herkommen. Doch was tun – ignorieren, löschen, deindexieren? Ich zeige Dir, warum Du Deinen Index regelmäßig überprüfen solltest, welche Möglichkeiten Du zur Indexbereinigung hast und wie Du entscheidest, welche Methode Du anwendest.
Inhalt
- Definition Indexbereinigung und Indexierungsstrategie
- Warum ist eine Indexbereinigung notwendig?
- Welche Seiten solltest Du bereinigen?
- Veraltete Inhalte: Bleibe aktuell
- Verwaiste Seiten: Halte Deine Inhalte vernetzt
- Minderwertige Inhalte: Fokus auf Relevanz
- Duplikate: schaffe Eindeutigkeit
- Methoden zur Indexbereinigung
- Indexierungsstatus erheben
- Index – Wie oft prüfen?
- Löschen und 301-Weiterleitungen unnötiger URLs
- Meta Robots Tag noindex
- Canonical Tags
- Exkurs: Crawl-Optimierung und Robots.txt
- Fazit
Definition Indexbereinigung und Indexierungsstrategie
Die Indexbereinigung ist Bestandteil einer guten Indexierungsstrategie. Die Bereinigung bezeichnet SEO-Maßnahmen, um veraltete, irrelevante, minderwertige oder duplizierte Inhalte einer Website aus dem Suchmaschinenindex zu entfernen. Ziel der Maßnahmen ist es, nur relevante und qualitativ hochwertige Seiten einer Website im Index zu erfassen.
Eine Indexierungsstrategie bezieht sich auf die Auswahl und Steuerung der Seiten einer Domain, die in den Index von Suchmaschinen aufgenommen werden sollen. Im Umkehrschluss beinhaltet das Indexierungskonzept auch die Entscheidung, Inhalte nicht in den Index aufnehmen zu lassen (Indexhygiene). Gleich am Anfang des Blogposts sei gesagt: von ganz kleinen Seiten einmal abgesehen, sollten so gut wie nie 100 % Deiner Seiten indexiert sein.
Warum ist eine Indexbereinigung notwendig?
Bei einem unorganisierten Index stoßen Nutzer*innen auf nicht relevante oder minderwertige Inhalte, die nicht ihren Suchanfragen entsprechen. Das erhöht die Absprungrate und beeinträchtigt das Vertrauen in die Website.
Da Google und andere Suchmaschinen hochwertige und relevante Inhalte priorisieren, verlieren Domains mit einem unsauberen Index auf Dauer Rankings und Sichtbarkeit in den Suchergebnissen.
Weitere Probleme können sein: Ineffizientes Crawling, Server- und Ladezeitprobleme, Verschwendung von Serverressourcen für unnötige Seiten, langsamere Ladezeiten und ein erschwertes Handling für Dich, etwa durch schwierigere Analysen. Wenn Du beispielsweise Deine Seitenperformance betrachtest, können tausende irrelevante Datensätze den Fokus verfälschen.
Welche Seiten solltest Du bereinigen?
Die Antwort ist so leicht wie kompliziert: Du solltest alle Seiten aus dem Index entfernen, die dort nicht sein sollten. Im Folgenden nenne ich Dir dafür ein paar Beispiele.
Veraltete Inhalte: Bleibe aktuell
Suchmaschinen möchten stets aktuelle Informationen liefern. Veraltete Inhalte beeinträchtigen deshalb die Qualität Deiner Suchergebnisse und die Relevanz Deiner Website für Seitenbesucher*innen. Uralt-Blogposts, Pressemitteilungen aus dem letzten Jahrzehnt und Ankündigungen vergangener Events bringen beispielsweise keinen Nutzen. Manche Inhalte, wie überholte medizinische Infos, könnten sogar die Gesundheit von Menschen gefährden.
Gehe bei der Auswahl, welche Inhalte zu alt sind, mit Bedacht vor und betrachte weitere Signale wie Klicks, die Anzahl an Bewertungen oder Backlinks. Bei einem Kochrezept auf einer Rezepte-Plattform spielt ein „hohes Alter“ zum Beispiel keine negative Rolle: Ich habe gerade „Chefkoch Pfannkuchen“ gegoogelt. Die ersten beiden Rezepte auf der Seite sind von 2014 und 2008. Sie haben je 1700 bzw. 2500 Bewertungen, bestimmt einen Haufen Backlinks und erhalten sicher viel und wohlverdienten Traffic. Das Beispiel zeigt, wie kontextabhängig die Bewertung ist, wann ein Inhalt „zu alt“ ist.
Verwaiste Seiten: Halte Deine Inhalte vernetzt
Gute Inhalte haben üblicherweise eine Menge eingehende Links von anderen Unterseiten Deiner Domain. Verwaiste Seiten sind hingegen nicht auf der Website verlinkt und von keiner anderen Unterseite aus erreichbar.
Wenn dies ein Versehen war, hole die Verlinkung nach. Oft haben solche Seiten aber keine praktische Funktion und sind aus gutem Grund verwaist. Wahrscheinlich sind sie so wenig relevant, dass sie mit der Zeit einfach vergessen wurden und so aus der internen Verlinkung rausgefallen sind.
Minderwertige Inhalte: Fokus auf Relevanz
Suchmaschinen möchten sicherstellen, dass die Seiten in ihrem Index relevant für die Suchanfragen sind. Irrelevante, dünne und minderwertige Inhalte können hingegen die Suchergebnisse verfälschen, Suchmaschinen verwirren und ein ineffizientes Crawling Deiner Seite bewirken. Doch was meinen diese Begriffe im SEO-Kontext genau?
Relevant bedeutet im SEO-Kontext: relevant für Traffic über Suchmaschinen. Das sind URLs, die Traffic ranschaffen und Umsätze bzw. Conversions bringen. Irrelevant sind hingegen im SEO-Sinne Inhalte, die nicht im Zusammenhang mit den Hauptthemen, der Expertise oder den Zielen einer Website stehen. Wenn beispielsweise User Rezepte auf Rezeptplattformen posten, dann sind das (je nach Geschmack des Ergebnisses 😉) wertvolle und relevante Inhalte. Wenn hingegen die Mitarbeitenden eines Stromversorgers Rezeptideen im Unternehmens-Blog posten, verwässern diese Inhalte die Ausrichtung im Index des Unternehmens. Die Rezepte stehen in keinem Zusammenhang mit dem Unternehmensziel, dass Seitenbesucher:innen einen Stromvertrag abschließen und gehören nicht in den Index des Stromversorgers.
Ebenso irrelevant für die Indexierung sind z. B. Testseiten aus einer Entwicklungsumgebung und die meisten Filterseiten aus Onlineshops. Da die Indexsteuerung in Onlineshops ein komplexes Thema ist und schnell in die Hose gehen kann, haben wir zur Vertiefung einen eigenen Blogpost.
Minderwertige Inhalte sind oberflächlich und bieten keinen Mehrwert. Ein Beispiel sind Affiliate-Seiten ohne zusätzliche Informationen wie eigene Testergebnisse zu den beworbenen Produkten.
Stelle Dir zum Thema „Seite relevant oder nicht?“ folgende Fragen:
SEO-Relevanz prüfen | Interpretation |
Bringt die Seite relevanten Traffic? | Klicks von Personen, die zur Zielgruppe des Unternehmens gehören |
Stehen die zur Seite passenden Suchanfragen in Verbindung zum Unternehmensziel? | Wenn die Antwort „nein“ lautet, kannst Du die Seite auf noindex setzen. |
Viele Seiten im Index, die vermutlich irrelevant sind? | Eingreifen erforderlich: Die Sichtbarkeit der wertvollen Seiten sinkt, wenn Suchmaschinen Ressourcen für unwichtige Inhalte verschwenden. |
Duplikate: schaffe Eindeutigkeit
Suchmaschinen versuchen, doppelte Inhalte und „Fast-Dubletten“ zu vermeiden. Duplikate stiften Verwirrung und können die Erfahrung der Nutzer:innen verschlechtern.
Zu den Duplikaten zählen umsortierte Kategorieseiten in einem Onlineshop, etwa Produkte einmal von A – Z und einmal von Z – A geordnet. Zu den „Near Duplicates“ zählen Städte-Landingpages, wie man sie früher im SEO genutzt hat: für deutschlandweite Dienstleistungen war es Usus, für jede Ministadt die gleiche Seite anzulegen – nur der Städtename, der öfters im Seiteninhalt vorkam, unterschied sich. Die so entstandenen Tausenden von Seiten ähnelten sich also sehr stark.
Methoden zur Indexbereinigung
Als SEO-Manager:in solltest Du immer eine Indexierungsstrategie für Deine Seite verfolgen. Es ist eine wichtige SEO-Aufgabe festzulegen, welche Seiten indexiert werden sollen und welche nicht. Dabei definierst Du einen Sollzustand, gleichst ihn mit dem IstZustand ab und setzt die entsprechenden Maßnahmen um. Meistens sieht der IstZustand anders aus als das definierte Soll und Du musst Dir überlegen, mit welchen Maßnahmen Du den SollZustand erreichst.
Maßnahmen umfassen dabei, bestimmte Seiten auf noindex zu setzen, sie zu „canonisieren“ oder zu löschen. Im Sinne der Crawling-Steuerung kommt zudem eine robots.txt-Sperrung ins Spiel. Bei der Wahl der Maßnahmen solltest Du Problemen auf den Grund gehen, um die beste Lösung zu finden.
Nehmen wir als Beispiel Seiten vom Typ www.beispiel.de, die je eine gedoppelte Schwesterseite unter beispiel.de (also ohne www) haben. Hier läuft systemisch etwas schief. Wenn Du alle Einzelseiten auf ihre Pendants kanonisierst, hältst Du zwar den Index sauber, hast aber immer noch jede Seite sinnlos doppelt im System und sie sind weiterhin aufrufbar. Besser wäre es, die Version ohne www zu verhindern! Hier können z. B. technische Anpassungen und 301- Redirects eine bessere Lösung sein.
Zu den verschiedenen Methoden der Indexbereinigung gibt es auch ein Seokratie-Video:
Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Indexierungsstatus erheben
So gehst Du vor, um den Indexierungsstatus Deiner Seite zu erheben:
Tool | Anmerkung |
site-Abfrage |
|
Google Search Console (GSC) |
|
Crawler wie Screaming Frog |
|
Besonders die GSC ist für mich eine wichtige Hinweisgeberin, wann ich den Index prüfen sollte.
Das tue ich etwa, wenn sich die Anzahl an indexierten Seiten stark verändert:
Weitere Hinweise erhalte ich aus den Berichten, warum bestimmte Seiten nicht indexiert sind:
In diesen Berichten erfährst Du, ob wichtige Seiten nicht gecrawlt und indexiert werden. Wenn gleichzeitig massenhaft unwichtige Seiten im Crawling oder der Indexierung auftauchen, solltest Du Maßnahmen ergreifen.
In unserer Serie zur Google Search Console zeigen wir, wie Du die einzelnen Berichte richtig interpretierst:
Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Index – Wie oft prüfen?
Um diese Frage zu beantworten ist es wichtig, dass Du zuerst eine saubere Indexierungsstrategie aufsetzt und umsetzt.
Danach solltest Du Deinen Index kontinuierlich überwachen. Dazu kannst Du Alerts in Tools einstellen, die Dich über Änderungen informieren. Hier sind z. B. GSC Alerts sehr sinnvoll, die Dich über Änderungen im Bericht Indexierung / Seiten informieren. Diese solltest Du direkt ansehen und einordnen.
Zudem solltest Du nach technischen Änderungen – z. B. ein Update Deines CMS, Upload vieler neuer Produkte auf einmal und nach einem Relaunch – stets den Index prüfen.
Nicht zuletzt gibt es einige Hinweise dafür, dass Du Deinen Index dringend prüfen solltest:
- unerwartete URLs im Index
- Sichtbarkeit sinkt
- Absprungrate auf der Website steigt
- veraltete oder irrelevante Seiten in den Suchergebnissen
- ein hoher Anteil an Duplicate Content oder Seiten mit wenig Mehrwert auf der Website
- Crawling-Fehler und Indexierungsprobleme in der Google Search Console
Löschen und 301-Weiterleitungen unnötiger URLs
Für viele von euch ist es befreiend, den Keller auszumisten und Dinge wegzuschmeißen. Genauso verhält es sich mit Deinem Index. Manchmal macht es Sinn, Seiten zu löschen. So, wie ich das alte Sideboard zum Sperrmüll bringe und die verstaubten Inlineskates an den Straßenrand verfrachte, kannst Du veraltete und nicht mehr benötigte Inhalte löschen. Um User Signals, Backlinks und die interne Linkkraft von Seiten zu erhalten, kannst Du zudem eine 301-Weiterleitung auf eine passende Zielseite setzen.
Meta Robots Tag noindex
Das Meta Robots Tag noindex wird im HTML-Header einer Seite platziert und ermöglicht die Steuerung des Verhaltens von Suchmaschinenrobotern auf dieser Seite. Noindex verhindert, dass die Seite im Suchmaschinenindex erscheint, während nofollow das Folgen von Links auf der Seite durch Suchmaschinen verhindert.
Beispiel:
<!DOCTYPE html> <html> <head> <meta name=”robots” content=”noindex, nofollow”> <!—Andere Meta-Tags und Seiteninhalte hier → </head> <body> —-- Seiteninhalt hier --> </body> </html>
Im Code-Beispiel verhindert noindex, dass die Seite im Suchmaschinenindex erscheint, während nofollow verhindert, dass Suchmaschinen die Links auf dieser Seite verfolgen. Üblicherweise setzt Du Seiten „nur“ auf noindex, ohne den Zusatz nofollow. Das noindex-Attribut wirkt allerdings auch ohne nofollow stark: es verbietet die Indexierung und vermindert das Crawling. Das ist ein nützlicher Nebeneffekt für Seiten, die Du nicht im Index haben willst und bei denen ein intensives Crawling Crawlbudget verschwenden würde.
Seiten, die auf noindex stehen, geben außerdem keinen internen Linkjuice weiter.
Du solltest noindex verwenden, wenn Du Seiten nicht löschen willst oder kannst, diese aber nicht relevant für Suchmaschinen sind. Dazu zählen Seiten, die mit den Hauptzielen Deiner Website oder Branche nicht zusammenhängen. Ebenso fallen darunter Seiten, die aus systemischen Gründen wichtig sind, aber keinen Sinn für Suchende haben. Beispielsweise könntest Du seitenspezifische Kontaktanfragen auf noindex setzen:
- domain/produkt1/ (Produkt-Seite für Produkt1) → indexieren
- domain/produkt1/anfrage/ (Seite für Anfrage zu Produkt 1) → noindex
Ich nutze noindex außerdem bei paginierten Seiten wie www.beispiel.de?p=48. Seiten mit privaten oder vertraulichen Infos solltest Du zusätzlich immer mit einem Passwortschutz versehen. Es macht allerdings keinen Sinn, noindex mit disallow zu kombinieren – denn durch ein Crawling-Verbot wird das noindex-tag nicht gefunden.
Canonical Tags
Das Canonical-Tag kann Duplikate im Index verhindern, wenn es verschiedene URLs mit dem gleichen oder sehr ähnlichen Inhalt gibt. Das Ziel des Canonical-Einsatzes ist es, Klarheit zu schaffen und nur die richtigen Seiten in die Suchergebnisse zu bringen.
Das Canonical Tag teilt Suchmaschinen dafür mit, welche URL als die bevorzugte Version einer Seite betrachtet werden soll, wenn es mehrere Versionen gibt. Das tag wirkt dabei auch domainübergreifend. Es wird in den <head>-Bereich einer Webseite eingefügt, um Duplicate-Content-Probleme zu vermeiden. Hier ein Beispiel für die Kanonisierung von Seiten mit Trackingparametern.
Headbereich von https://www.beispiel.de/tolles-thema:
<link rel=“canonical“ href=”https://www.beispiel.de/tolles-thema”>
Das Canonical dieser Seite zeigt auf sich selbst und sagt Suchmaschinen: „ich bin Original!“
Headbereich von https://www.beispiel.de/tolles-thema?utm=social-kampagne:
<link rel=“canonical“ href=”https://www.beispiel.de/tolles-thema”>
Das Canonical dieser Seite zeigt auf eine andere Seite und sagt Suchmaschinen: „ich bin eine Kopie, nimm die andere Seite in den Index!“
Beachte: Ein Canonical ist lediglich ein Hinweis an Suchmaschinen, über den sie sich hinwegsetzen können. Das tun sie dann, wenn sie auf Grund von User-Signals oder Backlinks eine andere URL als das Original betrachten, als die von Dir angegebene. Dadurch sind Canonicals ein schwächeres SEO-Instrument zur Deindexierung als noindex.
Kanonisieren macht Sinn, wenn Du…
- doppelte Inhalte nicht verhindern kannst oder willst
- die User-Signals und die interne wie externe Linkpower von Seiten zusammenführen willst
- eine eindeutige Version für den Index benennen willst, aber damit leben kannst, wenn Suchmaschinen wie Google sich darüber hinwegsetzen
Beispiel: das System dupliziert Inhalte automatisch, etwa bei PDFs:
https://www.beispiel.de/content/pdf-datei.pdf = https://www.beispiel.de/content/2023/pdf-datei.pdf
Hier können Canonicals eine pragmatische Lösung darstellen.
Viele Shops erzeugen Duplikate, da sie sich nicht entscheiden können, zu welcher Hauptkategorie eine Unterkategorie gehört. Die Unterkategorie fügen sie deshalb an verschiedenen Stellen in der Navigation ein. Dadurch werden Menüs allerdings unübersichtlich und Nutzer:innen verwirrt. Du solltest deshalb möglichst die Seitenstruktur besser planen und eine eindeutige Zuordnung treffen.
Zusammenfassend: Die Verwendung von noindex ist eine sichere Möglichkeit, um Seiten vom Index auszuschließen. Das Canonical Tag hingegen zeigt Suchmaschinen an, welche Seitenversion Du bevorzugst, kann aber auch dazu führen, dass die nicht bevorzugte Seite im Index verbleibt.
Exkurs: Crawl-Optimierung und Robots.txt
Wenn Du URLs hast, die nicht gecrawlt werden sollen, kannst Du diese über die robots.txt-Datei sperren.
Ich hatte bei einer Kundin einmal den Fall, dass ihr CMS zu jeder URL zwei Kopien erzeugte. Der Inhalt von drei Seiten war also jeweils gleich und so wurden sinnlose Seiten generiert. www.beispiel.de enthielt im Code beispielsweise Links auf
- beispiel.de?parameter1=0
- beispiel.de?parameter2=0
Suchmaschinen sind beim Crawling gierig und folgend jedem Link. Die URLs waren zwar nicht indexiert, da sie ein Canonical Tag enthielten. Aber das änderte nichts an der aufgeblähten URL-Menge. Also briefte ich in der Entwicklungsabteilung das Entfernen der Links mit den Standardparametern ein, und die URLs verschwanden aus dem Crawl und aus allen Analysetools – zack, URL-Menge gedrittelt!
Die robots.txt ist eine Textdatei, die Du auf Deinem Webserver platzierst. Sie informiert Suchmaschinenroboter (Bots) darüber, welche Teile einer Website sie crawlen dürfen und welche nicht. Sie gibt also insbesondere Verbote, welche Teile einer Website nicht gecrawlt werden dürfen.
Dies geschieht durch Festlegen von Zugriffsregeln für bestimmte Verzeichnisse oder Seiten mit sogenannten „Disallow“-Regeln. Ein Verbot des Crawlings über disallow bedeutet dabei nicht zugleich ein Verhindern der Indexierung.
Suchst Du eine kompetente, flexbile und zuverlässige Online-Marketing-Agentur? Wir freuen uns auf Deine unverbindliche Anfrage.
Kontaktiere unsUser-agent: * # Kundenspezifische Verzeichnisse verbieten Disallow: /account/ Disallow: /login/ # Bilderdatenbank verbieten Disallow: /imagestorage/cms/ # URLs mit mindestens zwei Parametern verbieten Disallow: /*?*& # URLs mit bestimmten Parametern immer verbieten Disallow: /*?Category # Ausnahme: Kategorie „super“ erlauben Allow: /*?Category=super
Suchmaschinen lesen die robots.txt-Datei vor dem Crawlen und respektieren die darin definierten Einschränkungen. Die Crawling-Steuerung lohnt sich als Maßnahme, um das Crawling großer Mengen an irrelevanten Seiten zu unterbinden und das Verschwenden von Crawling-Ressourcen zu vermeiden.
Beispiel: Ein Onlineshop duplizierte alle Seiten vom Typ www.beispiel.com/en/page. Dabei generierten sich Versionen im Stil www.beispiel.com/en-ae/page oder www.beispiel.com/en-fi/page, was englischsprachige Menschen in den Arabischen Emiraten / Finnland und jedem erdenkbaren anderen Land ansprechen sollte. Das Crawling geriet durch den krassen Anstieg duplizierter Seiten aus den Fugen, wichtige alte Seiten verloren Rankings und neue Produkte wurden gar nicht erst gecrawlt. Nachdem wir das Crawling der Dubletten gesperrt hatten, normalisierte sich die Performanz wieder.
Die Sperrung über die robots.txt ist zusammenfassend eine sinnvolle Maßnahme für große Websites und Domains, die massenhaft aus Suchmaschinensicht unnötige URLs generieren.
Fazit
Die Indexbereinigung ist ein entscheidender Bestandteil einer erfolgreichen SEO-Strategie. Sie hilft dabei, veraltete, irrelevante, minderwertige und duplizierte Inhalte aus dem Suchmaschinenindex zu entfernen. Dies ist von großer Bedeutung, da ein ungeordneter Index die Nutzererfahrung beeinträchtigen und das Vertrauen in die Website verringern kann. Darüber hinaus führt ein unzureichender Index zu ineffizientem Crawling, Serverproblemen und einer Verschwendung von Ressourcen.
Es ist wichtig, alle nicht relevanten Seiten aus dem Index zu entfernen. Bei der Bereinigungsmethode hängt es von der individuellen Situation ab, ob Löschen, 301-Weiterleitungen, noindex Tags oder Canonical Tags sinnvoller sind oder das Problem eher im Bereich des Crawlings liegt und Du eine robots.txt-Sperrung vornehmen solltest.
Welche Tools verwendest Du, um Deinen Index zu überprüfen? Nach welchen Kriterien entscheidest Du, welche Seiten aus dem Index entfernt werden sollen? Und welche Herausforderungen oder Probleme sind bei der Indexbereinigung für Dich aufgetreten? Schreibs mir in die Kommentare und lass uns diskutieren!