Crawler einfach erklärt
Ein Crawler (auch Webcrawler, Website Crawler, Spider Bot genannt) ist ein Computerprogramm, das das Internet durchsucht und Websites hinsichtlich neuer oder aktualisierter Inhalte analysiert. Suchmaschinen setzen häufig Crawler auf Websites ein, um neue Websites aufzufinden, deren Inhalte zu indexieren und in den Suchergebnissen anzuzeigen. Bei der Analyse einer Website berücksichtigt der Webcrawler Texte, Bilder und auch Videos. Der bekannteste Crawler ist der Googlebot.
Inhalt
Wie kommt ein Webcrawler auf Deine Website?
Durch Hyperlinks, die auf bereits indexierten Websites vorhanden sind, gelangt ein Crawler auf weitere Seiten Deiner Domain. Stößt er dabei auf Links zu anderen Websites, folgt er diesen ebenfalls. Somit krabbelt (von englisch „crawling“) er wie eine Spinne nach und nach durch das gesamte World Wide Web, weshalb man den Webcrawler auch Spider nennt. Die Inhalte bzw. Daten, die der Crawler findet, werden ausgewertet und gegebenenfalls indexiert.
Ruft ein Crawler eine Webseite auf, wird dem Webserver dessen User-Agent-Kennung mitgeteilt. Der Webserver weiß dadurch, ob er dem Webcrawler die mobile Version einer Webseite oder die Desktop-Version bereitstellen muss. Die mobile User-Agent-Kennung des Googlebots sieht folgendermaßen aus:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.HTML)
Verschiedene Arten von Crawlern
In der Praxis gibt es verschiedene Arten von Crawlern, die sich in ihrer Art und ihrer Aufgabe unterscheiden:
- Suchmaschinen-Crawler: Diese Art von Webcrawlern kommt am häufigsten vor. Zu den bekanntesten Crawlern zählen der Googlebot (Google), Bingbot (Bing), Slurpbot (Yahoo) oder der DuckDuckBot (DuckDuckGo).
- Personal-Website-Crawler: Diese werden meistens von Unternehmen eingesetzt, um bestimmte Tasks zu prüfen, beispielsweise die Erreichbarkeit von URLs.
- Kommerzielle Website-Crawler: Wie der Name schon sagt, handelt es sich dabei um käuflich zu erwerbende Crawler, die von Firmen bereitgestellt werden.
- Desktop-Website-Crawler: Das Programm Screaming Frog SEO Spider ist ein sehr gutes Beispiel für Desktop-Website-Crawler. Dieses Programm wird auf dem eigenen PC oder Laptop installiert, von dort aus kannst Du dann den Screaming Frog Crawler die Inhalte einer Website crawlen lassen.
Wie hoch ist die Crawling-Frequenz Deiner Webseite?
Im Bericht „Crawling-Statistiken“ in der Search Console kannst Du Dir die aktuelle Crawl-Rate Deiner Webseite genau anschauen. Wie häufig ein Crawler Deine Webseite besucht und wie hoch damit die Crawling-Frequenz Deiner Webseite ist, hängt von verschiedenen Faktoren ab:
- Backlinks: Besitzt Deine Webseite viele externe Links ist die Wahrscheinlichkeit höher, dass Deine Seiten häufiger gecrawlt werden, da ein Crawler durch externe Links häufiger auf Deine Webseite gelangt.
- Webseiteninhalte:
- Hochwertige Inhalte: Hast Du hochwertige Inhalte, wird Deine Seite häufiger besucht, als wenn Du mit dünnen Inhalten aufwartest oder sogar viele doppelte Inhalte auf Deiner Webseite hast.
- Aktualisierte Inhalte: Wenn sich Deine Inhalte ständig ändern, wird ein Webcrawler häufiger Deine Webseite besuchen, um die neuen Inhalte herunterzuladen. Bei Inhalten, die kaum geändert werden, ist es nicht notwendig, dass sie ständig vom Googlebot besucht werden.
- Neue Inhalte: Viele neue Inhalte auf Deiner Webseite können dazu führen, dass der Google Crawler seine Crawling-Frequenz kurzzeitig erhöht, um Deine Webseite neu zu crawlen.
- Ladegeschwindigkeit: Weist Deine Seite eine hohe Ladegeschwindigkeit auf, wird sie häufiger vom Crawler besucht.
Die Crawling-Frequenz Deiner Webseite hat keinen direkten Einfluss auf das Ranking Deiner Seite. Wenn Du Deine Inhalte nur selten aktualisierst und sie dadurch nur selten gecrawlt werden, kannst Du dennoch gute Rankings in den Suchergebnissen erzielen.
Das Crawling Deiner Webseite begrenzen
Es gibt auch das Problem, dass ein Crawler zu häufig crawlt. Zu häufiges Crawlen einer Webseite kann sich negativ auf die Ladezeit einer Webseite auswirken, da der Server zu stark belastet wird.
Bist Du davon betroffen und der Googlebot Deine Webseite sehr häufig crawlt, obwohl sich die Inhalte Deiner Seite nicht im Minutentakt ändern, ist es sinnvoll das Crawling zu begrenzen.
Um dies zu tun, rufst Du einfach folgende URL auf:
https://www.google.com/webmasters/tools/settings
In dem geladenen Fenster kannst Du dann die maximale Crawling-Frequenz manuell festlegen. Dieses Problem betrifft allerdings nur wirklich sehr wenige Webseiten. Wenn Deine Website Bild.de, Spiegel.de oder CNN.com heißt und der Googlebot wirklich hunderte Male pro Sekunde auf Deiner Website crawlt, dann kann es zum Thema werden, weil dann die Serverkosten wirklich in die Höhe schnellen. In diesen Fällen haben wir bereits Crawlingbegrenzungen als sinnvoll erlebt.
Für 99,99 % aller anderen Websiten ist Crawlingbegrenzung allerdings nichts, womit Du Dich beschäftigen musst.
So sperrst Du einen Webcrawler für Bereiche auf Deiner Website
Hast Du eine Website mit mehreren Tausend URLs, ist es notwendig, den Crawler effizient zu steuern, sodass dieser nur die für die Suchmaschine relevanten Inhalte Deiner Website crawlt und die unwichtigen Seiten nicht weiter beachtet. Wichtig ist das deshalb, da Suchmaschinen nicht unbegrenzt Ressourcen zur Verfügung stehen, um alle URLs weltweit regemäßig crawlen zu können.
Bevor Du Dich jedoch für eine der folgenden Varianten entscheidest und diese auf Deiner Website umsetzt, solltest Du zunächst für Dich klären, welche Bereiche Deiner Website der Crawler nicht herunterladen soll. Hast Du diese Vorarbeit erledigt, gibt es diese Möglichkeiten, den Crawler von bestimmten Website-Bereichen auszuschließen:
1. Robots.txt
Über die robots.txt Datei, die im Root-Verzeichnis einer Domain hinterlegt ist, kannst Du dem Crawler Anweisungen geben, welche Bereiche Deiner Website nicht gecrawlt werden dürfen. Dabei kannst Du mittels Disallow-Befehls ganze Verzeichnisse oder nur bestimmte Seiten vom Crawling ausschließen.
Bitte beachte, dass Du Deine robots.txt nur dann bearbeiten solltest, wenn Du Dir im Umgang mit ihr sicher bist und weißt, was Du tust. Ist das nicht der Fall, könntest Du Suchmaschinen versehentlich von Deiner gesamten Webseite oder Teilen davon ausschließen. Starke Ranking-Verluste oder der Einbruch des Traffic können eine mögliche Folge davon sein.
Beispiel:
User-agent: * Disallow: /beispiel/
Dieser Disallow-Befehl sagt aus, dass alle Webcrawler verschiedener Suchmaschinen das Verzeichnis „Beispiel“ nicht crawlen dürfen. In der robots.txt Datei kann man Bots auch gezielt ansprechen, indem man anstelle des „*“ den Namen des Bots, zum Beispiel „Googlebot“ verwendet.
2. Noindex
Diesen Befehl hinterlegst Du innerhalb des Head-Bereichs. Kommt der Google Crawler auf eine Seite, die diesen Befehl enthält, wird er diese Seite aus dem Index nehmen – sie wird also nicht mehr in den Suchergebnissen erscheinen. Trotzdem darf der Googlebot die URL noch crawlen.
Aufgrund des Befehls noindex wird der Googlebot allerdings mit der Zeit diese Seite immer seltener besuchen, bis die sie dann gar nicht mehr von ihm gecrawlt wird.
Beispiel:
<meta name="robots" content="noindex,follow" />
Die Angabe sagt aus, dass die Seite nicht indexiert bzw. deindexiert werden soll, der Googlebot den Links auf der Seite aber folgen darf.
3. nofollow
Die Angabe von nofollow im Quelltext einer Seite bedeutet, dass der Crawler den Links auf der URL nicht folgen soll. nofollow wird allerdings nur sehr selten eingesetzt und macht eher bei externen Links Sinn.
Beispiel:
<meta name="robots" content="noindex,nofollow" />
Diese Angabe sagt aus, dass die Seite nicht indexiert werden soll und der Crawler den Links auf der Seite auch nicht folgen darf. Es gibt eigentlich keinen Anwendungsfall, der diesen Befehl wirklich benötigen würde, daher kannst Du ihn auch getrost wieder vergessen.