SEO

Crawling-Statistiken: Macht die Search Console Log Files überflüssig?

Felix MeyerSEO-Experte

12. Jan 2021 Ein Kommentar

Am 24.11.2020 hat Google den neuen Google Search Console-Report für Crawling-Statistiken gelauncht. Das bringt uns spannende Crawling-Insights out-of-the-box und ist super hilfreich! Aber die Angaben sind auch mit Vorsicht zu genießen: Sie zeichnen eine ziemlich heile Crawling-Welt, die nicht die volle Wahrheit widerspiegelt. Wir zeigen Dir, was der Bericht kann und was nicht.

Dank der Crawling-Statistiken werden die Aktivitäten von Google besser sichtbar

Rückblick: Was konnten die alten Crawling-Statistiken?

Bisher gab es auch schon Crawling-Statistiken. Den alten Report wird es aber ab dem 19.1.2020 nicht mehr geben. Für die Nostalgiker sei hier ein Blick darauf festgehalten:

Die alten drei Berichte waren sehr überschaubar:

Pro Tag gecrawlte Seiten: Hier siehst Du, ob es größere Ausschläge gab. Wenn es nach einem scheinbar für SEO irrelevanten Release einen Ausreißer gibt, lohnt es sich, tiefer zu graben. Nicht jeder Ausschlag ist aber Grund zur Verunsicherung. Manchmal werden auch einfach nur viele Bilder gecrawlt.
Größe der heruntergeladenen Seiten: Das ist eine nette Info im Sinne von: Wenig hilfreich. Es kann Dir aber ein wenig Aufschluss darüber geben, welche URLs gecrawlt wurden (Bilder?).
Durchschnittliche Reaktionszeit: Dieser Report ist sehr hilfreich, um die Server-Performance im Blick zu halten.

All diese Features kann der neue Report auch, nur eben im neuen Search-Console-Look:

Offenbar gab es hier Mitte November ein Problem mit der Antwortzeit des Servers.

Welche neuen Features bringt der neue Report?

Der neue Report bringt eine Menge an Zahlen und Auswertungen. Das ist vermutlich auch der Grund, warum Google den Report vor Laien versteckt. Du findest den Report nur unter „Einstellungen“. Dort findest Du dann diese Features:

Unterscheidung nach Dateityp

Im alten Report musstest Du noch mutmaßen, ob Google gerade viele Bilder gecrawlt hat. Jetzt sehen wir eine Aufschlüsselung nach Dateityp:

Die einzelnen Dateitypen lassen sich sogar anklicken. Und tatsächlich sehen wir dann, dass die Ausreißer hauptsächlich wegen den Bildern waren – was selten problematisch ist:

Unterscheidung nach Antwort bzw. Status Code

Dieses Feature ist richtig cool! Jetzt siehst Du mit nur einem Klick, ob die Anzahl der gecrawlten 404-Seiten nach oben gegangen ist, denn auch diese Punkte sind alle anklickbar:

Das ist eine sehr hilfreiche Ergänzung zum bisherigen Abdeckungs-Report, der einfach nur die Summe der URLs anzeigt.

Unterscheidung nach Googlebot

Auch die Unterscheidung nach Bot ist neu und durchaus interessant: Crawlt Google vor allem Bilder? Und gibt es Seitentypen, die vermehrt als Desktop-Seite gecrawlt werden? Dieser Report verrät es Dir:

Unterscheidung nach Zweck

Auch neu und ein Feature, das sich mit Log Files nicht auswerten lässt, ist der Zweck: Also ob Google nur eine bisher bekannte URL gecrawlt hat oder eine neue:

Gerade die Aufschlüsselung nach Auffindbarkeit, also die Übersicht über die neuen URLs, ist in der Detailansicht enorm hilfreich. Hier wurden vor ein paar Tagen 69.000 neue URLs an einem Tag gecrawlt:

Anlass genug, mal bei unserem Kunden nachzufragen, ob hier wirklich so viele neue Produkte gelauncht wurden, ohne uns Bescheid zu geben!

Tipp

Alle diese Reports haben eine eigene URL. Ich empfehle Dir, gerade die oben gezeigte Entwicklung der neuen URLs zu bookmarken und regelmäßig im Blick zu haben. Ich nutze dafür einen Lesezeichen-Order, den ich regelmäßig prüfe. Dafür klicke ich mit der dritten Maustaste auf den Ordner, und schon laden alle wichtigen Reports auf einmal. Sehr praktisch! Mehr dazu in meinem Artikel zu SEO-Monitoring.

Hoststatus

Ein weiter Report, der sich als regelmäßiges Monitoring-Lesezeichen qualifiziert, ist der Hoststatus. Hier siehst Du auf einen Blick, ob es in letzter Zeit Probleme mit dem Server gab, die Du angehen solltest:

Warum sind die Daten mit Vorsicht zu genießen?

So schön die Daten sind, sind sie trotzdem mit Vorsicht zu genießen. Deutlich wird das bei einem Vergleich mit dem alten Bericht. Die Zahlen im alten Bericht unterscheiden sich deutlich von denen im neuen:

In einer Property in der Search Console haben wir tiefer gebohrt: Der alte Bericht zeigte am 7. Dezember 14.422 URLs an. Der neue Bericht zeigt allerdings nur noch 7.041 gecrawlte Seiten an. Wo sind also die anderen mehr als 7.000 URLs im neuen Bericht? In den Log Files finden wir für diesen Tag 6.950 Aufrufe von HTML-Seiten, während der neue Bericht allein für HTML-Seiten nur 3.229 Anfragen berichtet. Das ist weniger als die Hälfte.

Willst Du fit in Online Marketing werden?

Mit unserem Newsletter bekommst Du automatisch die neuesten Seokratie-Beiträge direkt in Dein Postfach!

Jetzt abonnieren

Google nimmt hier offenbar eine Filterung vor und möchte nur relevante URLs anzeigen. Warum Google nicht alle anzeigt, ist unklar. Googles Motto ist aber vermutlich frei nach de Maizière „ein Teil dieser Antworten würde Sie verunsichern.“

Was fehlt, ist in diesem Fall bei genauerem Blick ziemlich eindeutig: 3.021 URLs der gecrawlten Seiten enthalten einen Parameter und sind nicht indexierbar. Google zeigt allerdings in den Beispiel-URLs keine einzige Parameter-URL an, obwohl das fast die Hälfte der gecrawlten URLs ausmacht.

Hier ist das erste Problem: Dass Google so viele Parameter-URLs crawlt, ist für mich durchaus relevant – denn diese sollten gar nicht erst gecrawlt werden. Und noch dazu enthalten diese wiederum fehlerhafte Links, die in meinen eigenen Crawls nicht auftauchen.

Das zweite Problem sind die Beispiel-URLs: Ein Vergleich zeigt, dass von den 30 meist-gecrawlten Seiten in den Log Files nur 22 in der Liste der Search Console vorhanden sind. Nimmt man die Parameter-URLs dazu, sind es sogar nur 12 der Top-30-URLs.

Macht die Search Console Log Files überflüssig?

Das neue Bild ist also hilfreich, aber bei Weitem nicht vollständig. Es lohnt sich, trotzdem eine Log File Analyse zu machen oder mit Rytes BotLogs die Daten selbst zu erheben. Gerade die besonders exotischen URLs sind meist die, die ich loswerden möchte. Wenn mir diese vorenthalten werden, geht mir wichtiges Potenzial verloren.

Taugt? Taugt!

Trotz der genannten Bedenken taugt der neue Report sehr! Hier gibt es viele neue, spannende Insights, an die Du schnell und unkompliziert kommst, ohne dass Du mit großen Daten hantieren musst. An die großen Crawling-Daten müssen übrigens die Wenigsten: Erst ab mehreren Tausend bis Millionen URLs macht es wirklich Sinn, sich mit Crawling-Steuerung auseinanderzusetzen. Und dann hast Du hoffentlich sowieso eine gute SEO-Agentur an der Hand, die sich damit auskennt. 😉

Kommentiere diesen Beitrag

1 Kommentar

Frank Rix 8. Februar 2021

Danke für den schönen Artikel! Wir arbeiten bereits seit vielen Jahren mit der GSC und schätzen die Geschwindigkeit und den Fokus auf die wesentlichen Informationen. Klar gibt es hier und da Unstimmigkeiten. Auch die Aktualität der Daten ist (trotz Verbesserung mit dem Update) noch nicht ganz das Gelbe vom Ei. Aber für den groben Überblick will ich auf das Tool nicht mehr verzichten.