Fachlich kompetent
Äußerst flexibel
Absolut zuverlässig
SEO

Wie Du Deine SEO-Strategie an die Google Leaks anpassen kannst

Wenn von Google Dokumente bezüglich SEO geleakt werden, dann ist die SEO-Branche immer in ziemlicher Aufregung. So auch dieses Mal, denn ein großes Google Leak zeigt einen bisher ungekannten Einblick in die Daten, die Google in ihren Rankingsystemen verwendet. Was steckt dahinter? Lies dazu mehr in unserem heutigen Blogpost.

Google Data Warehouse Leak

Veröffentlicht hat den Leak kein anderer als eines der Urgesteine der US-SEO-Szene: Rand Fishkin – ehemals SEOmoz Gründer und nun Betreiber von Sparktoro. Ebenfalls lesenswert ist der Beitrag von Mike King dazu, der sehr ins Detail geht. Bei diesem Leak handelt es sich um Dokumente einer Google-internen Version des Document AI Warehouse, die – wohl versehentlich von einem Bot – bei GitHub hochgeladen wurden. Die Dokumente zeigen einen guten Einblick in die Bewertungsmechanismen von Google: es sind mehr 2.500 Seiten einer API-Dokumentation, die 14.014 Attribute beschreibt. Es handelt sich also um eine Datenbank mit Variablen und den dazugehörigen, kurzen Erklärungen.

Diese Variablen bestimmen das Ranking und / oder die Spameinstufung von mehreren Google Produkten, nicht nur der Google Suche. Was wir leider nicht aus der Datenbank heraus sehen können, ist, wie wichtig ein Rankingfaktor jeweils ist oder ob er tatsächlich (noch) in Rankingsystemen genutzt wird. Bei einzelnen Metriken ist expliziert aufgeführt, dass sie nicht mehr verwendet werden. Das lässt stark vermuten, dass diejenigen, die nicht mit einem solchen Hinweis versehen werden zum Zeitpunkt des Leaks noch ins Ranking einfließen – sicher können wir uns aber nicht sein. Außerdem werden viele andere Datenbanken und Tools erwähnt, die wir ebenfalls nicht kennen. Links in der Datenbank zeigen auf das Google Intranet, wo wir leider ebenfalls keine Zugänge haben.

Obwohl wir also keine 100%ige Sicherheit haben, ist der Leak für uns SEOs sehr wertvoll, da jetzt viele jahrelange Vermutungen als nahezu bestätigt gesehen werden können.

Klickdaten werden ausgewertet

Am kontroversesten ist wohl, dass Klickdaten tatsächlich ausgewertet werden. Wir wissen das zwar bereits seit Ende Dezember aufgrund des Antitrust-Prozesses von Google (Stichwort NavBoost). In dieser Fülle war es aber nicht bekannt. Verwendet werden sowohl Google-Klickdaten (Short vs. Long Clicks bzw. „good“ Clicks) wie auch Klickdaten aus Google Chrome. Außerdem gibt es sog. „badClicks“ die Google wohl nicht ins Ranking mit einbeziehen möchte. Sogar Klicks auf Bilder innerhalb von Websites bestimmen die Bildqualität. Auch GEO-Daten werden ausgewertet, also wo der Klick stattfand. Das ist vermutlich wichtig für Google Maps, aber auch für „normale“ Suchbegriffe. Und natürlich – wir wussten es schon immer – zählen Links, die Traffic bringen mehr als Links von URLs, die keinen Traffic bringen.

Dazu gibt es wohl sogenannte Unicorn-User, die besondere Beachtung finden. Ich denke, dass es sich hier um ein besonders valides Set an Userdaten handelt, das extra betrachtet wird.

Und es wird ebenso ausgewertet wann der letzte gute Klick erfolgt ist – also der zeitliche Verlauf der Klickdaten.

Meine Vermutung (und die der meisten SEOs)  der letzten Jahre bestätigt sich also: Links wurden unwichtiger, weil Google mehr und mehr dazu übergangen ist, Usersignale auszuwerten. Das nahm mit Panda seinen Anfang, um 2014 herum konnte man dann die berühmten „Ohne Backlinks“-Websites sehen, die als Onepager sehr gut rankten. Und das Ganze ist bereits zehn Jahre her! Seitdem hat Google sich vermutlich stark darauf fokussiert, die Nutzersignale immer besser auszuwerten – denn Daten lügen nicht!

Was sind Twiddler und was sind Ascorer?

Ascorer bewerten Dokumente anhand verschiedenster Faktoren und vergeben dann einen Basiscore für ein Dokument. Sozusagen erstellen Ascorer einen grundsätzlichen „SEO-Wert“. Twiddler nehmen die von Ascorer bereitgestellten Basisscores und modifizieren diese, um die endgültige Reihenfolge der Suchergebnisse zu optimieren. Predoc Twiddler beeinflussen die Reihenfolge vor dem Abrufen von Dokumentinformationen, während Lazy Twiddler dies nach dem Abrufen tun. Somit passen Twiddler die ursprünglichen Rankings an, um relevantere Suchergebnisse zu liefern. Sie überschreiben quasi manchmal auch die Suchergebnisse und sind sehr mächtig im Algorithmus bzw. agieren jenseits davon. So überschreiben Twiddler beispielsweise Suchergebnisse, wenn es um offizielle Websites geht und sorgen dafür, dass die Suche nach einem Markennamen immer auch die offizielle Website zur Folge hat (Die Suche nach „Audi“ zeigt immer Audi.de auf Platz 1).

Der Ascorer ist Teil des Google Core Algorithmus. Twiddler haben eine deutlich besser sichtbare Auswirkung, wenn sie geändert werden als bei einem Core Update – denn sie betreffen oft bestimmte Website-Typen oder Arten von Suchanfragen. Core-Änderungen kann man nur schwer klassifizieren, deswegen sind Core-Updates auch viel schwerer zu deuten als Twiddler-Updates. Wenn Google sagt, etwas ist nicht Teil des Core Algorithmus, kann es trotzdem immer noch ein Twiddler sein.

18.000 Abonnenten können sich nicht irren

Du willst keine unserer Beiträge mehr verpassen und auf dem Laufenden bleiben? Abonniere jetzt unseren Newsletter und erhalte jeden neuen Seokratie-Beitrag per E-Mail direkt in Dein Postfach!

Hier geht es zum Anmeldeformular.

Die interessantesten Variablen aus dem Leak

Es gibt 14.000 Variablen im Originaldokument, bei denen leider auch oft unklar ist, worauf sie sich beziehen – denn es geht hier nicht nur um die Google Suche, sondern auch um andere Google Produkte. Bei Dixon Jones gibt es eine durchsuchbare Liste – das ist quasi das Rohmaterial. Wichtig ist, dass wir nur die Liste der Variablen mit den dazugehörigen Erklärungen haben. Was uns fehlt, ist, wie stark und wo die Variable jeweils gewichtet wird und auch, ob sie überhaupt noch aktiv ist.

  • Spamscore: Wird nicht näher beschrieben, aber kannte ich wortwörtlich so bereits von Bing aus einer alten Präsentation von deren Algorithmus. Hat eine Domain einen hohen Spamscore, dann wirken Links von dort weniger und sie hat kaum eine Chance, dass sie für trafficstarke Keywords nach vorne kommt. Ich muss hier immer an diverse Linkverkaufswebsites denken. Wie der Spamscore im Detail berechnet wird, das wird leider nicht ersichtlich. Ich vermute: Spamscore der verlinkenden und verlinkten Domains, Overall Quality und diverse andere Signale.
  • exactMatchDomainDemotion: Exact Match Domains wie SEO.de oder Kredit.de werden mit diesem Modul wohl „abgeschwächt“. Dieses Modul greift vermutlich bei den allermeisten Exact Match Domains. Gefühlt seit mehr als 10 Jahren haben Keyworddomains keine großen Rankingvorteile mehr – das könnte der Grund dafür sein.
  • anchorMismatchDemotion: Dies bezieht sich auf die Abwertung von Seiten, bei denen die Ankertexte nicht mit dem Inhalt der verlinkten Seiten übereinstimmen.
  • babyPandaDemotion und babyPandaV2Demotion: Diese beziehen sich auf spezielle Abwertungen, die zusätzlich zu den Panda-Updates angewendet werden, die darauf abzielen, minderwertige Inhalte zu identifizieren und zu bestrafen.
  • lowQuality: Wird nicht näher beschrieben, aber hat vermutlich auch etwas mit Content von geringer Qualität zu tun.
  • authorityPromotion: Offenbar kann man zur Authority befördert werden – bzw. ist das ein Teil der sogenannten „CompressedQualitySignals“. Ich vermute, dass diese AuthorityPromotion manuell gemacht wird – vielleicht von Quality Ratern?
  • lastGoodClickDateInDays: Der Tag, wann das Dokument den letzten „guten Klick“ bekommen hat. Wow, das ist also wirklich ein Signal, das „gute“ und „schlechte“ Klicks auswertet. Das Konzept der Short Klicks kennen wir ja schon länger – nun sehen wir aber hier auch „Good Clicks“. Das sind – meiner Meinung nach – Klicks von Usern aus einer bestimmten, vertrauenswürdigen Zielgruppe, die dann lange auf dem Dokument geblieben sind, bzw. mit dem Dokument in irgendeiner Weise zufrieden waren.
  • pageRankScore: Der Pagerank lebt! Nein im Ernst: Google hat immer schon behauptet, dass der Pagerank intern weiter verwendet wird – nur eben nicht mehr sichtbar ist. Ob und wie sehr er ins Ranking mit einfließt, das ist nicht klar.
  • lastSignificantUpdate: Diese Variable misst, wann der Content das letzte Mal signifikant geändert wurde.
  • imageQualityClickSignals: Dieses Signal misst die Bildqualität anhand der Klicksignale. Wörtlich steht in der Beschreibung „Click signals for measuring image quality (e.g., usefulness, presentation, appealingness, and engagingness).“
  • pagerankNs: Dabei handelt es sich um den „Production Pagerank“ der Seite. Logisch: Jede Seite hat zu Beginn einen „Produktionspagerank“, also den Pagerank, den sie rein durch interne Verlinkung bekommt. Der PR ändert sich dann durch weitere interne oder externe Verlinkung. Das Delta (der Unterschied vorher-nachher) ist wichtig zu wissen.
  • titlematchScore: Wie gut passt der Seitentitel zur Suchanfrage? Das ist hier die Variable.

Wie Google funktioniert

Ein guter SEO ahnt ein bisschen, wie Google funktioniert. Ein paar Aspekte sind meinem Empfinden nach noch deutlicher zu Tage gekommen und die solltest Du Dir noch einmal zu Gemüte führen:

  1. Google sieht sich nicht nur die URL an, die ranken soll, sondern auch sämtliche Dokumente rundherum. Auf welcher Domain befindet sich die URL? Wohin wird gelinkt? Wer verlinkt auf das Dokument? In welchem Kontext steht das Dokument?
  2. Viele Faktoren haben den Faktor Zeit mit inkludiert. Wie entwickeln sich die Klickzahlen von „guten“ Klicks über die Zeit? Wie entwickelt sich der Traffic über die Zeit? Wie verhält sich eine Domain über die Zeit?
  3. Viele Systeme greifen bei Google ineinander, holen sich Daten voneinander und agieren quasi unabhängig voneinander. Nicht nur „der“ Algorithmus wird weiterentwickelt, sondern eben auch jedes einzelne System – etwa zur Spambekämpfung.
  4. Es gibt unzählige Scores. Viele Scores können für sich genommen dafür sorgen, dass ein Dokument nicht gut rankt. Wer einen hohen Spamscore hat, der kann lange auf ein gutes Ranking hoffen. Aber insgesamt greifen die Systeme (vermutlich) gut ineinander und heben sich teilweise auch auf.

Zeit als wichtiger Faktor

Gutes SEO dauert. Gutes SEO braucht Zeit. Seit ich mit SEO begonnen habe, habe ich diesen Spruch immer wieder gehört – und er stimmt! Immer wieder kommt „Days“ in den Variablen vor. Die Google Ingenieure bauen hinter sehr viele Variablen noch einen Zeitfaktor mit hinein. Das ist der vielbesagte „Trust“ oder auch das Vertrauen bei Google, das man sich erst verdienen muss. Oder das man – im Fall von Webspam – auch verlieren kann.

Beim Querlesen habe ich folgende Faktoren entdeckt:

  • Links entfalten Ihre Wirkung erst mit der Zeit, zumindest wird hier die Zeit auch gemessen.
  • Content wird zeitabhängig betrachtet. Es wird nachgesehen wann der Content das erste Mal entdeckt wurde und wann er das letzte Mal bearbeitet wurde. Jede Contentänderung wird gespeichert – ob sie auch ausgewertet wird und wie weit, das wissen wir nicht.
  • Usersignale werden über einen großen Zeitraum betrachtet. Wir wissen ja bereits, dass Navboost die Nutzersignale über die letzten 13 Monate auswertet.
  • Auch bei Spam spielt Zeit eine große Rolle. Wie schnell und häufig wurden fragwürdige Ankertexte verwendet und wie regelmäßig wird Unerwünschtes verbreitet? Hier bin ich mir sehr sicher, dass Google damit wirksame Mechanismen entwickelt hat um eine Spamdomain von einer gehackten Domain zu unterscheiden. Während Spamdomains dauerhaft Spam verbreiten, passiert das bei gehackten Domains ganz plötzlich und dann in großem Ausmaß – so kann man diese zwei gut voneinander unterscheiden.

Was ist Qstar?

Immer wieder wird in Zusammenhang mit diversen Rankern „Qstar“ erwähnt. Dabei handelt es sich wohl um ein zentrales System zur Qualitätsbewertung und Abwertung von Webseiten in den Google-Suchergebnissen. Es integriert verschiedene Signale und Modelle, um die Relevanz und Qualität von Webseiten zu bewerten und entsprechend deren Sichtbarkeit zu beeinflussen.

  • Qstar-Komponenten:
    • „Qstar“ wird in verschiedenen Modulen erwähnt, darunter Module für Demotion und Promotion von Webseiten, basierend auf bestimmten Qualitätsmerkmalen.
    • Ein Beispiel ist das Feld serpDemotion, das zur Abwertung von Seiten in den Suchergebnissen verwendet wird und in Qstar angewendet wird .
  • Anwendung und Funktionen:
    • Qstar verarbeitet verschiedene Qualitäts-Signale, darunter Scam-Modelle, Autoritätsbewertungen und viele andere Signale, die zur Beurteilung der Qualität einer Webseite beitragen. Diese Signale werden dann verwendet, um die Sichtbarkeit und das Ranking in den Suchergebnissen zu beeinflussen.
    • Es gibt experimentelle Felder wie experimentalQstarSignal und experimentalQstarSiteSignal, die nicht in die Produktionsumgebung übernommen werden, sondern während der Laufzeit zum Testen neuer Komponenten verwendet werden.
  • Beispielhafte Signale:
    • scamness: Ein Betrugsmodellwert, der als eines der Qstar-Qualitätssignale verwendet wird. Der Wertebereich liegt zwischen 0 und 1023.
    • unauthoritativeScore: Ein Signal, das die Autorität einer Webseite bewertet und ebenfalls in Qstar verwendet wird.
    • lowQuality: Ein niedriges Qualitätssignal, das aus bestimmten Daten konvertiert und in Qstar angewendet wird, um die Qualität einer Seite zu bewerten.

Wie Du Deine SEO-Strategie an die Google Leaks anpassen solltest

In den Leaks sind einige neue, aber auch bekannte Aspekte enthalten, die man jetzt einmal austesten sollte. Mal ein paar Beispiele:

  • Erstelle hochqualitativen Content und dann erweitere ihn regelmäßig 1x pro Woche. Verbessere den bestehenden Content und dann füge noch mehr Dinge hinzu – alles auf der gleichen URL. Lasst uns mal sehen, was passiert.
  • Schicke hochwertigen (!) Traffic von Google Ads / Social Media etc. auf Deine Domain und lasse sie so schneller neu bewerten.
  • Wähle Bilder aus, die geklickt werden.
  • Überprüfe Deine ausgehenden Links, ob sie auf Expired Domains etc. verweisen. Auch das ist nicht neu und sollte man immer tun, aber ich habe den Eindruck als würde Google hier einiges gut machen.
  • Verlinke konsistent und aussagekräftig.
  • Arbeite in Deinem Topic und entferne Dich nicht zu weit davon – bzw. sei nicht verwundert, wenn Du keine Rankings hast, wenn Du über etwas schreibst, das nicht Dein Authorical Topic ist.
  • Sei Dir bewusst, dass hinter fast allem und jeden auch ein Zeitfaktor steht – unmittelbare, sofortige Auswirkungen siehst Du in der Regel nicht!
  • Leider sind offizielle Aussagen von Google Mitarbeitern nicht immer wahr. Sei also kein Schaf, das blind einem Hirten hinterherläuft, sondern erstelle eigene Hypothese und überprüfe diese: teste, teste, teste und lerne daraus!

Fazit

Diese Dokumente werden uns noch lange beschäftigen – zumal die Fülle an Daten unüberschaubar ist. Ich habe in diesem Blogpost versucht, Dir einen gewissen Überblick zu geben, aber ich habe selbst noch längst nicht alle Aspekte angesehen. Eine Sache wurde nun auch wieder bestätigt:

Wenn Du einen Fehler entdeckst oder ich etwas falsch verstanden habe, lass es mich gerne in den Kommentaren wissen.

Wie können wir Dir weiterhelfen?

  • Lass uns miteinander sprechen

    kostenlos & unverbindlich

    Dein Ansprechpartner:
    Julian Dziki
  • Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Werde fit in SEO!
Werde fit in SEO!
Unser kostenloser SEO-Kurs bringt Dir 5 Tage lang täglich SEO-Wissen in Dein E-Mail-Postfach und unseren Newsletter. Über 15.000 Abonnenten vertrauen uns bereits.
Abonnieren
Du kannst Dich jederzeit wieder abmelden.
close-link