Duplicate Content: Gefahren verstehen, finden & vermeiden

2018-08-30
Seokratie
Seokratie GmbH
Main address: Blutenburgstr. 18 D-80636 München, Deutschland ,
Tel:089 - 219098411 , E-mail: mail[@]seokratie.de
23. Aug 2018 SEO und SEA 9 Kommentare

Vage haben die meisten Webseitenbetreiber davon gehört: Duplicate Content ist gefährlich! Google mag das nicht! Stimmt auch. Aber das ist kein Grund zur Panik. Zumindest nicht mehr. Denn hier erfährst Du, was sich dahinter verbirgt und worauf Du achten musst.

annoying duplicate felix

Meine Duplikate können ganz schön nervig sein.

Was ist Duplicate Content?

Duplicate Content (also „doppelte Inhalte“, kurz „DC“) sind Inhalte, die identisch auf mehreren Seiten im Internet vorkommen. Es handelt sich dabei nicht nur um kopierte Texte, sondern vor allem um komplett identische Einzelseiten. Es wird unterschieden in internen und externen Duplicate Content: Intern bedeutet, die gleichen Inhalte sind auf einer Domain – also beispielsweise auf Seokratie.de. Extern bedeutet, dass die Inhalte auf mehreren Domains vorkommen.

Duplicate Content verursacht Suchmaschinen wie Google Probleme. Deshalb werden dort die Inhalte der betroffenen Seite schlechter gefunden oder gar herausgefiltert. Damit eine Webseite keine Ranking-Probleme wegen Duplicate Content hat, muss jede indexierte Seite genügend „Unique Content“ haben. „Unique Content“ sind Inhalte, die nur für eine Seite erstellt wurden und nur auf dieser vorkommen.

Warum ist Duplicate Content ein Problem?

Der Googlebot mag keinen Duplicate Content. Und wenn er zu viel auf einer Domain findet, dann wird er sauer. Die Folge sind Abstrafungen und Zurücksetzungen im Ranking.

Für Google ist Duplicate Content ein großes Thema. Zum einen ist es schwer, algorithmisch herauszufinden, welche Seite einer Domain am passendsten für eine Suchanfrage ist. Außerdem will Google Crawling-Ressourcen sparen und nicht 100 Versionen einer gleichen Seite crawlen, weil das in den Maßstäben von Google wirklich immens viel Geld ist, das an Hardwareleistung verschwendet wird. Die Grundlagen zum Thema gibt es direkt von Google: „Duplizierter Content“.

Ab wann ist Duplicate Content ein Problem?

Ein richtiges Problem mit Duplicate Content hast Du vor allem dann, wenn Google sich nicht entscheiden kann, welche Seite relevanter ist, und sich daher mehrere Seiten im Ranking abwechseln. Aber nachdem Du vermutlich eine Zahl hören möchtest: Sobald Du mehr doppelte als einzigartige Inhalte hast, hast Du ein Problem. Spätestens. Die perfekt suchmaschinenoptimierte Seite besteht aus 100% Unique Content – in der Theorie.

Was sind typische Beispiele für Duplicate Content?

Duplicate Content hat viele Gesichter. Ein paar der Klassiker sind diese:

  • Websites, die via https://example.com, http://example.com, http://www.example.com und https://www.example.com erreichbar sind (und nicht weiterleiten)
  • Über Groß- und Kleinschreibung erreichbare URLs wie example.com/Beispiel und example.com/beispiel
  • Eigene URLs für Druckversionen
  • Zusätzliche PDFs mit Produktinfos wie technischen Details, die auch auf der Produkt-Landingpage angegeben werden (sollten)
  • Vielzählige Produktdetailseiten zu bestimmten Größen, Farben und Formen
  • Parameter für Affiliate-URLs wie ?partnerid=2858
  • Parameter-URLs für Sortierung und Darstellung von Produktübersichten
  • /index.htm, /de/ und ähnliche Dinge, die Content-Management-Systeme produzieren
  • Automatisch generierte Tag-Seiten
  • Und in gewisser Form auch Paginierungsseiten (wie Du damit umgehst, liest Du hier)

Die Liste lässt sich vermutlich ewig weiterführen. Und irgendwas davon gibt es auf jeder Domain – garantiert.

Wie kannst Du Duplicate Content finden?

Der einfachste Weg, wie Du DC auf Deiner Seite finden kannst, ist Textbausteine zu googlen. Setze den Textbaustein einfach in Anführungszeichen und los geht es:

Duplicate Content in Google finden

Um die doppelten Inhalte auch wirklich zu finden, musst Du dann noch auf diesen Link klicken, um auch die herausgefilterten doppelten Seiten anzuzeigen:

übersprungene ergebnisse einbeziehen

Nachdem es aber etwas umständlich wäre, sämtliche Textbausteine zu suchen, gibt es auch hilfreiche Tools. In Googles neuer Search Console gibt es den Report „Indexabdeckung“. Dazu musst Du im Diagramm auf die „Ausgeschlossenen“ klicken:

indexabdeckung ausgeschlossene urls

Dann siehst Du unten auch einige Typen, bei denen Google selbst Dir sagt, dass sie eine Seite als Duplikat einer anderen URL eingestuft haben:

indexabdeckung duplikat reporte

Mit einem Klick auf die betroffene URL klappt sich ein Menü auf, bei dem Du direkt in das URL-Prüfungs-Tool springen kannst. Dort siehst Du dann sogar, welche die doppelte URL ist.

url-prüfen-tool google

Aber auch über andere Onpage-Tools wie beispielsweise Ryte kannst Du doppelte Inhalte finden. Sinnvollerweise zu finden unter „Inhalt“ > „Duplicate Content“:

duplicate content in ryte

Selbstverständlich sehen bei uns nicht alle Seiten so sauber und grün aus.

Ryte unterscheidet in Duplikate – also komplett doppelte Seiten – und ähnliche Seiten beziehungsweise „Near Duplicate Content“. Letztere sind oft aber sogar gefährlicher, weil sie meist ungewollt sind und von Google nicht einfach als Duplikate aussortiert werden. Beides sind also sehr praktische Reports, um Duplicate Content zu finden.

Wie kannst Du Duplicate Content vermeiden?

Es gibt verschiedene Lösungen, um Duplicate Content zu vermeiden. Die Grundlegendste: DC gar nicht erst entstehen lassen. Es fängt bei einer sauberen Crawlingsteuerung an. Heißt, dass Du doppelte Inhalte nicht verlinken solltest, damit Suchmaschinen sich nicht damit rumschlagen müssen.

Wenn die doppelte Seite aber schon da ist, dann solltest Du sie im Idealfall direkt per 301-Weiterleitung auf die gewollte Original-URL weiterleiten. Dann bleibt Deine Seite schön schlank und gesund.

Nun gibt es aber auch doppelte Inhalte, die für Deine Besucher einen Nutzen haben. Beispielsweise URLs mit Sortierungen, Affiliate-URLs oder Produktvarianten. Diese Seiten darfst Du behalten, aber sie müssen per Canonical-Link auf die Original-URL verweisen. So sieht das dann aus:

<link rel=“canonical“ href=“https://www.seokratie.de/duplicate-content-bei-google-vermeiden/“ />

Dieser für Nutzer nicht sichtbare Link im <head> Deiner Seite sagt Suchmaschinen, welche Seite in den Suchergebnissen erscheinen soll. Suchmaschinen verstehen dann die doppelte URL und die Original-URL als einen Inhalt und können damit umgehen.

canonical link beispiel

Wenn Du wissen möchtest, wie Canonicals genau funktionieren, dann lies Luisas ausführlichen Artikel über Canonicals.

Wenn Du doppelte Inhalte hast, die in keiner Version im Index erscheinen sollen – etwa sehr ähnliche Verteilerseiten, die nur zur Navigation dienen – dann solltest Du diese per Robots-Metatag auf „noindex,follow“ stellen, um sie aus Suchmaschinen auszuschließen. Noch besser ist es allerdings, wenn Du die gesamte Existenz dieser Seiten hinterfragst.

Wenn Du doppelte Inhalte hast, die beide über die Suche auffindbar sein sollten, dann hilft nur eins: Du musst diese Inhalte individualisieren. Auch wenn all Deine Services identisch sind, egal ob Du beispielsweise einen Laptop oder Desktop-PC reparierst: Wenn Du willst, dass die Leistungen separat auffindbar sind, musst Du für sie jeweils eigene Inhalten formulieren. Das gilt selbstverständlich auch für Produktbeschreibungen in Online Shops.

Tipp: Duplicate Content durch Druckversionen vermeiden

Statt eigene URLs für Druckversionen zu verwenden, kannst Du übrigens in Deinem CSS für Deine „normalen“ URLs über den Medientyp „print“ eine angepasste Darstellung für den Druck hinterlegen. Das sieht dann in etwa so aus:

@media print {
  body {
  color: #000;
  background-color: #fff;
  }
}

Spezialfälle von Duplicate Content

Wiederkehrende Textbausteine

Auch nur einzelne Absätze, die auf mehreren Deiner Seiten vorkommen, sind eine Form von Duplicate Content. Google selbst nennt das „wiederkehrende Textbausteine“:

„Minimieren Sie wiederkehrende Textbausteine: Anstatt am Ende jeder Seite umfangreiche Urheberrechtshinweise einzufügen, können Sie lediglich eine kurze Zusammenfassung mit einem Link zu detaillierten Informationen aufführen.“

Das ist eine nicht unerhebliche Information. Versuche so wenig Text wie möglich in Footer & Co. zu packen. Auch Versandinformationen und andere Dinge sind Duplicate Content! Google reagiert da recht empfindlich, besonders wenn Du 300 Wörter an umfangreichen Infos über Deinen tollen Shop ans Ende jeder einzelnen Webseite packst. Was daran (für den User) schlecht sein soll, weiß ich nicht. Google wird es schon wissen.

Externer Duplicate Content

Wenn Inhalte auf mehreren Domains vorkommen, muss sich Google für ein Original entscheiden. Im Regelfall ist das die Seite, auf der der Googlebot zuerst den Inhalt gefunden hat. Aber auch andere Signale wie beispielsweise Links zur Quelle sind für Google ein Indiz.

Wenn Du also eine Pressemitteilung veröffentlichst und für diese Deine Seite gefunden werden soll, solltest Du sicher gehen, dass Du zuerst veröffentlichst. Entscheidend ist, dass Google Deine Seite zuerst crawlt. Das kannst Du beschleunigen, indem Du in der Google Search Console via „Crawling“ > „Abruf wie durch Google“ bei der abgerufenen URL auf „Indexierung beantragen“ klickst.

abruf durch google indexierung beantragen

Für das Original ist externer Duplicate Content nicht besonders problematisch. Verwendest Du aber Inhalte von Lieferanten für Produktbeschreibungen, werden diese wahrscheinlich auch von anderen Websites verwendet. Dann ist es sehr unwahrscheinlich, dass Deine Seite gefunden wird. Du solltest Deine Produktbeschreibungen daher immer selbst erstellen.

Wenn Du aber Zitate verwendest, ist das in der Regel kein Problem. Um ganz sicher zu gehen, kannst Du diese im Quellcode über das Tag „blockquote“ als Zitate auszeichnen:

<blockquote>Dies ist ein Zitat.</blockquote>

Internationaler Duplicate Content

Wenn Du in Deutschland, Österreich und der Schweiz aktiv bist, hast Du wahrscheinlich jeweils eigene Seiten mit entsprechend angepassten Preisen, Telefonnummern und Versandinformationen. Damit Du in diesem Fall keine Probleme mit Duplicate Content bekommst, wurde die „hreflang“-Auszeichnung erfunden. Damit sagst Du im <head> Deiner Seite den Suchmaschinen, welche der Seiten für welches Land und für welche Sprache gedacht ist. Dieser Code sagt beispielsweise, dass Example.de auf Deutsch und für Deutschland ist, Example.at ist auf Deutsch und für Österreich:

<link rel="alternate" hreflang="de-de" href="https://www.example.de/duplicate-content"/>
<link rel="alternate" hreflang="de-at" href="https://www.example.ate/duplicate-content"/>

Für die entsprechenden Details liest Du am besten Luisas ausführlichen Artikel zum Thema hreflang.

Wenn trotz hreflang Chaos ist

Auch mit definierten hreflangs kann es Dir passieren, dass Google zu ähnliche internationale Seiten zusammenfasst – das siehst Du beispielsweise daran, dass in Googles Cache für amazon.at die Seite amazon.de hinterlegt ist:

Du willst keine unserer Beiträge mehr verpassen und auf dem Laufenden bleiben? Abonniere jetzt unseren Newsletter und erhalte neben aktuellen Seokratie-Beiträgen ein kostenloses E-Book! Hier geht es zum Anmeldeformular.

google cache amazon.at

Auch wenn der Cache nichts mit der Indexierung zu tun hat, ist das ein Indiz dafür, dass die Seiten von Google im Index „zusammengeklappt“ werden. Vermutlich hat das mit Effizienz zu tun. Vor einem Jahr noch führte das zu unschönen Vermischungen zwischen den Ländern und auch zu Rankingproblemen, mit denen viele zu kämpfen hatten. Seit Oktober 2017 spielt Google aber einfach die entsprechende URL für das passende Land aus. Aus unserer Sicht ist es daher (im Regelfall) nicht notwendig, die Inhalte für die verschiedenen Länder zu individualisieren. Für Deine Besucher kann das aber sehr sinnvoll sein.

Wie schlimm ist Duplicate Content wirklich?

Das Schlimme an Duplicate Content ist, dass sich die Auswirkungen meistens gar nicht zeigen. Trotzdem handelt es sich um Ballast auf der Seite, der einen bremst.

Erst wenn Deine Seite Tausende URLs hat und Dein Seitenaufbau dadurch immer komplizierter wird (Canonicals, Hreflang, verschiedene Domains), werden die Probleme so richtig gravierend. Als Hobby-Seitenbetreiber hast Du in der Regel keine großen Probleme mit DC – sofern Du Deine Inhalte selbst schreibst und Du die wildesten Auswüchse Deines Content-Management-Systems im Blick hast.

Wenn Du das Thema SEO noch besser verstehen möchtest, empfehle ich Dir Julians Buch Suchmaschinenoptimierung für Dummies und unseren Newsletter. Und wenn Du mal professionelle Hilfe brauchst, kannst Du Dich natürlich gerne bei uns melden.

E-Book: Der Weg zum erfolgreichen Online Shop
Seokratie E-Book
  • Das 139-seitige E-Book mit konkreten Tipps für Deinen Online Shop
  • Einmal wöchentlich exklusiver Content für das Marketing Deines Shops
  • Unser Newsletter (1-2x pro Woche)
Jetzt kostenlos downloaden
9 Kommentare
  1. Marcel 24. August 2018, um 20:57 Uhr

    Hallo,

    ich finde Text sehr gelungen. Wenn ich nicht wüsste, was Duplicate Content ist, dann hätte ich es nach diesem Artikel auf jeden Fall verstanden.

    Allerdings habe ich eine etwas ausführlichere Frage zu diesem Thema und hoffe, dass ich endlich eine Antwort finde:
    Ich habe vor kurzem die Seite https://beste-proteinriegel.de/ gestartet. Dort habe ich Ratgeber, einzelne Testberichte und jeweils Bestenlisten (auf den Überseiten, z.B. in der Test-Zusammenfassung). In diesen Bestenlisten findet man jeweils 50-70 Wörter Fazit des jeweiligen Riegels wieder. Ist das bereits zu starker Duplicate Content, sodass er sich negativ auf das Ranking der Überseiten (bspw. der Startseite) auswirkt?

    Viele Grüße

    Marcel

  2. Felix Meyer 27. August 2018, um 08:23 Uhr

    Hi Marcel, es haben ja sowohl die Übersichtsseite als auch die Detailseiten im Verhältnis mehr Content, der nur auf dieser Seite vorkommt. Daher sehe ich das nicht problematisch. Wenn die Startseite allerdings deine wichtigste Seite ist, würde ich alle Teaser trotzdem individuell anfertigen, um noch weniger den Eindruck einer automatisiert erstellten Seite zu machen.

  3. Marcel 28. August 2018, um 17:08 Uhr

    Hi Felix,

    vielen Dank für die Antwort!

    So habe ich es mir auch gedacht. Ich werde jedoch erst einmal warten, wie sich die Rankings über die nächsten Monate beobachten. Wenn sie sich nicht wie gewünscht entwickeln, schaue ich einmal, ob ich die Teaser anpassen kann. Insbesondere wenn es an die 100 getesteten Riegel werden nimmt der Duplicate Content sonst sicher überhand.

  4. Dennis 5. September 2018, um 08:15 Uhr

    Toller Beitrag, vor allem, weil Webseiten-Betreiber, die sich in Sachen SEO und Content Marketing noch nicht so gut auskennen, hier viel Wissenswertes mitbekommen.

    Ein Problem in vielen Unternehmen, die im Online-Marketing noch hinterherhinken, ist, dass diese nicht verstehen, wie Interne Prozesse, z. B. die Datenpflege im PIM, Auswirkungen auf einen Online-Shop haben. Einfach mal eine bestehende Kategorie umbenennen oder denselben Namen nochmals unter einer anderen Kategorie verwenden, wo auch noch derselbe Texte gepflegt wird, fatal. Auch problematisch, das Produkte in mehreren Kategorien angesiedelt werden.

    Mit deinen Tipps und Tricks kann aber jeder Webseiten- und Shop-Betreiber in Sachen Duplicate-Content eine Menge lernen. Danke für den wertvollen Beitrag 🙂

  5. Felix Meyer 6. September 2018, um 08:17 Uhr

    Hi Dennis, danke dir! Du hast sehr recht. Im Idealfall hat das jeder auf dem Schirm, der mit dem Shopsystem arbeitet, ja. Aber in der Regel hilft da nur gutes Monitoring. 😉

  6. Thomas 6. September 2018, um 22:18 Uhr

    Hallo Felix, ein echt guter Text, der einem das Thema verständlich rüber bringt. Zu dem Thema hreflang und unterschiedliche Länderseite habe ich noch eine Frage: Wertet es Google als DC und negativ, wenn mehrere Subdomains wie bspw. ru.example.com, fr.example.com, pl.example.com die gleichen (englischen) Inhalte haben? Die Inhalte in der jeweiligen Landessprache sollen sukzessive nachgezogen werden, aber solange hätten alle Subdomains den gleichen Content in einer Sprache. Wirkt sich das negativ aus? Sind hier hreflang Auszeichnungen notwendig? Besten Gruß, Thomas

  7. Felix Meyer 7. September 2018, um 07:30 Uhr

    Hi Thomas, vielen Dank. Ja, gerade dann brauchst du hreflang. Für die Erklärung dazu im Detail haben wir einen eigenen Blogpost geschrieben: https://www.seokratie.de/hreflang/ Hoffe das hilft dir weiter! 🙂

Schreibe einen Kommentar

Deine E-Mail Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Willst Du fit in Online Marketing werden?
 Mit unserem kostenlosen Newsletter bekommst Du 1-2 Mal pro Woche unsere besten Artikel aus den Bereichen SEO, Content Marketing, Social Media, Adwords und Usability zugeschickt. Kein Spam - versprochen! Über 9.000 E-Mail-Abonnenten vertrauen uns bereits.
Anmelden
close-image

Send this to a friend