Das Thema Duplicate Content wird vermutlich nie ein Ende finden. Zwar erklärt Google immer wieder das doppelte Inhalt kein Problem darstellen und Google das schon richtet, aber trotzdem hat Google vor einigen Jahren den canonical Tag zusammen mit Bing und Yahoo eingeführt. Inzwischen gibt es sogar Version 2 die sogar Domainübergreifen funktioniert, leider ist Google bisher die einzige Suchmaschine die diese Funktion unterstützt. Im Bezug auf duplicate content gebe ich immer den Rat, „verlass dich nicht auf Google, mach es selber“.
Aktuell betreue ich einen Kunden der in den letzten Monaten einen massiven traffic Einbruch hatte. Die Ursache dafür war schnell gefunden und hatte eher technische Gründe. Trozdem kristallisiete sich, nach dem Beheben der technischen Unstimmigkeit, ein DC Problem herraus, was zur Folge hatte, das viele Seiten einfach von Google unterdrückt worden sind und so wertvoller traffic verloren gegangen ist.
Um Duplicate Content zu identifizieren fange ich meistens mit Stichproben an und nehme den ersten Absatz eines Artikels und gebe ihn einfach in das Google Suchfenster ein. Wenn alles in Ordnung ist erhalte ich im Normalfall nur ein Suchergebnis, die Seite von der ich den ersten Absatz kopiert habe.
Durch diesen simplen Test kann man also ganz schnell doppelte Inhalte identifizieren und die ersten Strategien entwerfen. Doch warum ist es wichtig die Doppelten Inhalte zu Eleminieren? In diesem Fall war es so, dass die gleichen Inhalte auf mehreren Domains, als Teil eines Content Netzwerks, erschienen. Aufgrund der unterschiedlichen internen Verlinkung, die bei manchen Artikel besser, bei anderen schlechter war wurden die original Artikel mal unterdrückt, mal nicht. Google konnte sich also nicht entscheiden welcher Artikel die Quelle ist und welcher nur die Kopie.
Nachdem dann alle Verursacher identifiziert waren und die passende Zielsetzung definiert worden ist, kam die entscheidende Frage, wie kann man die Probleme technisch lösen? Bei einer Webseite mit 100 Seiten kann man sich ruhig ein paar Stunden hinsetzen und alles manuell machen. Bei einer Webseite mit mehr als 100.000 Seiten die wiederum auf unzähligen anderen Domains geklont werden ist so eine Lösung nicht umsetzbar. Da man nicht alles CMS kennen kann, ist in solchen Fällen sehr wichtig eng mit Entwicklern zusammenzuarbeiten und sie mit in die Problemstellung einzubeziehen. Passend dazu ist auf SEOmoz ein toller Artikel erschienen: SEOs and Developers: 5 Ways to Build The Relationship. Nach einer längeren Erläuterung wurden dann alle Probleme in kurzer Zeit gelöst und wir könnten schon bald die ersten positiven Ergebnisse beobachten.
Um Duplicate Content zu eliminieren gibt es einige Methoden. Manche halte ich für sehr effektive, andere funktionieren nur schlecht oder brauchen einfach zu lange um zu greifen. Hier mal die wichtigsten:
Canonical tag
Der canonical tag ist wirklich eine Wunderwaffe und funktioniert erstklassig. Bei Google kann man ihn sogar auf anderen Domains verwenden. Bing und Yahoo unterstützen diese Funktion leider noch nicht. Wer also seine Inhalte auf anderen Webseiten 1:1 veröffentlicht sollte immer darauf bestehen, das neben der Quellenangabe auch der richtige canonical tag enthalten ist.
<link rel=”canonical” href=”http://www.domain.tld/page1.html”>
Doppelte Seiten via Robots.txt sperren
Die Robots.txt funktioniert, leider bei Seiten die bereits im Index sind, sehr träge. Bei neuen Domains kann man gerne mittels Robots.txt einige Bereiche sperren, aber verlassen sollte man sich nicht darauf
301 Weitereleitung auf eine URL
Ist sicherlich die bekannteste Methode das DC Problem zu lösen. Hier sollte man aufpassen nicht auf die falsche URL weiterzuleiten. Angenommen eine Seite ist unter der URL A und B erreichbar. URL A hat kaum Backlinks, URL B hat hingegen sehr viele. Da bei einer Weiterleitung immer Linkjuice verloren geht, sollte man aufpassen von welcher URL man auf welche weiterleitet. In diesem Fall wäre eine AB Weiterleitung die beste Lösung
Variabel vermeiden
Variablen in den URLs sind meistens ein Überbleibsel alter CMS und können in den meisten Fällen vermieden werden. Zwar kann mittels 301 alles auf eine URL leiten, aber wie schon beim oberen Punkt beschrieben, geht hier immer etwas Link Juice verloren. Es wäre also besser diese Art von URLs gar nicht entstehen zu lassen
Noindex,follow
Ich liebe diesen meta tag aus einem einzigen Grund der er sagt „Diese Seite nicht im Index anzeigen, aber bitte den Linkjuice schön weiter fließen lassen“, einfach genial. Um die interne Linkstruktur zu verbessern, nutzte ich gerne sogenannte Bindeglieder, dabei handelt es sich um Seiten die Themenähnliche Seiten miteinander verlinken, das können zum Beispiel Kategorien oder Tags sein. Da es passieren kann das ein User auf diese Seiten klickt müssen diese natürlich auch gefüllt werden. Eine einfache Lösung ist es, einfach sämtliche Artikel anzuteasern. Leider entsteht dadurch DC, denn der Anfangstext (der mit den relevanten Keywords und Suchphrasen) kommt so auf der Kategorie Seite und auf dem eigentlichen Artikel vor. Indem man die Kategorien Seite auf noindex,follow setzt, fließt der Linkjuice ganz normal, aber die Übersichtsseite erscheint nicht in den Suchergebnissen.
Problem Lösung
Mit Hilfe des Canonical tags habe wir Google gezeigt das der original Artikel woanders liegt. Die URLs mit Variablen wurden komplett eliminiert, aber gleichzeitig haben wir alle Variablen URLs via 301 auf die original URLs weiteregeleitet um den Linkjuice von Backlinks die auf die falsche URL zielen auf die richtige URL fließen zu lassen.
Zum Schluss haben wir eine Reihe von Google Sitemaps eingerichtet um die Indexierung der einzelnen Bereiche zu überwachen und umso zu erkennen wo wir die interne Verlinkung weiter verbessern müssen.
Tags: 301, canonical, DC, Dublicate Content, Google Corp., Robots.txt, Sitemap
- Duplicate Content: Mehrsprachige templates mit gleichem Content
Google versucht es gerne allen recht zu machen und ihnen die beste user experience bieten die möglich ist. Wer zum Beispiel auf Google.de sucht, sucht... - Duplicate Content & Google
Laut der Aussage von Google vor zwei Wochen müssen sich Webmaster um doppelte Seiten keine Sorgen machen, Google kümmert sich darum und fasst sie in... - BlogEngine.NET Duplicate Content eleminieren
Als ich 2006 diesen Blog ins Leben rief, lief er zunächst auf einem IIS Server und auf dasBlog. Als dann die Entwicklung und auch die... - Duplicate Content im Diagramm
Zwar hat Google vor kurzem noch groß verkündet das Webmaster sich um die duplicate Content Problematik keine Sorge machen sollten, trotzdem haben Google, Yahoo und...


April 20th, 2010 at 19:39
Diese Zusammenstellung gefällt mir. An den Canonical tag habe ich bisher noch gar nicht gedacht.