Wenn man beim erschaffen eines neuen Webprojektes auf ein fertile System wie z.B. Drupal, Joomla, Typo3 usw. zurückgreift und es nach seinen Wünschen und Bedürfnissen mit Hilfe von Modulen und Erweiterungen umstellt kann es schnell passieren das sich der Fehlerteufel in Form von Duplicate Content (DC) einschleicht. Wie Matt Cutts selber in seinem Blog gesagt hat, wird eine Seite mit doppelten Seiten oder Domains nicht von Google bestraft, viel mehr vergeudet die Webseite Linkpower (Link juice).
Google hat in seinem Blog auch nochmal klargestellt das es keine Bestrafung bei doppelten Seiten gibt:
Duplizierter Content auf einer Website ist kein Grund für Maßnahmen gegen diese Website, außer es scheint, dass mit diesem duplizierten Content Nutzer getäuscht bzw. Suchmaschinenergebnisse manipuliert werden sollen.
Die Drupal double content Problematik
Nehmen wir mal an diese Seite hier ist über zwei unterschiedliche URLs erreichbar:
- http://www.prometeo.de/2008/09/drupal-seo
- http://www.prometeo.de/2008/09/drupal-seo/
Nun ist dieser Artikel so gut das 100 Leute entscheiden auf diesen zu verlinken. 50 Personen finden im URL Feld die erste URL http://www.prometeo.de/drupal-seo. Aufgrund eines Fehlers landend die anderen 50 Personen hingegen auf der zweiten URL http://www.prometeo.de/drupal-seo/.
Nun kommt der Google Bot vorbei und durchsucht (crawl) die komplette Webseite und protokolliert alle unterschiedliche Wege zu dieser Seite. Am Ende wird er ebenfalls aufgrund des Fehlers diese Seite unter zwei verschiedenen URLs gefunden haben. Das bemerkt der Google Bot überhaupt nicht schliesßlich soll er nur Seiten durchwühlen. Nach seiner Rückkehr im Google Headquarter übergibt er alle gefundenen Seite auf Prometeo.de dem Ranking Experten der bei der Analyse feststellt, das diese Seite unter zweiverschiedene URLs erreichbar ist. Nun überprüft er die Backlinks der 100 Personen und bewertet diese mit dem geheimen Google Algorithmus. Am Ende stellt sich heraus das die URL http://www.prometeo.de/drupal-seo viel bessere Backlinks hat als die andere URL.
Nun ist befindet sich diese Seite in den Google Suchergebnissen und wird mit dem Keyword Drupal SEO auch auf der ersten Seite gefunden, leider nur auf Position 7 da die anderen Seiten auf den höheren Positionen durch ihre Anzahl und Qualität der Backlinks für Google einfach bessere Ergebnisse sind.
Google schreibt nun zu diesem Phänomen folgendes:
Wenn wir feststellen, dass Duplicate Content vorliegt, der beispielsweise durch Variationen von URL-Parametern hervorgerufen wird, dann fassen wir diese duplizierten URLs zu einer Gruppe zusammen.
Wir wählen dann jene URL aus, die als am besten geeignet erscheint, die jeweilige Gruppe in den Suchergebnissen zu vertreten.
Schließlich werden bestimmte Eigenschaften der URLs aus der Gruppe, wie z. B. die Link-Popularität, vereinigt und auf die im vorigen Schritt ermittelte URL übertragen.
Damit würde die eleminierung von doppelten Seiten hinfällig werden, wer aber garantiert uns das Google die doppelten Seiten auch wirklich erkennt und die Backlinks richtig gruppiert? Eben, sicher ist sicher und darum lasst uns weitermachen.
Ein wichtiger Schritt ist es erst mal die 50 Personen die auf die andere URL verweisen umzulenken.
Den Fehler identifizieren
Sollten wir jetzt alle Webmaster anschreiben und sie bitten die URL zu ändern? Es gibt sicherlich einige die das machen werden, aber das löst nur das Ergebnis und packt nicht das Problem am Ursprung, denn es kommen immer wieder Leute durch den Fehler auf die falsche URL. Also müssen wir diesen Fehler Eleminieren, dafür können wir uns durch alle Drupal Seiten arbeiten und den Fehler ausmerzen. Diese Prozedur ist nicht nur sehr Zeitaufwendig sondern kann sich am Ende sogar als Nutzlos erweisen. Angenommen einer unser fleißigen falsch Linker ist eine wichtige Seite von der viele Blogger ihre Informationen holen dann würde alle neuen Backlinks ebenfalls auf die falsche URL verweisen.
Drupal mit .htaccess Umleiten
Die Lösung ist die doppelten Seiten aus Drupal zu Eleminieren ist extrem einfach, benötigt nicht mal 30 Sekunden (inkl. FTP up- und download) und lenkt alle Backlinks auf die richtige URL um.
Es gibt allgemeine Server Regeln die jedem Webserver Verhaltensregeln vorweist. Wenn man sich Webspace mit anderen Webmastern auf einem Server teilt kann logischerweise nicht jeder an den Serverregeln rumspielen und so eventuell den ganzen Server lahmlegen. Zu diesem Zweck existieren sogenannte Verzeichnis Regeln. Diese Regeln werden in eine Datei eingetragen die sich .htaccess nennt und sich vom Hauptordner in alle Unterordner weitervererbt.
Drupal benutzt ebenfalls eine .htaccess Datei um deinen Webserver zu sagen wie er mit URLs umgehen soll. (Das ist übrigens das Herzstück der speaking URLs in Drupal). Durch das einfügen eines simplen Codes werden alle Slashes am Ende der URL entfernt.
RewriteCond %{HTTP_HOST} ^(www.)?prometeo\.de$ [NC]
RewriteRule ^(.+)/$ http://%{HTTP_HOST}/$1 [R=301,L]
Die htaccess Datei ist sehr empfindlich, aus diesem Grund, immer BACKUP MACHEN! Ein Fehler und der ganze Server meldet einen 500 Server Error.
Die Funktion dieses Codes ist sehr einfach, er sagt Suchmaschinenbots und Browser das die URL sich nun unter einer neuen Adresse befindet (http://www.prometeo.de/drupal-seo). Der Zusatz 301 permanently moved sagt dem Suchmaschinenbot außerdem das dies Dauerhaft ist. Dieser wird daraufhin seinen Index anpassen und die beiden URLs unter einer URL betrachten und dementsprechend auch die Backlinks bewerten.
Drupal Robots.txt um doppelte Inhalte zu verstecken
Die Erstellung von schönen URLs wie z.B. http://www.prometeo.de/2008/09/drupal-seo ist im Grunde nur ein Visueller Effekt, Serverintern wird trotzdem immer noch die Original URL mit Variablen verwendet. Durch ein Versehen oder durch einen sehr eifrigen Suchmaschinebot kann es passieren das die unschönen URLs in den Suchmaschineergebnissen auftauch. Diese werden zwar ebenfalls auf die neuen und schönen URLs Weitergeleitet, trotzdem bleiben die unschönen weiterhin im Suchmaschinen Index. Um ein wenig frühlingsputz zu betreiben fügen wir in die Robots.txt von Drupal folgenden Code am Ende hinzu:
Disallow: /node/
Das Global Redirect Module
Das Global Redirect module entfernt übrigens den Slash am Ende von Drupals URL und leitet /node/44 Urls automatisch auf die neue und schöne URL weiter die aus dem Titel generiert werden. Sollte das Drupal Projekt bereits lange aktiv sein dann empfehle ich den Einsatz dieses Modules. Sollte das Drupal Projekt noch am Anfang stehen dann ist der Einsatz dieses Modules nicht notwendig da es bei jedem Seitenaufruf den Server belastet. Die hier oben beschriebene Kombination aus htaccess und Robots.txt hingegen beansprucht in keinster Form den Server, denn Backlinks auf falsche URLs kommen gar nicht mehr zustande.
Suchmaschinenoptimierung mehr als nur saubere URLs
Wie du siehst besteht die Suchmaschinenoptimierung von Drupal nicht nur aus schöne URLs sondern umfasst auch das reduzieren von doppelten Seiten um die Backlinks deiner Seite zu bündeln und somit bessere Position innerhalb der Suchmaschinen zu erhalten.
Tags: Double Content, Drupal, SEO
- Google äußert sich zur Duplicate Content Frage
Google hat sich im Google Webmaster Blog zur Dublicate Content Frage konkret geäußert: Duplizierter Content auf einer Website ist kein Grund für Maßnahmen gegen diese... - Duplicate Content: Mehrsprachige templates mit gleichem Content
Google versucht es gerne allen recht zu machen und ihnen die beste user experience bieten die möglich ist. Wer zum Beispiel auf Google.de sucht, sucht... - SEO Module für Drupal
Drupal ist mächtiges und vielseitig einsetzbares CMS, das durch vielen unterschiedlichen CMS schnell zu einer Community Plattform verwandelt wird. Leider gilt Drupal von Haus nicht...



November 29th, 2008 at 08:56
Gute Tipps. Vielen Dank Dir dafür!