Geht man davon aus das die Ressourcen die Google seinen Googlebot zur Verfügung stellt endlich sind, ist es nur eine logische Schlussfolgerung das jede Webseite im Web im Google Index nur einen begrenzten Platz einnimmt. Jeder Webmaster sollte daher bemüht sein den begrenzten Platz den Google zur Verfügung stellt optimal zu nutzen. Die einfachste und effektivste Methode nur mit den passenden Seiten im Google Index präsent zu sein ist es, nur solche Seite zu erstellen. Leider ist dies nur ein Wunschdenken, denn jede Webseite braucht neben reinen Content Seiten auch Verbindungstücke (Kategorien, Tags, usw.), Service Seiten (Impressum, AGBs, usw.) und natürlich auch User Seiten (Login, Profil, usw.).

Erstellt man ein neues Projekt gibt es neben den ursprünglichen super-seo-content-seiten plötzlich auch ganz viele nutzlose-seo-seiten. Auch bestehende Projekte die falsch oder vor langer Zeit erstellt worden sind, besitzen vieler dieser Seiten über die man sowieso keine Besucher bekommt, ein Klassiker: die Login Page.

Gehen wir nun davon aus das der Googlebot nur, je nach Autorität, eine begrenzte Anzahl von Seiten crawlen kann, sollte es unser Bestreben sein das dieser auch die richtigen Seiten crawlt. Um herauszufinden wie wo sich der Googlebot am meisten rumtreibt und ob sich diese Seiten traffic-technisch überhaupt lohnen, sollte man seine Webseite vieleicht einer Crawl Allowance Analyse unterziehen. Dabei wird untersucht auf welchen Seiten der Googlebot seine Ressourcen primär investiert und wie diese im Zusammenhang mit den eingehenden traffic performan, denn es wäre fatal, wenn der Googlebot seine Ressourcen auf Seiten vergeudet die kaum traffic liefern. Sehr hilfreich bei der Analyse, die Daten aus den Google Webmaster Tools und Google Analytics.

Zeigt die Crawl Allowance Analyse uns wo der Googlebot viel Zeit verbringt und ob diese in einem richtigen Zusammenhang zum eingehenden traffic steht, ist es aber auch wichtig unnötige Seiten direkt aus dem Google Index zu verbannen. Sehr hilfreich dabei die Google Hacking Technik wie Nerd in Skirt in ihrem Artikel Indexbereinigung: Google Hacking als SEO-Benefit überzeugend demonstriert.

Dabei handelt es sich um eine simple Anreihung von Google Operatoren in Kombination mit dem altbekannten Site: Operator. Mit site:prometeo.de zeigt Google nur die Seiten der jeweiligen Domain an, fügt man nun ein Keyword hinzu erhält man alle Seiten auf der Domain die Google zum Keyword findet site:prometeo.de MVP. Nun gibt es neben dem Site: Operator auch noch andere Operator. So kann man zum Beispiel mit site:prometeo.de filetype:pdf gezielt nach PDFs suchen. Auch sehr beliebt die Suchoperatoren site:prometeo.de inurl:seo die nach Keywords in der URL suchen. Selbstverständlich kann man auch mittels dem – Zeichen auch die Ergebnisse aussortieren, Bsp. site:prometeo.de -inurl:bing.

Eine sehr ausführliche Liste von Operatoren gibt es unter Google Power User Tips: Query Operators.

Tipp: Da Google bekanntlich nur maximal 1.000 Ergebnisse anzeigt, ist es Ratsam bei großen Webseiten die Analyse der Webseite in mehre Bereiche zu unterteilen indem man jede Kategorie/Thema einzeln analysiert. Dazu einfach mit site:prometeo.de/2009/09 usw. bis man unter dem 1.000 Seiten Limit ist.

Nachdem man die unnützen Seiten im Index identifiziert hat es Zeit diese für immer und ewig aus dem Google Index zu verbannen, die effizienteste Methode ist dabei der meta robots Befehl noindex,follow. Damit signalisieren wir Google das die Seite nicht im Index erscheinen soll, aber alle ausgehende Links trotzdem normal weiterverfolgt werden. Somit garantieren wir also das der eingehende Linkjuice nicht verloren geht und die von dieser Seite verlinkten Seiten weiterhin mit Link Power versorgt sind.

<meta name="robots" content="noindex,follow" />

Von der Lösung, die Seiten über die Robots.txt zu sperren sollte man nicht nur wegen Zeitmangel (kann bis ein paar Monate dauern, bis Google die Verbote aus der Robots.txt im Index übernimmt), sondern auch wegen Linkjuice Verlust besser lassen wie der seomoz Artikel Serious Robots.txt Misuse & High Impact Solutions zeigt.

robots txt blocks link juic Google Index aufräumen

Fazit: Egal ob Duplicate Content oder nicht, es liegt im Interesse eines jeden Webmaster der auf Suchmaschinen traffic setzt, darauf zu achten das nur Seiten im Index einer Suchmaschinen enthalten sind, über die er auch gefunden werden kann. Sicherlich könnte man glauben, dass durch eine möglichst hohe Anzahl von Seiten die Chancen ebenfalls sehr hoch sind das Google diese als Ergebnis anzeigt. Man sollte aber immer bedenken, dass je nach Autorität, Google & Co nur einen Teil der Webseite anzeigt und dieser Teil so hochwertig wie Möglich ist, denn nichts schreckt den User mehr ab als auf einer Seite zu landen die nicht gleich das liefert was er sich versprochen hat.


Tags: , , , ,
  • Ihren XING-Kontakten zeigen
Ähnliche Beiträge:


2 Reaktionen auf “Google Index aufräumen”

  1. Hallo Stephan,

    ein richtig guter Artikel. Du bist einer unserer ersten Snippets.

    Viele Grüße Mika

  1. Google ist kein Windows XP, Vorsicht vor dem Removal Tool

Hinterlasse ein Kommentar