Google SEO

Content ohne Mehrwert: Wenn Google keine Lust mehr hat URLs zu crawlen

image.png
Verfasst von Stephan Walcher

Die XML Sitemap ist eine praktische Datei mit der man nicht nur Google eine Liste von URLs der eigenen Domain liefern kann, es ist auch ein mächtiges Werkzeug um zu kontrollieren welche URLs im Index sind und welche nicht um dann entsprechende Nachforschungen anzustreben. Da der site:domain.tld Befehl in Google leider nur maximal 1.000 Ergebnisse ausspuckt, ist es immer empfehlenswert dieses Limit auch pro Sitemap einzuhalten und multiple XML Sitemaps zu erstellen. Denn nur so kann man kontrollieren welche URL eigentlich fehlt, denn die Webmaster Tools liefern nur einen übersichtswert.

image

Doch was tun, wenn man keine verschachtelte XML Sitemap hat und die Webmaster Tools einen ständig sinkende Anzahl an Indexierten URLs aus der Sitemap anzeigen, wie der User in einem Google Webmaster Help Thread?

Google Mitarbeiter Gary Illyes gibt dazu eine wirklich interessante Antwort:

As we improve our algorithms, they may decide to not reindex pages that are likely to be not useful for the users. I took a look on the pages that were once indexed but currently aren’t and it appears there are quite a few that have no real content;

Und listet dazu ein paar Beispiele aus der XML-Sitemap auf wie Soft404, leere Seiten ohne Content oder auch Duplicate Content.

Im Klartext: Wenn Google URLs findet, die für den User keinen Mehrwert bieten, könnte es passieren das Google aufhört diese URLs zu indexieren. Vermutlich wäre es für den Webmaster das einfachste die Seiten zu fixen und dann die Inhalte auf neuen URLs zu veröffentlichen, anstatt zu hoffen und zu warten das Google es sich anders überlegt.

via When Google’s Algorithms Don’t Index Your Content

Feedback, Fragen, Ideen?

11 Kommentare

  • Leider verstehe ich den Zusammenhang von “1000 Seiten” beim site:-Befehl und der Menge der URLs in einer Sitemap nicht. Wie kann man kontrollieren, welche URL im Index fehlt?

    Könntest du es an einem Beispiel noch einmal kurz erläutern?

  • Durch den Site:domain.tld kannst du dir alle URLs zu einer Domain auflisten lassen. Auch wenn du dir 100 Suchergebnisse pro Seite anzeigen lässt, erhälst du nur maximal 1.000 Suchergebnisse bzw. URLs da Google dir nur erlaubt durch 100 Seiten zu blättern.

    Wenn du nun eine Liste von 1.000 URLs in der Sitemap hast, kannst du diese Suchergebnisse mit Hilfe von Tools scrapen und so eine Liste aller URLs erhalten. Die günstigste Variante ist dabei das Firefox Addon SEOquake. Problematisch wird das Ganze aber wenn du mehr als 1.000 URLs hast. In solchen Fällen wäre es zum Beispiel hilfreich, wenn du pro Kategorie (domain.tld/category1/ eine XML Sitemap erstellst die du dann mit dem Sitebefehl abfragen kannst site:domain.tld/category1/ und das für alle deine Kategorien wiederholst. Das Ergebnis dann zum Beispiel in Excel zusammenführen und vergleichen Welche URL ist in der Sitemap enthalten die beim SEOquake Export nicht dabei ist.

    Theoretisch könntest du auch einfach für jede URL aus der Sitemap den Cache abfragen, aber das Ergebnis ist nicht 100% verlässlich da Google manchmal URLs auch ohne Cache Version listet. Alternativ kann man dazu auch Scrapebox nutzen, geht schneller als die manuelle Lösung und du kannst dir gratis neue IP Adressen holen

  • Soll das jetzt heißen, dass es auch nix bringt neue Inhalte zu erstellen bei den Seiten die nicht indiziert werden ?

  • Vielleicht geht G. langsam die “Puste” aus und sie können einfach aus Kapazitätsgründen nicht mehr alles und jenes indexieren?

  • @Thomas
    wenn Google irgendwann die URLs nicht mehr indexiert, wäre es vermutlich einfacher und schneller die URL zu ändern und den Content zu aktualisieren. Google ist eigentlich immer sehr schnell, wenn sie aber einmal Zeit lassen, dann lassen sie sich extrem viel Zeit. Versucht mal eine durch die Robots.txt gesperrte URL wieder “frei” zu bekommen ;).

  • @Stefan
    OK, jetzt hab ich den Zusammenhang verstanden … die Vorgehensweise mit Hilfe von Tools war in deinem Artikel nicht nachvollziehbar! Der von dir beschriebene Weg ist sicher eine gute Möglichkeit, die URLs im Index zu checken. Ich hab mir mit Hilfe von cURL einen Index-Checker gebaut, der auf Basis in der XML-Sitemap gelisteten URLs eine Site-Abfrage zu jeder einzelnen URL macht und das Ergebnis in einer Datenbank speichert. Ein Nachteil gegenüber deiner beschrieben Vorgehensweise sind die doch recht häufig stattfindenden und von Google nicht gewollten Abfragen – was mit Sicherheit cleverer gelöst werden kann. Aber auch deine Vorgehensweise hat eine Grenze, so z.B. bei einem Shop mit mehr als 1000 Detailseiten in einer Kategorie (domain.tld/category1/). Ein Vorteil gegenüber deiner Vorgehensweise ist, ich muss weder die Anzahl der URLs in der Sitemap, noch die Anzahl der Detailseiten einer Kategorie auf 1000 reduzieren. Zumal ich ein Freund von Detailseiten im Root-Verzeichnis bin, so können Detailseiten in verschiedenen Kategorien verlinkt werden und man hat keinen DC 😉 Egal, jetzt schweife ich ab 😉

    Auf den Punkt gebracht, ich denke es ist die falsche Herangehensweise die Anzahl der URLS in einer Sitemap für diesen Zweck zu reduzieren bzw. die Verzeichnisstruktur anzupassen. Das soll aber nicht heißen, das ich gegen multiple XML-Sitemaps bin – ganz im Gegenteil! Ich erstelle Sitemaps für Kategorieseiten, Detailseiten, Contentseiten und sogar eine, in der alle “zuletzt geänderten” URLs gelistet werden 😀

    Enrico

    P.S. Eine URL die per Robots.txt gesperrt war(!), bekommst du am einfachsten und schnellsten durch einen neuen, vorzugsweise starken, Backlink von einer regelmäßig gecrawlten Seite wieder in den Google Index – so zumindest meine Erfahrung 😉

  • Nachtrag: zum Prüfen eignet sich auch der Info-Befehl, mit dem Vorteil gleich einen Link zur Cache-Version mit cURL’n zu können 😉

  • @Stephan

    Das stimmt – Es kann aber auch recht “fix” gehen. Jedoch bei einem Brand keine ideale Option. Mich würde ja mal interessieren, wie Google Mehrwert messen möchte. Schreibe ich etwas zum Thema Seife, dann sollten ja meine Texte Keywords und Begriffe enthalten, die man mit Seife in Verbindung bringt ( Google Keyword Tool kann helfen ). Nutze ich diese und baue diese in meinen Text ein, dann entsteht die Gefahr von Keyword – Stuffing. Also baue ich Bilder und Listen ein und ziehe alles in die Länge, macht ja auch keinen Sinn. Eine Liste ist schön, muss aber auch nix bedeuten :-D. Bilder kann ich bei Fotolia & Co. kaufen, ist somit auch kein Mehrwert. Der Crawler müßte ja eine Relation zwischen DC ( Footer Texte und Sidebar Texte ) und UC ( eigentlicher Artikel ) erstellen und ab einem bestimmten Wert abbrechen.

  • Man denke mal nur an die unzähligen Kataloge ala Magento etc. die aus einem Bild, einer Überschrift und einem Preis bestehen. Und häufig immer mal wieder der selben Beschreibung – muß man da wirklich alles indezieren? Das Mother G die “Puste” ausgeht wie oben beschrieben denke ich aber nicht.

    Versucht mal eine durch die Robots.txt gesperrte URL wieder “frei” zu bekommen .

    ^^ Amen