Die Robots.txt ist eine Anleitung für die ehrlichen Bots, wie zum Beispiel Suchmaschinenbots. Sie sagt den Bots welche Dateien und Ordner der Webmaster nicht im Index haben will. Besonders wichtig sind diese Regeln beim Eleminieren oder vermeiden von Doppelten Seiten (DC) .

Doppelte Seiten können durch viele kleine Fehler entstehen

  • Fehler im CMS/Forum oder Blog
  • Keine Standard Domain definiert
  • https ohne Robots.txt

Im Grunde ist jede Seite über www und ohne www erreichbar, auch subdomains (!) darum ist es wichtig eine Standarddomain zu definieren. Durch eine Standard Domain, wird alles was nicht dem Standard entspricht auf die Hauptdomain weitergeleitet. Somit kann keine doppelte Seite (mit und ohne www) entstehen.

Eine weitere Fehlerquelle sind Seiten mit Variablen, diese leitet man am besten über eine htaccess Rule auf die Suchmaschinenfreundliche URL weiter. Damit diese Seiten auch nicht im Index erscheinen sperrt man diese über die Robots.txt. Mehr zum Thema im Artikel „Doppelten Content verhindern

Https ist ein gesichertes http Protokoll und kommt beispielsweise bei Web shops zum Einsatz. Sobald der Kunde, anfängt zu „shoppen“ geschieht dies oft über eine gesicherte Verbindung (https). Die Https Verbindung läuft über einen extra Port, normalerweise ist das der Port 443. Auf der „Hilfe für Webmaster“ Seite von Google ist folgender Text in dem Abschnitt „Ihre gesamte Website entfernen“ zu finden:

Jeder Port muss über eine eigene robots.txt-Datei verfügen. Insbesondere wenn Sie Content sowohl über http als auch https anbieten, benötigen Sie getrennte Versionen der Datei robots.txt für jedes der Protokolle. Damit Googlebot alle http-Seiten, jedoch keine https-Seiten indiziert, verwenden Sie die unten genannten robots.txt-Dateien.

Für Ihr http-Protokoll (http://IhrServer.de/robots.txt):

User-agent: *

Allow: /

Für Ihr https-Protokoll (https://IhrServer.de/robots.txt):

User-agent: *

Disallow: /

Man muß also für jeden Port eine eigene Robots.txt definieren. Liegt die https Seite und die http Seite im gleichen Root kann man das ganze über eine .htaccess Rule lösen

RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robots-https.txt


Tags: , ,
  • Ihren XING-Kontakten zeigen
Ähnliche Beiträge:


Hinterlasse ein Kommentar