Die Robots.txt ist eine Anleitung für die ehrlichen Bots, wie zum Beispiel Suchmaschinenbots. Sie sagt den Bots welche Dateien und Ordner der Webmaster nicht im Index haben will. Besonders wichtig sind diese Regeln beim Eleminieren oder vermeiden von Doppelten Seiten (DC) .
Doppelte Seiten können durch viele kleine Fehler entstehen
- Fehler im CMS/Forum oder Blog
- Keine Standard Domain definiert
- https ohne Robots.txt
Im Grunde ist jede Seite über www und ohne www erreichbar, auch subdomains (!) darum ist es wichtig eine Standarddomain zu definieren. Durch eine Standard Domain, wird alles was nicht dem Standard entspricht auf die Hauptdomain weitergeleitet. Somit kann keine doppelte Seite (mit und ohne www) entstehen.
Eine weitere Fehlerquelle sind Seiten mit Variablen, diese leitet man am besten über eine htaccess Rule auf die Suchmaschinenfreundliche URL weiter. Damit diese Seiten auch nicht im Index erscheinen sperrt man diese über die Robots.txt. Mehr zum Thema im Artikel „Doppelten Content verhindern“
Https ist ein gesichertes http Protokoll und kommt beispielsweise bei Web shops zum Einsatz. Sobald der Kunde, anfängt zu „shoppen“ geschieht dies oft über eine gesicherte Verbindung (https). Die Https Verbindung läuft über einen extra Port, normalerweise ist das der Port 443. Auf der „Hilfe für Webmaster“ Seite von Google ist folgender Text in dem Abschnitt „Ihre gesamte Website entfernen“ zu finden:
Jeder Port muss über eine eigene robots.txt-Datei verfügen. Insbesondere wenn Sie Content sowohl über http als auch https anbieten, benötigen Sie getrennte Versionen der Datei robots.txt für jedes der Protokolle. Damit Googlebot alle http-Seiten, jedoch keine https-Seiten indiziert, verwenden Sie die unten genannten robots.txt-Dateien.
Für Ihr http-Protokoll (http://IhrServer.de/robots.txt):
User-agent: *
Allow: /
Für Ihr https-Protokoll (https://IhrServer.de/robots.txt):
User-agent: *
Disallow: /
Man muß also für jeden Port eine eigene Robots.txt definieren. Liegt die https Seite und die http Seite im gleichen Root kann man das ganze über eine .htaccess Rule lösen
RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robots-https.txt
Tags: Http, Https, Robots.txt
- Robots.txt reicht nicht aus zum sperren von Seiten
Matt Cutts hat gestern ein neues Video veröffentlicht, diesmal zum Thema Robots.txt und die Frage warum der Googlebot die Anweisungen in der Robots.txt in manchen... - Canonical tag nun auch über HTTP Header
Google unterstütz den canonical tag auch über den HTTP Header. HTTP/1.1 200 OK Content-Type: application/pdf Link: <http://www.example.com/white-paper.html>; rel="canonical" Content-Length: 785710 Damit können zum Beispiel Webseiten... - Was man bei der Robots.txt beachten sollte
Mit der Robots.txt kann man dem Suchmaschinen Bot einige Regeln für die eigene Webseiten mitteilen. Ob es nun das Sperren von Ordnern und Unterordner ist... - Robots.txt & noindex – Graywolf , Matt Cutts, g1smd und Halfdeck diskutieren über Twitter
Interessanter Diskussion zwischen Graywolf und Matt Cutts über Twitter zum Thema indexieren von Seiten und wie man Google verbietet bestimmte Seiten zu crawlen, denn der...


Hinterlasse ein Kommentar