Es gibt viele Arten von Bots im Interne, die guten wie z.B. der Googlebot sammelt Informationen um diese dann in Suchmaschinen anzubieten, aber leider gibt es auch böse Bots. Diese dursuchen Websites nach E-Mail Adressen um diese dann voll zu spammen, oder um komplette Inhalte zu klauen um so schnell neue Seiten mit geklautem Inhalt zu erstellen.
Seit 1 Jahr habe ich sowohl auf Winhilfe.ch als auch Winhilfe.info eine Bot Falle eingebaut, das System ist recht einfach, Bots die die robots.txt nicht beachten (jeder ehrliche Bot tut das), und zu neugierig ist wird automatisch gesperrt.
Das System funktioniert echt gut und tag täglich landen Böse Bots in der Bot Falle. Darum habe ich entschieden eine neue Kategorie zu erstellen und diese Grabber Bots aufzuzählen.
Über eine einfache .htaccess Datei kann man dann diese Bots über die Browserkennung aussperren.
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT}
^Alexibot|^telnet|^asterias|^BackDoorBot|^Black.Hole|^BlackWidow
RewriteRule .* – [F,L]
- Ausführliche Liste Bots Liste [htaccess.txt]
- Bots Ausperren
Hier mal ein frischer Eintrag
Agent: Snapbot/1.0
Ip: 66.234.139.206
- Spamseum.com – Spam Seiten melden
Auf Spamseum.com kann man Spam Seiten melden die dann den drei größten Suchmaschinen... - Cheat Sheets alias Spickzettel
Inspiriert durch den Artikel von Kai habe ich diesen Link aus meinen Favoriten gekramt. Auf dieser Seite gibt es eine Liste von Spickzetteln (Cheat Sheets) für Developer und... - Was ist ein RSS Feed und wie benutze ich ihn
Stefan Bucher hat eine schöne Seite erstellt auf der er erläutert was RSS ist, wie man sie erkennt, wie man sie abonniert, wie man sie...



August 11th, 2008 at 16:18
Da gibt es gerade über .htaccess noch mehr Möglichkeiten auszusperren. Ein großes Problem, gerade bezüglich Duplicate Contents, sind Web-Proxys. Einfach von der Seite aussperren und fertig ist die Soße. Hier wird gezeigt wie es geht: http://www.proxy-sperre.de/
Oder gerade Betreiber dynamischer Projekte können MySQL-Injectionen vermieden werden:
RewriteEngine On
RewriteCond %{QUERY_STRING} ^(.*)(\< |%3C).*script.*(\>|%3E) [NC,OR]
RewriteCond %{QUERY_STRING} ^(.*)=http://(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)=http\%3A\%2F\%2F(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)=ftp://(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)=ftp\%3A\%2F\%2F(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)=https://(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)=https\%3A\%2F\%2F(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)sql_injection(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)mosConfig_absolute_path=(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)module_root_path=(.*) [OR,NC]
RewriteCond %{QUERY_STRING} ^(.*)configdir(.*) [OR,NC]
RewriteRule ^.*$ http://127.0.0.1/ [R,L]
Und die .htaccess rein und Ruhe ist. Hab noch mehr Regeln zusammengestellt, aber sind nicht für jedes Projekt alle notwendig. Nach Durchsicht der Serverlogs gehen (zumindest derzeit) grade alle Versuche mit nem HTTP 302 Status leer aus.