Bots

Bot-Traffic bändigen: Wenn Crawler Ihren Server in die Knie zwingen

Lesezeit: 3 Minuten

Haben Sie sich schon einmal gewundert, warum Ihre Webseite plötzlich langsam lädt oder gar nicht mehr erreichbar ist, obwohl gar nicht so viele „echte“ Besucher unterwegs sind? Oft steckt kein technischer Defekt dahinter, sondern ungebetener Besuch von automatisierten Programmen: sogenannten Bots und Webcrawlern.

Was früher ein beherrschbares Hintergrundrauschen war, hat in den letzten Monaten eine völlig neue Dimension erreicht.

Die neue Aggressivität: Von „normalen“ Bots zur KI-Invasion

Lange Zeit waren Webcrawler vor allem für Suchmaschinen (wie Google) oder gelegentliche SEO-Analysen unterwegs. Das war selten ein echtes Performance-Problem. Mit dem rasanten Aufstieg von Large Language Models (LLM) und Künstlicher Intelligenz hat sich das Bild jedoch radikal gewandelt.

KI-Unternehmen fluten das Netz mit Crawlern, um Trainingsdaten für ihre Modelle zu sammeln. Dabei gehen diese KI-Bots oft extrem aggressiv vor: Sie rufen tausende Unterseiten in kürzester Zeit ab, ignorieren Pausenzeiten und kehren immer wieder zurück. Für einen normalen Webserver fühlt sich das oft wie eine unbeabsichtigte DoS-Attacke (Denial of Service) an. Die Folge: CPU-Last und Arbeitsspeicher schießen in die Höhe, legitime Kunden stehen vor einer langsamen oder gar nicht erreichbaren Seite.

Drei Strategien gegen den digitalen Dauerbeschuss

Um Ihren Server zu entlasten, gibt es verschiedene Ansätze – von „höflich anfragen“ bis zur technischen Zugriffssperre.

1. Die höfliche Variante: robots.txt

Der Standardweg ist die robots.txt-Datei in Ihrem Hauptverzeichnis. Hier können Sie Bots anweisen, bestimmte Bereiche nicht zu besuchen.

  • Vorteil: Einfach zu pflegen.

  • Der Haken: Das funktioniert nur, wenn der Bot sich auch daran hält. Viele KI-Crawler tun das zwar, aber es bleibt letztlich eine freiwillige Vereinbarung.

Ein großartiges Community-Projekt hierfür ist ai.robots.txt auf GitHub. Dort finden Sie fertige Listen bekannter KI-Bots, die Sie direkt übernehmen können.

2. Der Riegel davor: .htaccess (IP-Sperren)

Wenn Höflichkeit nicht ausreicht, sollten Sie den Zugriff technisch unterbinden. Das effektivste Werkzeug hierfür ist die .htaccess-Datei. Damit blockieren Sie Anfragen, bevor sie überhaupt Ihre Anwendung (wie WordPress oder ein Shop-System) belasten. Unsere klare Empfehlung ist, solche Sperren einzurichten, da sie die Grundlast auf dem Server massiv senken.

Hier sind Beispiele für Infrastrukturen, von denen aktuell massiver Bot-Traffic ausgeht:

# Zugriffsbeschränkungen für bekannte Bot-Quellen
<RequireAll>
    Require all granted
    
    # Microsoft inkl. Azure
    Require not ip 4.144.0.0/12
    Require not ip 13.64.0.0/11
    Require not ip 13.104.0.0/14
    Require not ip 20.0.0.0/10
    Require not ip 40.80.0.0/12

    # Apple
    Require not ip 17.0.0.0/8

    # Amazon AWS
    Require not ip 3.80.0.0/12

    # OVH
    Require not ip 193.70.0.0/16
    Require not ip 2001:41d0::/32
</RequireAll>

3. Sperre nach Namen (User-Agent)

Sie können Bots auch direkt bei ihrem Namen nennen und blockieren:

RewriteEngine On

# Sperre für aggressive Crawler und SEO-Bots
RewriteCond %{HTTP_USER_AGENT} (MJ12bot|AhrefsBot|SemrushBot|DotBot|PetalBot|GPTBot|CCBot) [NC]
RewriteRule ^ - [F,L]

(Das Kürzel [NC] sorgt dafür, dass Groß- und Kleinschreibung ignoriert wird, [F] gibt dem Bot ein deutliches „403 Forbidden“ zurück.)

Ein realistischer Blick: Werden damit alle Probleme gelöst?

Diese Maßnahmen sind extrem wirksam gegen das allgemeine „Grundrauschen“ und die großen KI-Crawler-Flotten. In der Regel lässt sich die Serverlast dadurch bereits drastisch reduzieren.

Dennoch gehört zur Wahrheit dazu: Es gibt Akteure, die es gezielt darauf anlegen. Wer seine Bots aktiv verschleiert oder ständig die IP-Adressen wechselt, lässt sich mit einfachen Listen allein nicht vollständig stoppen. Es ist ein digitales Wettrüsten – aber mit den richtigen Filtern gewinnen Sie die Kontrolle über Ihre Server-Ressourcen zurück.

Experten-Lösungen: Intelligente Filter & Geoblocking

Wenn Standard-Sperren nicht ausreichen, setzen wir auf serverseitige Sicherheitsfilter. Diese agieren wie eine intelligente Firewall vor Ihrer Webseite. Sie erkennen komplexe Verhaltensmuster und blockieren Zugriffe automatisch, wenn diese sich untypisch für menschliche Besucher verhalten – noch bevor der Bot Ihre eigentlichen Webseiten-Daten abrufen kann.

Ergänzend bietet sich oft Geoblocking an. Wenn Ihr Business regional begrenzt ist, können wir Zugriffe aus Ländern, die statistisch gesehen fast nur Bot-Traffic verursachen, komplett unterbinden.

Benötigen Sie Hilfe? Die Analyse von Logfiles und das Einrichten intelligenter Filterregeln erfordern Erfahrung, um nicht versehentlich echte Kunden oder wichtige Suchmaschinen auszusperren. Wenn Ihre Seite unter Bot-Last leidet, unterstützen wir Sie gerne bei der Absicherung Ihres Servers. Sprechen Sie uns einfach an!