Ein KI-Crawler ist ein Bot, der Webseiten holt, damit ein Large Language Model etwas damit anstellen kann. 2026 ist dieses „Etwas" einer von drei Jobs: Das nächste Modell trainieren, einen Suchindex aufbauen, oder eine konkrete Nutzerfrage live beantworten. Jeder Job hat seinen eigenen Bot. Der Unterschied zwischen „alles erlauben" und „alles blockieren" ist der Teil, den die meisten robots.txt-Guides überspringen — und genau dort liegen die interessanten Entscheidungen.
Dieser Guide ist die volle Referenz: welche Crawler es gibt, was sie wirklich tun, wie viel Traffic sie erzeugen und was 10 Top-Seiten aktuell entschieden haben — mit einem Live-Audit vom Morgen der Veröffentlichung. Das passende Tool ist Luminas Crawler-Access-Checker, der die gleiche Analyse für jede URL fährt.
Was ist ein KI-Crawler?
Ein KI-Crawler holt HTML und schickt es an ein Modell weiter, das den Inhalt entweder auswendig lernt, indexiert oder zitiert. Der Bot selbst sieht aus wie ein klassischer Web-Crawler — gleiche HTTP-Requests, gleiche User-Agent-Header, (meistens) gleicher Respekt vor robots.txt. Was sich ändert: was mit dem Inhalt nach dem Abruf passiert.
Klassische Crawler wie Googlebot existieren, um Seiten gegeneinander zu ranken und Links in den Suchergebnissen zurückzugeben. User klicken durch. KI-Crawler überspringen den Klick. ChatGPT liest deine Seite, denkt über den Inhalt nach und schreibt eine Antwort, die dich zitiert oder eben nicht. Das ist der Shift. Dein Content wird von einem Ziel zu einer Quelle.
Weil „KI-Crawler" eine Job-Beschreibung ist und keine strikte Kategorie, wächst die Liste schnell. Die Bots von OpenAI, Anthropic, Google, Perplexity, Apple, Meta und Common Crawl sind die, die 2026 zählen. Vercels eigene Edge-Logs (Ende 2024) zeigen GPTBot, Claude, AppleBot und PerplexityBot als den Großteil des deklarierten KI-Crawler-Volumens auf ihrem Netzwerk. Ein paar Dutzend kleinere Crawler existieren, aber diese Top-Bots sind die, wo die interessanten Entscheidungen anfallen.
Die wichtigsten KI-Crawler 2026
Jedes ernstzunehmende öffentliche KI-System meldet sich mit einem User-Agent. Das sind die Bots, die du in deinen Server-Logs siehst:
| Bot | Betreiber | Zweck | Respektiert robots.txt |
|---|---|---|---|
| GPTBot | OpenAI | Trainiert zukünftige GPT-Modelle auf den geholten Inhalten. | Ja |
| OAI-SearchBot | OpenAI | Baut den Index, den ChatGPT Search abfragt. | Ja |
| ChatGPT-User | OpenAI | Holt live, wenn ein User ChatGPT bittet, im Web zu suchen. | Nein (seit OpenAIs Doku-Update Dez. 2025) |
| ClaudeBot | Anthropic | Trainiert zukünftige Claude-Modelle. | Ja |
| Claude-SearchBot | Anthropic | Baut Claudes Retrieval-Index auf. | Ja |
| Claude-User | Anthropic | Holt live, wenn ein User Claude bittet, im Web zu suchen. | Ja |
| PerplexityBot | Perplexity | Indexiert Seiten für Perplexitys Suchoberfläche. | Ja |
| Perplexity-User | Perplexity | Holt live, wenn ein User Perplexity eine Frage stellt. | Ja (mit 2024 gemeldeten Ausnahmen) |
| Google-Extended | Opt-out-Signal für Gemini-Training und Google-KI-Features. | Ja (Direktive, kein eigener Crawler) | |
| CCBot | Common Crawl | Öffentliches Dataset für viele LLMs (Llama, Falcon, ältere GPT-Versionen). | Ja |
| AppleBot-Extended | Apple | Opt-out-Signal für Apple Intelligence Training. | Ja (Direktive) |
| Meta-ExternalAgent | Meta | Training und Produktintegration für Meta AI. | Ja |
Zwei Dinge sind wichtig. Erstens: Googlebot selbst ist nicht auf dieser Liste — Googlebot holt deine Seiten weiter für die klassische Suche, und Google-Extended ist das separate Opt-out, um deine Inhalte vom Gemini-Training auszuschließen. Google-Extended zu blockieren hat keinen Einfluss auf dein Google-Ranking. Zweitens: Bingbot ist auch nicht dabei, obwohl ChatGPT Search teilweise auf Bings Index zugreift. Microsoft hat signalisiert, dass Bingbot zu blockieren sowohl der klassischen Suche als auch KI-Suche schadet — die beiden teilen sich dort die Infrastruktur.
Training vs. Suche: Der Split, der alles ändert
Der größte Shift von 2024 auf 2026: OpenAI, Anthropic und Perplexity haben ihren einen Bot in mehrere Bots mit klar getrennten Jobs aufgesplittet. Das ist die Entscheidung, um die die meisten robots.txt-Guides noch herumschreiben — und es ist die, die ändert, was Blockieren tatsächlich kostet.
OpenAI hat GPTBot 2024 von OAI-SearchBot und ChatGPT-User getrennt. Anthropic ist mit Claude-SearchBot und Claude-User nachgezogen. Perplexity fährt eine zweistufige Variante mit PerplexityBot zum Indexieren und Perplexity-User für Live-Retrieval. Das Muster ist überall gleich: ein Bot für Training, einer für Indexierung, einer für Live-User-Fetches.
Warum das zählt. Wenn du nur GPTBot blockierst, hast du OpenAI davon abgehalten, auf deinem Content zu trainieren — aber ChatGPT kann dich weiter zitieren, wenn ein User fragt, weil ChatGPT-User ein anderer Bot ist. Die meisten Publisher wollen genau diese Mitte: kein Training, ja Zitation.
Ein wichtiges Detail dazu. In einem Doku-Update vom Dezember 2025 hat OpenAI die robots.txt-Compliance-Sprache für ChatGPT-User entfernt und geschrieben, dass — weil diese Abrufe nutzer-initiiert sind — "robots.txt rules may not apply". ChatGPT-User per robots.txt zu blocken funktioniert nicht mehr zuverlässig. Für Training (GPTBot) und Such-Indexierung (OAI-SearchBot) macht robots.txt weiterhin, was du erwartest. Anthropics drei Bots respektieren laut ihren Support-Docs alle weiter robots.txt. Der Training-vs-Retrieval-Split bleibt also eine valide Strategie, mit einem kleinen Sternchen speziell an ChatGPT-User.
Konkretes Beispiel. The Guardian lässt OAI-SearchBot und ChatGPT-User über den *-Fallback durch, blockt ClaudeBot und CCBot aber explizit. Sie wollen in ChatGPTs Live-Antworten zitiert werden, aber nicht in Trainingskorpora. Die NYT fährt das Gegenteil: nach ihrer Klage gegen OpenAI von 2023 blockieren sie jeden KI-Bot, den es gibt. Wikipedia nimmt die dritte Haltung — alles erlauben, weil ihre CC BY-SA-Lizenz Weiterverwendung ohnehin zulässt.
Wie viel Traffic KI-Crawler wirklich erzeugen
Cloudflare berichtet für 2025 rund 50 Milliarden KI-Crawler-Requests pro Tag über ihr Netzwerk — etwa 1% des gesamten Web-Traffics, der bei ihnen durchgeht, und deutlich mehr als 2024. Das meiste davon ist Training, nicht Nutzerantworten: Cloudflares eigene Aufschlüsselung zeigt Trainings-Crawler mit fast 80% des KI-Bot-Volumens, wobei GPTBot und ClaudeBot zusammen für rund die Hälfte des gesamten beobachteten KI-Crawlings stehen.
Die klassische Suche ist noch immer viel größer. Vercels Edge-Logs für Ende 2024 zeigen Googlebot bei 4,5 Milliarden Requests pro Monat, GPTBot bei 569 Millionen, Claude bei 370 Millionen, AppleBot bei 314 Millionen und PerplexityBot bei 24 Millionen. Das ist rund 8× Abstand zu GPTBot und fast 200× zu PerplexityBot. KI-Crawler wachsen schnell, aber sie haben die klassische Suche im reinen Volumen noch nicht eingeholt, und werden das wohl noch Jahre nicht.
Und nicht jeder Crawler hält sich an die Regeln. Laut Vercels eigenen Daten respektieren die großen deklarierten Bots — GPTBot, Claude, AppleBot — robots.txt. Das Problem sind die undeklarierten. Eine Wired-Untersuchung vom Juni 2024 hat Perplexity dabei erwischt, robots.txt über einen unbenannten AWS-gehosteten Crawler zu umgehen; Cloudflare hat das gleiche Muster im August 2025 öffentlich angeprangert. Wenn ein Crawler entschieden hat, dich zu scrapen, hält robots.txt ihn nicht auf. Für echte Durchsetzung brauchst du die WAF- oder IP-Block-Schicht.
Live-Audit: Was 10 Top-Seiten wirklich blockieren
Am Morgen der Veröffentlichung habe ich die robots.txt von 10 Top-Seiten gezogen und jede gegen 12 KI-Bots geparst. Das Muster ist eindeutig: Trainings-Bots werden rund dreimal so oft blockiert wie Retrieval-Bots. Die Zahlen:
10 Top-Seiten, 12 KI-Bots, ein klares Muster.
robots.txt-Parsing gegen 10 traffic-starke Seiten: nytimes.com, wsj.com, bbc.com, cnn.com, reuters.com, theguardian.com, spiegel.de, zeit.de, wikipedia.org, medium.com. Explizite Regeln und *-Fallback klassifiziert gegen 12 wichtige KI-Bots.
Claude-SearchBot. Der Split funktioniert — Publisher kennen den Unterschied.*-Fallback durch. Die Creative-Commons-Lizenz erlaubt Weiterverwendung ohnehin — keine Policy-Grundlage zum Blocken. Die Gegenentscheidung zur NYT.Zweiter Befund: 8 der 10 Seiten fahren die Drei-Ebenen-Strategie (Training blocken, Retrieval erlauben, User-Browsing erlauben). Nur die NYT ist all-Blocks, nur Wikipedia ist all-Allows. Die Mittelstrategie ist jetzt der Default der großen Publisher.
Solltest du KI-Crawler blockieren?
Keine Ja-Nein-Frage. Hängt an drei Dingen: wie du Geld verdienst, ob dein Content ersetzbar ist, und ob KI-Zitation heute tatsächlich Traffic zu dir bringt.
Für News-Publisher hinter Paywall greift die Logik, die die NYT-Klage ausgelöst hat. Trainings-Bots lernen deine Inhalte, und ein paar Monate später paraphrasiert das Modell deine Berichte, ohne dir einen Leser zu schicken. Training blocken ist defensiv. Retrieval erlauben ist die offene Frage: Du wirst als zitierte Quelle in ChatGPT- und Perplexity-Antworten angezeigt, aber der Referral-Traffic bleibt ein winziger Bruchteil dessen, was Google organisch schickt. Anthropics eigenes Crawl-to-Refer-Verhältnis (laut Cloudflare August 2025) lag auf News-Seiten bei rund 2.500:1 — sie crawlen viel und schicken wenig zurück.
Wenn du Marketing- oder Lead-Gen-Site betreibst, gilt die Gegenrechnung. Du willst in ChatGPT-Antworten zu deiner Kategorie genannt werden. KI-Bots blocken kickt dich aus diesem Kanal. Alles erlauben, inklusive Training — der Downside von Training ist gering, wenn dein Content sowieso ein Sales-Pitch ist, und der Upside der Zitation ist real. Lumina selbst fährt diese Strategie.
Wenn du Affiliate-Site, Doku oder Vergleichsportal bist, dominiert Retrieval. User fragen ChatGPT „was ist das beste X", und die Antwort zitiert 3 bis 5 Quellen. Wer keine davon ist, existiert nicht. Erlaube OAI-SearchBot, Claude-SearchBot, ChatGPT-User, Claude-User, Perplexity-User und PerplexityBot. GPTBot und ClaudeBot kannst du blocken, wenn du beim Training pushback willst — aber die Retrieval-Bots sind die, die für dich arbeiten.
Default-Haltung bei Unsicherheit: GPTBot, ClaudeBot, CCBot und Google-Extended blockieren. Alles andere erlauben. Das ist die Mitte, und es ist genau das, wo die meisten großen Publisher 2026 stehen.
Die robots.txt-Referenz für KI-Crawler
Drei fertige Konfigurationen zum Kopieren, von am meisten erlaubend bis am meisten restriktiv. Die Datei liegt auf /robots.txt im Domain-Root. User-Agent-Matching ist case-insensitive. Regeln gelten für Pfade, die case-sensitive sind.
1. Alles erlauben (Wikipedia-Stil)
User-agent: *
Disallow:
Nutze das, wenn dein Content offen lizenziert ist oder du aktiv Zitation willst und Training nicht stört. Die meisten B2B-SaaS- und Marketing-Seiten gehören hier hin.
2. Training blocken, Retrieval erlauben (die Mittellinie)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: AppleBot-Extended
Disallow: /
User-agent: *
Disallow:
Das blockiert alle dokumentierten Trainings-Bots und lässt Retrieval-Bots über den *-Fallback durch. OAI-SearchBot, Claude-SearchBot, ChatGPT-User, Claude-User, PerplexityBot und Perplexity-User haben weiter Zugriff.
3. Alles KI blockieren (der NYT-Ansatz)
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-SearchBot
Disallow: /
User-agent: Claude-User
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Perplexity-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: AppleBot-Extended
Disallow: /
User-agent: Meta-ExternalAgent
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: *
Allow: /
Das explizite Googlebot: Allow ist hier wichtig. Ohne es liest sich die Liste schnell als feindlich gegen alle Bots. Du willst, dass die klassische Google-Suche weiter crawlt — der Block ist rein KI-spezifisch.
Eine Regel, die du dir merken solltest
robots.txt ist eine Bitte, keine Firewall. Wohlerzogene Crawler respektieren sie — Vercels eigene Daten zeigen die großen deklarierten Bots (GPTBot, Claude, AppleBot) alle konform. Scraper, die sich als Chrome tarnen, oder Crawler unter undeklarierten User-Agents, tun es nicht. Für echte Durchsetzung kombiniere robots.txt mit Cloudflares KI-Scraper-Block, einer IP-Deny-Liste oder einer WAF-Regel, die verdächtigen Traffic challengt.
Häufige Fehler
Sechs Muster, die in Client-Audits und Wettbewerbs-robots.txt immer wieder auftauchen:
- GPTBot blocken, CCBot offen lassen. Common Crawl speist Llama, Falcon, ältere GPTs und dutzende akademische Modelle. Wenn das Ziel „kein Training auf meinem Content" heißt, musst du beide blocken.
- ChatGPT-User blockieren. Kickt dich aus ChatGPTs Live-Antwort-Zitationen. Wenn das das Ziel ist, okay. Wenn du eigentlich nur Training blocken wolltest, hast du den falschen Bot erwischt.
- Wildcard-Blocks, die legitime Bots mitnehmen. Eine Zeile wie
User-agent: *bot Disallow: /ist kein gültiges robots.txt-Syntax und wird ignoriert. Noch schlimmer,Disallow: /*bot*kann beliebige URLs blocken. Nimm explizite User-Agent-Namen. - robots.txt als Durchsetzung sehen. Die Crawler, die du am dringendsten stoppen willst, sind genau die, die robots.txt am häufigsten ignorieren — Perplexitys unbenannter AWS-Crawler, Scraper mit gefälschten User-Agents, undeklarierte Bots. Die höflichen Bots respektieren sie. Die aggressiven nicht. Zieh WAF- oder IP-Blocks rein, wenn Durchsetzung zählt.
- Vergessen zu deployen. robots.txt lebt im Domain-Root. Subfolder-CMS generieren manchmal eine robots.txt, die nie ausgespielt wird. Prüf mit
curl https://deinedomain.de/robots.txt— wenn das 404 oder die falsche Datei zurückgibt, bringt nichts, was du geschrieben hast, etwas. - robots.txt aktualisieren, ohne das Response zu prüfen. Manche CDNs cachen robots.txt 24 Stunden. Wenn du um 10 Uhr updatest und der Cache bis Mitternacht hält, hast du 14 Stunden lang nichts ausgeliefert.
FAQ
Wo du anfängst
Wenn du diese Woche funktionierende KI-Crawler-Regeln auf deiner Seite haben willst, mach diese fünf Dinge in der Reihenfolge:
Lumina-Crawler-Access-Checker auf deine Domain laufen lassen. Prüft 36 Bots gegen deine Live-robots.txt und das tatsächliche Server-Response. Kostenlos, keine Anmeldung.
Crawler-Access-Checker →Alles erlauben (Marketing, B2B-SaaS, Doku), nur Training blocken (die meisten News und Publisher) oder alles blocken (Newsrooms mit Paywall und Rechtslage wie die NYT). Die meisten Seiten landen in der Mitte.
Entscheidungsrahmen ↑Kopier die Konfig oben, die zu deiner Haltung passt. Pack sie auf /robots.txt. Mit curl prüfen. CDN-Caching im Auge behalten — Cloudflare und Fastly halten alte Files manchmal Stunden.
Wenn du Retrieval erlaubst, hilft eine saubere llms.txt KI-Crawlern, deine kanonischen Seiten schneller zu finden. Bisher kein dokumentierter Ranking-Effekt, aber ein günstiges Signal.
llms.txt-Generator →Richte Source-Tracking für chatgpt.com, perplexity.ai, claude.ai und gemini.google.com ein. Die Volumina sind 2026 noch klein, aber der Trend zeigt dir, ob deine Retrieval-Strategie zieht.
GA4 Dashboard →Prüf, wie KI-Crawler deine Seite sehen
Luminas kostenloser Crawler-Access-Checker testet deine robots.txt gegen 36 Bots — inklusive jedem wichtigen KI-Crawler. Eine URL, keine Anmeldung, echte Server-Responses neben den robots.txt-Regeln.
Crawler-Access-Checker starten →