Robots.txt-Leitfaden für SEO und KI-Crawler (2026)

heise hat im Oktober 2025 einen Nachruf auf robots.txt veröffentlicht: „Abschied von robots.txt (1994-2025)" — wehmütig argumentiert, das Protokoll, das das Web zivilisierte, sei tot, weil KI-Crawler die Compliance optional gemacht hätten. Das Framing ist halb richtig. Das Protokoll ist nicht mehr der stille Standard, der es zwei Jahrzehnte lang war. Compliance ist nicht mehr universell. Die Bot-Population, die eine durchschnittliche Site abruft, ist von einer Handvoll Suchmaschinen auf Dutzende KI-Crawler, Agenten und nachgelagerte Scraper explodiert, jeder mit eigener Haltung gegenüber robots.txt.

Aber der Nachruf überspringt die unbequeme Hälfte: die großen KI-Labs haben sich öffentlich verpflichtet, robots.txt für ihre deklarierten User-Agents zu respektieren, und CDN-Betreiber wie Cloudflare berichten breite Compliance bei den benannten Bots — mit dokumentierten Ausnahmen (Perplexity wurde im Juni 2024 von Wired beim Ignorieren von robots.txt erwischt). Das Protokoll funktioniert für die Bots, die öffentlich sagen, dass sie es respektieren. Es ersetzt nur keine Firewall, wenn du echte Durchsetzung brauchst. Dieser Leitfaden ist das ehrliche Bild für 2026: was robots.txt ist, warum sie immer noch zählt, die 19 KI-Crawler-User-Agents, die du wirklich kennen musst, die fünf Muster, die funktionieren, die sechs Fehler, die fast jede Site macht, und der Audit-Workflow, der alle aufdeckt. Live-Audit von 10 Top-Leitfäden auf Google EN + DE zeigt die Lücke: 9 von 10 shippen kein FAQPage, 3 erwähnen KI-Crawler überhaupt nicht, und der meistzitierte US-Leitfaden wurde seit März 2025 nicht mehr angefasst.

Was robots.txt wirklich ist

Robots.txt ist eine reine Textdatei im Wurzelverzeichnis deiner Domain (deineseite.de/robots.txt), die Web-Crawlern sagt, welche Pfade sie abrufen dürfen und welche nicht. Das Format ist standardisiert in RFC 9309, veröffentlicht von der IETF im September 2022. Das war die erste formale Spezifikation nach 28 Jahren De-facto-Verbreitung des Protokolls.

Die Datei wird von jedem gut erzogenen Crawler abgerufen, bevor er irgendeine andere Anfrage an deine Domain stellt. Googlebot, bingbot, GPTBot, ClaudeBot, PerplexityBot: sie alle starten mit einer Anfrage an deineseite.de/robots.txt, parsen sie und nutzen die Regeln, um zu entscheiden, welche URLs als Nächstes folgen. Das Protokoll ist freiwillig: nichts zwingt einen Bot, das Gelesene zu respektieren. Aber für die Bots, die sich öffentlich zu robots.txt bekennen, ist die Datei der effizienteste Weg, das Crawling zu steuern.

Ein Detail, das die meisten Leitfäden auslassen: robots.txt steuert das Abrufen, nicht die Indexierung. Eine in robots.txt gesperrte Seite wird nicht gecrawlt, kann aber im Google-Index erscheinen (ohne Titel und Beschreibung), wenn andere Sites darauf verlinken. Um eine Seite aus dem Index rauszuhalten, brauchst du ein Noindex-Meta-Tag oder einen HTTP-Header, der nur dann funktioniert, wenn der Bot die Seite überhaupt erst abrufen darf. Diese Feinheit ist die Quelle für Fehler Nummer eins im entsprechenden Abschnitt unten.

Warum robots.txt 2026 immer noch zählt

Robots.txt zählt 2026 aus dem gleichen Grund wie 2010, plus einem neuen. Crawl-Budget ist real: Googlebot gibt einer Domain ein endliches Tageskontingent an Abrufen, und in robots.txt gesperrte Seiten setzen dieses Kontingent für Inhalte frei, die wirklich indexiert werden sollen. KI-Crawler legen eine zweite Schicht obendrauf: Training-Opt-out, Echtzeit-Zitierfähigkeit, alles über eine einzige Datei.

Der klassische Fall ist klar. Sites mit tausenden Low-Value-URLs (Filter-Navigation, interne Suche, Kalender-Seiten, Session-getaggte URLs) verschwenden Crawl-Budget, wenn sie Googlebot daran lassen. Eine präzise robots.txt lenkt das Budget zurück auf kanonische Inhalte und verbessert die Aktualität der indexierten Seiten. Mueller hat das in mehreren Search-Off-the-Record-Episoden bestätigt: die Crawl-Priorisierung reagiert auf Disallow-Regeln, und die Reaktion ist meist innerhalb einer Woche sichtbar.

Der neue Fall ist die KI. ChatGPT, Claude, Perplexity und Googles Gemini-Suite betreiben jeweils einen oder mehrere Crawler, und die Crawler teilen sich auf drei Aufgaben auf: künftige Modelle trainieren, einen Retrieval-Index für Live-Antworten aufbauen, und im Auftrag eines eingeloggten Nutzers als Agent agieren. Jede Aufgabe nutzt einen eigenen User-Agent. Robots.txt ist der einzige standardisierte Ort, an dem du einem Trainings-Crawler „nein" und einem Retrieval-Crawler gleichzeitig „ja" sagen kannst: Opt-out aus den LLM-Trainingsdaten, ohne in der KI-Suche unsichtbar zu werden.

Live-Audit · 8. Mai 2026

Was 10 Top-Leitfäden zu robots.txt tatsächlich shippen

Audit der Top 5 EN + Top 5 DE für „robots.txt seo" / „robots.txt" via Playwright mit Luminas Schema Validator + Meta Tag Analyzer. Die Aufteilung „Nachruf" vs. „Anleitung" ist die eigentliche Geschichte.

9/10

ohne FAQPage-Schema

Nur Cloudflare shipped es (und ironischerweise sonst nichts: kein Article-Schema). Yoast, SEMrush, Moz, BrightEdge, Vioma, SEO-Küche, Internetwarriors lassen das Format aus, das KI-Engines bevorzugen.

7/10

decken KI-Crawler nicht ab

Yoast, Cloudflare, BrightEdge, SEO-Küche, Vioma, Internetwarriors: keine Erwähnung von GPTBot, ClaudeBot oder PerplexityBot. heise erwähnt sie nur, um das Protokoll für tot zu erklären. SEMrush und Moz behandeln sie knapp.

403d

veraltetster Top-5-Leitfaden

Moz EN „What Is A Robots.txt File?" zuletzt aktualisiert am 31. März 2025. SEMrush 30. Juli 2025 (282 Tage). Yoast EN aktualisiert Dezember 2025 (143 Tage). heise „Nachruf" Oktober 2025 (205 Tage), und behauptet das Protokoll sei tot.

3/10

gar kein Article-Schema

SEO-Küche shipped nur BreadcrumbList. Vioma shipped nur LocalBusiness. Cloudflare DE shipped nur FAQPage. Drei Top-10-Treffer für den Head-Term, null Article-Schema dazwischen.

KI-User-Agents zu kennen

GPTBot, ChatGPT-User, OAI-SearchBot, ClaudeBot, Claude-User, Claude-SearchBot, anthropic-ai, PerplexityBot, Perplexity-User, Google-Extended, Google-Agent, Applebot-Extended, CCBot, Bytespider, Meta-ExternalAgent, MistralAI-User, DeepSeekBot, xAI-Web-Crawler, cohere-ai. Die meisten Leitfäden decken 3 bis 5 ab.

3/10

nutzen @id-Entity-Refs

Yoast (EN), Moz (EN), Hostpress (DE) wiren author und publisher via @id. Andere shippen Inline-Blöcke oder lassen die Verbindung weg, sodass KI-Zitationen die Byline nicht mit der Marke verknüpfen können.

Lauf das gleiche Audit auf jeder URL mit Luminas Crawler-Access-Checker →

Das Dateiformat (RFC 9309)

RFC 9309 definiert exakt fünf Dinge in einer robots.txt-Datei: User-Agent-Deklarationen, Allow-Regeln, Disallow-Regeln, das Kommentar-Zeichen (#) und ein paar Formatierungs-Kleinigkeiten. Alles andere (Crawl-delay, Sitemap, Host) ist nicht-standard, aber breit unterstützt. Die Spezifikation lässt sich in fünfzehn Minuten lesen und beantwortet die meisten Edge-Cases, über die dein Team streiten könnte.

Hier eine minimal gültige robots.txt, die jede Direktive enthält, die eine typische Site braucht:

User-agent: *
Disallow: /admin/
Disallow: /search?
Disallow: /tmp/
Allow: /admin/help/

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

Die Datei wird von oben nach unten gelesen. Jede User-Agent-Zeile öffnet eine Gruppe, und die Regeln darunter gelten für diesen User-Agent bis zur nächsten User-Agent-Zeile. Die erste Gruppe, deren User-Agent passt, gewinnt (spezifischste Übereinstimmung). Wildcards funktionieren beim Pfad-Matching: * matcht eine beliebige Zeichenfolge, $ matcht das URL-Ende. Disallow: /*.pdf$ sperrt also jede PDF-Datei der Site.

Die Allow-Direktive überschreibt eine Disallow-Regel innerhalb derselben Gruppe. Die Reihenfolge spielt keine Rolle, weil die längste passende Regel gewinnt. Disallow: /admin/ gefolgt von Allow: /admin/help/ heißt also: „sperre den Admin-Bereich, lass aber den Hilfe-Abschnitt durch". Die meisten Sites stellen das in der falschen Reihenfolge dar; das ändert das Verhalten nicht, verwirrt aber Leser.

Drei Dinge, die wie Teil der Spec aussehen, aber keiner sind: Crawl-delay (Bing und Yandex respektieren sie, Google ignoriert sie, der Wert sind Sekunden zwischen Anfragen), Host (Yandex nutzt es zur Auswahl der kanonischen Domain, sonst niemand) und die Noindex-robots.txt-Direktive aus alten Leitfäden (Google hat den Support im September 2019 entfernt, war nie verlässlich, kommt nicht zurück).

Die KI-Crawler-Schicht: 19 neue User-Agents

Die KI-Crawler-Population ist zwischen 2022 und 2026 von null auf neunzehn gewachsen. Jeder Anbieter hat eigene User-Agents, oft nach Zweck getrennt. Die wichtigste Aufteilung ist Training gegen Retrieval: Trainings-Crawler holen Inhalte, um künftige Modelle zu schulen; Retrieval-Crawler holen live während einer Nutzeranfrage und liefern die Zitate.

Anbieter	User-Agent	Zweck
OpenAI	`GPTBot`	Trainings-Crawler für künftige GPT-Modelle
OpenAI	`ChatGPT-User`	On-Demand-Abruf, wenn ein ChatGPT-Nutzer eine Frage stellt
OpenAI	`OAI-SearchBot`	Indexierungs-Crawler für ChatGPT-Search-Ergebnisse
Anthropic	`ClaudeBot`	Trainings-Crawler für künftige Claude-Modelle
Anthropic	`Claude-User`	On-Demand-Abruf, wenn ein Claude-Nutzer Web-Suche aufruft
Anthropic	`Claude-SearchBot`	Indexierungs-Crawler für Claudes Web-Suche
Anthropic	`anthropic-ai`	Legacy-Trainings-User-Agent (weiterhin aktiv)
Perplexity	`PerplexityBot`	Indexierungs-Crawler für Perplexitys Suchindex
Perplexity	`Perplexity-User`	On-Demand-Abruf, wenn ein Perplexity-Nutzer eine Frage stellt
Google	`Google-Extended`	Trainings-Opt-out für Gemini und Vertex AI
Google	`Google-Agent`	Project-Mariner-Agent im Auftrag eines eingeloggten Nutzers
Apple	`Applebot-Extended`	Trainings-Opt-out für Apple Intelligence
Common Crawl	`CCBot`	Öffentlicher Datensatz, von vielen Open-Source-LLMs genutzt
ByteDance	`Bytespider`	Trainings-Crawler für TikTok-/Doubao-Modelle
Meta	`Meta-ExternalAgent`	Crawler für Meta-AI-Funktionen
Mistral	`MistralAI-User`	On-Demand-Abruf aus Le Chat (Mistrals UI)
DeepSeek	`DeepSeekBot`	Trainings-Crawler für DeepSeek-Modelle
xAI	`xAI-Web-Crawler`	Crawler für Grok
Cohere	`cohere-ai`	Trainings-Crawler für Cohere-Modelle

Die Aufteilung Training vs. Retrieval ist die handlungsrelevante. Wer aus den LLM-Trainingsdaten raus will, aber zitierfähig bleiben möchte, blockt die Trainings-Crawler und lässt die Retrieval-Crawler durch. Konkret bei OpenAI: Disallow: GPTBot sperrt Training, Allow: OAI-SearchBot, ChatGPT-User hält dich in ChatGPT Search zitierfähig. Anthropic funktioniert genauso: ClaudeBot und anthropic-ai sperren für Trainings-Opt-out, Claude-SearchBot und Claude-User erlauben für Live-Zitate. Das ist die Konfiguration, die die meisten Publisher tatsächlich wollen, und es ist die Konfiguration, die die meisten bestehenden robots.txt-Dateien nicht haben, weil sie aus der Zeit vor dem User-Agent-Split stammen.

Die 5 Muster, die funktionieren

Fünf robots.txt-Konfigurationen decken rund 90 Prozent der realen Sites ab. Jede löst ein anderes Problem; die meisten Sites brauchen eine Kombination aus zwei oder drei. Welches Muster du wählst, hängt davon ab, ob deine Priorität Crawl-Budget, KI-Trainings-Opt-out, KI-Retrieval-Sichtbarkeit oder Inhalts-Sicherheit ist (mit der Einschränkung, dass robots.txt fürs Sicherheits-Thema das falsche Werkzeug ist).

1. Die minimale Alles-Erlaubt-Datei

Für eine Site ohne spezifischen Sperr-Bedarf reichen zwei Zeilen:

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Das sagt explizit „alle Crawler willkommen, ganze Site erlaubt". Die Sitemap-Zeile zeigt Crawlern den Weg zur sitemap.xml. Mehr braucht es nicht. Viele kleine Sites überkomplizieren ihre robots.txt; das hier ist die richtige Baseline.

2. Crawl-Budget-Schutz

Für Sites mit Filter-Navigation, interner Suche, Kalendern oder Session-getaggten URLs sperrst du gezielt die rauschintensiven Pfade:

User-agent: *
Disallow: /search?
Disallow: /*?session=
Disallow: /*?utm_
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

So bleibt Googlebot auf kanonischen Inhalten konzentriert. Sperr Parameter-Explosionen, lass aber niemals echte Produkt-, Artikel- oder Service-Seiten weg.

3. KI-Trainings-Opt-out, Retrieval erlaubt

Die 2026er-Default-Wahl der meisten Publisher: Opt-out aus den Trainingsdaten, in der KI-Suche zitierfähig bleiben:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

# Retrieval-Bots bleiben erlaubt — Zitate in KI-Antworten willkommen
User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Voller KI-Block

Aus Marken- oder rechtlichen Gründen (Paywall-Nachrichten, urheberrechtlich geschützter IP, regulierter Content) sperrst du alle KI-Crawler einschließlich Retrieval:

User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: ClaudeBot
User-agent: Claude-User
User-agent: Claude-SearchBot
User-agent: anthropic-ai
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Google-Extended
User-agent: Applebot-Extended
User-agent: CCBot
User-agent: Bytespider
User-agent: Meta-ExternalAgent
User-agent: MistralAI-User
User-agent: DeepSeekBot
User-agent: xAI-Web-Crawler
User-agent: cohere-ai
Disallow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Beachte: das stoppt nur die benannten Bots. Common Crawls CCBot scraped für viele nachgelagerte Open-Source-Modelle. Wer CCBot blockt, beeinflusst also Modelle, von denen man noch nie gehört hat. Für harte Durchsetzung legst du das mit einer Cloudflare-WAF-Regel oder einem serverseitigen Block in Schichten übereinander.

5. Abschnittsspezifische Regeln

Für Sites, bei denen manche Bereiche KI sperren, andere zulassen sollen (eine Marketing-Site, die KI auf dem Blog erlaubt, aber in den Docs sperrt):

User-agent: GPTBot
Disallow: /docs/
Allow: /

User-agent: ClaudeBot
Disallow: /docs/
Allow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Die Logik der längsten passenden Regel führt dazu, dass Disallow auf /docs/ über Allow auf / gewinnt. Der Docs-Bereich ist also für die benannten Bots gesperrt, der Rest der Site bleibt offen.

Die 6 häufigsten Fehler

Sechs wiederkehrende Fehler machen den Großteil der robots.txt-Probleme aus, die ich in Audits sehe. Keiner davon ist subtil, alle sind häufig, und jeder kostet Traffic, Crawl-Budget oder KI-Sichtbarkeit. Die meisten Production-Dateien, die ich prüfe, haben mindestens zwei der sechs an Bord. Die Korrektur unten dauert in Summe einen Nachmittag.

1. Disallow auf einer Seite, die du deindexieren willst

Der häufigste Fehler im ganzen Web. Um eine Seite aus Google zu entfernen, ist das Noindex-Meta-Tag das richtige Werkzeug. Ist die Seite aber zusätzlich in robots.txt gesperrt, ruft Googlebot sie nicht ab, sieht das Noindex-Tag nicht und behält die URL möglicherweise im Index, gestützt auf eingehende Links. Die korrekte Reihenfolge: lass die Seite crawlbar, füg Noindex hinzu, warte, bis Google sie neu crawlt und entfernt, und füg dann optional die Disallow hinzu, wenn du künftige Crawls verhindern willst.

2. CSS oder JavaScript sperren

Ältere robots.txt-Dateien sperren oft /wp-content/, /assets/ oder /js/ aus „Performance-Gründen". Das bricht Googles Fähigkeit, die Seite korrekt zu rendern. Googlebot braucht CSS und JS, um Mobile-Friendliness, Layout-Shift und Inhalts-Sichtbarkeit zu bewerten. Modernes Googlebot-Rendering hängt vom vollen Asset-Zugriff ab. Lass CSS und JS zu, außer du hast einen sehr spezifischen Grund zu sperren, und sperre niemals den Pfad mit deinen CMS-Asset-Bundles.

3. Robots.txt als Sicherheits-Schicht

Robots.txt ist öffentlich lesbar. /admin/, /staging/ oder /backup/ in den Disallow-Regeln aufzulisten zeigt jedem, der deineseite.de/robots.txt abruft, genau die Pfade, die existieren und die du nicht besucht haben möchtest. Für echten Schutz nutze HTTP-Authentifizierung, IP-Allowlists oder VPN-only-Zugriff. Reservier robots.txt für Pfade, die du nur nicht crawlen lassen willst, nicht für Pfade, die du nicht entdeckt haben willst.

4. Wildcards in User-Agent-Namen

RFC 9309 erlaubt Wildcards beim Pfad-Matching, nicht aber bei User-Agent-Namen. User-agent: GPT* matcht nicht GPTBot, sondern einen literalen User-Agent-String „GPT*", den kein Bot nutzt. Jeder KI-Crawler muss mit seinem exakten Namen aufgelistet werden. Ja, das heißt bis zu 19 User-Agent-Zeilen, wenn du alle blocken willst (siehe Muster 4 oben).

5. Konfliktierende Regeln aus mehreren Dateien

Eine robots.txt liegt an exakt einem Ort: im Wurzelverzeichnis der Domain (deineseite.de/robots.txt). Wenn ein CMS automatisch eine erzeugt und gleichzeitig eine statische Datei im Repo liegt, kann es zwei konkurrierende Dateien geben. Browser holen sich die zuerst ausgelieferte. Audit-Methode: ruf deineseite.de/robots.txt selbst ab und vergleich, ob das, was du tatsächlich auslieferst, mit dem übereinstimmt, was du beabsichtigst.

6. Die Sitemap-Direktive vergessen

Die Sitemap-Direktive in robots.txt ist der zuverlässigste Weg, jedem Crawler zu zeigen, wo deine Sitemap liegt. Die meisten CMS fügen sie nicht automatisch hinzu. Eine Zeile am Ende: Sitemap: https://deineseite.de/sitemap.xml. Mehrere Sitemap-Zeilen, wenn du mehrere Sitemaps hast (eine pro Sprache, eine pro Content-Typ). Kostet nichts und hilft jedem Crawler beim Auffinden deines kompletten URL-Sets.

Robots.txt vs. Noindex vs. WAF: welches Werkzeug wann

Robots.txt, das Noindex-Meta-Tag und ein serverseitiger WAF-Block lösen unterschiedliche Probleme, und sie in der falschen Reihenfolge zu kombinieren produziert vorhersehbare Pannen. Welches Werkzeug richtig ist, hängt davon ab, ob der Bot die URL abrufen, sehen oder gar nicht erst finden soll.

Werkzeug	Was es macht	Wann einsetzen
robots.txt Disallow	Sagt brav-erzogenen Bots, die URL nicht abzurufen. Verhindert keine Indexierung, wenn andere Sites darauf verlinken.	Crawl-Budget-Steuerung. Filter-Navigation, Suchergebnisse, Kalender-Seiten, Session-URLs. Pfad-Ebene.
Noindex-Meta-Tag	Sagt Indexern, die URL abzurufen, aber nicht in Suchergebnissen aufzunehmen. Pro-Seite-Direktive.	Seiten, die aus dem Index sollen (Danke-Seiten, Low-Value-Templates, Entwürfe). Seitenebene, fein-granular.
X-Robots-Tag-Header	Wie Noindex, aber via HTTP-Header für Nicht-HTML-Dateien (PDFs, Bilder). Server-Ebene.	Deindexieren von PDFs, Downloads oder anderen Binär-Dateien, bei denen ein Meta-Tag nicht möglich ist.
WAF / Firewall-Block	Lehnt die Bot-Anfrage auf Netzwerk-Ebene ab. Harte Durchsetzung.	Bots, die robots.txt ignorieren. Scraper ohne deklarierten User-Agent. Paywall-Inhalte. Aggressives KI-Trainings-Opt-out.
HTTP-Authentifizierung	Verlangt einen gültigen Login, bevor Inhalte ausgeliefert werden. Netzwerk- + Anwendungs-Ebene.	Echt private Inhalte. Staging-Umgebungen. Interne Tools.

Der häufigste Kombi-Fehler: Disallow plus Noindex auf derselben URL. Die Disallow verhindert, dass das Noindex überhaupt gelesen wird, sodass die URL ohne Snippet im Google-Index erscheinen kann. Wer eine URL aus dem Index will, lässt sie crawlbar, fügt Noindex hinzu und denkt erst an Disallow, sobald Google die Seite neu gecrawlt und entfernt hat (typischerweise nach ein paar Wochen).

Wie du deine robots.txt auditierst (3 Methoden)

Drei Audit-Methoden fangen den Großteil der robots.txt-Probleme ab. Jede dauert für eine typische Site unter 15 Minuten, und alle drei auf einer kritischen Domain zu fahren liefert dir Cross-Validierung. Die meisten Production-robots.txt-Dateien, die ich auditiere, haben mindestens einen Befund aus dieser Liste.

Methode 1: Lumina Crawler-Access-Checker

Pasten irgendeine URL in Luminas Crawler-Access-Checker. Das Tool ruft deine robots.txt ab, parst jede Regel und prüft den Zugriffsstatus für 36 verschiedene Crawler (19 KI plus 17 klassische Suchbots). Für jeden Bot bekommst du ein klares Erlaubt-oder-Gesperrt-Verdict für die eingereichte Seite, plus die passende Regel, die das Verdict ausgelöst hat. Nutz es, um zu prüfen, ob dein Trainings-Opt-out wirklich die Bots blockt, die du blockieren willst, und ob deine Retrieval-Allowlist tatsächlich die Bots durchlässt, die dich zitieren sollen.

Methode 2: Google-Search-Console-robots.txt-Bericht

In der Search Console gehst du auf Einstellungen → Crawling → robots.txt. Der Bericht zeigt die Version deiner robots.txt, die Google zuletzt abgerufen hat, alle Parsing-Fehler und einen Tester, mit dem du prüfen kannst, ob Googlebot eine bestimmte URL unter den aktuellen Regeln abrufen darf. Nutz es als Quelle der Wahrheit für das, was Google tatsächlich sieht, gerade nach einem Deploy, wenn das Caching bis zu 24 Stunden hinterherhinken kann.

Methode 3: Direkter Abruf + manuelle Prüfung

Öffne deineseite.de/robots.txt im Browser. Bestätige: die Datei existiert, gibt HTTP 200 zurück, hat eine Sitemap-Zeile am Ende, listet User-Agents auf, die du wirklich blocken willst, und enthält keine Überraschungen (CMS-injizierte Pfade, Reste von Staging-Regeln, doppelte User-Agent-Gruppen). Mach diese manuelle Prüfung mindestens vierteljährlich. Robots.txt ist genau die Art Datei, die von Plugins oder Deploy-Skripten still verändert und nie wieder angeschaut wird.

KI-Crawler und die neue Compliance-Realität

Die Compliance der KI-Crawler mit robots.txt ist freiwillig, wie jede robots.txt-Regel. Aber die großen Anbieter haben sich öffentlich verpflichtet, sie für ihre deklarierten User-Agents zu respektieren. OpenAI dokumentierte GPTBots Compliance im August 2023; Anthropic, Perplexity, Google und Apple zogen nach. Cloudflares Berichte von 2024 zeigten breite Compliance bei den benannten Bots, mit dokumentierten Ausnahmen (Perplexity wurde im Juni 2024 von Wired beim Ignorieren von robots.txt erwischt).

Die Lücke entsteht, wenn Inhalte von einem Bot abgeholt werden, der robots.txt überhaupt nicht respektiert. Common Crawls CCBot ist technisch compliant, er respektiert Disallow-Regeln. Aber der öffentliche Datensatz, den er produziert, wird von Dutzenden nachgelagerten KI-Modellen konsumiert, von denen sich manche auf deiner Site nie identifizieren. CCBot zu blocken ist das, was robots.txt einer „Block Training generell"-Option am nächsten kommt. Auch das fängt nicht jede nachgelagerte Nutzung ein.

Die tiefere Compliance-Frage: selbst wenn ein KI-Lab sich öffentlich zu robots.txt bekennt, bindet diese Verpflichtung den benannten User-Agent. Ein Forschungs-Team in derselben Firma kann einen unbenannten Crawler laufen lassen, und die offizielle robots.txt-Verpflichtung gilt für ihn nicht. Genau deshalb legen Publisher, die harte Durchsetzung wollen, Cloudflares AI Bot Block (der auf Netzwerk-Ebene blockt) auf ihre robots.txt-Regeln drauf. Robots.txt ist eine höfliche Bitte, der WAF ist die Durchsetzung.

Für die meisten Sites reicht die höfliche Bitte. Die großen KI-Labs haben geschäftliche Gründe, sie zu respektieren (Regulierungsdruck, Markenrisiko, PR), und die Daten zeigen, dass sie das tun. Aber „reicht für die meisten Sites" ist nicht „reicht für alle Sites". Publisher mit hochwertigen Paywall-Inhalten, regulierte Branchen und markenkritische Properties sollten robots.txt und WAF zusammen fahren, statt sich allein auf robots.txt zu verlassen.

Ein 5-Schritte-Workflow für robots.txt 2026

Fünf Schritte führen jede Site in einem fokussierten Nachmittag zu einer sauberen, modernen robots.txt-Konfiguration. Die ersten drei sind diagnostisch, die letzten zwei sind Konfiguration. Die meisten Sites schaffen den ganzen Workflow in zwei oder drei Stunden, inklusive einer echten Bestandsaufnahme und einer überlegten Policy-Entscheidung vor dem Deploy.

Aktuelle Datei auditieren

Ruf deineseite.de/robots.txt direkt ab. Lass sie durch Luminas Crawler-Access-Checker laufen. Halte fest: welche KI-Crawler du derzeit blockst, welche du zulässt, ob die Sitemap-Zeile vorhanden ist und ob Regeln veraltet aussehen.

Crawler-Access-Checker starten →

KI-Policy entscheiden

Drei Optionen: voll erlauben, Trainings-Opt-out plus Retrieval erlauben, voller KI-Block. Die meisten Publisher wollen Option zwei. Dokumentier die Entscheidung mit einem Satz in deinem Team-Doc, damit die Absicht der Datei für künftige Pfleger offensichtlich bleibt.

Die 5 Muster ansehen →

Crawl-Budget-Verschwendung prüfen

Öffne die Crawl-Statistiken in der Search Console. Such nach hochfrequenten Abrufen auf Parameter-URLs, interner Suche, Kalender-Seiten und Session-getaggten URLs. Jeder davon ist ein Kandidat für eine Disallow-Regel, die Budget für deinen echten Content freisetzt.

Mit Sitemap-Analyzer prüfen →

Neue Datei schreiben

Bau die Datei aus den Mustern oben. Test die Syntax mit dem robots.txt-Tester der Search Console. Halt sie kurz: 30 bis 60 Zeilen sind für die meisten Sites normal. Widersteh der Versuchung, eine 500-Zeilen-robots.txt von einer Top-Site zu kopieren, die du bewunderst.

Vor Deploy nachprüfen →

Deployen und verifizieren

Deploy die Datei. Warte 24 Stunden, bis Caches sich klären. Lass Luminas Crawler-Access-Checker auf einer Stichprobe von Seiten neu laufen, um zu bestätigen, dass die neuen Regeln wie beabsichtigt greifen. Setz eine vierteljährliche Erinnerung fürs Re-Audit. Robots.txt ist genau die Art Datei, die still davondriftet.

Nach Deploy verifizieren →

FAQ

Was ist robots.txt und warum spielt sie eine Rolle?+

Robots.txt ist eine reine Textdatei im Wurzelverzeichnis deiner Domain (deineseite.de/robots.txt), die Crawlern sagt, welche Pfade sie abrufen dürfen und welche nicht. Das Format ist in RFC 9309 standardisiert (veröffentlicht im September 2022). Sie spielt 2026 eine Rolle, weil die Crawler-Population explodiert ist: neben Googlebot und bingbot gibt es jetzt mindestens 19 verschiedene KI-Crawler (GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Claude-SearchBot, OAI-SearchBot, Applebot-Extended, CCBot, Bytespider und ein Dutzend weiterer), jeder mit eigenem User-Agent-String und eigener Aufgabe.

Blockt robots.txt KI-Crawler vom Training auf meinen Inhalten?+

Im Wesentlichen ja, aber nur per Konvention. Robots.txt ist ein freiwilliges Protokoll ohne technische Durchsetzung. Die großen KI-Labs (OpenAI, Anthropic, Google, Perplexity, Apple) haben sich öffentlich verpflichtet, robots.txt für ihre deklarierten User-Agents zu respektieren, und Cloudflare-Daten von 2024 zeigen breite Compliance bei den benannten Bots, mit dokumentierten Ausnahmen (insbesondere Perplexity, von Wired im Juni 2024 beim Ignorieren von robots.txt erwischt). Das Protokoll kann keinen Bot stoppen, der es ignoriert, und es verhindert nicht, dass ein anderer Bot deine Inhalte erneut abruft (Common Crawls CCBot zum Beispiel scraped für viele nachgelagerte Modelle). Für harte Durchsetzung brauchst du eine serverseitige Sperre (Firewall-Regel, Cloudflare WAF oder Bot Fight Mode), nicht nur einen robots.txt-Eintrag.

Was ist der Unterschied zwischen Disallow in robots.txt und Noindex auf einer Seite?+

Disallow sagt Crawlern, dass sie die URL nicht abrufen sollen. Noindex sagt Indexern, dass sie die URL zwar abrufen, aber nicht in den Suchergebnissen anzeigen sollen. Die beiden lösen unterschiedliche Probleme, und sie falsch zu kombinieren ist der häufigste robots.txt-Fehler. Wenn du eine Seite in robots.txt sperrst, ruft Google sie nicht ab, sieht das Noindex-Meta-Tag nicht und behält die URL möglicherweise im Index (ohne Titel und Beschreibung), wenn andere Sites darauf verlinken. Das richtige Muster, um eine Seite aus Google rauszuhalten: lass sie crawlbar, füg ein Noindex-Meta-Tag hinzu und warte, bis Google sie abruft und entfernt. Disallow nur dann, wenn du gezielt verhindern willst, dass der Bot Crawl-Budget für den Pfad verbraucht (zum Beispiel Filter-Navigation oder interne Suchergebnisse).

Sollte ich Crawl-Delay nutzen, um Googlebot zu drosseln?+

Nein. Google hat mehrfach klargestellt, dass Googlebot die Crawl-Delay-Direktive ignoriert. Bing und Yandex respektieren sie (mit eigener Interpretation), aber für Google steuerst du die Crawl-Rate über die Search-Console-Einstellung (die Google im November 2023 angekündigt und im Januar 2024 entfernt hat, weil sich das System inzwischen automatisch anpasst). Bei Server-Last-Problemen durch Googlebot helfen drei Werkzeuge: ein serverseitiges Rate-Limit, eine 503-Antwort mit Retry-After-Header bei Lastspitzen, oder eine Meldung über die Search Console. Crawl-Delay ist 2026 für Google reine Kosmetik.

Kann ich robots.txt nutzen, um private Inhalte zu verstecken?+

Nein. Robots.txt ist öffentlich lesbar: jeder kann deineseite.de/robots.txt abrufen und alle Pfade sehen, die du gesperrt hast. Wenn du /admin oder /staging in deinen Disallow-Regeln auflistest, weist du jeden Neugierigen direkt auf diese Pfade hin. Für private Inhalte nutze HTTP-Authentifizierung (Basic Auth, OAuth oder Session-Cookies), IP-Allowlists oder VPN-only-Zugriff. Robots.txt steuert das Crawl-Budget für Routine-Seiten, die Google nicht abrufen soll. Eine Sicherheitsgrenze ist sie nicht.

Wie nutzen KI-Suchmaschinen meine robots.txt anders als Google?+

Drei Unterschiede zählen 2026. Erstens sammeln KI-Trainings-Crawler (GPTBot, ClaudeBot, anthropic-ai, CCBot) Inhalte fürs Modelltraining. Diese zu blockieren beeinflusst, ob künftige Modelle wissen, dass deine Site existiert. Zweitens rufen KI-Retrieval-Crawler (OAI-SearchBot, ChatGPT-User, Claude-SearchBot, PerplexityBot, Perplexity-User, Google-Extended) live während Nutzeranfragen ab. Diese zu blockieren beeinflusst, ob ChatGPT, Claude, Perplexity oder Gemini deine Site in Echtzeit-Antworten zitieren können. Drittens navigieren Agent-Crawler wie Google-Agent (Project Mariner) im Auftrag eines eingeloggten Nutzers und respektieren robots.txt wie ein normaler User-Agent, identifizieren sich aber anders. Die Aufteilung Training/Retrieval/Agent erlaubt dir die Wahl: Training opt-out (GPTBot, ClaudeBot blockieren), aber zitierfähig in Echtzeit bleiben (OAI-SearchBot, Claude-SearchBot, PerplexityBot zulassen).

Wo du anfängst

Wenn du diese Woche genau eine Sache machen kannst: ruf deineseite.de/robots.txt ab und lass sie durch Luminas Crawler-Access-Checker laufen. Die meisten Sites haben eines von drei Problemen: eine veraltete Regel, die einen Bereich sperrt, der offen sein sollte; eine fehlende KI-Crawler-Sperre; oder eine fehlende Sitemap-Direktive. Diese drei Punkte zu fixen dauert einen Nachmittag.

Wenn du mehr Zeit hast, arbeite den 5-Schritte-Workflow oben durch. Der größte Hebel für die meisten Publisher 2026 ist das Muster Trainings-Opt-out plus Retrieval-Erlaubnis. Es signalisiert den KI-Labs, dass du über deine Daten nachgedacht hast, holt dich aus den Trainings-Datasets raus, die dir nichts bringen, und hält dich in Echtzeit-KI-Antworten zitierfähig. Genau dort lebt der KI-getriebene Traffic. Beide Updates landen in derselben Datei, der Deploy ist ein Commit, und der Effekt ist innerhalb von Minuten in den Crawler-Access-Checker-Ergebnissen sichtbar.

Auditier deine robots.txt jetzt

Luminas Crawler-Access-Checker testet 36 Crawler (19 KI + 17 klassische) gegen jede URL — ohne Anmeldung, kostenlos.