Ich hab für 50 der größten Medienhäuser in DACH zwei Dinge gleichzeitig geprüft: Was die robots.txt sagt (die offizielle Policy) und was der Server tatsächlich liefert, wenn ein AI-Bot mit seinem echten User-Agent anklopft. Zwei Layer, unterschiedliche Sprache. Manche Medien erzählen über beide dasselbe, manche widersprechen sich selbst. Alles über ein einziges Tool: Luminas Crawler Access Checker, der 36 Bots parallel prüft — davon 19 AI-Crawler (ChatGPT, Claude, Perplexity, Gemini, Mistral, DeepSeek etc.), 9 klassische Suchmaschinen und 8 weitere (Social & Andere).
Das Ergebnis ist ein großer Widerspruch: Bei Google darf jeder rein. Bei AI blockiert die Hälfte.
Hier sind die Daten — und ein paar Befunde, die mich selbst überrascht haben.
Zwei Ebenen, zwei Signale
robots.txt ist die Policy-Ebene: ein Text-File, in dem das Medium sagt „Bot X darf mich crawlen, Bot Y nicht". Viele AI-Firmen respektieren das — freiwillig. Wer sich nicht dran hält, wird technisch nicht gestoppt.
Server-Response ist die Enforcement-Ebene: Was der Webserver real antwortet, wenn ein Bot mit seinem echten User-Agent GETtet. 200 = Inhalt kommt raus, 403 = hart geblockt (Cloudflare, WAF oder CDN-Regel), 402 = Payment Required (ein echter HTTP-Paywall gegen AI, selten gesehen).
Die meisten Medien verlassen sich rein auf die robots.txt. Ein paar wenige (Capital.de, kurier.at) gehen härter ran und enforcen zusätzlich am Server. Die Studie misst beides.
Die Kern-Zahlen
Von 50 Medienhäusern per robots.txt-Policy ausgesperrt (Prozentzahlen = Medien, die den Bot offiziell ablehnen):
- GPTBot: 26/50 (52%) — OpenAIs Trainings-Crawler
- ClaudeBot: 26/50 (52%) — Anthropics Crawler
- anthropic-ai: 26/50 (52%) — Anthropics Legacy-Name
- CCBot: 25/50 (50%) — Common Crawl, Grundlage vieler LLM-Trainingssets
- cohere-ai: 24/50 (48%)
- Applebot-Extended: 23/50 (46%) — Apples Intelligence Training
- Bytespider: 23/50 (46%) — ByteDance/TikTok
- Google-Extended: 21/50 (42%) — Gemini-Training-Opt-out
- Meta-ExternalAgent: 20/50 (40%)
- PerplexityBot: 18/50 (36%)
- Googlebot: 0/50 (0%) — Keine einzige Site blockt Google fully
Google ist selbst bei den skeptischsten Medien drin. GPTBot darf bei jeder zweiten gar nicht erst an die Inhalte.
Blockierungsrate pro Bot (50 DACH-Medien)
Wer blockiert am meisten
Die Top 5 AI-feindlichen Medien (von 19 AI-Bot-Kategorien):
- Tagesschau — 16/19 AI-Bots blockiert
- NDR — 16/19
- WDR — 16/19
- BR — 16/19
- NZZ — 14/19
Vier von fünf sind deutsche ARD-Anstalten. Und sie nutzen alle exakt die gleiche robots.txt — offensichtlich eine ARD-weite Policy.
Das ARD/ZDF-Paradox
Hier wird es richtig interessant. Öffentlich-rechtlicher Rundfunk, gleiche Branche, gleiche Finanzierung. Und trotzdem:
- ARD (Tagesschau, NDR, WDR, BR): 16/19 AI-Bots blockiert
- ZDF: 0/19 blockiert
- SRF (Schweiz): 0/19 blockiert
- ORF (Österreich): 8/19
ZDF lässt Applebot-Extended, GPTBot, ClaudeBot, Perplexity, Google-Extended und alles andere ungehindert crawlen. Die ARD blockt die gleichen Bots geschlossen. Beide kassieren Gebührengelder aus demselben Land. Über die nächsten zwei Jahre entscheidet dieser Unterschied, wessen Inhalte in ChatGPT und Gemini zitiert werden — und wessen nicht.
Deutsche Medien doppelt so aggressiv wie Österreich und Schweiz
Durchschnittlich blockierte AI-Bots:
- DE: 8.3 von 19
- AT: 3.8 von 19
- CH: 3.3 von 19
Die deutschen Medien sind deutlich defensiver. Das hat vermutlich mit Axel-Springer-vs-OpenAI, dem Leistungsschutzrecht und dem aktiveren Verlegerverband zu tun. Die österreichischen und Schweizer Titel lassen zum großen Teil noch alles rein.
Durchschnittlich blockierte AI-Bots pro Land
Boulevard ist offener als Qualitätspresse
Kategorie nach durchschnittlich blockierten AI-Bots:
- Wochenmagazine (Zeit, Falter): 10.5 blockiert
- Öffentlich-rechtlich: 10.3
- Tech (Heise, Golem, t3n): 8.3
- Business (Handelsblatt, Capital, WiWo, Manager Magazin, Trend): 7.8
- Tageszeitungen: 6.5
- Regional: 6.2
- Magazine: 2.2
- Boulevard (Bild, Krone, Heute, oe24, Blick): 2.2
- TV (ServusTV, Puls24, n-tv): 0.0
Die Qualitätspresse und der öffentlich-rechtliche Rundfunk sperren am aggressivsten aus. Boulevard lässt AI-Bots fast komplett rein. Das macht Sinn: Der Sportclip aus der Krone landet eher in einer AI-Antwort als die Investigativ-Recherche des Falter — und wird damit sichtbarer.
Die unbemerkten AI-Crawler
Die Zahlen oben zeigen: Die großen bekannten Bots (GPTBot, Claude, CCBot) werden routinemäßig geblockt. Aber:
- DeepSeekBot: nur 4/50 (8%) blockiert
- MistralAI-User: nur 12/50 (24%)
- xAI-Web-Crawler: 0/50
- Google-Agent: 0/50
Das chinesische DeepSeek-Modell liest 92% der DACH-Medien ungehindert. Mistral (französisches Open-Source-Modell) liest 76%. xAI (Grok von Twitter/X) bekommt überall Zugang.
Die Blocklists sind fast überall eine Kopie von 2023. GPTBot draufgesetzt, Claude dazu, fertig. Die neueren AI-Bots fehlen in jeder robots.txt, die ich gesehen habe — außer bei den vier ARD-Anstalten, die ihre Liste offensichtlich aktiver pflegen.
Das unnötige Widerspruchs-Paar
Einige Medien haben legale und technische Signale, die sich widersprechen:
Krone.at schreibt im Kommentar der eigenen robots.txt: „Use of any device, tool, or process designed to data mine or scrape the content using automated means is prohibited... (1) text and data mining activities under Art. 4 of the EU Directive on Copyright in the Digital Single Market; (2) text and data mining in the meaning of § 42h (6) of the Austrian Copyright Act; (3) the development of any software, machine learning, artificial intelligence (AI), and/or large language models (LLMs)."
Das ist ein rechtlich verbindlicher Opt-out. Und dann stehen in derselben robots.txt technisch gesehen Allow-Signale für ALLE AI-Crawler. Weil der User-Agent: * Block nur /navi-content, /forum/*, /sport-navigation und ähnliche Pfade disallowed — nicht aber Root oder Artikel.
Das heißt: Legale Abwehr: ja. Technische Abwehr: nein. Jede AI kann Krone-Artikel ungehindert crawlen und trainieren. Die legalen Ansprüche hätten rechtliche Relevanz (Art. 4 der EU-Copyright-Richtlinie verlangt maschinenlesbare Opt-outs), aber die meisten AI-Firmen beachten nur die technische Ebene.
Capital.de geht in die andere Richtung und ergänzt den Policy-Block mit echtem Enforcement: Der Server liefert HTTP 402 (Payment Required!) für ClaudeBot und anthropic-ai. Kein normaler robots.txt-Block — der Server selbst erzwingt die Paywall auf HTTP-Ebene. Selten gesehen.
Kurier.at kippt die Richtung nochmal: In der robots.txt steht Allow für Bingbot, YandexBot und Baiduspider. Am Server liefert er aber für genau diese drei ein 403. Die Policy sagt „rein", das Enforcement sagt „raus" — für Yandex und Baidu vielleicht Absicht (Geopolitik), für Bing eher Cloudflare-Default, den niemand korrigiert hat.
Beides zeigt: Wer nur die robots.txt anschaut, sieht die halbe Wahrheit. Der Server-Response ist das Signal, das wirklich zählt.
Was das für GEO (Generative Engine Optimization) bedeutet
Wenn ein Medium ChatGPT, Claude und Common Crawl blockt, passiert Folgendes:
- Die Inhalte erscheinen nicht in ChatGPT-Suchergebnissen
- Sie werden nicht in Claude zitiert
- Sie fehlen in allen LLMs, die auf Common-Crawl-Daten trainieren (= praktisch alle Open-Source-Modelle plus viele kommerzielle)
- Perplexity-Antworten nutzen andere Quellen
Für die Tagesschau oder Spiegel ist das möglicherweise strategisch richtig (Content-Lizenzdeals mit OpenAI statt freier Zugang). Für regionale Medien oder Fachmagazine ohne Deal bedeutet das: Unsichtbarkeit im neuen Discovery-Channel.
Und die Hälfte der 50 größten DACH-Medien hat diese Entscheidung getroffen — meistens ohne sie aktiv zu treffen. Die robots.txt wurde irgendwann 2023 von der Agentur upgedated und seitdem nicht mehr.
Methodik (kurz)
- Sample: 50 reichweitenstärkste DACH-Medien (18 AT, 25 DE, 7 CH), Stand 15.04.2026
- Tool: Lumina Crawler Access Checker (Live-Abfrage von robots.txt über Cloudflare-Worker-Proxy)
- Messung: Zweistufig. (1) robots.txt-Analyse per RFC-9309-konformem Parser (Policy-Ebene). (2) Live-Server-Check pro Bot: echtes GET auf den Origin mit dem realen User-Agent des Bots, HTTP-Status und Antwortzeit pro Bot (Enforcement-Ebene). 36 Bot-User-Agents geprüft — davon 19 AI-Crawler (ChatGPT, Claude, Perplexity, Gemini, Mistral, DeepSeek, xAI, Apple Intelligence, Meta, Cohere, CCBot), 9 klassische Suchmaschinen (Google, Bing, Yandex …), 6 Social-Media-Bots (Facebook, LinkedIn, Twitter …), 2 Andere (Diffbot, Amazonbot).
- Klassifikation: 4 Status-Level (allowed, rules, partial, blocked) nach Lumina-Tool-Logik
- Reproduzierbar: Jede Analyse können Leser im Tool selbst nachprüfen — einfach URL eingeben, identische Daten
- Rohdaten: Alle 50 robots.txt-Dateien plus Analyse als JSON auf GitHub verfügbar
Die 36 getesteten Bots im Detail
🔍 Klassische Suchmaschinen (9): Googlebot, Bingbot, DuckDuckBot, YandexBot, Baiduspider, Applebot, PetalBot (Huawei), BraveBot, YouBot.
🤖 AI & LLM-Crawler (19): GPTBot (OpenAI Training), OAI-SearchBot (OpenAI Suche), ChatGPT-User (ChatGPT Browser-Modus), ClaudeBot, Claude-SearchBot, Claude-User (alle Anthropic), anthropic-ai (Legacy-UA), PerplexityBot, Perplexity-User, Google-Extended (Gemini Training), Google-Agent (Project Mariner), DeepSeekBot, Meta-ExternalAgent, xAI-Web-Crawler (Grok), MistralAI-User, Applebot-Extended (Apple Intelligence), cohere-ai, CCBot (Common Crawl — Basis für viele Open-Source-LLMs), Bytespider (ByteDance/TikTok).
📱 Social & Sharing (6): FacebookBot, facebookexternalhit, Pinterest, LinkedInBot, Twitterbot, Slackbot.
🔎 Andere (2): Diffbot (Web-Data-Extraction), Amazonbot.
Die Bot-Liste deckt damit die drei strategisch relevanten Gruppen ab: klassisches Search (Google, Bing), AI-Training & AI-Search (OpenAI, Anthropic, Perplexity, Google, Apple, Meta, xAI, Mistral, DeepSeek), und Social-Preview-Bots (für Link-Vorschauen in Messaging-Apps). Wer hier drin ist, definiert, wo dein Content 2026 sichtbar wird.
Was ich selbst daraus mitnehme
Ich mache SEO seit 15 Jahren und GEO seit zwei Jahren — und ich war überrascht, wie wenig durchdacht viele dieser robots.txt-Files sind. Die ARD hat es konsequent durchgezogen. ZDF hat offensichtlich eine andere strategische Entscheidung getroffen. Aber bei vielen Medienhäusern wirkt es so, als sei die AI-Blocklist ein schneller Copy-Paste aus 2023 gewesen, der seitdem nicht mehr angefasst wurde.
Das Gleiche gilt für die Kehrseite: Wer 2026 AI-Blocks setzt, müsste DeepSeek, Mistral, xAI, Google-Agent, MetaExternalAgent und ein Dutzend mehr auf der Liste haben. Hat fast niemand.
Die nächste Runde dieses Rennens ist längst losgegangen.
FAQ
Prüfe deinen eigenen AI-Crawler-Zugang
Der gleiche Test wie in dieser Studie — für deine Domain. Kostenlos, keine Anmeldung, 36 Bots in einem Schritt.
Crawler Access Checker öffnen →