Ich hab für 50 der größten Medienhäuser in DACH zwei Dinge gleichzeitig geprüft: Was die robots.txt sagt (die offizielle Policy) und was der Server tatsächlich liefert, wenn ein AI-Bot mit seinem echten User-Agent anklopft. Zwei Layer, unterschiedliche Sprache. Manche Medien erzählen über beide dasselbe, manche widersprechen sich selbst. Alles über ein einziges Tool: Luminas Crawler Access Checker, der 36 Bots parallel prüft — davon 19 AI-Crawler (ChatGPT, Claude, Perplexity, Gemini, Mistral, DeepSeek etc.), 9 klassische Suchmaschinen und 8 weitere (Social & Andere).

Das Ergebnis ist ein großer Widerspruch: Bei Google darf jeder rein. Bei AI blockiert die Hälfte.

Hier sind die Daten — und ein paar Befunde, die mich selbst überrascht haben.

Zwei Ebenen, zwei Signale

robots.txt ist die Policy-Ebene: ein Text-File, in dem das Medium sagt „Bot X darf mich crawlen, Bot Y nicht". Viele AI-Firmen respektieren das — freiwillig. Wer sich nicht dran hält, wird technisch nicht gestoppt.

Server-Response ist die Enforcement-Ebene: Was der Webserver real antwortet, wenn ein Bot mit seinem echten User-Agent GETtet. 200 = Inhalt kommt raus, 403 = hart geblockt (Cloudflare, WAF oder CDN-Regel), 402 = Payment Required (ein echter HTTP-Paywall gegen AI, selten gesehen).

Die meisten Medien verlassen sich rein auf die robots.txt. Ein paar wenige (Capital.de, kurier.at) gehen härter ran und enforcen zusätzlich am Server. Die Studie misst beides.

Die Kern-Zahlen

Von 50 Medienhäusern per robots.txt-Policy ausgesperrt (Prozentzahlen = Medien, die den Bot offiziell ablehnen):

Google ist selbst bei den skeptischsten Medien drin. GPTBot darf bei jeder zweiten gar nicht erst an die Inhalte.

Blockierungsrate pro Bot (50 DACH-Medien)

% der Medien, die den Bot in der robots.txt blockieren
GPTBot52% ClaudeBot52% anthropic-ai52% CCBot50% cohere-ai48% Applebot-Extended46% Bytespider46% Google-Extended42% Meta-ExternalAgent40% PerplexityBot36% ChatGPT-User34% MistralAI-User24% Googlebot0% 0% 25% 50% 75%

Wer blockiert am meisten

Die Top 5 AI-feindlichen Medien (von 19 AI-Bot-Kategorien):

  1. Tagesschau — 16/19 AI-Bots blockiert
  2. NDR — 16/19
  3. WDR — 16/19
  4. BR — 16/19
  5. NZZ — 14/19

Vier von fünf sind deutsche ARD-Anstalten. Und sie nutzen alle exakt die gleiche robots.txt — offensichtlich eine ARD-weite Policy.

Das ARD/ZDF-Paradox

Hier wird es richtig interessant. Öffentlich-rechtlicher Rundfunk, gleiche Branche, gleiche Finanzierung. Und trotzdem:

ZDF lässt Applebot-Extended, GPTBot, ClaudeBot, Perplexity, Google-Extended und alles andere ungehindert crawlen. Die ARD blockt die gleichen Bots geschlossen. Beide kassieren Gebührengelder aus demselben Land. Über die nächsten zwei Jahre entscheidet dieser Unterschied, wessen Inhalte in ChatGPT und Gemini zitiert werden — und wessen nicht.

Deutsche Medien doppelt so aggressiv wie Österreich und Schweiz

Durchschnittlich blockierte AI-Bots:

Die deutschen Medien sind deutlich defensiver. Das hat vermutlich mit Axel-Springer-vs-OpenAI, dem Leistungsschutzrecht und dem aktiveren Verlegerverband zu tun. Die österreichischen und Schweizer Titel lassen zum großen Teil noch alles rein.

Durchschnittlich blockierte AI-Bots pro Land

Von 19 untersuchten AI-Bot-Kategorien
8.3 Deutschland 25 Medien 3.8 Österreich 18 Medien 3.3 Schweiz 7 Medien 19 (max) 10 0

Boulevard ist offener als Qualitätspresse

Kategorie nach durchschnittlich blockierten AI-Bots:

Die Qualitätspresse und der öffentlich-rechtliche Rundfunk sperren am aggressivsten aus. Boulevard lässt AI-Bots fast komplett rein. Das macht Sinn: Der Sportclip aus der Krone landet eher in einer AI-Antwort als die Investigativ-Recherche des Falter — und wird damit sichtbarer.

Die unbemerkten AI-Crawler

Die Zahlen oben zeigen: Die großen bekannten Bots (GPTBot, Claude, CCBot) werden routinemäßig geblockt. Aber:

Das chinesische DeepSeek-Modell liest 92% der DACH-Medien ungehindert. Mistral (französisches Open-Source-Modell) liest 76%. xAI (Grok von Twitter/X) bekommt überall Zugang.

Die Blocklists sind fast überall eine Kopie von 2023. GPTBot draufgesetzt, Claude dazu, fertig. Die neueren AI-Bots fehlen in jeder robots.txt, die ich gesehen habe — außer bei den vier ARD-Anstalten, die ihre Liste offensichtlich aktiver pflegen.

Das unnötige Widerspruchs-Paar

Einige Medien haben legale und technische Signale, die sich widersprechen:

Krone.at schreibt im Kommentar der eigenen robots.txt: „Use of any device, tool, or process designed to data mine or scrape the content using automated means is prohibited... (1) text and data mining activities under Art. 4 of the EU Directive on Copyright in the Digital Single Market; (2) text and data mining in the meaning of § 42h (6) of the Austrian Copyright Act; (3) the development of any software, machine learning, artificial intelligence (AI), and/or large language models (LLMs)."

Das ist ein rechtlich verbindlicher Opt-out. Und dann stehen in derselben robots.txt technisch gesehen Allow-Signale für ALLE AI-Crawler. Weil der User-Agent: * Block nur /navi-content, /forum/*, /sport-navigation und ähnliche Pfade disallowed — nicht aber Root oder Artikel.

Das heißt: Legale Abwehr: ja. Technische Abwehr: nein. Jede AI kann Krone-Artikel ungehindert crawlen und trainieren. Die legalen Ansprüche hätten rechtliche Relevanz (Art. 4 der EU-Copyright-Richtlinie verlangt maschinenlesbare Opt-outs), aber die meisten AI-Firmen beachten nur die technische Ebene.

Capital.de geht in die andere Richtung und ergänzt den Policy-Block mit echtem Enforcement: Der Server liefert HTTP 402 (Payment Required!) für ClaudeBot und anthropic-ai. Kein normaler robots.txt-Block — der Server selbst erzwingt die Paywall auf HTTP-Ebene. Selten gesehen.

Kurier.at kippt die Richtung nochmal: In der robots.txt steht Allow für Bingbot, YandexBot und Baiduspider. Am Server liefert er aber für genau diese drei ein 403. Die Policy sagt „rein", das Enforcement sagt „raus" — für Yandex und Baidu vielleicht Absicht (Geopolitik), für Bing eher Cloudflare-Default, den niemand korrigiert hat.

Beides zeigt: Wer nur die robots.txt anschaut, sieht die halbe Wahrheit. Der Server-Response ist das Signal, das wirklich zählt.

Was das für GEO (Generative Engine Optimization) bedeutet

Wenn ein Medium ChatGPT, Claude und Common Crawl blockt, passiert Folgendes:

  1. Die Inhalte erscheinen nicht in ChatGPT-Suchergebnissen
  2. Sie werden nicht in Claude zitiert
  3. Sie fehlen in allen LLMs, die auf Common-Crawl-Daten trainieren (= praktisch alle Open-Source-Modelle plus viele kommerzielle)
  4. Perplexity-Antworten nutzen andere Quellen

Für die Tagesschau oder Spiegel ist das möglicherweise strategisch richtig (Content-Lizenzdeals mit OpenAI statt freier Zugang). Für regionale Medien oder Fachmagazine ohne Deal bedeutet das: Unsichtbarkeit im neuen Discovery-Channel.

Und die Hälfte der 50 größten DACH-Medien hat diese Entscheidung getroffen — meistens ohne sie aktiv zu treffen. Die robots.txt wurde irgendwann 2023 von der Agentur upgedated und seitdem nicht mehr.

Methodik (kurz)

Die 36 getesteten Bots im Detail

🔍 Klassische Suchmaschinen (9): Googlebot, Bingbot, DuckDuckBot, YandexBot, Baiduspider, Applebot, PetalBot (Huawei), BraveBot, YouBot.

🤖 AI & LLM-Crawler (19): GPTBot (OpenAI Training), OAI-SearchBot (OpenAI Suche), ChatGPT-User (ChatGPT Browser-Modus), ClaudeBot, Claude-SearchBot, Claude-User (alle Anthropic), anthropic-ai (Legacy-UA), PerplexityBot, Perplexity-User, Google-Extended (Gemini Training), Google-Agent (Project Mariner), DeepSeekBot, Meta-ExternalAgent, xAI-Web-Crawler (Grok), MistralAI-User, Applebot-Extended (Apple Intelligence), cohere-ai, CCBot (Common Crawl — Basis für viele Open-Source-LLMs), Bytespider (ByteDance/TikTok).

📱 Social & Sharing (6): FacebookBot, facebookexternalhit, Pinterest, LinkedInBot, Twitterbot, Slackbot.

🔎 Andere (2): Diffbot (Web-Data-Extraction), Amazonbot.

Die Bot-Liste deckt damit die drei strategisch relevanten Gruppen ab: klassisches Search (Google, Bing), AI-Training & AI-Search (OpenAI, Anthropic, Perplexity, Google, Apple, Meta, xAI, Mistral, DeepSeek), und Social-Preview-Bots (für Link-Vorschauen in Messaging-Apps). Wer hier drin ist, definiert, wo dein Content 2026 sichtbar wird.

Was ich selbst daraus mitnehme

Ich mache SEO seit 15 Jahren und GEO seit zwei Jahren — und ich war überrascht, wie wenig durchdacht viele dieser robots.txt-Files sind. Die ARD hat es konsequent durchgezogen. ZDF hat offensichtlich eine andere strategische Entscheidung getroffen. Aber bei vielen Medienhäusern wirkt es so, als sei die AI-Blocklist ein schneller Copy-Paste aus 2023 gewesen, der seitdem nicht mehr angefasst wurde.

Das Gleiche gilt für die Kehrseite: Wer 2026 AI-Blocks setzt, müsste DeepSeek, Mistral, xAI, Google-Agent, MetaExternalAgent und ein Dutzend mehr auf der Liste haben. Hat fast niemand.

Die nächste Runde dieses Rennens ist längst losgegangen.

FAQ

Welche AI-Crawler werden am häufigsten blockiert?+
GPTBot, ClaudeBot und anthropic-ai werden am häufigsten blockiert — jeweils von 52% der 50 untersuchten DACH-Medien. Dicht gefolgt von CCBot (50%), cohere-ai (48%) sowie Applebot-Extended und Bytespider (je 46%). Googlebot wird dagegen von keiner einzigen Site blockiert. Die Asymmetrie ist systematisch, nicht zufällig.
Warum blockiert fast niemand Googlebot, aber die Hälfte blockt GPTBot?+
Googlebot zu blocken heißt praktisch Unsichtbarkeit in der klassischen Suche — das Risiko für Traffic und Umsatz ist zu groß. GPTBot zu blocken kostet Medien (noch) fast nichts: ChatGPT liefert bisher wenig Referral-Traffic und Publisher wollen AI-Training entweder lizenzieren oder verhindern. Die Entscheidung ist meist vor zwei Jahren gefallen und seitdem nicht mehr geprüft worden.
Welche Rolle spielt die robots.txt bei Generative Engine Optimization (GEO)?+
Die robots.txt entscheidet, ob AI-Systeme deine Inhalte überhaupt sehen dürfen. Blockst du GPTBot, ClaudeBot und CCBot, fehlst du in ChatGPT-Antworten, in Claude-Zitaten und in jedem LLM, das auf Common Crawl basiert. Für GEO ist die robots.txt der erste Hebel — noch vor Schema-Markup, llms.txt oder Content-Struktur.
Welche AI-Crawler werden oft übersehen?+
DeepSeekBot (nur 8% der DACH-Medien blocken ihn), MistralAI-User (24%), xAI-Web-Crawler (0%) und Google-Agent (0%). Die meisten Blocklisten wurden 2023 angelegt — damals gab es diese Bots noch nicht. Das chinesische DeepSeek-Modell liest 92% der DACH-Medien ungehindert, Mistral immerhin 76%.
Wie kann ich meine eigene Domain auf AI-Crawler-Zugang prüfen?+
Mit dem Lumina Crawler Access Checker: Einfach URL eingeben, das Tool prüft live 36 Bots parallel — klassische Suchmaschinen, AI-Trainer, Social-Media-Bots und Agenten. Du siehst pro Bot, ob er allowed, rules, partial oder blocked ist, und kannst die zugrundeliegenden robots.txt-Regeln direkt einsehen.

Prüfe deinen eigenen AI-Crawler-Zugang

Der gleiche Test wie in dieser Studie — für deine Domain. Kostenlos, keine Anmeldung, 36 Bots in einem Schritt.

Crawler Access Checker öffnen →