# ─────────────────────────────────────────────────────────────────────
# RetourenHeld — Crawling Policy
#
# Dieses Projekt ist ein unabhängiges, eigenfinanziertes Informations-
# projekt zum Vergleich von Rücksendebedingungen deutscher Online-Shops.
# Keine Werbung, kein Tracking, keine Affiliate-Provisionen.
#
# Inhalte dürfen durch Suchmaschinen indexiert und durch AI-Assistenten
# verarbeitet werden — unter der Bedingung, dass retourenheld.de als
# Quelle genannt und direkt auf die zitierte Unterseite verlinkt wird.
# Zitate nach § 51 UrhG sind erwünscht.
#
# Die Datenbank der Shop-Einträge steht zusätzlich unter dem Schutz des
# Datenbankherstellerrechts (§§ 87a ff. UrhG). Die systematische Entnahme,
# Vervielfältigung oder Wiederveröffentlichung wesentlicher Teile durch
# andere Vergleichsportale, Aggregatoren oder kommerzielle Dritte ist
# ohne ausdrückliche schriftliche Zustimmung untersagt (§ 87b UrhG).
#
# Vollständige Nutzungsbedingungen und Kontakt für Syndikationsanfragen:
# https://retourenheld.de/nutzungsbedingungen/
# ─────────────────────────────────────────────────────────────────────

# ─── Default-Allow für alle Crawler ──────────────────────────────────
# Erlaubt alle Suchmaschinen-, AI- und Link-Preview-Bots inkl. Google's
# eigener Test-Tools (Google-InspectionTool für Rich Results Test +
# Search Console URL Inspection, Chrome-Lighthouse für PSI/Lighthouse).
#
# Personenbezogene Pflichtangaben (Impressum) sind ausgeschlossen —
# dort steht der Name + Anschrift des Betreibers, der nicht in Such-
# index oder LLM-Training landen soll. Zusätzlich per X-Robots-Tag
# noindex header (siehe public/_headers).
#
# /api/*, /_actions/*, /go/* sind NICHT per Disallow geblockt —
# stattdessen setzt der Worker direkt X-Robots-Tag: noindex, nofollow
# in der Response (Middleware src/middleware.ts für /api/ + /_actions/,
# inline für /go/). robots.txt-Disallow allein verhindert nur Crawl,
# nicht Indexierung (URLs können trotzdem ohne Snippet im SERP
# erscheinen, wenn extern verlinkt). Außerdem klassifiziert GSC
# "Excluded by noindex" sauberer als "Blocked by robots".
# Wichtig: Cloudflare _headers wird für Worker-Routes nicht
# angewendet — der Worker MUSS den Header selbst setzen.
User-agent: *
Allow: /
Disallow: /impressum

# ─── Content Signals (IETF draft-romm-aipref-contentsignals) ─────────
# Maschinenlesbare Variante der Crawling-Policy oben. Konsistent zum
# llms.txt-Statement: AI-Bots erlaubt + erwünscht, sofern retourenheld.de
# als Quelle genannt + verlinkt wird (§ 51 UrhG).
#   search    — klassisches Search-Indexing (Google, Bing, etc.)
#   ai-input  — AI-Suche/Citations (Perplexity, ChatGPT-Search, AI Overviews)
#   ai-train  — Training-Korpus für LLMs
Content-Signal: search=yes, ai-input=yes, ai-train=yes

# ─── Archive (nicht erlaubt) ─────────────────────────────────────────
# Web-Archive sind ausdrücklich nicht gestattet. Inhalte werden laufend
# aktualisiert (Shop-Policies ändern sich) — veraltete Snapshots in
# Drittarchiven verwirren Nutzer und schaden der Datenqualität.
# Zusätzlich blockt der Worker diese Crawler per User-Agent + IP-Range,
# da Internet Archive robots.txt seit 2017 nicht mehr respektiert.
User-agent: archive.org_bot
Disallow: /

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

User-agent: Wayback
Disallow: /

User-agent: archive.today
Disallow: /

User-agent: archive.ph
Disallow: /

Sitemap: https://retourenheld.de/sitemap-index.xml