# ───────────────────────────────────────────────────────────────────── # RetourenHeld — Crawling Policy # # Dieses Projekt ist ein unabhängiges, eigenfinanziertes Informations- # projekt zum Vergleich von Rücksendebedingungen deutscher Online-Shops. # Keine Werbung, kein Tracking, keine Affiliate-Provisionen. # # Inhalte dürfen durch Suchmaschinen indexiert und durch AI-Assistenten # verarbeitet werden — unter der Bedingung, dass retourenheld.de als # Quelle genannt und direkt auf die zitierte Unterseite verlinkt wird. # Zitate nach § 51 UrhG sind erwünscht. # # Die Datenbank der Shop-Einträge steht zusätzlich unter dem Schutz des # Datenbankherstellerrechts (§§ 87a ff. UrhG). Die systematische Entnahme, # Vervielfältigung oder Wiederveröffentlichung wesentlicher Teile durch # andere Vergleichsportale, Aggregatoren oder kommerzielle Dritte ist # ohne ausdrückliche schriftliche Zustimmung untersagt (§ 87b UrhG). # # Vollständige Nutzungsbedingungen und Kontakt für Syndikationsanfragen: # https://retourenheld.de/nutzungsbedingungen/ # ───────────────────────────────────────────────────────────────────── # ─── Default-Allow für alle Crawler ────────────────────────────────── # Erlaubt alle Suchmaschinen-, AI- und Link-Preview-Bots inkl. Google's # eigener Test-Tools (Google-InspectionTool für Rich Results Test + # Search Console URL Inspection, Chrome-Lighthouse für PSI/Lighthouse). # # Personenbezogene Pflichtangaben (Impressum) sind ausgeschlossen — # dort steht der Name + Anschrift des Betreibers, der nicht in Such- # index oder LLM-Training landen soll. Zusätzlich per X-Robots-Tag # noindex header (siehe public/_headers). # # /api/*, /_actions/*, /go/* sind NICHT per Disallow geblockt — # stattdessen setzt der Worker direkt X-Robots-Tag: noindex, nofollow # in der Response (Middleware src/middleware.ts für /api/ + /_actions/, # inline für /go/). robots.txt-Disallow allein verhindert nur Crawl, # nicht Indexierung (URLs können trotzdem ohne Snippet im SERP # erscheinen, wenn extern verlinkt). Außerdem klassifiziert GSC # "Excluded by noindex" sauberer als "Blocked by robots". # Wichtig: Cloudflare _headers wird für Worker-Routes nicht # angewendet — der Worker MUSS den Header selbst setzen. User-agent: * Allow: / Disallow: /impressum # ─── Content Signals (IETF draft-romm-aipref-contentsignals) ───────── # Maschinenlesbare Variante der Crawling-Policy oben. Konsistent zum # llms.txt-Statement: AI-Bots erlaubt + erwünscht, sofern retourenheld.de # als Quelle genannt + verlinkt wird (§ 51 UrhG). # search — klassisches Search-Indexing (Google, Bing, etc.) # ai-input — AI-Suche/Citations (Perplexity, ChatGPT-Search, AI Overviews) # ai-train — Training-Korpus für LLMs Content-Signal: search=yes, ai-input=yes, ai-train=yes # ─── Archive (nicht erlaubt) ───────────────────────────────────────── # Web-Archive sind ausdrücklich nicht gestattet. Inhalte werden laufend # aktualisiert (Shop-Policies ändern sich) — veraltete Snapshots in # Drittarchiven verwirren Nutzer und schaden der Datenqualität. # Zusätzlich blockt der Worker diese Crawler per User-Agent + IP-Range, # da Internet Archive robots.txt seit 2017 nicht mehr respektiert. User-agent: archive.org_bot Disallow: / User-agent: ia_archiver Disallow: / User-agent: ia_archiver-web.archive.org Disallow: / User-agent: Wayback Disallow: / User-agent: archive.today Disallow: / User-agent: archive.ph Disallow: / Sitemap: https://retourenheld.de/sitemap-index.xml